Dữ Liệu Lớn - Big Data - Chương 6: Giá Trị
× Để đọc chương tiếp theo ấn vào nút (DS Chương) để chọn chương cần đọc hoặc ấn vào Chương Tiếp / Tiếp ở trên và phía dưới cùng trang.    

trước tiếp
166


Dữ Liệu Lớn - Big Data


Chương 6: Giá Trị


VÀO CUỐI NHỮNG NĂM 1990, Web đã nhanh chóng trở thành một nơi chốn phóng túng, khó chịu và kém thân thiện. “Thư rác” tràn ngập các hộp thư điện tử và các diễn đàn trực tuyến. Năm 2000, Luis von Ahn, một thanh niên 22 tuổi, vừa tốt nghiệp đại học, đã có một ý tưởng để giải quyết vấn đề: bắt buộc những ai đăng ký phải chứng minh họ là con người. Do vậy, anh tìm cái gì đó rất dễ dàng để con người làm nhưng lại rất khó khăn cho máy.

Anh đã đưa ra ý tưởng hiển thị những chữ nguệch ngoạc, khó đọc trong quá trình đăng ký. Con người sẽ có thể đọc được chúng và gõ vào chính xác trong một vài giây, nhưng máy móc sẽ bối rối. Yahoo áp dụng phương pháp của anh và giảm được mối họa của thư rác ngay lập tức. Von Ahn gọi sáng tạo của mình là Captcha (viết tắt của Completely Automated Public Turing Test to Tell Computers and Humans Apart – Phép kiểm tra Turing hoàn toàn tự động để phân biệt máy tính với con người). Năm năm sau, hàng triệu Captcha đã được gõ vào mỗi ngày.

Captcha đã mang lại cho von Ahn sự nổi tiếng và công việc giảng dạy về khoa học máy tính tại Đại học Carnegie Mellon sau khi anh có bằng tiến sỹ. Nó cũng đóng vai trò giúp anh, khi mới 27 tuổi, nhận được một trong những giải thưởng uy tín cho “thiên tài” của Quỹ MacArthur với nửa triệu đôla. Tuy nhiên khi nhận ra mình chịu trách nhiệm cho việc hàng triệu người lãng phí rất nhiều thời gian mỗi ngày để gõ vào những chữ nguệch ngoạc gây phiền nhiễu – nhưng sau đó chẳng được dùng để làm gì – anh thấy như vậy chẳng thông minh cho lắm.

Tìm cách để đưa toàn bộ sức mạnh tính toán của con người vào sử dụng hiệu quả hơn, von Ahn đã đưa ra một phiên bản kế nhiệm thích hợp có tên ReCaptcha. Thay vì gõ vào các chữ cái ngẫu nhiên, người ta gõ vào hai từ, thuộc trong số các dự án quét văn bản mà chương trình nhận dạng ký tự quang học của máy tính không thể hiểu được. Một từ được dùng để xác nhận điều những người dùng khác đã gõ vào và do đó là tín hiệu cho biết đó là một con người, còn từ kia là một từ mới cần làm rõ nghĩa. Để đảm bảo tính chính xác, hệ thống hiển thị cùng một từ không rõ nghĩa cho khoảng năm người khác nhau để họ gõ vào một cách chính xác trước khi hệ thống tin tưởng đó là đúng. Dữ liệu này có một ứng dụng chính – để chứng minh người dùng là con người – nhưng nó cũng có một mục đích thứ hai: để giải mã những chữ không rõ ràng trong các văn bản số hóa.

Giá trị mang lại là vô cùng lớn, khi ta nghĩ đến chi phí để thuê người thay thế. Mất khoảng 10 giây mỗi lần sử dụng, 200 triệu ReCaptcha mỗi ngày – mức hiện tại – sẽ nhân với nửa triệu giờ một ngày. Mức lương tối thiểu tại Hoa Kỳ là $7,25 một giờ vào năm 2012. Nếu dùng sức người để làm rõ nghĩa những từ mà máy tính không hiểu được, sẽ tốn 4 triệu đôla một ngày, hay hơn 1 tỷ đôla mỗi năm. Thay vào đó, von Ahn thiết kế một hệ thống để làm điều đó, và thật ra là miễn phí. Điều này có giá trị tới mức Google đã mua lại công nghệ từ von Ahn vào năm 2009, và sau đó cung cấp miễn phí cho bất kỳ trang web nào sử dụng. Ngày nay nó được đưa vào khoảng 200.000 trang web, trong đó có Facebook, Twitter, và Craigslist.

Phim minh họa ReCaptcha

Câu chuyện của ReCaptcha nhấn mạnh tầm quan trọng của việc tái sử dụng dữ liệu. Với dữ liệu lớn, giá trị của dữ liệu đang thay đổi. Giá trị của dữ liệu chuyển từ ứng dụng cơ bản sang các ứng dụng tiềm năng của nó. Điều này có những hệ quả sâu sắc. Nó ảnh hưởng đến cách các doanh nghiệp đánh giá dữ liệu họ nắm giữ và cho phép những ai truy cập. Nó cho phép, và có thể buộc các công ty phải thay đổi các mô hình kinh doanh của họ. Nó làm thay đổi cách thức các tổ chức suy nghĩ về dữ liệu và việc sử dụng nó.

Thông tin luôn luôn cần thiết cho các giao dịch thị trường. Ví dụ dữ liệu cho phép phát hiện giá cả, và đó là một tín hiệu để biết phải sản xuất bao nhiêu. Chúng ta hiểu rõ khía cạnh này của dữ liệu. Có một số loại thông tin từ lâu đã được giao dịch trên thị trường, ví dụ nội dung có trong các cuốn sách, bài viết, nhạc, và phim, hoặc thông tin tài chính như giá cổ phiếu. Những thứ này đã được kết hợp với dữ liệu cá nhân trong vài thập kỷ qua. Những nhà môi giới chuyên ngành dữ liệu ở Hoa Kỳ như Acxiom, Experian và Equifax tính phí khá hào phóng đối với các hồ sơ đầy đủ của thông tin cá nhân về hàng trăm hàng triệu khách hàng. Nhờ Facebook, Twitter, Linkedln, và các nền tảng truyền thông xã hội khác, các kết nối cá nhân, ý kiến, sở thích, và mô hình cuộc sống hàng ngày của chúng ta đã tham gia vào vốn chung của thông tin cá nhân về chúng ta.

Một cách ngắn gọn, mặc dù dữ liệu từ lâu đã có giá trị, nó chỉ được xem như phụ trợ cho các hoạt động cốt lõi của một doanh nghiệp, hoặc bị giới hạn trong các phạm trù tương đối hẹp như sở hữu trí tuệ hoặc thông tin cá nhân. Ngược lại, trong thời đại của dữ liệu lớn, tất cả dữ liệu sẽ được xem là có giá trị, cả về nội dung và chính bản thân dữ liệu đó.

Khi nói “tất cả dữ liệu”, chúng ta ám chỉ ngay cả thứ thô nhất, dường như hầu hết các bit trần trụi của thông tin. Hãy nghĩ tới các số đo từ một cảm biến nhiệt trên một máy ở công xưởng. Hoặc dòng thời gian thực của các tọa độ GPS, các số đo từ đồng hồ gia tốc, và các mức nhiên liệu từ một chiếc xe giao hàng – hay một đội xe gồm 60.000 chiếc. Hoặc hãy nghĩ tới hàng tỷ truy vấn tìm kiếm cũ, hoặc giá của từng ghế trên mỗi chuyến bay thương mại ở Hoa Kỳ trong nhiều năm qua.

Cho đến gần đây, không có cách dễ dàng để thu thập, lưu trữ, và phân tích những dữ liệu như vậy. Điều này hạn chế nghiêm trọng các cơ hội để tận dung giá trị tiềm năng của nó. Trong ví dụ nổi tiếng của Adam Smith về nhà sản xuất ghim, ông đã thảo luận về phân công lao động trong thế kỷ XVIII, phải đòi hỏi những người quan sát theo dõi tất cả các công nhân, không chỉ cho một nghiên cứu cụ thể, mà cho mọi thời điểm của mỗi ngày, lấy các số đo chi tiết, và đếm sản phẩm trên giấy dày với bút lông. Khi các nhà kinh tế cổ điển xem xét các yếu tố của sản xuất (đất đai, lao động và vốn), ý tưởng về khai thác dữ liệu hầu như vắng bóng. Mặc dù chi phí để thu thập và sử dụng dữ liệu đã giảm trong hơn hai thế kỷ qua, cho đến khá gần đây nó vẫn còn tương đối tốn kém.

Điều làm cho thời đại của chúng ta khác biệt là rất nhiều hạn chế cố hữu về thu thập dữ liệu không còn nữa. Công nghệ đã đạt tới điểm mà những lượng lớn thông tin thường xuyên có thể được ghi nhận với giá rẻ. Dữ liệu có thể thường xuyên được thu thập một cách thụ động mà không cần nhiều nỗ lực hoặc thậm chí những đối tượng được ghi lại cũng không hề hay biết. Và bởi chi phí lưu trữ đã giảm rất nhiều, việc giữ lại dữ liệu thay vì loại bỏ nó trở nên dễ dàng hơn. Tất cả những thứ đó làm cho dữ liệu dễ tiếp cận và với chi phí thấp chưa từng có. Trong nửa thế kỷ qua, cứ hai năm thì chi phí lưu trữ kỹ thuật số lại giảm khoảng một nửa, trong khi mật độ lưu trữ đã tăng 50 triệu lần. Theo quan điểm của các công ty thông tin như Farecast hoặc Google – nơi các chất liệu thô đi vào ở một đầu của dây chuyền kỹ thuật số và thông tin đã được xử lý đi ra ở đầu kia – dữ liệu bắt đầu trông giống như một nguồn nguyên liệu mới của sản xuất.

Giá trị tức thời của hầu hết dữ liệu là hiển nhiên đối với những người thu thập. Thật ra, có lẽ họ tập hợp nó với một mục đích cụ thể. Các cửa hàng thu thập dữ liệu bán hàng để làm kế toán tài chính cho đúng. Các nhà máy theo dõi sản phẩm để đảm bảo chúng phù hợp với các tiêu chuẩn chất lượng. Các trang web ghi lại từng cú nhấp chuột của người dùng – đôi khi cả nơi con trỏ di chuyển – để phân tích và tối ưu hóa nội dung các trang web trình bày cho người ghé thăm. Những ứng dụng chính này của dữ liệu biện minh cho việc thu thập và xử lý nó. Khi lưu lại không chỉ những cuốn sách khách hàng mua mà cả các trang web họ đơn thuần nhìn vào, Amazon biết rằng họ sẽ sử dụng dữ liệu này để đua ra những khuyên nghị cá nhân hóa. Tương tự như vậy, Facebook theo dõi việc “cập nhật trạng thái” và nhấn nút “like” của người dùng nhằm xác định những quảng cáo phù hợp nhất để hiển thị trên trang web của mình và kiếm tiền từ đó.

Không giống như những thứ vật chất – ví dụ thực phẩm chúng ta ăn, một cây nến cháy – giá trị của dữ liệu không giảm đi khi nó được sử dụng. Nó có thể được xử lý lại và xử lý lại nữa. Thông tin là thứ các nhà kinh tế gọi là hàng hóa “không-cạnh-tranh”: việc sử dụng của một người không cản trở việc sử dụng của người khác. Và thông tin không hao mòn khi sử dụng như các loại vật chất khác. Do đó Amazon có thể sử dụng dữ liệu từ các giao dịch quá khứ khi đưa ra những khuyến nghị cho khách hàng của mình – và sử dụng nó nhiều lần, không chỉ cho khách hàng đã tạo ra dữ liệu mà còn cho cả nhiều người khác nữa. Dữ liệu có thể được sử dụng nhiều lần cho cùng một mục đích. Quan trọng hơn, nó còn có thể được khai thác cho nhiều mục đích khác nhau. Điểm này rất quan trọng khi chúng ta cố gắng hiểu thông tin sẽ có giá trị bao nhiêu đối với chúng ta trong thời đại của dữ liệu lớn. Chúng ta thấy một số tiềm năng này đã trở thành hiện thực, như khi Walmart tìm kiếm cơ sở dữ liệu các hóa đơn bán hàng cũ và phát hiện ra mối tương quan hấp dẫn giữa các cơn bão và việc bán Pop-Tarts.

Tất cả những điều này cho thấy giá trị đầy đủ của dữ liệu là lớn hơn nhiều so với giá trị được trích xuất từ nó cho mục đích sử dụng ban đầu. Nó cũng có nghĩa là các công ty có thể khai thác dữ liệu một cách hiệu quả ngay cả khi việc sử dụng lần đầu hoặc mỗi lần tiếp theo chỉ mang lại một lượng nhỏ của giá trị, miễn là họ sử dụng dữ liệu nhiều lần.

“Giá trị tùy chọn” của dữ liệu

Để hiểu được ý nghĩa của việc tái sử dụng dữ liệu đối với giá trị cuối cùng của nó, hãy lấy ví dụ các xe hơi chạy điện. Khả năng để chúng thành công và trở thành một phương thức vận tải phụ thuộc vào một vô số các yếu tố hậu cần, mà tất cả đều liên quan tới hoạt động của bình điện. Người lái phải nạp được bình điện cho xe của họ một cách nhanh chóng và thuận tiện, và các công ty năng lượng cần đảm bảo rằng năng lượng dùng bởi những chiếc xe này không làm mất ổn định lưới điện. Ngày nay, chúng ta có mạng phân phối khá hiệu quả các trạm xăng, nhưng chúng ta chưa hiểu được nhu cầu nạp điện và vị trí của các trạm cho xe hơi điện là như thế nào.

Điều đáng lưu tâm là vấn đề này không phải thiên về cơ sở hạ tầng mà thiên về thông tin. Và dữ liệu lớn là một phần quan trọng của giải pháp. Trong một thử nghiệm vào năm 2012, IBM đã làm việc với Công ty điện lực và khí Thái Bình Dương ở California và nhà sản xuất xe hơi Honda để thu thập một lượng lớn thông tin nhằm trả lời các câu hỏi cơ bản về thời gian và địa điểm xe điện sẽ nạp điện, và điều này có nghĩa gì đối với việc cung cấp năng lượng. IBM đã phát triển một mô hình dự đoán được xây dựng dựa trên rất nhiều yếu tố: lượng điện trong bình, vị trí của xe, thời gian trong ngày, và các chỗ đỗ có sẵn tại các trạm nạp điện gần đó. Nó kết hợp dữ liệu với mức tiêu thụ hiện tại từ lưới điện cũng như mô hình sử dụng năng lượng trong quá khứ. Việc phân tích các dòng lớn dữ liệu theo thời gian hiện tại và quá khứ từ nhiều nguồn cho phép IBM xác định những thời gian và địa điểm tối ưu cho người lái nạp bình điện xe của họ. Nó cũng tiết lộ nơi tốt nhất để xây dựng các trạm nạp. Cuối cùng, hệ thống sẽ phải tính đến chênh lệch giá tại các trạm nạp gần đó. Ngay cả dự báo thời tiết cũng được xem là một yếu tố: chẳng hạn trường hợp trời nắng và một trạm năng lượng mặt trời gần đó đầy ắp điện, nhưng dự báo thời tiết cho biết sắp có một tuần mưa nên các tấm pin mặt trời sẽ không vận hành.

Hệ thống lấy thông tin được tạo ra cho một mục đích và tái sử dụng nó cho một mục đích khác – nói cách khác, dữ liệu chuyển từ ứng dụng chính sang ứng dụng phụ. Điều này làm tăng giá trị của nó theo thời gian. Chỉ báo lượng điện của xe sẽ cho người lái biết khi nào thì cần nạp điện. Dữ liệu về sử dụng lưới điện được công ty dịch vụ tiện ích thu thập để quản lý sự ổn định của lưới điện. Đó là những ứng dụng chính. Cả hai bộ dữ liệu đều có những ứng dụng phụ – và giá trị mới – khi chúng được dùng cho một mục đích hoàn toàn khác: xác định nên nạp điện khi nào và ở đâu, và nơi để xây dựng các trạm dịch vụ xe hơi điện. Thêm nữa, các thông tin phụ trợ được kết hợp, chẳng hạn như vị trí của xe và việc tiêu thụ lưới điện trong quá khứ. Và IBM xử lý dữ liệu không chỉ một lần mà còn xử lý lại và lại nữa, vì nó liên tục cập nhật hồ sơ tiêu thụ năng lượng của xe điện và ảnh hưởng của nó lên lưới điện.

Giá trị thực sự của dữ liệu giống như một tảng băng trôi nổi trên đại dương. Chỉ một phần nhỏ của nó là có thể được nhìn thấy ngay từ cái nhìn đầu tiên, trong khi phần lớn của nó bị ẩn bên dưới bề mặt. Các công ty sáng tạo hiểu được điều này có thể tận dụng được những giá trị và gặt hái những lợi ích tiềm năng rất lớn. Tóm lại, giá trị của dữ liệu phải được xem xét trên tất cả các khía cạnh nó có thể được sử dụng trong tương lai, chứ không chỉ đơn giản trong hiện tại. Chúng ta từng thấy điều này trong nhiều ví dụ đã được nhấn mạnh. Farecast khai thác dữ liệu từ vé máy bay bán trước đó để dự đoán giá vé tương lai. Google tái sử dụng các từ khóa tìm kiếm để khám phá sự lây lan của bệnh cúm. Maury đã sử dụng lại các nhật ký đi biển cũ để phát hiện những dòng hải lưu.

Tuy nhiên, tầm quan trọng của việc tái sử dụng dữ liệu vẫn chưa được đánh giá đầy đủ trong kinh doanh và xã hội. Rất ít nhà điều hành tại Con Edison ở New York có thể tưởng tượng được rằng thông tin về các cáp cũ hàng thế kỷ và các hồ sơ bảo trì có thể được sử dụng để ngăn ngừa tai nạn trong tương lai. Phải cần một thế hệ mới các nhà thống kê, và một làn sóng mới các phương pháp và công cụ để mở được khóa giá trị của dữ liệu. Ngay cả nhiều công ty Internet và công nghệ đến gần đây vẫn không hề biết việc tái sử dụng dữ liệu có thể có giá trị như thế nào.

Việc hình dung dữ liệu theo cách các nhà vật lý xem xét năng lượng cũng là một cách hay. Họ đề cập đến năng lượng “lưu trữ” hoặc “tiềm ẩn” tồn tại bên trong một đối tượng nhưng nằm im. Hãy hình dung một lò xo bị nén hoặc một quả bóng dừng tại đỉnh của một ngọn đồi. Năng lượng trong các đối tượng này vẫn còn âm ỉ – tiềm ẩn – cho đến khi nó được giải phóng, chẳng hạn, khi lò xo được bung ra hoặc quả bóng được đẩy nhẹ để nó lăn xuống dốc. Lúc này năng lượng của các đối tượng đã trở thành “động” vì chúng đang chuyển động và tác dụng lên các đối tượng trong thế giới. Sau ứng dụng chính của nó, giá trị của dữ liệu vẫn còn tồn tại, nhưng nằm im, giống như lò xo hoặc quả bóng, cho đến khi dữ liệu được dùng cho một ứng dụng phụ và sức mạnh của nó lại được giải phóng. Trong thời đại dữ-liệu-lớn, cuối cùng chúng ta đã có được cách suy nghĩ, sự khéo léo, và các công cụ để khai thác giá trị tiềm ẩn của dữ liệu.

Cuối cùng, giá trị của dữ liệu là những gì người ta có thể đạt được từ tất cả các cách sử dụng nó. Những ứng dụng tiềm năng dường như vô hạn này cũng giống như những lựa chọn – không theo ý nghĩa của các công cụ tài chính, nhưng theo ý nghĩa thiết thực của sự lựa chọn. Giá trị của dữ liệu là tổng của các lựa chọn này: “giá trị lựa chọn” của dữ liệu, có thể nói như vậy. Trong quá khứ, một khi ứng dụng chính của dữ liệu đã đạt được, chúng ta thường nghĩ rằng dữ liệu đã hoàn thành mục đích của mình, và chúng ta sẵn sàng xóa nó, để cho nó mất đi. Xét cho cùng, dường như giá trị quan trọng đã được tận dụng. Trong thời đại dữ-liệu-lớn, dữ liệu giống như một mỏ kim cương huyền diệu vẫn tiếp tục sản xuất thêm lâu nữa sau khi giá trị chính của nó đã được khai thác. Có ba cách hiệu nghiệm để giải phóng giá trị tùy chọn của dữ liệu: tái sử dụng cơ bản, hợp nhất các tập dữ liệu, và tìm kiếm các “ích lợi kép”.

TÁI SỬ DỤNG DỮ LIỆU

Một ví dụ điển hình của việc tái sử dụng sáng tạo dữ liệu là các từ khóa tìm kiếm. Thoạt đầu, thông tin có vẻ vô giá trị sau khi mục đích chính của nó đã được hoàn thành. Sự tương tác tạm thời giữa người sử dụng và công cụ tìm kiếm đưa ra một danh sách các trang web và quảng cáo phục vụ một chức năng đặc biệt duy nhất cho thời điểm đó. Nhưng những truy vấn cũ có thể có giá trị bất thường. Hitwise, một công ty đo lường lưu lượng web thuộc sở hữu của nhà môi giới dữ liệu Experian, cho phép khách hàng khai thác lưu lượng tìm kiếm để tìm hiểu sở thích của người tiêu dùng. Các nhà tiếp thị có thể sử dụng Hitwise để hình dung liệu màu hồng sẽ lên ngôi trong mùa xuân này hay màu đen sẽ trở lại. Google đưa ra một phiên bản của bộ phân tích từ khóa tìm kiếm để mọi người kiểm tra. Nó đã khải động một dịch vụ dự báo kinh doanh với ngân hàng lớn thứ hai của Tây Ban Nha, BBVA, để xem xét ngành du lịch cũng như bán các chỉ số kinh tế thời gian thực dựa trên dữ liệu tìm kiếm. Ngân hàng Anh sử dụng các truy vấn tìm kiếm liên quan đến bất động sản để hình dung tốt hơn về việc giá nhà đất tăng hay giảm.

Các công ty thất bại trong việc đánh giá cao tầm quan trọng của tái sử dụng dữ liệu đã học được bài học của họ một cách khó khăn. Ví dụ, trong những ngày đầu của Amazon, họ đã ký một thỏa thuận với AOL để dùng công nghệ thương mại điện tử của AOL. Đối với hầu hết mọi người, nó trông giống như một thỏa thuận gia công bình thường. Nhưng những gì thực sự khiến Amazon quan tâm, như Andreas Weigend, cựu giám đốc khoa học của Amazon, giải thích là việc có được dữ liệu về những gì người dùng AOL đã xem và mua, điều sẽ cải thiện hiệu quả cho các khuyến nghị của Amazon. AOL tội nghiệp không hề nhận ra điều này. Họ chỉ nhìn thấy giá trị của dữ liệu trong mục đích sử dụng chính – bán hàng. Amazon thông minh biết họ có thể gặt hái lợi ích bằng cách đưa dữ liệu này vào một ứng dụng phụ.

Hoặc hãy xét trường hợp Google đã nhảy vào lĩnh vực nhận dạng giọng nói với GOOG-411 cho các danh sách tìm kiếm địa phương, thực hiện từ 2007 đến 2010. Người khổng lồ về tìm kiếm không có công nghệ nhận dạng giọng nói riêng của mình nên phải mua bản quyền. Google đạt được thỏa thuận với Nuance, công ty hàng đầu trong lĩnh vực này đã vui mừng gặp được vị khách cao giá. Nhưng Nuance lúc đó là một gã ngốc về dữ-liệu-lớn: hợp đồng không chỉ định ai là người sẽ giữ các bản ghi dịch tiếng nói, và Google đã giữ chúng cho riêng mình. Việc phân tích dữ liệu cho phép người ta đánh giá xác suất để một đoạn số hóa nhất định của tiếng nói tương ứng với một từ cụ thể. Đây là điều quan trọng để cải thiện công nghệ nhận dạng giọng nói hoặc tạo ra một dịch vụ mới mẻ hoàn toàn. Thời điểm đó, Nuance cho rằng họ kinh doanh bản quyền phần mềm, chứ không phải phân tích dữ liệu. Ngay sau khi thấy lỗi của mình, họ mới bắt đầu có những thỏa thuận đáng chú ý với các nhà khai thác di động và các nhà sản xuất thiết bị cầm tay để sử dụng dịch vụ nhận dạng giọng nói của mình – để có thể thu thập được dữ liệu.

Giá trị trong việc tái sử dụng dữ liệu là tin tốt cho các tổ chức thu thập hoặc kiểm soát các bộ dữ liệu lớn nhưng hiện đang sử dụng chúng rất ít, chẳng hạn như những doanh nghiệp thường chủ yếu hoạt động ngoại tuyến (offline). Họ có thể ngồi trên những mỏ thông tin chưa được khai thác. Một số công ty có thể đã thu thập dữ liệu, sử dụng nó một lần (nếu có), và giữ nó ở đâu đó vi chi phí lưu trữ thấp – trong những “nấm mồ dữ liệu”, như các nhà khoa học dữ liệu gọi những nơi thông tin cũ cư trú.

Các công ty Internet và công nghệ đang tiên phong khai thác hàng núi dữ liệu, vì họ thu thập được rất nhiều thông tin chỉ bằng cách hoạt động trực tuyến và đi trước các công ty khác trong việc phân tích nó. Nhưng tất cả các công ty đều được hưởng lợi. Các chuyên gia tư vấn tại McKinsey & Company cho biết một công ty hậu cần (giấu tên) nhận thấy trong quá trình cung cấp hàng hóa, nó đã tích lũy hàng đống thông tin về vận chuyển hàng hóa trên toàn cầu. Thấy được cơ hội, nó thành lập một bộ phận đặc biệt để bán dữ liệu tổng hợp ở dạng các dự báo kinh doanh và kinh tế. Nói cách khác, nó tạo ra một phiên bản ngoại tuyến của Google trong việc truy-vấn-tìm-kiếm-quá-khứ. Hoặc SWIFT, hệ thống liên ngân hàng toàn cầu để chuyển tiền, đã phát hiện ra rằng các khoản thanh toán tương quan với các hoạt động kinh tế toàn cầu. Vì vậy, SWIFT cung cấp dự báo GDP dựa trên dữ liệu chuyển tiền đi qua mạng lưới của mình.

Một số doanh nghiệp, nhờ vào vị trí của họ trong chuỗi giá trị thông tin, có thể thu thập được những lượng lớn dữ liệu, mặc dù họ có ít nhu cầu ngay lập tức đối với dữ liệu hoặc không thành thạo trong việc sử dụng lại nó. Ví dụ các nhà khai thác điện thoại di động thu thập thông tin về địa điểm của các thuê bao để phân tuyến các cuộc gọi. Đối với những công ty này, dữ liệu như vậy chỉ có các mục đích kỹ thuật hạn hẹp. Nhưng nó có giá trị hơn khi được tái sử dụng bởi các công ty phân phối quảng cáo và chương trình khuyến mãi được cá nhân hóa dựa trên địa điểm. Đôi khi giá trị không đến từ các điểm dữ liệu riêng lẻ mà từ những gì chúng tiết lộ trong quá trình tổng hợp. Do đó các doanh nghiệp bán thông tin vị trí địa lý như AirSage và Sense Networks mà chúng ta đã thấy trong chương trước có thể bán thông tin về nơi mà người dân đang tụ tập vào một tối thứ Sáu hoặc nơi những chiếc xe đang phải bò chậm chạp trên đường. Những kiểu thông tin tổng hợp này có thể được sử dụng để xác định giá trị bất động sản hoặc giá bảng hiệu quảng cáo.

Ngay cả những thông tin tầm thường nhất cũng có thể có giá trị đặc biệt, nếu được áp dụng một cách đúng đắn. Hãy quay lại với các nhà khai thác điện thoại di động: họ lưu trữ về việc các điện thoại kết nối với các hạm cơ sở ở đâu và khi nào, với cường độ tín hiệu thế nào. Các nhà khai thác từ lâu đã sử dụng dữ liệu đó để tinh chỉnh hiệu suất mạng lưới của họ, quyết định nơi cần bổ sung hoặc nâng cấp cơ sở hạ tầng. Nhưng dữ liệu còn có nhiều ứng dụng tiềm năng khác nữa. Các nhà sản xuất thiết bị cầm tay có thể sử dụng nó để tìm hiểu những gì ảnh hưởng đến cường độ tín hiệu, ví dụ để nâng cao chất lượng tiếp nhận tín hiệu cho các thiết bị của họ. Các nhà khai thác điện thoại di động từ lâu đã không muốn kiếm tiền từ thông tin này vì sợ vi phạm các quy định bảo vệ quyền riêng tư. Nhưng họ bắt đầu mềm dẻo hơn trong lập trường khi dữ liệu được xem như một nguồn thu nhập tiềm năng. Năm 2012, công ty Telefonica thậm chí còn lập ra một công ty riêng biệt, gọi là Telefonica Digital Insights, để bán dữ liệu vị trí thuê bao ẩn danh cho các nhà bán lẻ và những đối tượng khác.

DỮ LIỆU TÁI TỔ HỢP

Đôi khi giá trị tiềm ẩn chỉ có thể được giải phóng bằng cách kết hợp một bộ dữ liệu với một bộ khác, thậm chí hoàn toàn khác.

Chúng ta có thể sáng tạo bằng cách trộn lẫn dữ liệu theo những cách mới. Một ví dụ để thấy cách này vận hành như thế nào là một nghiên cứu thông minh được công bố năm 2011 để xem liệu điện thoại di động có làm tăng nguy cơ ung thư. Với khoảng sáu tỷ điện thoại di động trên thế giới, gần như một máy cho mỗi người trên trái đất, câu hỏi này là rất quan trọng. Nhiều nghiên cứu đã cố tìm kiếm một liên kết, nhưng đều gặp trở ngại do có nhiều thiếu sót. Các cỡ mẫu là quá nhỏ, hoặc những khoảng thời gian họ đề cập là quá ngắn, hoặc họ đã dựa trên dữ liệu tự báo cáo mang đầy lỗi. Tuy nhiên, một nhóm các nhà nghiên cứu tại Hiệp hội Ung thư Đan Mạch đã phát minh ra một cách tiếp cận thú vị dựa trên dữ liệu đã thu thập được trước đó.

Dữ liệu về tất cả các thuê bao từ khi có điện thoại di động ở Đan Mạch được thu thập từ các nhà khai thác di động. Nghiên cứu đã khảo sát những người có điện thoại di động từ năm 1987 đến 1995, loại trừ các thuê bao của công ty và những người không có sẵn dữ liệu kinh tế xã hội. Tổng cộng có 358.403 người. Quốc gia này cũng duy trì một cơ sở dữ liệu toàn quốc của tất cả các bệnh nhân ung thư, trong đó có 10.729 người có khối u ở hệ thống thần kinh trung ương trong những năm từ 1990 đến 2007. Nghiên cứu cũng sử dụng một cơ sở dữ liệu toàn quốc với thông tin về cấp giáo dục cao nhất và thu nhập của mỗi người dân Đan Mạch. Sau khi kết hợp ba bộ dữ liệu, các nhà nghiên cứu xem xét liệu người sử dụng điện thoại di động có tỷ lệ ung thư cao hơn so với những người không sử dụng hay không. Và giữa các thuê bao, liệu những người đã sở hữu một điện thoại di động trong một thời gian dài hơn có nhiều khả năng bị ung thư hơn không?

Dù nghiên cứu này ở quy mô lớn, dữ liệu thu được không hề lộn xộn hoặc thiếu chính xác: các bộ dữ liệu đòi hỏi những tiêu chuẩn chất lượng khắt khe cho các mục đích y tế, thương mại hoặc nhân khẩu học. Thông tin được thu thập không theo những cách có thể tạo ra định kiến liên quan đến chủ đề của nghiên cứu. Thật ra, dữ liệu đã có từ nhiều năm trước, vì những lý do không hề liên quan tới nghiên cứu này. Điều quan trọng nhất là nghiên cứu không dựa trên một mẫu mà trên cơ sở gần với N = tất cả: hầu hết các ca bệnh ung thư, và gần như tất cả người dùng điện thoại di động, với số lượng 3,8 triệu người và số năm sở hữu điện thoại di động. Việc nó bao gồm gần như tất cả các trường hợp nghĩa là các nhà nghiên cứu có thể kiểm soát các tiểu quần thể, chẳng hạn như những người có mức thu nhập cao.

Cuối cùng, nhóm đã không phát hiện được bất kỳ sự gia tăng nguy cơ ung thu nào liên quan với việc sử dụng điện thoại di động. Vì lý do đó, các kết quả của nghiên cứu hầu nhu không gây được tiếng vang trên các phương tiện truyền thông khi chúng được công bố vào tháng 10 năm 2011 trên tạp chí y khoa của Anh BMJ. Nhưng nếu một mối liên hệ được phát hiện thì nghiên cứu này hẳn sẽ xuất hiện trên trang nhất của các tờ báo khắp thế giới, và phương pháp “dữ liệu tái tổ hợp” đã nổi tiếng.

Với dữ liệu lớn, tổng thể sẽ có giá trị cao hơn các bộ phận của nó, và khi chúng ta kết hợp các tổng thể của nhiều bộ dữ liệu lại với nhau, tổng thể đó cũng là trị giá hơn các thành phần riêng lẻ. Ngày nay người dùng Internet quen thuộc với những “ứng dụng hỗn hợp” cơ bản, kết hợp hai hoặc nhiều nguồn dữ liệu theo một cách mới lạ. Ví dụ trang web bất động sản Zillow đã chèn thông tin bất động sản và giá cả lên bản đồ của các khu phố tại Hoa Kỳ. Họ cũng xử lý hàng núi dữ liệu, chẳng hạn các giao dịch gần đây trong khu vực và chi tiết kỹ thuật của các bất động sản, để dự đoán giá trị của những ngôi nhà cụ thể trong một khu vực. Cách trình bày hình ảnh làm cho dữ liệu trở nên dễ tiếp cận hơn. Nhưng với dữ liệu lớn chúng ta còn có thể đi xa hơn nữa. Nghiên cứu về ung thư ở Đan Mạch đã cho chúng ta một gợi ý về những điều khả thi.

DỮ LIỆU MỞ RỘNG

Một cách khiến việc tái sử dụng dữ liệu dễ dàng hơn là thiết kế khả năng mở rộng cho nó ngay từ đầu, để nó phù hợp với nhiều mục đích sử dụng. Mặc dù điều này không phải luôn khả thi – bởi có thể rất lâu sau khi dữ liệu đã được thu thập người ta mới nhận ra những ứng dụng khác – vẫn có nhiều cách khuyên khích các ứng dụng khác nhau cho cùng một bộ dữ liệu. Ví dụ một số cửa hàng bán lẻ đặt các camera giám sát cửa hàng, không chỉ để phát hiện người lấy cắp đồ, mà quan trọng là để theo dõi dòng khách mua trong cửa hàng và nơi họ dừng lại nhìn ngắm. Các nhà bán lẻ có thể sử dụng nhóm thông tin này để thiết kế cửa hàng cũng như để đánh giá hiệu quả của các chiến dịch tiếp thị. Trước đó, camera chỉ phục vụ mục tiêu an ninh. Bây giờ chúng được xem là khoản đầu tư có thể làm tăng doanh thu.

Một trong những công ty giỏi nhất trong việc thu thập dữ liệu, đồng thời tính đến khả năng mở rộng, đương nhiên chính là Google. Những chiếc xe Street View vốn gây tranh cãi đã đi khắp nơi chụp ảnh nhà ở và đường giao thông, nhưng cũng ngấu nghiên dữ liệu GPS, kiểm tra thông tin bản đồ, thậm chí lấy các tên mạng wifi (và cả nội dung truyền tải trên các mạng wifi mở, có lẽ một cách bất hợp pháp). Chỉ một chuyến đi của Google Street View đã tích lũy được vô số dòng dữ liệu rời rạc ở mọi thời điểm. Khả năng mở rộng xuất hiện bởi vì Google dùng các dữ liệu không chỉ cho ứng dụng chính mà còn cho rất nhiều các ứng dụng phụ. Ví dụ dữ liệu GPS thu thập được đã cải thiện dịch vụ bản đồ của họ và là phần không thể thiếu cho hoạt động của Google Street View.

Chi phí phát sinh để thu thập nhiều dòng hoặc nhiều điểm dữ liệu hơn trong mỗi dòng thường thấp. Vì vậy, rõ ràng là thu thập càng nhiều dữ liệu càng tốt, cũng như cần làm cho dữ liệu có thể được mở rộng bằng cách xem xét tiềm năng của các ứng dụng phụ ngay từ đầu. Điều này làm tăng giá trị lựa chọn của dữ liệu. Vấn đề là tìm các “ích lợi kép” – nghĩa là một bộ dữ liệu đơn nhất có thể được sử dụng trong nhiều trường hợp nếu nó được thu thập theo một cách nhất định. Nhờ đó, dữ liệu có thể thực thi nhiều nhiệm vụ cùng lúc.

GIẢM GIÁ TRỊ CỦA DỮ LIỆU

Khi chi phí lưu trữ dữ liệu kỹ thuật số đã giảm mạnh, các doanh nghiệp có động lực kinh tế mạnh mẽ trong việc giữ lại dữ liệu để tái sử dụng cho cùng mục đích hoặc cho những mục đích tương tự khác. Nhưng có một giới hạn cho tính hữu dụng của nó.

Ví dụ các công ty như NetAix và Amazon dựa vào các giao dịch của khách hàng và các đánh giá để đưa ra khuyến nghị cho các sản phẩm mới, do vậy họ có thể chấp nhận sử dụng các hồ sơ nhiều lần cho nhiều năm. Với ý nghĩ đó, người ta có thể tranh luận rằng khi không bị hạn chế bởi các giới hạn pháp lý như luật bảo vệ quyền riêng tư, công ty nên sử dụng các hồ sơ kỹ thuật số mãi mãi, hoặc ít nhất là khi vẫn còn hiệu quả về mặt kinh tế. Tuy nhiên, thực tế lại không đơn giản như vậy.

Hầu hết dữ liệu đều bị mất một phần tính hữu ích của nó theo thời gian. Trong những hoàn cảnh như vậy, việc tiếp tục dựa vào dữ liệu cũ không chỉ thất bại trong việc gia tăng giá trị, nó còn thực sự phá hủy giá trị của dữ liệu mới hơn. Hãy chọn một cuốn sách bạn mua mười năm trước từ Amazon mà nó có thể không còn phản ánh các sở thích của bạn nữa. Nếu Amazon sử dụng hồ sơ mua hàng cũ cả chục năm để giới thiệu các cuốn sách khác thì ít có khả năng bạn sẽ mua chúng – hoặc thậm chí thèm để tâm tới các khuyến nghị tiếp theo mà trang web cung cấp. Khi các khuyến nghị của Amazon dựa trên cả thông tin lỗi thời lẫn thông tin gần đây hơn vẫn còn giá trị, sự hiện diện của các dữ liệu cũ sẽ làm giảm giá trị của các dữ liệu mới hơn.

Vì vậy, công ty vẫn sử dụng dữ liệu chỉ khi nó vẫn còn có hiệu quả. Amazon cần liên tục chăm chút kho tàng dữ liệu và xóa bỏ các thông tin đã mất giá trị. Khó khăn nằm ở chỗ biết được dữ liệu nào không còn hữu ích nữa. Nếu chỉ ra quyết định căn cứ vào thời gian thì hiếm khi thỏa đáng. Do đó, Amazon và những công ty khác đã xây dựng những mô hình phức tạp để giúp họ tách biệt dữ liệu hữu ích với dữ liệu không liên quan. Ví dụ nếu một khách hàng xem hoặc mua một cuốn sách được đề nghị dựa trên một lần mua trước, thì công ty thương mại điện tử có thể suy ra rằng giao dịch cũ vẫn còn thể hiện cho những sở thích hiện tại của khách hàng. Bằng cách đó họ có thể chấm điểm cho tính hữu dụng của dữ liệu cũ, và nhờ đó lập ra mô hình “tỷ lệ khấu hao” chính xác hơn cho các thông tin.

Không phải tất cả dữ liệu đều mất giá trị với cùng một tốc độ hoặc theo cùng một cách. Điều này giải thích lý do một số công ty tin rằng họ cần lưu trữ dữ liệu càng lâu càng tốt, ngay cả khi các cơ quan quản lý hoặc công chúng muốn nó được xóa đi hoặc làm ẩn danh sau một thời gian. Ví dụ Google từ lâu đã phản đối các yêu cầu xóa địa chỉ giao thức Internet đầy đủ của người sử dụng từ các truy vấn tìm kiếm cũ. (Thay vào đó nó chỉ xóa chữ số cuối cùng sau chín tháng để làm ẩn danh một phần các truy vấn. Như vậy, công ty vẫn có thể so sánh dữ liệu năm này qua năm khác, chẳng hạn các lệnh tìm kiếm về mua sắm dịp lễ – nhưng chỉ trên cơ sở khu vực, chứ không xuống tới từng cá nhân.) Ngoài ra, việc biết vị trí của người tìm kiếm có thể giúp cải thiện tính xác đáng của các kết quả. Ví dụ nếu nhiều người ở New York tìm kiếm và mở trang web về Thổ Nhĩ Kỳ, thuật toán sẽ xếp hạng các trang này cao hơn cho những người khác ở New York. Ngay cả khi giá trị của dữ liệu giảm đối với một số mục đích của nó, giá trị tương lai của nó có thể vẫn còn lớn.

Giá trị của dữ liệu xả

Tái sử dụng dữ liệu đôi khi có thể ở một hình thức thông minh và ẩn. Các công ty web có thể thu thập dữ liệu trên tất cả những điều mà người sử dụng thực hiện, và sau đó xử lý mỗi tương tác riêng biệt như một chỉ báo có vai trò là thông tin phản hồi để phục vụ việc cá nhân hóa trang web, cải thiện dịch vụ, hoặc tạo ra một sản phẩm kỹ thuật số hoàn toàn mới. Chúng ta sẽ thấy một minh họa sinh động về điều này trong câu chuyện về hai bộ kiểm tra chính tả.

Trong suốt hai mươi năm qua, Microsoft đã phát triển một bộ kiểm tra chính tả mạnh cho phần mềm Word. Nó so sánh một từ điển thường xuyên được cập nhật của các từ viết đúng chính tả với dòng các ký tự người sử dụng gõ vào. Từ điển lập danh sách những từ đã được biết đến, và hệ thống sẽ xem các biến thể gần đúng nhưng không có trong từ điển là lỗi chính tả để sau đó sửa. Do sẽ phải tiêu tốn nhiều công sức để sưu tập và cập nhật từ điển, bộ kiểm tra chính tả của Microsoft Word chỉ có cho những ngôn ngữ phổ biến nhất. Nó tiêu tốn của công ty hàng triệu đôla để tạo ra và duy trì sản phẩm.

Bây giờ hãy sang Google. Họ được cho là có bộ kiểm tra chính tả hoàn thiện nhất thế giới, về cơ bản là cho tất cả các ngôn ngữ được sử dụng. Hệ thống liên tục cải thiện và bổ sung thêm những từ mới – kết quả ngẫu nhiên của việc mọi người sử dụng công cụ tìm kiếm mỗi ngày. Gõ nhầm “iPad”? Đã có trong dữ liệu. “Obamacare”? Nó biết luôn rồi.

Hơn nữa, Google dường như có được bộ kiểm tra chính tả mà chẳng tốn phí, do tái sử dụng các lỗi chính tả được gõ vào công cụ tìm kiếm của ba tỷ yêu cầu mà nó xử lý mỗi ngày. Một vòng phản hồi thông minh dạy cho hệ thống từ nào là từ người sử dụng thực sự muốn gõ vào. Người sử dụng đôi khi “nói” một cách rõ ràng cho Google câu trả lời khi nó đặt ra câu hỏi ở trên cùng của trang kết quả – ví dụ “Ý của bạn là epidemioiogy?” – bằng cách nhấp vào đó để bắt đầu một lệnh tìm kiếm mới với từ khóa đúng. Hoặc trang web mà người dùng muốn nhắm tới sẽ giả định việc viết đúng chính tả, có thể vì như vậy sẽ tương hợp hơn so với từ khóa viết sai. (Điều này là quan trọng hơn nhiều người tưởng: Khi bộ kiểm tra chính tả của Google được liên tục cải tiến, người ta không cần gõ các từ khóa tìm kiếm của họ một cách chính xác nữa, bởi Google vẫn có thể xử lý chúng được.)

Hệ thống kiểm tra chính tả của Google cho thấy dữ liệu “xấu”, “không đúng”, hoặc “khiếm khuyết” vẫn có thể rất hữu ích. Điều thú vị là Google không phải là nơi đầu tiên có ý tưởng này. Khoảng năm 2000 Yahoo đã nhìn thấy khả năng tạo ra một bộ kiểm tra chính tả từ các truy vấn gõ sai của người sử dụng. Nhưng ý tưởng này chẳng đi được tới đâu. Dữ liệu câu hỏi tìm kiếm cũ đã bị xử lý chủ yếu như là rác. Tương tự như vậy, Infoseek và Alta Vista, những công cụ tìm kiếm phổ biến sớm hơn, đều có cơ sở dữ liệu toàn diện nhất thế giới về các từ viết sai chính tả khi đó, nhưng họ đã không đánh giá cao giá trị của chúng. Các hệ thống của họ, trong một quá trình ẩn đối với người sử dụng, đã xem những từ viết sai như “những từ có liên quan” và vẫn tiến hành cuộc tìm kiếm. Nhưng cuộc tìm kiếm đó được dựa trên các từ điển nói rõ ràng với hệ thống những gì là đúng, chứ không dựa trên những điều sống động, hiện hữu của việc tương tác với người dùng.

Chỉ mỗi Google nhận ra những mảnh vụn của mối tương tác với người dùng là bụi vàng thực sự, có thể được thu thập lại và đúc thành một phôi sáng bóng. Một trong những kỹ sư hàng đầu của Google ước tính rằng bộ kiểm tra chính tả của nó thực hiện tốt hơn so với của Microsoft ở mức độ rất cao (mặc dù khi được chất vấn, ông thừa nhận đã không đo lường điều này một cách đáng tin cậy). Và ông chế giễu ý kiến cho rằng nó được phát triển “miễn phí”. Có thể nguyên liệu thô – lỗi chính tả – tự đến mà không cần một chi phí trực tiếp nào, nhưng Google nhiều khả năng đã chi nhiều hơn hẳn so với Microsoft để phát triển hệ thống, ông thừa nhận với một nụ cười sảng khoái.

Các phương pháp tiếp cận khác nhau của hai công ty là vô cùng đáng chú ý. Microsoft chỉ nhìn thấy giá trị của việc kiểm tra chính tả cho một mục đích: xử lý từ. Google lại hiểu được ích lợi sâu hơn của nó. Google không chỉ sử dụng các lỗi chính tả nhằm phát triển bộ kiểm tra chính tả tốt nhất và được cập nhật tốt nhất thế giới để cải thiện việc tìm kiếm, mà nó còn áp dụng hệ thống vào nhiều dịch vụ khác, chẳng hạn như tính năng “tự động hoàn chỉnh” trong tìm kiếm, Gmail, Google Docs, và thậm chí cả hệ thống dịch thuật của mình.

Một thuật ngữ nghệ thuật đã xuất hiện để mô tả dấu vết kỹ thuật số mà người sử dụng để lại: “dữ liệu xả”. Nó đề cập đến dữ liệu được tạo ra như một sản phẩm phụ của các hành vi và các chuyển động của con người trong thế giới. Với Internet, nó mô tả những tương tác trực tuyến của người sử dụng: nơi họ nhấp chuột, họ xem một trang bao lâu, nơi con trỏ chuột qua lại, những gì họ nhập từ bàn phím, và nhiều nữa. Nhiều công ty thiết kế hệ thống của họ để có thể thu hoạch được dữ liệu xả và tái chế, để cải thiện một dịch vụ hiện có hoặc phát triển những dịch vụ mới. Google là người dẫn đầu không thể tranh cãi. Nó áp dụng nguyên tắc đệ quy “học hỏi từ dữ liệu” cho nhiều dịch vụ của mình. Mọi hành động người dùng thực hiện được xem là một tín hiệu để phân tích và đưa trở lại vào hệ thống.

Ví dụ Google nhận thức được một cách sâu sắc việc bao nhiêu lần người dùng tìm kiếm một từ khóa cũng như những từ liên quan, và mức độ thường xuyên họ bấm vào một liên kết nhưng sau đó quay trở lại trang tìm kiếm vì không hài lòng với những gì họ tìm thấy, để tìm kiếm một lần nữa. Nó biết liệu họ đang bấm vào liên kết thứ tám trên trang đầu tiên hay liên kết đầu tiên trên trang thứ tám – hay họ đã từ bỏ hoàn toàn việc tìm kiếm. Google có thể không phải là công ty đầu tiên có cái nhìn sâu sắc này, nhưng là công ty thực hiện điều này với hiệu quả đặc biệt xuất sắc.

Thông tin này rất có giá trị. Nếu nhiều người dùng có xu hướng bấm vào kết quả tìm kiếm ở dưới cùng của hang kết quả, điều này cho thấy nó phù hợp hơn những kết quả được xếp trên, và thuật toán xếp hạng của Google sẽ biết để tự động đặt nó lên cao hơn trong những lần tìm kiếm tiếp theo. (Và nó thực hiện điều này cho cả những quảng cáo.) “Chúng tôi thích học hỏi từ những tập hợp dữ liệu lớn, ‘ồn ào’”, một chuyên gia của Google nhận xét.

Dữ liệu xả là cơ chế đằng sau rất nhiều dịch vụ như nhận dạng giọng nói, lọc thư rác, dịch ngôn ngữ, và nhiều nữa. Khi người sử dụng chỉ cho một chương trình nhận dạng giọng nói rằng nó đã hiểu lầm những gì họ nói, họ thực chất đã “huấn luyện” hệ thống để nó tốt hơn. Nhiều doanh nghiệp đang bắt đầu thiết kế hệ thống của họ để thu thập và sử dụng thông tin theo cách này. Trong những ngày đầu của Facebook, “nhà khoa học dữ liệu” đầu tiên của công ty, Jeff Hammerbacher (và là một trong số những người đặt ra thuật ngữ này), đã khảo sát kho tàng phong phú của dữ liệu xả. Ông và nhóm nghiên cứu phát hiện ra rằng một yếu tố dự báo lớn về việc người dùng sẽ thực hiện một hành động (đăng nội dung, nhấp vào một biểu tượng…) là liệu họ có nhìn thấy bạn bè của mình làm điều tương tự hay không. Vì vậy, Facebook đã thiết kế lại hệ thống để chú trọng nhiều hơn vào việc khiến cho các hoạt động của bạn bè có thể được nhìn thấy rõ hơn, tạo ra một vòng xoắn phát triển của những đóng góp mới cho trang web.

Ý tưởng này đang lan rộng vượt ra ngoài lĩnh vực Internet tới bất kỳ công ty nào thu thập thông tin phản hồi của người dùng. Ví dụ những thiết bị đọc sách điện tử (e-book) nắm bắt số lượng lớn dữ liệu về sở thích và thói quen văn học của người sử dụng chúng: họ cần bao lâu để đọc một trang hoặc đoạn, nơi họ đọc, họ lật trang chỉ để lướt qua hoặc gấp cuốn sách lại mãi mãi. Các thiết bị ghi lại mỗi khi người sử dụng đánh dấu một đoạn hoặc ghi chú ở bên lề. Khả năng thu thập loại thông tin này sẽ biến việc đọc, lâu nay là một hành động đơn độc, thành một loại trải nghiệm chung.

Một khi đã được tổng hợp, dữ liệu xả có thể cho các nhà xuất bản và tác giả biết những điều mà họ chưa hề được biết trước đây một cách định lượng: các cảm giác thích, không thích, và mô thức đọc của mọi người. Thông tin này rất có giá trị về thương mại. Có thể hình dung các công ty sách điện tử bán nó cho các nhà xuất bản để cải tiến nội dung và cấu trúc của các cuốn sách. Ví dụ việc phân tích dữ liệu từ thiết bị đọc sách điện tử Nook của Barnes & Noble cho thấy khi đọc một tác phẩm dày thuộc thể loại sách kiến thức, người ta thường bỏ ngang khi chỉ mới đọc được một nửa. Phát hiện này đã tạo cảm hứng cho công ty cho ra đời loạt sách được gọi là “Nook Snaps”: những tác phẩm ngắn về các chủ đề thời sự như y tế và các vấn đề đương đại.

Hoặc hãy xem xét các chương trình đào tạo trực tuyến như Udacity, Coursera, và edX. Chúng theo dõi các tương tác web của học sinh để xem điều gì là tốt nhất về mặt sư phạm. Các lớp học có quy mô hàng chục ngàn học sinh, tạo ra lượng dữ liệu vô cùng lớn. Các giáo sư nay có thể biết khi một tỷ lệ lớn sinh viên xem lại một phân đoạn của một bài giảng, và điều đó có thể do họ chưa rõ về một điểm nào đó. Khi giảng dạy một lớp của Coursera về máy tính, giáo sư Andrew Ng của Stanford nhận thấy khoảng 2.000 sinh viên làm sai một câu hỏi trong bài tập về nhà – nhưng đưa ra chính xác cùng một câu trả lời sai. Rõ ràng, tất cả họ đã mắc cùng một lỗi. Nhưng lỗi đó là gì?

Sau khi điều tra, ông phát hiện ra rằng họ đã đảo ngược hai phương trình đại số trong một thuật toán. Vậy nên từ bây giờ, khi những sinh viên khác mắc cùng một lỗi, hệ thống không chỉ đơn giản nói họ sai, mà còn cho họ một gợi ý để kiểm tra lại phép tính. Hệ thống này cũng áp dụng dữ liệu lớn, bằng cách phân tích mỗi bài viết trong diễn đàn mà sinh viên đọc và họ hoàn thành bài tập về nhà một cách chính xác hay không để dự đoán xác suất mà một sinh viên đã đọc một bài viết nhất định sẽ đưa ra kết quả đúng, như một cách để xác định những bài viết nào trên diễn đàn là hữu ích nhất cho sinh viên đọc. Đây là những điều hoàn toàn không thể biết được trước đây, và có thể làm thay đổi việc dạy và học mãi mãi. Dữ liệu xả có thể là một lợi thế cạnh tranh rất lớn cho các công ty.

Nó cũng có thể trở thành một rào cản mạnh mẽ để ngăn đối thủ mới xuất hiện. Nếu một công ty vừa thành lập tạo ra một trang web thương mại điện tử, mạng xã hội, hay công cụ tìm kiếm tốt hơn rất nhiều so với các công ty hàng đầu hiện nay như Amazon, Google, hay Facebook, nó sẽ gặp khó khăn khi cạnh tranh, không chỉ đơn giản vì những hiệu ứng của kinh tế quy mô lớn và mạng lưới hoặc thương hiệu, mà còn vì phần lớn hiệu suất của những công ty hàng đầu này là từ dữ liệu xả họ thu thập từ các tương tác của khách hàng và kết hợp trở lại vào dịch vụ. Liệu một dịch vụ web đào tạo trực tuyến mới có đủ sức cạnh tranh với một địch thủ đã có một lượng khổng lồ dữ liệu để giúp nó tìm hiểu được những gì sẽ hoạt động hiệu quả nhất?

Giá trị của dữ liệu mở

Ngày nay chúng ta dễ nghĩ các trang web như Google và Amazon là những nhà tiên phong của dữ liệu lớn, nhưng tất nhiên các chính phủ mới là những người thu lượm thông tin gốc trên quy mô lớn, và họ sẽ không kém cạnh bất kỳ doanh nghiệp tư nhân nào về khối lượng lớn dữ liệu mà họ kiểm soát. Một sự khác biệt với các chủ sở hữu dữ liệu trong khu vực tư nhân là các chính phủ thường có thể bắt buộc mọi người cung cấp thông tin, chứ không phải thuyết phục họ làm như vậy hoặc phải trả cho họ một cái gì đó để đổi lại. Do đó, chính phủ sẽ vẫn tiếp tục tích lũy được những kho tàng lớn dữ liệu.

Những bài học của dữ liệu lớn áp dụng cho khu vực công cũng giống như cho các cơ sở thương mại: giá trị dữ liệu của chính phủ là tiềm ẩn và đòi hỏi việc phân tích sáng tạo để được khai thông. Nhưng bất chấp vị trí đặc biệt của mình trong việc nắm bắt thông tin, các chính phủ thường không mấy hiệu quả trong việc khai thác nó. Gần đây, một ý tưởng được nhiều người xem như cách tốt nhất để tận dụng các giá trị của dữ liệu từ chính phủ là để cho khu vực tư nhân và công chúng nói chung truy cập dữ liệu và thử nghiệm. Còn có một nguyên lý nữa ở phía sau. Khi nhà nước tập hợp dữ liệu, họ làm việc đó thay mặt cho các công dân, và do đó nhà nước phải cung cấp quyền truy cập cho đại chúng (ngoại trừ một số ít trường hợp, chẳng hạn như khi làm như vậy có thể gây tổn hại cho an ninh quốc gia hoặc các quyền riêng tư của những người khác).

Ý tưởng này đã dẫn đến vô số những sáng kiến “dữ liệu chính phủ mở” trên toàn cầu. Cho rằng chính phủ chỉ canh giữ các thông tin mà họ thu thập, còn khu vực tư nhân và đại chúng sẽ sáng tạo hơn, những người ủng hộ dữ liệu mở kêu gọi các cơ quan chính phủ công khai dữ liệu cho các mục đích dân sự và thương mại. Để làm được việc này, tất nhiên, dữ liệu phải ở một dạng chuẩn hóa, máy có thể đọc được để dễ dàng xử lý. Nếu không, các thông tin chỉ là công khai trên danh nghĩa.

Ý tưởng về dữ liệu mở của chính phủ được thúc đẩy mạnh khi Tổng thống Barack Obama, vào ngày làm việc đầu tiên của ông tại Nhà Trắng, 21 tháng 1 năm 2009, ban hành một biên bản ghi nhớ của Tổng thống ra lệnh cho người đứng đầu các cơ quan của liên bang phải công bố càng nhiều dữ liệu càng tốt. “Đối mặt với sự nghi ngờ, việc mở cửa sẽ thắng thế”, ông chỉ thị. Đó là một tuyên bố đáng chú ý, đặc biệt khi so sánh với người tiền nhiệm đã chỉ thị các cơ quan làm chính xác điều ngược lại. Lệnh của Obama thúc đẩy việc tạo ra trang web data.gov, một kho lưu trữ mở cho phép truy cập đến thông tin từ chính phủ liên bang. Trang web nhanh chóng phát triển từ 47 bộ dữ liệu trong năm 2009 lên gần 450.000 bộ dữ liệu bao gồm 172 cơ quan vào dịp kỷ niệm ba năm hoạt động, tháng 7 năm 2012.

Thậm chí ở nước Anh bảo thủ, nơi rất nhiều thông tin chính phủ đã bị khóa bởi Luật bản quyền Crown, đồng thời để được cấp giấy phép sử dụng sẽ rất khó khăn và tốn kém (chẳng hạn như mã bưu chính cho các công ty thương mại điện tử), cũng đã có tiến bộ đáng kể. Chính phủ Anh đã ban hành quy định khuyến khích thông tin mở và hỗ trợ việc thành lập một Viện Dữ liệu Mở, do Tim Berners-Lee, người phát minh ra World Wide Web, đồng lãnh đạo để thúc đẩy những ứng dụng mới mẻ của dữ liệu mở và những cách thức để giải phóng nó khỏi sự kiềm kẹp của nhà nước.

Liên minh châu Âu cũng công bố những sáng kiến dữ liệu mở có thể sớm trở thành những sáng kiến của châu lục. Các nước khác, như Úc, Brazil, Chile, và Kenya, đã ban hành và thực hiện các chiến lược dữ liệu mở. Bên dưới cấp quốc gia, một số lượng ngày càng tăng các thành phố và đô thị trên thế giới cũng chấp nhận mở dữ liệu. Các tổ chức quốc tế như Ngân hàng Thế giới đã mở cửa hàng trăm bộ dữ liệu về các chỉ tiêu kinh tế và xã hội mà trước đây đã bị giới hạn.

Song song đó, cộng đồng các nhà phát triển web và các nhà tư tưởng nhìn xa trông rộng đã được hình thành để tìm ra cách thu được nhiều nhất từ dữ liệu, ví dụ như Code for America và Quỹ Sunlight tại Hoa Kỳ, hoặc Quỹ Tri thức Mở tại Anh. Một ví dụ sớm về các khả năng của dữ liệu mở xuất phát từ trang web FlyOnTime.us. Khách truy cập vào trang web có thể tương tác để tìm hiểu (trong số nhiều mối tương quan khác) khả năng thời tiết xấu sẽ trì hoãn các chuyên bay tại một sân bay cụ thể. Trang web kết hợp chuyến bay và thông tin thời tiết từ những nguồn số liệu chính thức được truy cập tự do qua Internet. Nó được phát triển bởi những người ủng hộ dữ-liệu-mở để biểu lộ sự hữu ích của thông tin tích lũy được của chính phủ liên bang. Ngay cả phần mềm của trang web cũng là mã nguồn mở, để những người khác có thể học hỏi từ nó và tái sử dụng nó.

FlyOnTime.us để cho dữ liệu tự nói, và nó thường nói những điều đáng ngạc nhiên. Người ta có thể thấy với những chuyên bay từ Boston đi sân bay LaGuardia New York, du khách cần chuẩn bị cho sự chậm trễ vì sương mù với thời gian dài gấp đôi so với vì tuyết. Điều này có lẽ không phải là thứ hầu hết mọi người có thể đoán được khi ngồi ở phòng chờ khởi hành; tuyết có vẻ là một nguyên nhân nghiêm trọng hơn gây chậm trễ. Nhưng đây là loại hiểu biết mà dữ liệu lớn có thể mang lại, qua khảo sát dữ liệu lịch sử các vụ trễ chuyến bay của Cục Giao thông Vận tải, thông tin sân bay hiện tại từ Cục Hàng không Liên bang, cùng với dự báo thời tiết từ Cơ quan Đại dương và Khí quyển Quốc gia và các điều kiện thời gian thực từ Cục Thời tiết Quốc gia. FlyOnTime.us cho thấy rằng một thực thể không hề thu thập hay kiểm soát dòng chảy thông tin, giống như một công cụ tìm kiếm hay nhà bán lẻ lớn, có thể vẫn nhận được và sử dụng dữ liệu để tạo ra giá trị như thế nào.

Định giá sự vô giá

Dù mở cho công chúng hay khóa kín trong hầm của công ty, giá trị của dữ liệu rất khó để đo lường. Hãy xem xét các sự kiện của ngày thứ Sáu, 18 tháng 5 năm 2012. Vào ngày đó, người sáng lập Facebook Mark Zuckerberg, 28 tuổi, đã rung chuông một cách tượng trưng từ trụ sở chính của công ty tại Menlo Park, California để mở đầu phiên giao dịch của chứng khoán NASDAQ. Mạng xã hội lớn nhất thế giới – tự hào vì có khoảng một phần mười dân số hành tinh là thành viên lúc đó – bắt đầu cuộc đời mới của mình như một công ty đại chúng, cổ phiếu ngay lập tức tăng 11 phần trăm, giống như nhiều cổ phiếu công nghệ mới trong ngày giao dịch đầu tiên. Tuy nhiên, sau đó một điều kỳ lạ đã xảy ra. Cổ phiếu của Facebook bắt đầu rơi. Xu hướng không thay đổi khi một trục trặc kỹ thuật với máy tính của NASDAQ đã tạm thời dừng giao dịch. Một vấn đề lớn hơn đang xảy ra. Cảm thấy lo ngại, các nhà bảo lãnh phát hành chứng khoán, dẫn đầu là Morgan Stanley, đã thực sự nhảy vào hỗ trợ để giữ cổ phiếu ở trên giá phát hành.

Buổi tối hôm trước, các ngân hàng của Facebook đã định giá công ty ở mức $38 một cổ phiếu, và công ty được định giá tương đương 104 tỷ đôla. (Như vậy là xấp xỉ mức vốn hóa thị trường của Boeing, General Motors, và Dell Computers cộng lại.) Facebook thực sự có giá trị bao nhiêu? Trong báo cáo tài chính đã được kiểm toán cho năm 2011, cơ sở để các nhà đầu tư định giá công ty, Facebook công bố tài sản là $6,3 tỷ. Đó là đại diện cho giá trị của phần cứng máy tính, thiết bị văn phòng, và các công cụ vật lý khác. Đối với giá trị sổ sách trên các kho tàng lớn thông tin mà Facebook cất giữ thì sao? Về cơ bản là bằng không. Nó không được tính vào, mặc dù công ty này gần như không có gì ngoài dữ liệu.

Tình hình còn trở nên kỳ quặc hơn. Doug Laney, phó chủ tịch nghiên cứu của công ty nghiên cứu thị trường Gartner, phân tích các số liệu trong giai đoạn trước khi phát hành lần đầu ra công chúng (IPO) và cho rằng Facebook đã thu thập được 2,1 nghìn tỷ mục “nội dung có thể định giá” từ năm 2009 đến 2011, ví dụ như các nội dung “thích”, các tư liệu đăng tải, và các ý kiến. So sánh với việc định giá IPO thì điều này có nghĩa là mỗi mục, được xem như một điểm dữ liệu rời rạc, có giá trị khoảng 5 cent. Theo một cách nhìn khác, mỗi người sử dụng Facebook có giá trị khoảng $100, bởi vì người sử dụng là nguồn gốc của các thông tin mà Facebook thu thập.

Làm thế nào để giải thích sự chênh lệch lớn giữa giá trị của Facebook theo các chuẩn mực kế toán ($6,3 tỷ) và những gì thị trường ban đầu định giá nó ($104 tỷ)? Không có cách nào đủ tốt để làm việc này. Thay vào đó, người ta thống nhất phương pháp hiện hành xác định giá trị của công ty bằng cách nhìn vào “giá trị sổ sách” của nó (nghĩa là chủ yếu gồm giá trị tiền mặt và các tài sản vật chất). Cách này không còn phản ánh đầy đủ giá trị thực sự. Thật ra, khoảng cách giữa giá trị sổ sách và “giá trị thị trường” – những gì công ty sẽ thu được trên thị trường chứng khoán hoặc nếu nó được mua toàn bộ – đã tăng qua nhiều thập kỷ. Thượng viện Mỹ thậm chí đã có những buổi điều trần trong năm 2000 về hiện đại hóa các quy định báo cáo tài chính, những thứ được xây dựng từ những năm 1930 khi các doanh nghiệp dựa trên thông tin hầu như không tồn tại. Vấn đề này ảnh hưởng đến nhiều thứ chứ không chỉ bảng cân đối tài chính của công ty: việc không thể đánh giá đúng giá trị của công ty làm phát sinh rủi ro trong kinh doanh và gây bất ổn trên thị trường.

Sự khác biệt giữa giá trị sổ sách của công ty và giá trị thị trường của nó được ghi nhận là “tài sản vô hình”. Nó đã tăng từ khoảng 40 phần trăm giá trị của các công ty giao dịch công khai ở Hoa Kỳ vào giữa những năm 1980 lên đến ba phần tư giá trị của chúng vào đầu thiên niên kỷ mới. Đây là sự phân kỳ lớn. Những tài sản vô hình này được xem là bao gồm thương hiệu, tài năng, và chiến lược – bất cứ thứ gì phi vật chất và là thành phần của hệ thống tài chính kế toán hình thức. Và càng ngày, tài sản vô hình càng gắn với dữ liệu mà công ty nắm giữ và sử dụng.

Cuối cùng, điều này cho thấy hiện nay không có cách rõ ràng để xác định giá trị dữ liệu. Ngày đầu giao dịch cổ phiếu Facebook, khoảng cách giữa tài sản chính thức và giá trị vô hình không được ghi lại của nó là gần $100 tỷ. Đúng là khôi hài. Tuy nhiên, khoảng cách này phải và sẽ khép lại bời các công ty sẽ tìm cách ghi nhận giá trị tài sản dữ liệu của họ trong bảng cân đối.

Những bước đi ban đầu theo hướng này đang được tiến hành. Một giám đốc điều hành cao cấp tại một trong những nhà khai thác mạng vô tuyến lớn nhất nước Mỹ cho biết các nhà khai thác đã nhận ra giá trị to lớn của dữ liệu và nghiên cứu liệu có nên xem nó như một tài sản của công ty trên phương diện kế toán chính thức. Nhưng ngay khi các luật sư của công ty nghe nói về sáng kiến này, họ đã dừng nó lại. Đưa dữ liệu lên sổ sách có thể khiến công ty phải chịu trách nhiệm về mặt pháp lý với nó, các cây đại thụ trong ngành luật lập luận, và họ cho rằng đó chẳng phải một ý tưởng hay ho gì.

Trong khi đó, các nhà đầu tư cũng bắt đầu chú ý đến giá trị tương lai của dữ liệu. Giá cổ phiếu có thể tăng lên với các công ty nào có dữ liệu hoặc có thể thu thập dữ liệu một cách dễ dàng, trong khi những công ty khác ở các vị trí kém may mắn hơn có thể thấy giá thị trường của họ co lại. Dữ liệu không nhất thiết phải chính thức xuất hiện trên các bảng cân đối để khiến điều này xảy ra. Thị trường và các nhà đầu tư sẽ đưa những tài sản vô hình này vào việc định giá – mặc dù sẽ khó khăn, như các biến động giá cổ phiếu của Facebook trong mấy tháng đầu tiên minh chứng. Nhưng khi những khó khăn về kế toán và những lo lắng về trách nhiệm được giảm bớt, gần như chắc chắn giá trị của dữ liệu sẽ hiển thị trên các bảng cân đối của công ty và trở thành một loại tài sản mới.

Vậy dữ liệu được định giá như thế nào? Việc tính toán giá trị của nó sẽ không chỉ đơn giản là cộng những gì đã đạt được từ ứng dụng chính của nó. Nếu hầu hết giá trị của dữ liệu là tiềm ẩn và có nguồn gốc từ những ứng dụng phụ chưa biết trong tương lai, cách ước lượng nó sẽ không thể ngay lập tức trở nên rõ ràng. Điều này tương tự như những khó khăn của việc định giá các yếu tố tài chính phát sinh trước khi phát triển phương trình Black-Scholes trong những năm 1970, hoặc khó khăn trong việc xác định giá trị bằng sáng chế, lĩnh vực mà các vụ bán đấu giá, trao đổi, bán hàng tư nhân, cấp phép, và rất nhiều vụ kiện tụng đang dần tạo ra một thị trường của tri thức. Ít ra, việc áp đặt một giá cho giá trị tương lai của dữ liệu chắc chắn thể hiện một cơ hội quý báu cho lĩnh vực tài chính.

Một cách để bắt đầu là xem xét các chiến lược khác nhau mà những người sở hữu dữ liệu áp dụng để tận dụng giá trị. Khả năng rõ ràng nhất là để phục vụ cho việc ứng dụng riêng của chính công ty. Tuy nhiên, một công ty khó có khả năng phát hiện ra tất cả các giá trị tiềm ẩn của dữ liệu. Do đó với một tham vọng lớn hơn, công ty có thể cấp giấy phép sử dụng dữ liệu cho bên thứ ba. Trong thời đại dữ-liệu-lớn, nhiều chủ sở hữu dữ liệu có thể muốn lựa chọn một thỏa thuận trả một tỷ lệ phần trăm giá trị trích xuất từ dữ liệu thay vì một khoản phí cố định. Nó tương tự như các nhà xuất bản phải trả một tỷ lệ phần trăm của doanh thu từ sách, nhạc, hay phim với vai trò tiền bản quyền cho tác giả và người biểu diễn. Nó cũng giống như những thỏa thuận sở hữu trí tuệ trong công nghệ sinh học, bên cấp giấy phép có thể yêu cầu tiền bản quyền trên bất cứ phát minh tiếp theo nào xuất phát từ công nghệ của họ. Bằng cách này, tất cả các bên đều có động cơ để tối đa hóa giá trị thu được từ việc tái sử dụng dữ liệu.

Tuy nhiên, do người được cấp phép có thể thất bại trong việc tận dụng toàn bộ giá trị tương lai, chủ sở hữu dữ liệu có thể không muốn cấp quyền truy cập tài sản của họ theo kiểu độc quyền. Thay vì vậy, “dữ liệu chung chạ” có thể trở thành tiêu chuẩn. Bằng cách đó, họ có thể tự bảo hiểm cho mình.

Một số thị trường đã ra đời để thử nghiệm với những cách thức định giá dữ liệu. DataMarket, được thành lập ở Iceland vào năm 2008, cung cấp quyền truy cập tới các bộ dữ liệu miễn phí từ các nguồn khác, chẳng hạn như Liên Hiệp Quốc, Ngân hàng Thế giới, và Eurostat, và kiếm doanh thu bằng cách bán lại dữ liệu từ các nhà cung cấp thương mại như các công ty nghiên cứu thị trường. Những công ty mới thành lập khác cố gắng trở thành trung gian về thông tin, nền tảng cho các bên thứ ba chia sẻ dữ liệu của họ, miễn phí hoặc có tính phí. Ý tưởng ở đây là để cho phép bất cứ ai bán dữ liệu có trong cơ sở dữ liệu của họ, giống như eBay cung cấp một nền tảng cho người dân bán những thứ trong gác xép của họ. Import.io khuyến khích các công ty cấp phép dữ liệu của họ, những loại dữ liệu dễ bị “cướp” từ Internet và sử dụng miễn phí. Và Factual, công ty do cựu thành viên của Google Gil Elbaz thành lập, đang cung cấp các bộ dữ liệu mà nó đã bỏ thời gian để tự sưu tập.

Microsoft cũng bước vào lĩnh vực này với Windows Azure Marketplace, tập trung vào dữ liệu chất lượng cao và giám sát những gì đang được chào bán, tương tự như cách Apple giám sát các dịch vụ trong cửa hàng ứng dụng của nó. Với tầm nhìn của Microsoft, một nhà quản lý tiếp thị làm việc trên một bảng tính Excel có thể muốn lập bảng phối hợp dữ liệu nội bộ công ty của mình với các dự báo tăng trưởng GDP từ một hãng tư vấn kinh tế. Vì vậy cô nhấp chuột để mua dữ liệu ở nơi này hoặc nơi kia, và ngay lập tức dữ liệu “chảy” vào các cột bảng tính của cô trên màn hình.

Cho đến nay vẫn chưa có thông tin về việc các mô hình định giá sẽ diễn ra như thế nào. Nhưng điều chắc chắn là nền kinh tế đang bắt đầu hình thành xung quanh dữ liệu – và nhiều người mới tham gia sẽ được hưởng lợi, trong khi một số người cũ có thể sẽ ngạc nhiên thấy luồng sinh khí mới. “Dữ liệu là một nền tảng”, theo lời của Tim O’Reilly, một nhà xuất bản công nghệ và một học giả của Thung Lũng Silicon, vì nó là một khối xây dựng cho các hàng hóa và mô hình kinh doanh mới.

Điểm mấu chốt trong giá trị của dữ liệu là tiềm năng dường như không giới hạn của nó cho tái sử dụng: giá trị tương lai. Việc thu thập thông tin tuy rất quan trọng nhưng không đủ, vì hầu hết giá trị của dữ liệu nằm ở công dụng của nó, chứ không chỉ ở chỗ sở hữu nó. Trong chương tiếp theo, chúng ta sẽ xem thật ra dữ liệu đang được sử dụng và các doanh nghiệp dữ-liệu-lớn đang nổi lên như thế nào.

VÀO CUỐI NHỮNG NĂM 1990, Web đã nhanh chóng trở thành một nơi chốn phóng túng, khó chịu và kém thân thiện. “Thư rác” tràn ngập các hộp thư điện tử và các diễn đàn trực tuyến. Năm 2000, Luis von Ahn, một thanh niên 22 tuổi, vừa tốt nghiệp đại học, đã có một ý tưởng để giải quyết vấn đề: bắt buộc những ai đăng ký phải chứng minh họ là con người. Do vậy, anh tìm cái gì đó rất dễ dàng để con người làm nhưng lại rất khó khăn cho máy.

Anh đã đưa ra ý tưởng hiển thị những chữ nguệch ngoạc, khó đọc trong quá trình đăng ký. Con người sẽ có thể đọc được chúng và gõ vào chính xác trong một vài giây, nhưng máy móc sẽ bối rối. Yahoo áp dụng phương pháp của anh và giảm được mối họa của thư rác ngay lập tức. Von Ahn gọi sáng tạo của mình là Captcha (viết tắt của Completely Automated Public Turing Test to Tell Computers and Humans Apart – Phép kiểm tra Turing hoàn toàn tự động để phân biệt máy tính với con người). Năm năm sau, hàng triệu Captcha đã được gõ vào mỗi ngày.

Captcha đã mang lại cho von Ahn sự nổi tiếng và công việc giảng dạy về khoa học máy tính tại Đại học Carnegie Mellon sau khi anh có bằng tiến sỹ. Nó cũng đóng vai trò giúp anh, khi mới 27 tuổi, nhận được một trong những giải thưởng uy tín cho “thiên tài” của Quỹ MacArthur với nửa triệu đôla. Tuy nhiên khi nhận ra mình chịu trách nhiệm cho việc hàng triệu người lãng phí rất nhiều thời gian mỗi ngày để gõ vào những chữ nguệch ngoạc gây phiền nhiễu – nhưng sau đó chẳng được dùng để làm gì – anh thấy như vậy chẳng thông minh cho lắm.

Tìm cách để đưa toàn bộ sức mạnh tính toán của con người vào sử dụng hiệu quả hơn, von Ahn đã đưa ra một phiên bản kế nhiệm thích hợp có tên ReCaptcha. Thay vì gõ vào các chữ cái ngẫu nhiên, người ta gõ vào hai từ, thuộc trong số các dự án quét văn bản mà chương trình nhận dạng ký tự quang học của máy tính không thể hiểu được. Một từ được dùng để xác nhận điều những người dùng khác đã gõ vào và do đó là tín hiệu cho biết đó là một con người, còn từ kia là một từ mới cần làm rõ nghĩa. Để đảm bảo tính chính xác, hệ thống hiển thị cùng một từ không rõ nghĩa cho khoảng năm người khác nhau để họ gõ vào một cách chính xác trước khi hệ thống tin tưởng đó là đúng. Dữ liệu này có một ứng dụng chính – để chứng minh người dùng là con người – nhưng nó cũng có một mục đích thứ hai: để giải mã những chữ không rõ ràng trong các văn bản số hóa.

Giá trị mang lại là vô cùng lớn, khi ta nghĩ đến chi phí để thuê người thay thế. Mất khoảng 10 giây mỗi lần sử dụng, 200 triệu ReCaptcha mỗi ngày – mức hiện tại – sẽ nhân với nửa triệu giờ một ngày. Mức lương tối thiểu tại Hoa Kỳ là $7,25 một giờ vào năm 2012. Nếu dùng sức người để làm rõ nghĩa những từ mà máy tính không hiểu được, sẽ tốn 4 triệu đôla một ngày, hay hơn 1 tỷ đôla mỗi năm. Thay vào đó, von Ahn thiết kế một hệ thống để làm điều đó, và thật ra là miễn phí. Điều này có giá trị tới mức Google đã mua lại công nghệ từ von Ahn vào năm 2009, và sau đó cung cấp miễn phí cho bất kỳ trang web nào sử dụng. Ngày nay nó được đưa vào khoảng 200.000 trang web, trong đó có Facebook, Twitter, và Craigslist.

Phim minh họa ReCaptcha

Câu chuyện của ReCaptcha nhấn mạnh tầm quan trọng của việc tái sử dụng dữ liệu. Với dữ liệu lớn, giá trị của dữ liệu đang thay đổi. Giá trị của dữ liệu chuyển từ ứng dụng cơ bản sang các ứng dụng tiềm năng của nó. Điều này có những hệ quả sâu sắc. Nó ảnh hưởng đến cách các doanh nghiệp đánh giá dữ liệu họ nắm giữ và cho phép những ai truy cập. Nó cho phép, và có thể buộc các công ty phải thay đổi các mô hình kinh doanh của họ. Nó làm thay đổi cách thức các tổ chức suy nghĩ về dữ liệu và việc sử dụng nó.

Thông tin luôn luôn cần thiết cho các giao dịch thị trường. Ví dụ dữ liệu cho phép phát hiện giá cả, và đó là một tín hiệu để biết phải sản xuất bao nhiêu. Chúng ta hiểu rõ khía cạnh này của dữ liệu. Có một số loại thông tin từ lâu đã được giao dịch trên thị trường, ví dụ nội dung có trong các cuốn sách, bài viết, nhạc, và phim, hoặc thông tin tài chính như giá cổ phiếu. Những thứ này đã được kết hợp với dữ liệu cá nhân trong vài thập kỷ qua. Những nhà môi giới chuyên ngành dữ liệu ở Hoa Kỳ như Acxiom, Experian và Equifax tính phí khá hào phóng đối với các hồ sơ đầy đủ của thông tin cá nhân về hàng trăm hàng triệu khách hàng. Nhờ Facebook, Twitter, Linkedln, và các nền tảng truyền thông xã hội khác, các kết nối cá nhân, ý kiến, sở thích, và mô hình cuộc sống hàng ngày của chúng ta đã tham gia vào vốn chung của thông tin cá nhân về chúng ta.

Một cách ngắn gọn, mặc dù dữ liệu từ lâu đã có giá trị, nó chỉ được xem như phụ trợ cho các hoạt động cốt lõi của một doanh nghiệp, hoặc bị giới hạn trong các phạm trù tương đối hẹp như sở hữu trí tuệ hoặc thông tin cá nhân. Ngược lại, trong thời đại của dữ liệu lớn, tất cả dữ liệu sẽ được xem là có giá trị, cả về nội dung và chính bản thân dữ liệu đó.

Khi nói “tất cả dữ liệu”, chúng ta ám chỉ ngay cả thứ thô nhất, dường như hầu hết các bit trần trụi của thông tin. Hãy nghĩ tới các số đo từ một cảm biến nhiệt trên một máy ở công xưởng. Hoặc dòng thời gian thực của các tọa độ GPS, các số đo từ đồng hồ gia tốc, và các mức nhiên liệu từ một chiếc xe giao hàng – hay một đội xe gồm 60.000 chiếc. Hoặc hãy nghĩ tới hàng tỷ truy vấn tìm kiếm cũ, hoặc giá của từng ghế trên mỗi chuyến bay thương mại ở Hoa Kỳ trong nhiều năm qua.

Cho đến gần đây, không có cách dễ dàng để thu thập, lưu trữ, và phân tích những dữ liệu như vậy. Điều này hạn chế nghiêm trọng các cơ hội để tận dung giá trị tiềm năng của nó. Trong ví dụ nổi tiếng của Adam Smith về nhà sản xuất ghim, ông đã thảo luận về phân công lao động trong thế kỷ XVIII, phải đòi hỏi những người quan sát theo dõi tất cả các công nhân, không chỉ cho một nghiên cứu cụ thể, mà cho mọi thời điểm của mỗi ngày, lấy các số đo chi tiết, và đếm sản phẩm trên giấy dày với bút lông. Khi các nhà kinh tế cổ điển xem xét các yếu tố của sản xuất (đất đai, lao động và vốn), ý tưởng về khai thác dữ liệu hầu như vắng bóng. Mặc dù chi phí để thu thập và sử dụng dữ liệu đã giảm trong hơn hai thế kỷ qua, cho đến khá gần đây nó vẫn còn tương đối tốn kém.

Điều làm cho thời đại của chúng ta khác biệt là rất nhiều hạn chế cố hữu về thu thập dữ liệu không còn nữa. Công nghệ đã đạt tới điểm mà những lượng lớn thông tin thường xuyên có thể được ghi nhận với giá rẻ. Dữ liệu có thể thường xuyên được thu thập một cách thụ động mà không cần nhiều nỗ lực hoặc thậm chí những đối tượng được ghi lại cũng không hề hay biết. Và bởi chi phí lưu trữ đã giảm rất nhiều, việc giữ lại dữ liệu thay vì loại bỏ nó trở nên dễ dàng hơn. Tất cả những thứ đó làm cho dữ liệu dễ tiếp cận và với chi phí thấp chưa từng có. Trong nửa thế kỷ qua, cứ hai năm thì chi phí lưu trữ kỹ thuật số lại giảm khoảng một nửa, trong khi mật độ lưu trữ đã tăng 50 triệu lần. Theo quan điểm của các công ty thông tin như Farecast hoặc Google – nơi các chất liệu thô đi vào ở một đầu của dây chuyền kỹ thuật số và thông tin đã được xử lý đi ra ở đầu kia – dữ liệu bắt đầu trông giống như một nguồn nguyên liệu mới của sản xuất.

Giá trị tức thời của hầu hết dữ liệu là hiển nhiên đối với những người thu thập. Thật ra, có lẽ họ tập hợp nó với một mục đích cụ thể. Các cửa hàng thu thập dữ liệu bán hàng để làm kế toán tài chính cho đúng. Các nhà máy theo dõi sản phẩm để đảm bảo chúng phù hợp với các tiêu chuẩn chất lượng. Các trang web ghi lại từng cú nhấp chuột của người dùng – đôi khi cả nơi con trỏ di chuyển – để phân tích và tối ưu hóa nội dung các trang web trình bày cho người ghé thăm. Những ứng dụng chính này của dữ liệu biện minh cho việc thu thập và xử lý nó. Khi lưu lại không chỉ những cuốn sách khách hàng mua mà cả các trang web họ đơn thuần nhìn vào, Amazon biết rằng họ sẽ sử dụng dữ liệu này để đua ra những khuyên nghị cá nhân hóa. Tương tự như vậy, Facebook theo dõi việc “cập nhật trạng thái” và nhấn nút “like” của người dùng nhằm xác định những quảng cáo phù hợp nhất để hiển thị trên trang web của mình và kiếm tiền từ đó.

Không giống như những thứ vật chất – ví dụ thực phẩm chúng ta ăn, một cây nến cháy – giá trị của dữ liệu không giảm đi khi nó được sử dụng. Nó có thể được xử lý lại và xử lý lại nữa. Thông tin là thứ các nhà kinh tế gọi là hàng hóa “không-cạnh-tranh”: việc sử dụng của một người không cản trở việc sử dụng của người khác. Và thông tin không hao mòn khi sử dụng như các loại vật chất khác. Do đó Amazon có thể sử dụng dữ liệu từ các giao dịch quá khứ khi đưa ra những khuyến nghị cho khách hàng của mình – và sử dụng nó nhiều lần, không chỉ cho khách hàng đã tạo ra dữ liệu mà còn cho cả nhiều người khác nữa. Dữ liệu có thể được sử dụng nhiều lần cho cùng một mục đích. Quan trọng hơn, nó còn có thể được khai thác cho nhiều mục đích khác nhau. Điểm này rất quan trọng khi chúng ta cố gắng hiểu thông tin sẽ có giá trị bao nhiêu đối với chúng ta trong thời đại của dữ liệu lớn. Chúng ta thấy một số tiềm năng này đã trở thành hiện thực, như khi Walmart tìm kiếm cơ sở dữ liệu các hóa đơn bán hàng cũ và phát hiện ra mối tương quan hấp dẫn giữa các cơn bão và việc bán Pop-Tarts.

Tất cả những điều này cho thấy giá trị đầy đủ của dữ liệu là lớn hơn nhiều so với giá trị được trích xuất từ nó cho mục đích sử dụng ban đầu. Nó cũng có nghĩa là các công ty có thể khai thác dữ liệu một cách hiệu quả ngay cả khi việc sử dụng lần đầu hoặc mỗi lần tiếp theo chỉ mang lại một lượng nhỏ của giá trị, miễn là họ sử dụng dữ liệu nhiều lần.

“Giá trị tùy chọn” của dữ liệu

Để hiểu được ý nghĩa của việc tái sử dụng dữ liệu đối với giá trị cuối cùng của nó, hãy lấy ví dụ các xe hơi chạy điện. Khả năng để chúng thành công và trở thành một phương thức vận tải phụ thuộc vào một vô số các yếu tố hậu cần, mà tất cả đều liên quan tới hoạt động của bình điện. Người lái phải nạp được bình điện cho xe của họ một cách nhanh chóng và thuận tiện, và các công ty năng lượng cần đảm bảo rằng năng lượng dùng bởi những chiếc xe này không làm mất ổn định lưới điện. Ngày nay, chúng ta có mạng phân phối khá hiệu quả các trạm xăng, nhưng chúng ta chưa hiểu được nhu cầu nạp điện và vị trí của các trạm cho xe hơi điện là như thế nào.

Điều đáng lưu tâm là vấn đề này không phải thiên về cơ sở hạ tầng mà thiên về thông tin. Và dữ liệu lớn là một phần quan trọng của giải pháp. Trong một thử nghiệm vào năm 2012, IBM đã làm việc với Công ty điện lực và khí Thái Bình Dương ở California và nhà sản xuất xe hơi Honda để thu thập một lượng lớn thông tin nhằm trả lời các câu hỏi cơ bản về thời gian và địa điểm xe điện sẽ nạp điện, và điều này có nghĩa gì đối với việc cung cấp năng lượng. IBM đã phát triển một mô hình dự đoán được xây dựng dựa trên rất nhiều yếu tố: lượng điện trong bình, vị trí của xe, thời gian trong ngày, và các chỗ đỗ có sẵn tại các trạm nạp điện gần đó. Nó kết hợp dữ liệu với mức tiêu thụ hiện tại từ lưới điện cũng như mô hình sử dụng năng lượng trong quá khứ. Việc phân tích các dòng lớn dữ liệu theo thời gian hiện tại và quá khứ từ nhiều nguồn cho phép IBM xác định những thời gian và địa điểm tối ưu cho người lái nạp bình điện xe của họ. Nó cũng tiết lộ nơi tốt nhất để xây dựng các trạm nạp. Cuối cùng, hệ thống sẽ phải tính đến chênh lệch giá tại các trạm nạp gần đó. Ngay cả dự báo thời tiết cũng được xem là một yếu tố: chẳng hạn trường hợp trời nắng và một trạm năng lượng mặt trời gần đó đầy ắp điện, nhưng dự báo thời tiết cho biết sắp có một tuần mưa nên các tấm pin mặt trời sẽ không vận hành.

Hệ thống lấy thông tin được tạo ra cho một mục đích và tái sử dụng nó cho một mục đích khác – nói cách khác, dữ liệu chuyển từ ứng dụng chính sang ứng dụng phụ. Điều này làm tăng giá trị của nó theo thời gian. Chỉ báo lượng điện của xe sẽ cho người lái biết khi nào thì cần nạp điện. Dữ liệu về sử dụng lưới điện được công ty dịch vụ tiện ích thu thập để quản lý sự ổn định của lưới điện. Đó là những ứng dụng chính. Cả hai bộ dữ liệu đều có những ứng dụng phụ – và giá trị mới – khi chúng được dùng cho một mục đích hoàn toàn khác: xác định nên nạp điện khi nào và ở đâu, và nơi để xây dựng các trạm dịch vụ xe hơi điện. Thêm nữa, các thông tin phụ trợ được kết hợp, chẳng hạn như vị trí của xe và việc tiêu thụ lưới điện trong quá khứ. Và IBM xử lý dữ liệu không chỉ một lần mà còn xử lý lại và lại nữa, vì nó liên tục cập nhật hồ sơ tiêu thụ năng lượng của xe điện và ảnh hưởng của nó lên lưới điện.

Giá trị thực sự của dữ liệu giống như một tảng băng trôi nổi trên đại dương. Chỉ một phần nhỏ của nó là có thể được nhìn thấy ngay từ cái nhìn đầu tiên, trong khi phần lớn của nó bị ẩn bên dưới bề mặt. Các công ty sáng tạo hiểu được điều này có thể tận dụng được những giá trị và gặt hái những lợi ích tiềm năng rất lớn. Tóm lại, giá trị của dữ liệu phải được xem xét trên tất cả các khía cạnh nó có thể được sử dụng trong tương lai, chứ không chỉ đơn giản trong hiện tại. Chúng ta từng thấy điều này trong nhiều ví dụ đã được nhấn mạnh. Farecast khai thác dữ liệu từ vé máy bay bán trước đó để dự đoán giá vé tương lai. Google tái sử dụng các từ khóa tìm kiếm để khám phá sự lây lan của bệnh cúm. Maury đã sử dụng lại các nhật ký đi biển cũ để phát hiện những dòng hải lưu.

Tuy nhiên, tầm quan trọng của việc tái sử dụng dữ liệu vẫn chưa được đánh giá đầy đủ trong kinh doanh và xã hội. Rất ít nhà điều hành tại Con Edison ở New York có thể tưởng tượng được rằng thông tin về các cáp cũ hàng thế kỷ và các hồ sơ bảo trì có thể được sử dụng để ngăn ngừa tai nạn trong tương lai. Phải cần một thế hệ mới các nhà thống kê, và một làn sóng mới các phương pháp và công cụ để mở được khóa giá trị của dữ liệu. Ngay cả nhiều công ty Internet và công nghệ đến gần đây vẫn không hề biết việc tái sử dụng dữ liệu có thể có giá trị như thế nào.

Việc hình dung dữ liệu theo cách các nhà vật lý xem xét năng lượng cũng là một cách hay. Họ đề cập đến năng lượng “lưu trữ” hoặc “tiềm ẩn” tồn tại bên trong một đối tượng nhưng nằm im. Hãy hình dung một lò xo bị nén hoặc một quả bóng dừng tại đỉnh của một ngọn đồi. Năng lượng trong các đối tượng này vẫn còn âm ỉ – tiềm ẩn – cho đến khi nó được giải phóng, chẳng hạn, khi lò xo được bung ra hoặc quả bóng được đẩy nhẹ để nó lăn xuống dốc. Lúc này năng lượng của các đối tượng đã trở thành “động” vì chúng đang chuyển động và tác dụng lên các đối tượng trong thế giới. Sau ứng dụng chính của nó, giá trị của dữ liệu vẫn còn tồn tại, nhưng nằm im, giống như lò xo hoặc quả bóng, cho đến khi dữ liệu được dùng cho một ứng dụng phụ và sức mạnh của nó lại được giải phóng. Trong thời đại dữ-liệu-lớn, cuối cùng chúng ta đã có được cách suy nghĩ, sự khéo léo, và các công cụ để khai thác giá trị tiềm ẩn của dữ liệu.

Cuối cùng, giá trị của dữ liệu là những gì người ta có thể đạt được từ tất cả các cách sử dụng nó. Những ứng dụng tiềm năng dường như vô hạn này cũng giống như những lựa chọn – không theo ý nghĩa của các công cụ tài chính, nhưng theo ý nghĩa thiết thực của sự lựa chọn. Giá trị của dữ liệu là tổng của các lựa chọn này: “giá trị lựa chọn” của dữ liệu, có thể nói như vậy. Trong quá khứ, một khi ứng dụng chính của dữ liệu đã đạt được, chúng ta thường nghĩ rằng dữ liệu đã hoàn thành mục đích của mình, và chúng ta sẵn sàng xóa nó, để cho nó mất đi. Xét cho cùng, dường như giá trị quan trọng đã được tận dụng. Trong thời đại dữ-liệu-lớn, dữ liệu giống như một mỏ kim cương huyền diệu vẫn tiếp tục sản xuất thêm lâu nữa sau khi giá trị chính của nó đã được khai thác. Có ba cách hiệu nghiệm để giải phóng giá trị tùy chọn của dữ liệu: tái sử dụng cơ bản, hợp nhất các tập dữ liệu, và tìm kiếm các “ích lợi kép”.

TÁI SỬ DỤNG DỮ LIỆU

Một ví dụ điển hình của việc tái sử dụng sáng tạo dữ liệu là các từ khóa tìm kiếm. Thoạt đầu, thông tin có vẻ vô giá trị sau khi mục đích chính của nó đã được hoàn thành. Sự tương tác tạm thời giữa người sử dụng và công cụ tìm kiếm đưa ra một danh sách các trang web và quảng cáo phục vụ một chức năng đặc biệt duy nhất cho thời điểm đó. Nhưng những truy vấn cũ có thể có giá trị bất thường. Hitwise, một công ty đo lường lưu lượng web thuộc sở hữu của nhà môi giới dữ liệu Experian, cho phép khách hàng khai thác lưu lượng tìm kiếm để tìm hiểu sở thích của người tiêu dùng. Các nhà tiếp thị có thể sử dụng Hitwise để hình dung liệu màu hồng sẽ lên ngôi trong mùa xuân này hay màu đen sẽ trở lại. Google đưa ra một phiên bản của bộ phân tích từ khóa tìm kiếm để mọi người kiểm tra. Nó đã khải động một dịch vụ dự báo kinh doanh với ngân hàng lớn thứ hai của Tây Ban Nha, BBVA, để xem xét ngành du lịch cũng như bán các chỉ số kinh tế thời gian thực dựa trên dữ liệu tìm kiếm. Ngân hàng Anh sử dụng các truy vấn tìm kiếm liên quan đến bất động sản để hình dung tốt hơn về việc giá nhà đất tăng hay giảm.

Các công ty thất bại trong việc đánh giá cao tầm quan trọng của tái sử dụng dữ liệu đã học được bài học của họ một cách khó khăn. Ví dụ, trong những ngày đầu của Amazon, họ đã ký một thỏa thuận với AOL để dùng công nghệ thương mại điện tử của AOL. Đối với hầu hết mọi người, nó trông giống như một thỏa thuận gia công bình thường. Nhưng những gì thực sự khiến Amazon quan tâm, như Andreas Weigend, cựu giám đốc khoa học của Amazon, giải thích là việc có được dữ liệu về những gì người dùng AOL đã xem và mua, điều sẽ cải thiện hiệu quả cho các khuyến nghị của Amazon. AOL tội nghiệp không hề nhận ra điều này. Họ chỉ nhìn thấy giá trị của dữ liệu trong mục đích sử dụng chính – bán hàng. Amazon thông minh biết họ có thể gặt hái lợi ích bằng cách đưa dữ liệu này vào một ứng dụng phụ.

Hoặc hãy xét trường hợp Google đã nhảy vào lĩnh vực nhận dạng giọng nói với GOOG-411 cho các danh sách tìm kiếm địa phương, thực hiện từ 2007 đến 2010. Người khổng lồ về tìm kiếm không có công nghệ nhận dạng giọng nói riêng của mình nên phải mua bản quyền. Google đạt được thỏa thuận với Nuance, công ty hàng đầu trong lĩnh vực này đã vui mừng gặp được vị khách cao giá. Nhưng Nuance lúc đó là một gã ngốc về dữ-liệu-lớn: hợp đồng không chỉ định ai là người sẽ giữ các bản ghi dịch tiếng nói, và Google đã giữ chúng cho riêng mình. Việc phân tích dữ liệu cho phép người ta đánh giá xác suất để một đoạn số hóa nhất định của tiếng nói tương ứng với một từ cụ thể. Đây là điều quan trọng để cải thiện công nghệ nhận dạng giọng nói hoặc tạo ra một dịch vụ mới mẻ hoàn toàn. Thời điểm đó, Nuance cho rằng họ kinh doanh bản quyền phần mềm, chứ không phải phân tích dữ liệu. Ngay sau khi thấy lỗi của mình, họ mới bắt đầu có những thỏa thuận đáng chú ý với các nhà khai thác di động và các nhà sản xuất thiết bị cầm tay để sử dụng dịch vụ nhận dạng giọng nói của mình – để có thể thu thập được dữ liệu.

Giá trị trong việc tái sử dụng dữ liệu là tin tốt cho các tổ chức thu thập hoặc kiểm soát các bộ dữ liệu lớn nhưng hiện đang sử dụng chúng rất ít, chẳng hạn như những doanh nghiệp thường chủ yếu hoạt động ngoại tuyến (offline). Họ có thể ngồi trên những mỏ thông tin chưa được khai thác. Một số công ty có thể đã thu thập dữ liệu, sử dụng nó một lần (nếu có), và giữ nó ở đâu đó vi chi phí lưu trữ thấp – trong những “nấm mồ dữ liệu”, như các nhà khoa học dữ liệu gọi những nơi thông tin cũ cư trú.

Các công ty Internet và công nghệ đang tiên phong khai thác hàng núi dữ liệu, vì họ thu thập được rất nhiều thông tin chỉ bằng cách hoạt động trực tuyến và đi trước các công ty khác trong việc phân tích nó. Nhưng tất cả các công ty đều được hưởng lợi. Các chuyên gia tư vấn tại McKinsey & Company cho biết một công ty hậu cần (giấu tên) nhận thấy trong quá trình cung cấp hàng hóa, nó đã tích lũy hàng đống thông tin về vận chuyển hàng hóa trên toàn cầu. Thấy được cơ hội, nó thành lập một bộ phận đặc biệt để bán dữ liệu tổng hợp ở dạng các dự báo kinh doanh và kinh tế. Nói cách khác, nó tạo ra một phiên bản ngoại tuyến của Google trong việc truy-vấn-tìm-kiếm-quá-khứ. Hoặc SWIFT, hệ thống liên ngân hàng toàn cầu để chuyển tiền, đã phát hiện ra rằng các khoản thanh toán tương quan với các hoạt động kinh tế toàn cầu. Vì vậy, SWIFT cung cấp dự báo GDP dựa trên dữ liệu chuyển tiền đi qua mạng lưới của mình.

Một số doanh nghiệp, nhờ vào vị trí của họ trong chuỗi giá trị thông tin, có thể thu thập được những lượng lớn dữ liệu, mặc dù họ có ít nhu cầu ngay lập tức đối với dữ liệu hoặc không thành thạo trong việc sử dụng lại nó. Ví dụ các nhà khai thác điện thoại di động thu thập thông tin về địa điểm của các thuê bao để phân tuyến các cuộc gọi. Đối với những công ty này, dữ liệu như vậy chỉ có các mục đích kỹ thuật hạn hẹp. Nhưng nó có giá trị hơn khi được tái sử dụng bởi các công ty phân phối quảng cáo và chương trình khuyến mãi được cá nhân hóa dựa trên địa điểm. Đôi khi giá trị không đến từ các điểm dữ liệu riêng lẻ mà từ những gì chúng tiết lộ trong quá trình tổng hợp. Do đó các doanh nghiệp bán thông tin vị trí địa lý như AirSage và Sense Networks mà chúng ta đã thấy trong chương trước có thể bán thông tin về nơi mà người dân đang tụ tập vào một tối thứ Sáu hoặc nơi những chiếc xe đang phải bò chậm chạp trên đường. Những kiểu thông tin tổng hợp này có thể được sử dụng để xác định giá trị bất động sản hoặc giá bảng hiệu quảng cáo.

Ngay cả những thông tin tầm thường nhất cũng có thể có giá trị đặc biệt, nếu được áp dụng một cách đúng đắn. Hãy quay lại với các nhà khai thác điện thoại di động: họ lưu trữ về việc các điện thoại kết nối với các hạm cơ sở ở đâu và khi nào, với cường độ tín hiệu thế nào. Các nhà khai thác từ lâu đã sử dụng dữ liệu đó để tinh chỉnh hiệu suất mạng lưới của họ, quyết định nơi cần bổ sung hoặc nâng cấp cơ sở hạ tầng. Nhưng dữ liệu còn có nhiều ứng dụng tiềm năng khác nữa. Các nhà sản xuất thiết bị cầm tay có thể sử dụng nó để tìm hiểu những gì ảnh hưởng đến cường độ tín hiệu, ví dụ để nâng cao chất lượng tiếp nhận tín hiệu cho các thiết bị của họ. Các nhà khai thác điện thoại di động từ lâu đã không muốn kiếm tiền từ thông tin này vì sợ vi phạm các quy định bảo vệ quyền riêng tư. Nhưng họ bắt đầu mềm dẻo hơn trong lập trường khi dữ liệu được xem như một nguồn thu nhập tiềm năng. Năm 2012, công ty Telefonica thậm chí còn lập ra một công ty riêng biệt, gọi là Telefonica Digital Insights, để bán dữ liệu vị trí thuê bao ẩn danh cho các nhà bán lẻ và những đối tượng khác.

DỮ LIỆU TÁI TỔ HỢP

Đôi khi giá trị tiềm ẩn chỉ có thể được giải phóng bằng cách kết hợp một bộ dữ liệu với một bộ khác, thậm chí hoàn toàn khác.

Chúng ta có thể sáng tạo bằng cách trộn lẫn dữ liệu theo những cách mới. Một ví dụ để thấy cách này vận hành như thế nào là một nghiên cứu thông minh được công bố năm 2011 để xem liệu điện thoại di động có làm tăng nguy cơ ung thư. Với khoảng sáu tỷ điện thoại di động trên thế giới, gần như một máy cho mỗi người trên trái đất, câu hỏi này là rất quan trọng. Nhiều nghiên cứu đã cố tìm kiếm một liên kết, nhưng đều gặp trở ngại do có nhiều thiếu sót. Các cỡ mẫu là quá nhỏ, hoặc những khoảng thời gian họ đề cập là quá ngắn, hoặc họ đã dựa trên dữ liệu tự báo cáo mang đầy lỗi. Tuy nhiên, một nhóm các nhà nghiên cứu tại Hiệp hội Ung thư Đan Mạch đã phát minh ra một cách tiếp cận thú vị dựa trên dữ liệu đã thu thập được trước đó.

Dữ liệu về tất cả các thuê bao từ khi có điện thoại di động ở Đan Mạch được thu thập từ các nhà khai thác di động. Nghiên cứu đã khảo sát những người có điện thoại di động từ năm 1987 đến 1995, loại trừ các thuê bao của công ty và những người không có sẵn dữ liệu kinh tế xã hội. Tổng cộng có 358.403 người. Quốc gia này cũng duy trì một cơ sở dữ liệu toàn quốc của tất cả các bệnh nhân ung thư, trong đó có 10.729 người có khối u ở hệ thống thần kinh trung ương trong những năm từ 1990 đến 2007. Nghiên cứu cũng sử dụng một cơ sở dữ liệu toàn quốc với thông tin về cấp giáo dục cao nhất và thu nhập của mỗi người dân Đan Mạch. Sau khi kết hợp ba bộ dữ liệu, các nhà nghiên cứu xem xét liệu người sử dụng điện thoại di động có tỷ lệ ung thư cao hơn so với những người không sử dụng hay không. Và giữa các thuê bao, liệu những người đã sở hữu một điện thoại di động trong một thời gian dài hơn có nhiều khả năng bị ung thư hơn không?

Dù nghiên cứu này ở quy mô lớn, dữ liệu thu được không hề lộn xộn hoặc thiếu chính xác: các bộ dữ liệu đòi hỏi những tiêu chuẩn chất lượng khắt khe cho các mục đích y tế, thương mại hoặc nhân khẩu học. Thông tin được thu thập không theo những cách có thể tạo ra định kiến liên quan đến chủ đề của nghiên cứu. Thật ra, dữ liệu đã có từ nhiều năm trước, vì những lý do không hề liên quan tới nghiên cứu này. Điều quan trọng nhất là nghiên cứu không dựa trên một mẫu mà trên cơ sở gần với N = tất cả: hầu hết các ca bệnh ung thư, và gần như tất cả người dùng điện thoại di động, với số lượng 3,8 triệu người và số năm sở hữu điện thoại di động. Việc nó bao gồm gần như tất cả các trường hợp nghĩa là các nhà nghiên cứu có thể kiểm soát các tiểu quần thể, chẳng hạn như những người có mức thu nhập cao.

Cuối cùng, nhóm đã không phát hiện được bất kỳ sự gia tăng nguy cơ ung thu nào liên quan với việc sử dụng điện thoại di động. Vì lý do đó, các kết quả của nghiên cứu hầu nhu không gây được tiếng vang trên các phương tiện truyền thông khi chúng được công bố vào tháng 10 năm 2011 trên tạp chí y khoa của Anh BMJ. Nhưng nếu một mối liên hệ được phát hiện thì nghiên cứu này hẳn sẽ xuất hiện trên trang nhất của các tờ báo khắp thế giới, và phương pháp “dữ liệu tái tổ hợp” đã nổi tiếng.

Với dữ liệu lớn, tổng thể sẽ có giá trị cao hơn các bộ phận của nó, và khi chúng ta kết hợp các tổng thể của nhiều bộ dữ liệu lại với nhau, tổng thể đó cũng là trị giá hơn các thành phần riêng lẻ. Ngày nay người dùng Internet quen thuộc với những “ứng dụng hỗn hợp” cơ bản, kết hợp hai hoặc nhiều nguồn dữ liệu theo một cách mới lạ. Ví dụ trang web bất động sản Zillow đã chèn thông tin bất động sản và giá cả lên bản đồ của các khu phố tại Hoa Kỳ. Họ cũng xử lý hàng núi dữ liệu, chẳng hạn các giao dịch gần đây trong khu vực và chi tiết kỹ thuật của các bất động sản, để dự đoán giá trị của những ngôi nhà cụ thể trong một khu vực. Cách trình bày hình ảnh làm cho dữ liệu trở nên dễ tiếp cận hơn. Nhưng với dữ liệu lớn chúng ta còn có thể đi xa hơn nữa. Nghiên cứu về ung thư ở Đan Mạch đã cho chúng ta một gợi ý về những điều khả thi.

DỮ LIỆU MỞ RỘNG

Một cách khiến việc tái sử dụng dữ liệu dễ dàng hơn là thiết kế khả năng mở rộng cho nó ngay từ đầu, để nó phù hợp với nhiều mục đích sử dụng. Mặc dù điều này không phải luôn khả thi – bởi có thể rất lâu sau khi dữ liệu đã được thu thập người ta mới nhận ra những ứng dụng khác – vẫn có nhiều cách khuyên khích các ứng dụng khác nhau cho cùng một bộ dữ liệu. Ví dụ một số cửa hàng bán lẻ đặt các camera giám sát cửa hàng, không chỉ để phát hiện người lấy cắp đồ, mà quan trọng là để theo dõi dòng khách mua trong cửa hàng và nơi họ dừng lại nhìn ngắm. Các nhà bán lẻ có thể sử dụng nhóm thông tin này để thiết kế cửa hàng cũng như để đánh giá hiệu quả của các chiến dịch tiếp thị. Trước đó, camera chỉ phục vụ mục tiêu an ninh. Bây giờ chúng được xem là khoản đầu tư có thể làm tăng doanh thu.

Một trong những công ty giỏi nhất trong việc thu thập dữ liệu, đồng thời tính đến khả năng mở rộng, đương nhiên chính là Google. Những chiếc xe Street View vốn gây tranh cãi đã đi khắp nơi chụp ảnh nhà ở và đường giao thông, nhưng cũng ngấu nghiên dữ liệu GPS, kiểm tra thông tin bản đồ, thậm chí lấy các tên mạng wifi (và cả nội dung truyền tải trên các mạng wifi mở, có lẽ một cách bất hợp pháp). Chỉ một chuyến đi của Google Street View đã tích lũy được vô số dòng dữ liệu rời rạc ở mọi thời điểm. Khả năng mở rộng xuất hiện bởi vì Google dùng các dữ liệu không chỉ cho ứng dụng chính mà còn cho rất nhiều các ứng dụng phụ. Ví dụ dữ liệu GPS thu thập được đã cải thiện dịch vụ bản đồ của họ và là phần không thể thiếu cho hoạt động của Google Street View.

Chi phí phát sinh để thu thập nhiều dòng hoặc nhiều điểm dữ liệu hơn trong mỗi dòng thường thấp. Vì vậy, rõ ràng là thu thập càng nhiều dữ liệu càng tốt, cũng như cần làm cho dữ liệu có thể được mở rộng bằng cách xem xét tiềm năng của các ứng dụng phụ ngay từ đầu. Điều này làm tăng giá trị lựa chọn của dữ liệu. Vấn đề là tìm các “ích lợi kép” – nghĩa là một bộ dữ liệu đơn nhất có thể được sử dụng trong nhiều trường hợp nếu nó được thu thập theo một cách nhất định. Nhờ đó, dữ liệu có thể thực thi nhiều nhiệm vụ cùng lúc.

GIẢM GIÁ TRỊ CỦA DỮ LIỆU

Khi chi phí lưu trữ dữ liệu kỹ thuật số đã giảm mạnh, các doanh nghiệp có động lực kinh tế mạnh mẽ trong việc giữ lại dữ liệu để tái sử dụng cho cùng mục đích hoặc cho những mục đích tương tự khác. Nhưng có một giới hạn cho tính hữu dụng của nó.

Ví dụ các công ty như NetAix và Amazon dựa vào các giao dịch của khách hàng và các đánh giá để đưa ra khuyến nghị cho các sản phẩm mới, do vậy họ có thể chấp nhận sử dụng các hồ sơ nhiều lần cho nhiều năm. Với ý nghĩ đó, người ta có thể tranh luận rằng khi không bị hạn chế bởi các giới hạn pháp lý như luật bảo vệ quyền riêng tư, công ty nên sử dụng các hồ sơ kỹ thuật số mãi mãi, hoặc ít nhất là khi vẫn còn hiệu quả về mặt kinh tế. Tuy nhiên, thực tế lại không đơn giản như vậy.

Hầu hết dữ liệu đều bị mất một phần tính hữu ích của nó theo thời gian. Trong những hoàn cảnh như vậy, việc tiếp tục dựa vào dữ liệu cũ không chỉ thất bại trong việc gia tăng giá trị, nó còn thực sự phá hủy giá trị của dữ liệu mới hơn. Hãy chọn một cuốn sách bạn mua mười năm trước từ Amazon mà nó có thể không còn phản ánh các sở thích của bạn nữa. Nếu Amazon sử dụng hồ sơ mua hàng cũ cả chục năm để giới thiệu các cuốn sách khác thì ít có khả năng bạn sẽ mua chúng – hoặc thậm chí thèm để tâm tới các khuyến nghị tiếp theo mà trang web cung cấp. Khi các khuyến nghị của Amazon dựa trên cả thông tin lỗi thời lẫn thông tin gần đây hơn vẫn còn giá trị, sự hiện diện của các dữ liệu cũ sẽ làm giảm giá trị của các dữ liệu mới hơn.

Vì vậy, công ty vẫn sử dụng dữ liệu chỉ khi nó vẫn còn có hiệu quả. Amazon cần liên tục chăm chút kho tàng dữ liệu và xóa bỏ các thông tin đã mất giá trị. Khó khăn nằm ở chỗ biết được dữ liệu nào không còn hữu ích nữa. Nếu chỉ ra quyết định căn cứ vào thời gian thì hiếm khi thỏa đáng. Do đó, Amazon và những công ty khác đã xây dựng những mô hình phức tạp để giúp họ tách biệt dữ liệu hữu ích với dữ liệu không liên quan. Ví dụ nếu một khách hàng xem hoặc mua một cuốn sách được đề nghị dựa trên một lần mua trước, thì công ty thương mại điện tử có thể suy ra rằng giao dịch cũ vẫn còn thể hiện cho những sở thích hiện tại của khách hàng. Bằng cách đó họ có thể chấm điểm cho tính hữu dụng của dữ liệu cũ, và nhờ đó lập ra mô hình “tỷ lệ khấu hao” chính xác hơn cho các thông tin.

Không phải tất cả dữ liệu đều mất giá trị với cùng một tốc độ hoặc theo cùng một cách. Điều này giải thích lý do một số công ty tin rằng họ cần lưu trữ dữ liệu càng lâu càng tốt, ngay cả khi các cơ quan quản lý hoặc công chúng muốn nó được xóa đi hoặc làm ẩn danh sau một thời gian. Ví dụ Google từ lâu đã phản đối các yêu cầu xóa địa chỉ giao thức Internet đầy đủ của người sử dụng từ các truy vấn tìm kiếm cũ. (Thay vào đó nó chỉ xóa chữ số cuối cùng sau chín tháng để làm ẩn danh một phần các truy vấn. Như vậy, công ty vẫn có thể so sánh dữ liệu năm này qua năm khác, chẳng hạn các lệnh tìm kiếm về mua sắm dịp lễ – nhưng chỉ trên cơ sở khu vực, chứ không xuống tới từng cá nhân.) Ngoài ra, việc biết vị trí của người tìm kiếm có thể giúp cải thiện tính xác đáng của các kết quả. Ví dụ nếu nhiều người ở New York tìm kiếm và mở trang web về Thổ Nhĩ Kỳ, thuật toán sẽ xếp hạng các trang này cao hơn cho những người khác ở New York. Ngay cả khi giá trị của dữ liệu giảm đối với một số mục đích của nó, giá trị tương lai của nó có thể vẫn còn lớn.

Giá trị của dữ liệu xả

Tái sử dụng dữ liệu đôi khi có thể ở một hình thức thông minh và ẩn. Các công ty web có thể thu thập dữ liệu trên tất cả những điều mà người sử dụng thực hiện, và sau đó xử lý mỗi tương tác riêng biệt như một chỉ báo có vai trò là thông tin phản hồi để phục vụ việc cá nhân hóa trang web, cải thiện dịch vụ, hoặc tạo ra một sản phẩm kỹ thuật số hoàn toàn mới. Chúng ta sẽ thấy một minh họa sinh động về điều này trong câu chuyện về hai bộ kiểm tra chính tả.

Trong suốt hai mươi năm qua, Microsoft đã phát triển một bộ kiểm tra chính tả mạnh cho phần mềm Word. Nó so sánh một từ điển thường xuyên được cập nhật của các từ viết đúng chính tả với dòng các ký tự người sử dụng gõ vào. Từ điển lập danh sách những từ đã được biết đến, và hệ thống sẽ xem các biến thể gần đúng nhưng không có trong từ điển là lỗi chính tả để sau đó sửa. Do sẽ phải tiêu tốn nhiều công sức để sưu tập và cập nhật từ điển, bộ kiểm tra chính tả của Microsoft Word chỉ có cho những ngôn ngữ phổ biến nhất. Nó tiêu tốn của công ty hàng triệu đôla để tạo ra và duy trì sản phẩm.

Bây giờ hãy sang Google. Họ được cho là có bộ kiểm tra chính tả hoàn thiện nhất thế giới, về cơ bản là cho tất cả các ngôn ngữ được sử dụng. Hệ thống liên tục cải thiện và bổ sung thêm những từ mới – kết quả ngẫu nhiên của việc mọi người sử dụng công cụ tìm kiếm mỗi ngày. Gõ nhầm “iPad”? Đã có trong dữ liệu. “Obamacare”? Nó biết luôn rồi.

Hơn nữa, Google dường như có được bộ kiểm tra chính tả mà chẳng tốn phí, do tái sử dụng các lỗi chính tả được gõ vào công cụ tìm kiếm của ba tỷ yêu cầu mà nó xử lý mỗi ngày. Một vòng phản hồi thông minh dạy cho hệ thống từ nào là từ người sử dụng thực sự muốn gõ vào. Người sử dụng đôi khi “nói” một cách rõ ràng cho Google câu trả lời khi nó đặt ra câu hỏi ở trên cùng của trang kết quả – ví dụ “Ý của bạn là epidemioiogy?” – bằng cách nhấp vào đó để bắt đầu một lệnh tìm kiếm mới với từ khóa đúng. Hoặc trang web mà người dùng muốn nhắm tới sẽ giả định việc viết đúng chính tả, có thể vì như vậy sẽ tương hợp hơn so với từ khóa viết sai. (Điều này là quan trọng hơn nhiều người tưởng: Khi bộ kiểm tra chính tả của Google được liên tục cải tiến, người ta không cần gõ các từ khóa tìm kiếm của họ một cách chính xác nữa, bởi Google vẫn có thể xử lý chúng được.)

Hệ thống kiểm tra chính tả của Google cho thấy dữ liệu “xấu”, “không đúng”, hoặc “khiếm khuyết” vẫn có thể rất hữu ích. Điều thú vị là Google không phải là nơi đầu tiên có ý tưởng này. Khoảng năm 2000 Yahoo đã nhìn thấy khả năng tạo ra một bộ kiểm tra chính tả từ các truy vấn gõ sai của người sử dụng. Nhưng ý tưởng này chẳng đi được tới đâu. Dữ liệu câu hỏi tìm kiếm cũ đã bị xử lý chủ yếu như là rác. Tương tự như vậy, Infoseek và Alta Vista, những công cụ tìm kiếm phổ biến sớm hơn, đều có cơ sở dữ liệu toàn diện nhất thế giới về các từ viết sai chính tả khi đó, nhưng họ đã không đánh giá cao giá trị của chúng. Các hệ thống của họ, trong một quá trình ẩn đối với người sử dụng, đã xem những từ viết sai như “những từ có liên quan” và vẫn tiến hành cuộc tìm kiếm. Nhưng cuộc tìm kiếm đó được dựa trên các từ điển nói rõ ràng với hệ thống những gì là đúng, chứ không dựa trên những điều sống động, hiện hữu của việc tương tác với người dùng.

Chỉ mỗi Google nhận ra những mảnh vụn của mối tương tác với người dùng là bụi vàng thực sự, có thể được thu thập lại và đúc thành một phôi sáng bóng. Một trong những kỹ sư hàng đầu của Google ước tính rằng bộ kiểm tra chính tả của nó thực hiện tốt hơn so với của Microsoft ở mức độ rất cao (mặc dù khi được chất vấn, ông thừa nhận đã không đo lường điều này một cách đáng tin cậy). Và ông chế giễu ý kiến cho rằng nó được phát triển “miễn phí”. Có thể nguyên liệu thô – lỗi chính tả – tự đến mà không cần một chi phí trực tiếp nào, nhưng Google nhiều khả năng đã chi nhiều hơn hẳn so với Microsoft để phát triển hệ thống, ông thừa nhận với một nụ cười sảng khoái.

Các phương pháp tiếp cận khác nhau của hai công ty là vô cùng đáng chú ý. Microsoft chỉ nhìn thấy giá trị của việc kiểm tra chính tả cho một mục đích: xử lý từ. Google lại hiểu được ích lợi sâu hơn của nó. Google không chỉ sử dụng các lỗi chính tả nhằm phát triển bộ kiểm tra chính tả tốt nhất và được cập nhật tốt nhất thế giới để cải thiện việc tìm kiếm, mà nó còn áp dụng hệ thống vào nhiều dịch vụ khác, chẳng hạn như tính năng “tự động hoàn chỉnh” trong tìm kiếm, Gmail, Google Docs, và thậm chí cả hệ thống dịch thuật của mình.

Một thuật ngữ nghệ thuật đã xuất hiện để mô tả dấu vết kỹ thuật số mà người sử dụng để lại: “dữ liệu xả”. Nó đề cập đến dữ liệu được tạo ra như một sản phẩm phụ của các hành vi và các chuyển động của con người trong thế giới. Với Internet, nó mô tả những tương tác trực tuyến của người sử dụng: nơi họ nhấp chuột, họ xem một trang bao lâu, nơi con trỏ chuột qua lại, những gì họ nhập từ bàn phím, và nhiều nữa. Nhiều công ty thiết kế hệ thống của họ để có thể thu hoạch được dữ liệu xả và tái chế, để cải thiện một dịch vụ hiện có hoặc phát triển những dịch vụ mới. Google là người dẫn đầu không thể tranh cãi. Nó áp dụng nguyên tắc đệ quy “học hỏi từ dữ liệu” cho nhiều dịch vụ của mình. Mọi hành động người dùng thực hiện được xem là một tín hiệu để phân tích và đưa trở lại vào hệ thống.

Ví dụ Google nhận thức được một cách sâu sắc việc bao nhiêu lần người dùng tìm kiếm một từ khóa cũng như những từ liên quan, và mức độ thường xuyên họ bấm vào một liên kết nhưng sau đó quay trở lại trang tìm kiếm vì không hài lòng với những gì họ tìm thấy, để tìm kiếm một lần nữa. Nó biết liệu họ đang bấm vào liên kết thứ tám trên trang đầu tiên hay liên kết đầu tiên trên trang thứ tám – hay họ đã từ bỏ hoàn toàn việc tìm kiếm. Google có thể không phải là công ty đầu tiên có cái nhìn sâu sắc này, nhưng là công ty thực hiện điều này với hiệu quả đặc biệt xuất sắc.

Thông tin này rất có giá trị. Nếu nhiều người dùng có xu hướng bấm vào kết quả tìm kiếm ở dưới cùng của hang kết quả, điều này cho thấy nó phù hợp hơn những kết quả được xếp trên, và thuật toán xếp hạng của Google sẽ biết để tự động đặt nó lên cao hơn trong những lần tìm kiếm tiếp theo. (Và nó thực hiện điều này cho cả những quảng cáo.) “Chúng tôi thích học hỏi từ những tập hợp dữ liệu lớn, ‘ồn ào’”, một chuyên gia của Google nhận xét.

Dữ liệu xả là cơ chế đằng sau rất nhiều dịch vụ như nhận dạng giọng nói, lọc thư rác, dịch ngôn ngữ, và nhiều nữa. Khi người sử dụng chỉ cho một chương trình nhận dạng giọng nói rằng nó đã hiểu lầm những gì họ nói, họ thực chất đã “huấn luyện” hệ thống để nó tốt hơn. Nhiều doanh nghiệp đang bắt đầu thiết kế hệ thống của họ để thu thập và sử dụng thông tin theo cách này. Trong những ngày đầu của Facebook, “nhà khoa học dữ liệu” đầu tiên của công ty, Jeff Hammerbacher (và là một trong số những người đặt ra thuật ngữ này), đã khảo sát kho tàng phong phú của dữ liệu xả. Ông và nhóm nghiên cứu phát hiện ra rằng một yếu tố dự báo lớn về việc người dùng sẽ thực hiện một hành động (đăng nội dung, nhấp vào một biểu tượng…) là liệu họ có nhìn thấy bạn bè của mình làm điều tương tự hay không. Vì vậy, Facebook đã thiết kế lại hệ thống để chú trọng nhiều hơn vào việc khiến cho các hoạt động của bạn bè có thể được nhìn thấy rõ hơn, tạo ra một vòng xoắn phát triển của những đóng góp mới cho trang web.

Ý tưởng này đang lan rộng vượt ra ngoài lĩnh vực Internet tới bất kỳ công ty nào thu thập thông tin phản hồi của người dùng. Ví dụ những thiết bị đọc sách điện tử (e-book) nắm bắt số lượng lớn dữ liệu về sở thích và thói quen văn học của người sử dụng chúng: họ cần bao lâu để đọc một trang hoặc đoạn, nơi họ đọc, họ lật trang chỉ để lướt qua hoặc gấp cuốn sách lại mãi mãi. Các thiết bị ghi lại mỗi khi người sử dụng đánh dấu một đoạn hoặc ghi chú ở bên lề. Khả năng thu thập loại thông tin này sẽ biến việc đọc, lâu nay là một hành động đơn độc, thành một loại trải nghiệm chung.

Một khi đã được tổng hợp, dữ liệu xả có thể cho các nhà xuất bản và tác giả biết những điều mà họ chưa hề được biết trước đây một cách định lượng: các cảm giác thích, không thích, và mô thức đọc của mọi người. Thông tin này rất có giá trị về thương mại. Có thể hình dung các công ty sách điện tử bán nó cho các nhà xuất bản để cải tiến nội dung và cấu trúc của các cuốn sách. Ví dụ việc phân tích dữ liệu từ thiết bị đọc sách điện tử Nook của Barnes & Noble cho thấy khi đọc một tác phẩm dày thuộc thể loại sách kiến thức, người ta thường bỏ ngang khi chỉ mới đọc được một nửa. Phát hiện này đã tạo cảm hứng cho công ty cho ra đời loạt sách được gọi là “Nook Snaps”: những tác phẩm ngắn về các chủ đề thời sự như y tế và các vấn đề đương đại.

Hoặc hãy xem xét các chương trình đào tạo trực tuyến như Udacity, Coursera, và edX. Chúng theo dõi các tương tác web của học sinh để xem điều gì là tốt nhất về mặt sư phạm. Các lớp học có quy mô hàng chục ngàn học sinh, tạo ra lượng dữ liệu vô cùng lớn. Các giáo sư nay có thể biết khi một tỷ lệ lớn sinh viên xem lại một phân đoạn của một bài giảng, và điều đó có thể do họ chưa rõ về một điểm nào đó. Khi giảng dạy một lớp của Coursera về máy tính, giáo sư Andrew Ng của Stanford nhận thấy khoảng 2.000 sinh viên làm sai một câu hỏi trong bài tập về nhà – nhưng đưa ra chính xác cùng một câu trả lời sai. Rõ ràng, tất cả họ đã mắc cùng một lỗi. Nhưng lỗi đó là gì?

Sau khi điều tra, ông phát hiện ra rằng họ đã đảo ngược hai phương trình đại số trong một thuật toán. Vậy nên từ bây giờ, khi những sinh viên khác mắc cùng một lỗi, hệ thống không chỉ đơn giản nói họ sai, mà còn cho họ một gợi ý để kiểm tra lại phép tính. Hệ thống này cũng áp dụng dữ liệu lớn, bằng cách phân tích mỗi bài viết trong diễn đàn mà sinh viên đọc và họ hoàn thành bài tập về nhà một cách chính xác hay không để dự đoán xác suất mà một sinh viên đã đọc một bài viết nhất định sẽ đưa ra kết quả đúng, như một cách để xác định những bài viết nào trên diễn đàn là hữu ích nhất cho sinh viên đọc. Đây là những điều hoàn toàn không thể biết được trước đây, và có thể làm thay đổi việc dạy và học mãi mãi. Dữ liệu xả có thể là một lợi thế cạnh tranh rất lớn cho các công ty.

Nó cũng có thể trở thành một rào cản mạnh mẽ để ngăn đối thủ mới xuất hiện. Nếu một công ty vừa thành lập tạo ra một trang web thương mại điện tử, mạng xã hội, hay công cụ tìm kiếm tốt hơn rất nhiều so với các công ty hàng đầu hiện nay như Amazon, Google, hay Facebook, nó sẽ gặp khó khăn khi cạnh tranh, không chỉ đơn giản vì những hiệu ứng của kinh tế quy mô lớn và mạng lưới hoặc thương hiệu, mà còn vì phần lớn hiệu suất của những công ty hàng đầu này là từ dữ liệu xả họ thu thập từ các tương tác của khách hàng và kết hợp trở lại vào dịch vụ. Liệu một dịch vụ web đào tạo trực tuyến mới có đủ sức cạnh tranh với một địch thủ đã có một lượng khổng lồ dữ liệu để giúp nó tìm hiểu được những gì sẽ hoạt động hiệu quả nhất?

Giá trị của dữ liệu mở

Ngày nay chúng ta dễ nghĩ các trang web như Google và Amazon là những nhà tiên phong của dữ liệu lớn, nhưng tất nhiên các chính phủ mới là những người thu lượm thông tin gốc trên quy mô lớn, và họ sẽ không kém cạnh bất kỳ doanh nghiệp tư nhân nào về khối lượng lớn dữ liệu mà họ kiểm soát. Một sự khác biệt với các chủ sở hữu dữ liệu trong khu vực tư nhân là các chính phủ thường có thể bắt buộc mọi người cung cấp thông tin, chứ không phải thuyết phục họ làm như vậy hoặc phải trả cho họ một cái gì đó để đổi lại. Do đó, chính phủ sẽ vẫn tiếp tục tích lũy được những kho tàng lớn dữ liệu.

Những bài học của dữ liệu lớn áp dụng cho khu vực công cũng giống như cho các cơ sở thương mại: giá trị dữ liệu của chính phủ là tiềm ẩn và đòi hỏi việc phân tích sáng tạo để được khai thông. Nhưng bất chấp vị trí đặc biệt của mình trong việc nắm bắt thông tin, các chính phủ thường không mấy hiệu quả trong việc khai thác nó. Gần đây, một ý tưởng được nhiều người xem như cách tốt nhất để tận dụng các giá trị của dữ liệu từ chính phủ là để cho khu vực tư nhân và công chúng nói chung truy cập dữ liệu và thử nghiệm. Còn có một nguyên lý nữa ở phía sau. Khi nhà nước tập hợp dữ liệu, họ làm việc đó thay mặt cho các công dân, và do đó nhà nước phải cung cấp quyền truy cập cho đại chúng (ngoại trừ một số ít trường hợp, chẳng hạn như khi làm như vậy có thể gây tổn hại cho an ninh quốc gia hoặc các quyền riêng tư của những người khác).

Ý tưởng này đã dẫn đến vô số những sáng kiến “dữ liệu chính phủ mở” trên toàn cầu. Cho rằng chính phủ chỉ canh giữ các thông tin mà họ thu thập, còn khu vực tư nhân và đại chúng sẽ sáng tạo hơn, những người ủng hộ dữ liệu mở kêu gọi các cơ quan chính phủ công khai dữ liệu cho các mục đích dân sự và thương mại. Để làm được việc này, tất nhiên, dữ liệu phải ở một dạng chuẩn hóa, máy có thể đọc được để dễ dàng xử lý. Nếu không, các thông tin chỉ là công khai trên danh nghĩa.

Ý tưởng về dữ liệu mở của chính phủ được thúc đẩy mạnh khi Tổng thống Barack Obama, vào ngày làm việc đầu tiên của ông tại Nhà Trắng, 21 tháng 1 năm 2009, ban hành một biên bản ghi nhớ của Tổng thống ra lệnh cho người đứng đầu các cơ quan của liên bang phải công bố càng nhiều dữ liệu càng tốt. “Đối mặt với sự nghi ngờ, việc mở cửa sẽ thắng thế”, ông chỉ thị. Đó là một tuyên bố đáng chú ý, đặc biệt khi so sánh với người tiền nhiệm đã chỉ thị các cơ quan làm chính xác điều ngược lại. Lệnh của Obama thúc đẩy việc tạo ra trang web data.gov, một kho lưu trữ mở cho phép truy cập đến thông tin từ chính phủ liên bang. Trang web nhanh chóng phát triển từ 47 bộ dữ liệu trong năm 2009 lên gần 450.000 bộ dữ liệu bao gồm 172 cơ quan vào dịp kỷ niệm ba năm hoạt động, tháng 7 năm 2012.

Thậm chí ở nước Anh bảo thủ, nơi rất nhiều thông tin chính phủ đã bị khóa bởi Luật bản quyền Crown, đồng thời để được cấp giấy phép sử dụng sẽ rất khó khăn và tốn kém (chẳng hạn như mã bưu chính cho các công ty thương mại điện tử), cũng đã có tiến bộ đáng kể. Chính phủ Anh đã ban hành quy định khuyến khích thông tin mở và hỗ trợ việc thành lập một Viện Dữ liệu Mở, do Tim Berners-Lee, người phát minh ra World Wide Web, đồng lãnh đạo để thúc đẩy những ứng dụng mới mẻ của dữ liệu mở và những cách thức để giải phóng nó khỏi sự kiềm kẹp của nhà nước.

Liên minh châu Âu cũng công bố những sáng kiến dữ liệu mở có thể sớm trở thành những sáng kiến của châu lục. Các nước khác, như Úc, Brazil, Chile, và Kenya, đã ban hành và thực hiện các chiến lược dữ liệu mở. Bên dưới cấp quốc gia, một số lượng ngày càng tăng các thành phố và đô thị trên thế giới cũng chấp nhận mở dữ liệu. Các tổ chức quốc tế như Ngân hàng Thế giới đã mở cửa hàng trăm bộ dữ liệu về các chỉ tiêu kinh tế và xã hội mà trước đây đã bị giới hạn.

Song song đó, cộng đồng các nhà phát triển web và các nhà tư tưởng nhìn xa trông rộng đã được hình thành để tìm ra cách thu được nhiều nhất từ dữ liệu, ví dụ như Code for America và Quỹ Sunlight tại Hoa Kỳ, hoặc Quỹ Tri thức Mở tại Anh. Một ví dụ sớm về các khả năng của dữ liệu mở xuất phát từ trang web FlyOnTime.us. Khách truy cập vào trang web có thể tương tác để tìm hiểu (trong số nhiều mối tương quan khác) khả năng thời tiết xấu sẽ trì hoãn các chuyên bay tại một sân bay cụ thể. Trang web kết hợp chuyến bay và thông tin thời tiết từ những nguồn số liệu chính thức được truy cập tự do qua Internet. Nó được phát triển bởi những người ủng hộ dữ-liệu-mở để biểu lộ sự hữu ích của thông tin tích lũy được của chính phủ liên bang. Ngay cả phần mềm của trang web cũng là mã nguồn mở, để những người khác có thể học hỏi từ nó và tái sử dụng nó.

FlyOnTime.us để cho dữ liệu tự nói, và nó thường nói những điều đáng ngạc nhiên. Người ta có thể thấy với những chuyên bay từ Boston đi sân bay LaGuardia New York, du khách cần chuẩn bị cho sự chậm trễ vì sương mù với thời gian dài gấp đôi so với vì tuyết. Điều này có lẽ không phải là thứ hầu hết mọi người có thể đoán được khi ngồi ở phòng chờ khởi hành; tuyết có vẻ là một nguyên nhân nghiêm trọng hơn gây chậm trễ. Nhưng đây là loại hiểu biết mà dữ liệu lớn có thể mang lại, qua khảo sát dữ liệu lịch sử các vụ trễ chuyến bay của Cục Giao thông Vận tải, thông tin sân bay hiện tại từ Cục Hàng không Liên bang, cùng với dự báo thời tiết từ Cơ quan Đại dương và Khí quyển Quốc gia và các điều kiện thời gian thực từ Cục Thời tiết Quốc gia. FlyOnTime.us cho thấy rằng một thực thể không hề thu thập hay kiểm soát dòng chảy thông tin, giống như một công cụ tìm kiếm hay nhà bán lẻ lớn, có thể vẫn nhận được và sử dụng dữ liệu để tạo ra giá trị như thế nào.

Định giá sự vô giá

Dù mở cho công chúng hay khóa kín trong hầm của công ty, giá trị của dữ liệu rất khó để đo lường. Hãy xem xét các sự kiện của ngày thứ Sáu, 18 tháng 5 năm 2012. Vào ngày đó, người sáng lập Facebook Mark Zuckerberg, 28 tuổi, đã rung chuông một cách tượng trưng từ trụ sở chính của công ty tại Menlo Park, California để mở đầu phiên giao dịch của chứng khoán NASDAQ. Mạng xã hội lớn nhất thế giới – tự hào vì có khoảng một phần mười dân số hành tinh là thành viên lúc đó – bắt đầu cuộc đời mới của mình như một công ty đại chúng, cổ phiếu ngay lập tức tăng 11 phần trăm, giống như nhiều cổ phiếu công nghệ mới trong ngày giao dịch đầu tiên. Tuy nhiên, sau đó một điều kỳ lạ đã xảy ra. Cổ phiếu của Facebook bắt đầu rơi. Xu hướng không thay đổi khi một trục trặc kỹ thuật với máy tính của NASDAQ đã tạm thời dừng giao dịch. Một vấn đề lớn hơn đang xảy ra. Cảm thấy lo ngại, các nhà bảo lãnh phát hành chứng khoán, dẫn đầu là Morgan Stanley, đã thực sự nhảy vào hỗ trợ để giữ cổ phiếu ở trên giá phát hành.

Buổi tối hôm trước, các ngân hàng của Facebook đã định giá công ty ở mức $38 một cổ phiếu, và công ty được định giá tương đương 104 tỷ đôla. (Như vậy là xấp xỉ mức vốn hóa thị trường của Boeing, General Motors, và Dell Computers cộng lại.) Facebook thực sự có giá trị bao nhiêu? Trong báo cáo tài chính đã được kiểm toán cho năm 2011, cơ sở để các nhà đầu tư định giá công ty, Facebook công bố tài sản là $6,3 tỷ. Đó là đại diện cho giá trị của phần cứng máy tính, thiết bị văn phòng, và các công cụ vật lý khác. Đối với giá trị sổ sách trên các kho tàng lớn thông tin mà Facebook cất giữ thì sao? Về cơ bản là bằng không. Nó không được tính vào, mặc dù công ty này gần như không có gì ngoài dữ liệu.

Tình hình còn trở nên kỳ quặc hơn. Doug Laney, phó chủ tịch nghiên cứu của công ty nghiên cứu thị trường Gartner, phân tích các số liệu trong giai đoạn trước khi phát hành lần đầu ra công chúng (IPO) và cho rằng Facebook đã thu thập được 2,1 nghìn tỷ mục “nội dung có thể định giá” từ năm 2009 đến 2011, ví dụ như các nội dung “thích”, các tư liệu đăng tải, và các ý kiến. So sánh với việc định giá IPO thì điều này có nghĩa là mỗi mục, được xem như một điểm dữ liệu rời rạc, có giá trị khoảng 5 cent. Theo một cách nhìn khác, mỗi người sử dụng Facebook có giá trị khoảng $100, bởi vì người sử dụng là nguồn gốc của các thông tin mà Facebook thu thập.

Làm thế nào để giải thích sự chênh lệch lớn giữa giá trị của Facebook theo các chuẩn mực kế toán ($6,3 tỷ) và những gì thị trường ban đầu định giá nó ($104 tỷ)? Không có cách nào đủ tốt để làm việc này. Thay vào đó, người ta thống nhất phương pháp hiện hành xác định giá trị của công ty bằng cách nhìn vào “giá trị sổ sách” của nó (nghĩa là chủ yếu gồm giá trị tiền mặt và các tài sản vật chất). Cách này không còn phản ánh đầy đủ giá trị thực sự. Thật ra, khoảng cách giữa giá trị sổ sách và “giá trị thị trường” – những gì công ty sẽ thu được trên thị trường chứng khoán hoặc nếu nó được mua toàn bộ – đã tăng qua nhiều thập kỷ. Thượng viện Mỹ thậm chí đã có những buổi điều trần trong năm 2000 về hiện đại hóa các quy định báo cáo tài chính, những thứ được xây dựng từ những năm 1930 khi các doanh nghiệp dựa trên thông tin hầu như không tồn tại. Vấn đề này ảnh hưởng đến nhiều thứ chứ không chỉ bảng cân đối tài chính của công ty: việc không thể đánh giá đúng giá trị của công ty làm phát sinh rủi ro trong kinh doanh và gây bất ổn trên thị trường.

Sự khác biệt giữa giá trị sổ sách của công ty và giá trị thị trường của nó được ghi nhận là “tài sản vô hình”. Nó đã tăng từ khoảng 40 phần trăm giá trị của các công ty giao dịch công khai ở Hoa Kỳ vào giữa những năm 1980 lên đến ba phần tư giá trị của chúng vào đầu thiên niên kỷ mới. Đây là sự phân kỳ lớn. Những tài sản vô hình này được xem là bao gồm thương hiệu, tài năng, và chiến lược – bất cứ thứ gì phi vật chất và là thành phần của hệ thống tài chính kế toán hình thức. Và càng ngày, tài sản vô hình càng gắn với dữ liệu mà công ty nắm giữ và sử dụng.

Cuối cùng, điều này cho thấy hiện nay không có cách rõ ràng để xác định giá trị dữ liệu. Ngày đầu giao dịch cổ phiếu Facebook, khoảng cách giữa tài sản chính thức và giá trị vô hình không được ghi lại của nó là gần $100 tỷ. Đúng là khôi hài. Tuy nhiên, khoảng cách này phải và sẽ khép lại bời các công ty sẽ tìm cách ghi nhận giá trị tài sản dữ liệu của họ trong bảng cân đối.

Những bước đi ban đầu theo hướng này đang được tiến hành. Một giám đốc điều hành cao cấp tại một trong những nhà khai thác mạng vô tuyến lớn nhất nước Mỹ cho biết các nhà khai thác đã nhận ra giá trị to lớn của dữ liệu và nghiên cứu liệu có nên xem nó như một tài sản của công ty trên phương diện kế toán chính thức. Nhưng ngay khi các luật sư của công ty nghe nói về sáng kiến này, họ đã dừng nó lại. Đưa dữ liệu lên sổ sách có thể khiến công ty phải chịu trách nhiệm về mặt pháp lý với nó, các cây đại thụ trong ngành luật lập luận, và họ cho rằng đó chẳng phải một ý tưởng hay ho gì.

Trong khi đó, các nhà đầu tư cũng bắt đầu chú ý đến giá trị tương lai của dữ liệu. Giá cổ phiếu có thể tăng lên với các công ty nào có dữ liệu hoặc có thể thu thập dữ liệu một cách dễ dàng, trong khi những công ty khác ở các vị trí kém may mắn hơn có thể thấy giá thị trường của họ co lại. Dữ liệu không nhất thiết phải chính thức xuất hiện trên các bảng cân đối để khiến điều này xảy ra. Thị trường và các nhà đầu tư sẽ đưa những tài sản vô hình này vào việc định giá – mặc dù sẽ khó khăn, như các biến động giá cổ phiếu của Facebook trong mấy tháng đầu tiên minh chứng. Nhưng khi những khó khăn về kế toán và những lo lắng về trách nhiệm được giảm bớt, gần như chắc chắn giá trị của dữ liệu sẽ hiển thị trên các bảng cân đối của công ty và trở thành một loại tài sản mới.

Vậy dữ liệu được định giá như thế nào? Việc tính toán giá trị của nó sẽ không chỉ đơn giản là cộng những gì đã đạt được từ ứng dụng chính của nó. Nếu hầu hết giá trị của dữ liệu là tiềm ẩn và có nguồn gốc từ những ứng dụng phụ chưa biết trong tương lai, cách ước lượng nó sẽ không thể ngay lập tức trở nên rõ ràng. Điều này tương tự như những khó khăn của việc định giá các yếu tố tài chính phát sinh trước khi phát triển phương trình Black-Scholes trong những năm 1970, hoặc khó khăn trong việc xác định giá trị bằng sáng chế, lĩnh vực mà các vụ bán đấu giá, trao đổi, bán hàng tư nhân, cấp phép, và rất nhiều vụ kiện tụng đang dần tạo ra một thị trường của tri thức. Ít ra, việc áp đặt một giá cho giá trị tương lai của dữ liệu chắc chắn thể hiện một cơ hội quý báu cho lĩnh vực tài chính.

Một cách để bắt đầu là xem xét các chiến lược khác nhau mà những người sở hữu dữ liệu áp dụng để tận dụng giá trị. Khả năng rõ ràng nhất là để phục vụ cho việc ứng dụng riêng của chính công ty. Tuy nhiên, một công ty khó có khả năng phát hiện ra tất cả các giá trị tiềm ẩn của dữ liệu. Do đó với một tham vọng lớn hơn, công ty có thể cấp giấy phép sử dụng dữ liệu cho bên thứ ba. Trong thời đại dữ-liệu-lớn, nhiều chủ sở hữu dữ liệu có thể muốn lựa chọn một thỏa thuận trả một tỷ lệ phần trăm giá trị trích xuất từ dữ liệu thay vì một khoản phí cố định. Nó tương tự như các nhà xuất bản phải trả một tỷ lệ phần trăm của doanh thu từ sách, nhạc, hay phim với vai trò tiền bản quyền cho tác giả và người biểu diễn. Nó cũng giống như những thỏa thuận sở hữu trí tuệ trong công nghệ sinh học, bên cấp giấy phép có thể yêu cầu tiền bản quyền trên bất cứ phát minh tiếp theo nào xuất phát từ công nghệ của họ. Bằng cách này, tất cả các bên đều có động cơ để tối đa hóa giá trị thu được từ việc tái sử dụng dữ liệu.

Tuy nhiên, do người được cấp phép có thể thất bại trong việc tận dụng toàn bộ giá trị tương lai, chủ sở hữu dữ liệu có thể không muốn cấp quyền truy cập tài sản của họ theo kiểu độc quyền. Thay vì vậy, “dữ liệu chung chạ” có thể trở thành tiêu chuẩn. Bằng cách đó, họ có thể tự bảo hiểm cho mình.

Một số thị trường đã ra đời để thử nghiệm với những cách thức định giá dữ liệu. DataMarket, được thành lập ở Iceland vào năm 2008, cung cấp quyền truy cập tới các bộ dữ liệu miễn phí từ các nguồn khác, chẳng hạn như Liên Hiệp Quốc, Ngân hàng Thế giới, và Eurostat, và kiếm doanh thu bằng cách bán lại dữ liệu từ các nhà cung cấp thương mại như các công ty nghiên cứu thị trường. Những công ty mới thành lập khác cố gắng trở thành trung gian về thông tin, nền tảng cho các bên thứ ba chia sẻ dữ liệu của họ, miễn phí hoặc có tính phí. Ý tưởng ở đây là để cho phép bất cứ ai bán dữ liệu có trong cơ sở dữ liệu của họ, giống như eBay cung cấp một nền tảng cho người dân bán những thứ trong gác xép của họ. Import.io khuyến khích các công ty cấp phép dữ liệu của họ, những loại dữ liệu dễ bị “cướp” từ Internet và sử dụng miễn phí. Và Factual, công ty do cựu thành viên của Google Gil Elbaz thành lập, đang cung cấp các bộ dữ liệu mà nó đã bỏ thời gian để tự sưu tập.

Microsoft cũng bước vào lĩnh vực này với Windows Azure Marketplace, tập trung vào dữ liệu chất lượng cao và giám sát những gì đang được chào bán, tương tự như cách Apple giám sát các dịch vụ trong cửa hàng ứng dụng của nó. Với tầm nhìn của Microsoft, một nhà quản lý tiếp thị làm việc trên một bảng tính Excel có thể muốn lập bảng phối hợp dữ liệu nội bộ công ty của mình với các dự báo tăng trưởng GDP từ một hãng tư vấn kinh tế. Vì vậy cô nhấp chuột để mua dữ liệu ở nơi này hoặc nơi kia, và ngay lập tức dữ liệu “chảy” vào các cột bảng tính của cô trên màn hình.

Cho đến nay vẫn chưa có thông tin về việc các mô hình định giá sẽ diễn ra như thế nào. Nhưng điều chắc chắn là nền kinh tế đang bắt đầu hình thành xung quanh dữ liệu – và nhiều người mới tham gia sẽ được hưởng lợi, trong khi một số người cũ có thể sẽ ngạc nhiên thấy luồng sinh khí mới. “Dữ liệu là một nền tảng”, theo lời của Tim O’Reilly, một nhà xuất bản công nghệ và một học giả của Thung Lũng Silicon, vì nó là một khối xây dựng cho các hàng hóa và mô hình kinh doanh mới.

Điểm mấu chốt trong giá trị của dữ liệu là tiềm năng dường như không giới hạn của nó cho tái sử dụng: giá trị tương lai. Việc thu thập thông tin tuy rất quan trọng nhưng không đủ, vì hầu hết giá trị của dữ liệu nằm ở công dụng của nó, chứ không chỉ ở chỗ sở hữu nó. Trong chương tiếp theo, chúng ta sẽ xem thật ra dữ liệu đang được sử dụng và các doanh nghiệp dữ-liệu-lớn đang nổi lên như thế nào.

Chưa có ai yêu thích truyện này!
× Chú ý: Ấn vào MENU chọn D/S TRUYỆN ĐANG ĐỌC hoặc ấn vào biểu tượng CUỘN GIẤY ở trên cùng để xem lại các truyện bạn đang đọc dở nhé.    

Đọc truyện hay đừng quên like và chia sẻ truyện tới bạn bè, để lại bình luận là cách để ủng hộ webtruyenfree. Thỉnh thoảng ấn vào q uảng c áo ngày 1-2 lần để tụi mình có kinh phí duy trì web các bạn nhé!


 BÌNH LUẬN TRUYỆN