Dữ Liệu Lớn - Big Data
Chương 5: Dữ Liệu Hóa
Matthew Fontaine Maury là một sĩ quan Hải quân Hoa Kỳ đầy triển vọng. Trên đường nhận một nhiệm vụ mới tại Consort vào năm 1839, xe ngựa của ông đột nhiên trượt khỏi đường, lật nhào, và ném ông vào không khí. Ông bị ngã đau, gãy xương đùi và trẹo khớp gối. Khớp được một bác sĩ địa phương chỉnh lại vào vị trí, nhưng xương đùi thì được xếp rất tồi và vài ngày sau bị tháo ra để đặt lại. Những vết thương đã làm Maury, lúc đó mới 33 tuổi, bị liệt một phần và không còn thích hợp với biển. Sau gần ba năm hồi phục, Hải quân xếp cho ông công việc bàn giấy, phụ trách một nơi nghe chẳng hấp dẫn chút nào – Kho Bản đồ và Khí giới.
Hóa ra đó lại là nơi hoàn hảo cho ông. Là một hoa tiêu trẻ, Maury từng rất bực bội vì các con tàu cứ chạy ngoằn ngoèo trên đại dương thay vì đi theo những tuyến đường trực tiếp hơn. Khi ông hỏi các thuyền trưởng về chuyện này, họ trả lời rằng việc đi theo một tuyến đường quen thuộc sẽ tốt hơn là chấp nhận may rủi với một tuyến đường mình không nắm rõ bằng, vốn dĩ tiềm ẩn những nguy hiểm. Họ xem đại dương như là một địa hạt không thể đoán trước, nơi các thủy thủ phải đối mặt những bất ngờ với tất cả gió và sóng.
Tuy nhiên, từ những chuyến đi của ông, Maury biết rằng điều này không hoàn toàn đúng, ông nhìn ra những khuôn mẫu ở khắp mọi nơi. Trong một chặng dừng kéo dài tại Valparaiso, Chile, ông đã chứng kiến những cơn gió hoạt động chính xác cứ như đồng hồ. Một cơn gió mạnh vào chiều muộn sẽ đột nhiên dịu đi lúc mặt trời lặn và trở thành một làn gió nhẹ, cứ như thể ai đó vừa ngắt van. Trong một chuyên đi khác ông đã vượt qua dòng hải lưu xanh ấm áp Gulf Stream khi nó chảy giữa những khoảng tối của nước biển Đại Tây Dương. Trông nó thật khác biệt và ổn định, cứ như thể đó là dòng sông Mississippi vậy. Thật ra, người Bồ Đào Nha đã đi lại trên Đại Tây Dương hàng thế kỷ bằng cách dựa vào các luồng gió đông và tây đều đặn được gọi là “gió mậu dịch”.
Bất cứ khi nào chuẩn úy hải quân Maury đến một cảng mới, ông đều tìm kiếm những thuyền trưởng già để thu thập kiến thức của họ, dựa trên các trải nghiệm được truyền lại qua các thế hệ. Ông đã học được những kiến thức về thủy triều, gió, và hải lưu hoạt động theo quy luật, nhưng không hề được tìm thấy trong các sách và bản đồ mà Hải quân cấp cho các thủy thủ. Thay vào đó, họ dựa trên những bản đồ đôi khi cũ cả trăm năm, nhiều bản đồ có rất nhiều thiếu sót hoặc hoàn toàn không chính xác. Trong cương vị mới là người quản lý Kho Bản đồ và Quân dụng, ông tập trung khắc phục điều đó.
Khi nhận nhiệm vụ, ông kiểm kê các phong vũ biểu, la bàn, kính lục phân, và đồng hồ bấm giờ trong bộ sưu tập của kho. Ông cũng chú ý tới vô số những cuốn sách, bản đồ, và biểu đồ hàng hải có trong kho. Ông đã tìm thấy những thùng mốc đầy các sổ ghi chép cũ từ tất cả những chuyến đi trước đây của các thuyền trưởng Hải quân. Người tiền nhiệm của ông đã xem chúng là rác. Với những lời hài hước hoặc những hình phác thảo kỳ quặc trên lề các trang giấy, chúng đôi khi có vẻ giống như một cách để thoát khỏi sự nhàm chán của chuyến đi hơn là một sự ghi chép về hành trình của con tàu.
Nhưng khi Maury phủi bụi những cuốn sách ố màu nước biển và xem kỹ bên trong, ông thật sự thích thú. Đây là những thông tin ông cần: hồ sơ về gió, nước và thời tiết tại những địa điểm cụ thể trong những ngày cụ thể. Mặc dù một số bản ghi cung cấp được ít giá trị, nhiều bản khác đã cho thấy bạt ngàn thông tin hữu ích. Ghép tất cả chúng lại, Maury nhận thấy một hình thức hoàn toàn mới của biểu đồ điều hướng sẽ hoàn toàn khả thi. Maury và cả tá “máy tính” của ông – chức danh của những người tính toán số liệu – bắt đầu quá trình cần mẫn trích xuất và lập bảng các thông tin đã bị giam cầm bên trong các cuốn sổ ghi chép đang bị hủy hoại.
Maury tổng hợp các dữ liệu và phân chia toàn bộ Đại Tây Dương thành các khối năm độ kinh tuyến và vĩ tuyến. Với từng phân khúc ông ghi nhiệt độ, tốc độ, hướng của gió và sóng, cùng với tháng, vì những điều kiện này khác nhau tùy thuộc vào thời gian trong năm. Khi kết hợp lại, dữ liệu cho thấy những mô hình và chỉ ra được những tuyến đường hiệu quả hơn.
Lời khuyên của nhiều thế hệ thủy thủ đôi khi đã đưa những con tàu thẳng tiến vào những vùng yên ả hoặc khiến chúng phải đọ sức với gió và dòng chảy ngược chiều. Trên một tuyến đường thông thường, từ New York đến Rio de Janeiro, các thủy thủ từ lâu đã có tư tưởng phải chống lại thiên nhiên thay vì dựa vào nó. Các hoa tiêu Mỹ được dạy tránh các nguy hiểm của một hành trình về phía nam thẳng đến Rio. Vì vậy, những con tàu của họ đã lướt theo dòng đông nam trước khi chuyển qua dòng tây nam sau khi vượt qua đường xích đạo. Khoảng cách đi thuyền thường lên tới ba lần xuyên suốt toàn bộ Đại Tây Dương. Tuyến đường phức tạp hóa ra lại là vô nghĩa. Một đường đơn giản trực tiếp về phía nam cũng đã là tốt.
Để tăng độ chính xác, Maury cần nhiều thông tin hơn. Ông đã tạo ra một phiếu chuẩn để ghi nhật ký dữ liệu của tàu và yêu cầu tất cả các tàu Hải quân Mỹ sử dụng và nộp lại khi kết thúc chuyến đi. Các tàu buôn rất muốn có được những sơ đồ của ông, nhưng Maury kiên quyết yêu cầu đổi lại họ phải nộp các phiếu ghi nhật ký tàu của họ (một phiên bản sớm của một mạng xã hội lan truyền). “Mỗi con tàu đi trên đại dương”, ông tuyên bố, “có thể từ nay về sau được xem như một đài quan sát nổi, một ngôi đền của khoa học”. Để tinh chỉnh các sơ đồ, ông đã tìm kiếm các điểm dữ liệu khác (giống như Google xây dựng trên thuật toán PageRank để bao gồm nhiều tín hiệu hơn). Ông yêu cầu các thuyền trưởng ném chai với các ghi chú cho thấy ngày, vị trí, gió, và dòng chảy phổ biến trên biển theo định kỳ, và vớt những chai như vậy khi phát hiện ra chúng. Nhiều tàu cắm một lá cờ đặc biệt để cho thấy họ đã hợp tác với việc trao đổi thông tin (tiền thân của các biểu tượng chia sẻ liên kết sau này xuất hiện trên một số trang web).
Từ các dữ liệu, các tuyến đường biển tự nhiên đã tự thể hiện, nơi mà gió và dòng chảy là đặc biệt thuận lợi. Các sơ đồ của Maury cắt giảm được những hành trình dài, thường khoảng một phần ba, giúp các thương gia tiết kiệm được rất nhiều chi phí. “Cho đến khi có được những tài liệu của ông, tôi đã vượt qua đại dương trong mịt mù”, một thuyền trưởng đã viết lời tán thưởng như vậy. Và thậm chí cả những người đi biển sành sỏi, vẫn từ chối các sơ đồ mới lạ và dựa trên những cách truyền thống hoặc trực giác của họ, cũng đóng một vai trò hữu ích: nếu hành trình của họ mất nhiều thời gian hơn hoặc gặp thảm họa, xem như họ đã chứng minh tính tiện ích cho hệ thống của Maury. Đến năm 1855, khi xuất bản tác phẩm có uy tín The Physical Geography of the Sea, Maury đã vẽ được 1,2 triệu điểm dữ liệu. “Do đó, một thủy thủ trẻ, thay vì mò mẫm theo cách của mình cho đến khi ánh sáng của kinh nghiệm đến với anh ta… thì qua đây sẽ thấy rằng anh ta đã có kinh nghiệm của một ngàn hoa tiêu để hướng dẫn cho mình, cùng một lúc”, ông đã viết.
Công trình của ông có ý nghĩa quan trọng cho việc lắp đặt cáp điện báo xuyên Đại Tây Dương đầu tiên. Và, sau một vụ va chạm thảm khốc trên biển, ông đã nhanh chóng sắp đặt hệ thống các làn tàu vận chuyển mà ngày nay đã trở thành phổ biến. Thậm chí ông còn áp dụng phương pháp của mình cho thiên văn học: khi hành tinh Neptune được phát hiện vào năm 1846, Maury đã có ý tưởng tuyệt vời là phối hợp các tài liệu lưu trữ đã nhầm lẫn nhắc đến nó như một ngôi sao, và chúng đã giúp vẽ được quỹ đạo của Neptune. Maury đã hầu như bị bỏ qua trong các sách lịch sử Mỹ, có lẽ bởi con người gốc Virginia này đã từ chức khỏi Hải quân trong thời kỳ Nội chiến và phục vụ như một điệp viên ở Anh cho phe Liên minh. Nhưng nhiều năm trước đó, khi ông đến châu Âu để kêu gọi sự hỗ trợ quốc tế cho các sơ đồ của mình, bốn quốc gia đã phong tước hiệp sĩ cho Maury, và ông đã nhận được huy chương vàng từ tám nước khác, bao gồm cả Vatican. Vào thời kỳ đầu của thế kỷ XXI, biểu đồ dẫn đường do Hải quân Mỹ xuất bản vẫn mang tên ông.
Trung tá Maury, “Thám tử của đại dương”, là một trong những người đầu tiên nhận ra rằng có một thứ giá trị đặc biệt trong một gói tổng hợp rất lớn của dữ liệu, điều không thể có được với lượng dữ liệu nhỏ hơn – một nguyên lý cốt lõi của dữ liệu lớn. Về cơ bản, ông hiểu rằng những tập nhật ký hàng hải mốc meo của Hải quân đã thực sự tạo nên “dữ liệu” có thể khai thác, trích xuất và lập bảng. Khi làm như vậy, ông là một trong những người tiên phong của dữ liệu hóa, khai quật dữ liệu từ một nguồn mà không ai nghĩ rằng có chứa bất kỳ giá trị nào. Giống như Oren Etzioni tại Farecast, người đã sử dụng thông tin về giá cũ của ngành công nghiệp hàng không để tạo ra một công việc kinh doanh sinh lợi, hay các kỹ sư tại Google, những người đã tận dụng những câu hỏi tìm kiếm cũ để hiểu về sự lây lan của dịch cúm, Maury đã lấy thông tin được tạo ra cho một mục đích và chuyển đổi nó thành một cái gì đó khác nữa.
Phương pháp của ông, gần tương tự với các kỹ thuật dữ-liệu-lớn ngày hôm nay, thật đáng kinh ngạc nếu xét rằng nó đã được thực hiện chỉ với giấy và bút chì. Câu chuyện của ông làm nổi bật mức độ của việc sử dụng dữ liệu trước thời đại số hóa. Ngày nay chúng ta có xu hướng kết hợp hai thứ này, nhưng điều quan trọng là giữ chúng tách biệt. Để có được một sự hình dung đầy đủ hơn về cách dữ liệu được trích xuất từ những nơi ít ngờ đến nhất, hãy xem một ví dụ hiện đại hơn.
Đánh giá tư thế của con người là môn nghệ thuật cả khoa học của Shigeomi Koshimizu, một giáo sư tại Học viện cao cấp Nhật Bản về Công nghệ ở Tokyo. Ít ai nghĩ rằng cách một người ngồi lại chứa đựng thông tin, nhưng thật ra là có. Khi một người đang ngồi, những yếu tố như đường nét của cơ thể, tư thế, và phân phối trọng lượng… đều có thể được định lượng và lập bảng. Koshimizu và đội ngũ kỹ sư của ông chuyển đổi các phần phía sau cơ thể thành dữ liệu bằng cách đo áp lực tại 360 điểm khác nhau từ cảm biến trong ghế ngồi xe và lập chỉ số mỗi điểm trên thang điểm từ 0 đến 256. Kết quả là mỗi cá nhân sẽ có một mã số duy nhất. Trong một thử nghiệm, hệ thống đã có thể phân biệt giữa khá nhiều người với độ chính xác 98 phần trăm.
Nghiên cứu kể trên không phải thứ ngớ ngẩn. Công nghệ này đang được phát triển thành một hệ thống chống trộm trong xe hơi. Một chiếc xe được trang bị công nghệ này sẽ nhận ra một người nào đó, khác với người lái xe đã được xác nhận, đang ngồi sau tay lái. Khi đó nó sẽ yêu cầu một mật khẩu để cho phép tiếp tục lái xe hoặc ngắt động cơ. Việc chuyển các tư thế ngồi thành dữ liệu đã tạo ra một dịch vụ khả thi và một công việc kinh doanh có khả năng sinh lợi. Và tính hữu dụng của nó có thể đi xa hơn cả việc ngăn chặn hành vi trộm cắp xe hơi. Ví dụ các dữ liệu tổng hợp có thể tiết lộ những manh mối về sự liên hệ giữa tư thế của người lái và mức an toàn giao thông, chẳng hạn như tư thế ngồi trước khi xảy ra tai nạn. Hệ thống cũng có thể cảm nhận được khi người lái xe có dấu hiệu mệt mỏi để gửi một cảnh báo hoặc tự động nhấn phanh. Và có thể nó không chỉ ngăn chặn một vụ ăn cắp xe mà còn xác định được kẻ trộm từ cặp mông của hắn (có thể nói như vậy).
Giáo sư Koshimizu đã chọn một thứ chưa bao giờ được xem như dữ liệu – hoặc thậm chí từng được hình dung rằng có khả năng cung cấp thông tin – và chuyển đổi nó thành một dạng số liệu. Tương tự như vậy, thuyền trưởng Maury đã chọn những tài liệu dường như rất ít có khả năng sử dụng để trích thông tin, biến nó thành dữ liệu vô cùng hữu ích. Việc này giúp các thông tin được sử dụng theo cách mới mẻ và tạo ra một giá trị độc đáo.
Từ “dữ liệu” mang nghĩa “đã có” trong tiếng Latin, theo nét nghĩa là một “điều thực tế”. Nó đã trở thành tiêu đề của một công trình kinh điển của Euclid, trong đó ông giải thích hình học từ những gì được biết đến hoặc có thể được chứng minh là được biết đến. Ngày nay dữ liệu ám chỉ một cái gì đó cho phép nó được ghi lại, phân tích, và tổ chức. Chưa có thuật ngữ chính xác cho các loại chuyển đổi như của thuyền trưởng Maury và giáo sư Koshimizu. Vì vậy, hãy tạm gọi chúng là dữ liệu hóa (datafication). Dữ liệu hóa một hiện tượng là đặt nó trong một dạng định lượng để nó có thể được phân tích và lập bảng.
Một lần nữa, điều này rất khác với việc số hóa – quá trình chuyển đổi thông tin dạng tương tự thành những số 0 và 1 của mã nhị phân để máy tính có thể xử lý được, số hóa không phải là thứ đầu tiên chúng ta làm với máy tính. Thời kỳ ban đầu của cuộc cách mạng máy tính là tính toán, như từ nguyên của nó cho thấy. Chúng ta sử dụng máy để làm các phép tính toán từng đòi hỏi rất nhiều thời gian nếu bằng các phương pháp trước đây: chẳng hạn như bảng quỹ đạo tên lửa, tổng điều tra dân số, và dự báo thời tiết. Chỉ sau đó mới đến việc lấy nội dung tương tự và số hóa nó. Do đó khi Nicholas Negroponte của MIT Media Lab xuất bản cuốn sách mang tính bước ngoặt của ông năm 1995 tên là BeingDigital, một trong những chủ đề lớn của ông là sự chuyển đổi từ các nguyên tử sang các bit. Về căn bản, chúng ta đã số hóa văn bản trong những năm 1990. Gần đây hơn, khi khả năng lưu trữ, sức mạnh xử lý, và băng thông đã tăng lên, chúng ta đã thực hiện nó với các hình dạng nội dung khác như hình ảnh, video, và âm nhạc.
Ngày nay có một niềm tin tuyệt đối trong các chuyên gia công nghệ rằng dữ liệu lớn bắt nguồn từ cuộc cách mạng Silicon. Nhưng tất nhiên không phải vậy. Các hệ thống công nghệ thông tin hiện đại chắc chắn đã làm cho dữ liệu lớn trở nên khả thi, nhưng cốt lõi của việc chuyển đổi sang dữ liệu lớn là sự tiếp nối của cuộc tìm kiếm cổ xưa của loài người để đo lường, ghi lại và phân tích thế giới. Cuộc cách mạng IT là điều hiển nhiên khắp xung quanh chúng ta, nhưng sự nhấn mạnh chủ yếu vẫn trên chữ T (technology), công nghệ. Đã tới lúc phải thay đổi cách nhìn của chúng ta để tập trung vào chữ I (information), thông tin. Để nắm bắt thông tin có thể định lượng, để dữ liệu hóa, chúng ta cần biết cách đo lường và ghi lại những gì chúng ta đo. Điều này đòi hỏi các công cụ thích hợp. Nó cũng đòi hỏi một khao khát được định lượng và ghi chép lại. Cả hai đều là điều kiện tiên quyết của việc dữ liệu hóa, và chúng ta đã phát triển các yếu tố cơ sở cần thiết cho dữ liệu hóa từ nhiều thế kỷ trước buổi bình minh của thời đại kỹ thuật số.
Định lượng thế giới
Khả năng ghi thông tin là một trong những đường ranh phân giới giữa xã hội nguyên thủy và xã hội tiên tiến. Đếm và đo lường cơ bản về chiều dài và trọng lượng là một trong những công cụ mang tính khái niệm lâu đời nhất của các nền văn minh sớm.
Vào thiên niên kỷ thứ ba trước Công nguyên, ý tưởng về ghi chép lại thông tin đã tiến bộ đáng kể trong vùng thung lũng Indus, Ai Cập và Lưỡng Hà. Độ chính xác tăng lên, cũng như việc sử dụng đo lường trong cuộc sống hàng ngày. Sự phát triển của chữ viết ở vùng Lưỡng Hà đã mang đến một phương pháp chính xác cho việc theo dõi sản xuất và các giao dịch kinh doanh. Ngôn ngữ viết cho phép các nền văn minh sớm đo lường được những yếu tố thực tại, ghi lại chúng, và truy tìm chúng sau này. Kết hợp với nhau, việc đo lường và ghi nhận đã hỗ trợ việc tạo ra dữ liệu. Chúng là những nền tảng đầu tiên của dữ liệu hóa.
Điều này tạo ra khả năng tái tạo hoạt động của con người. Ví dụ các tòa nhà có thể được sao lại từ hồ sơ các kích thước và vật liệu của chúng. Nó cũng cho phép thử nghiệm: một kiến trúc sư hay một nhà xây dựng có thể thay đổi một số kích thước nhất định trong khi vẫn giữ những kích thước khác không thay đổi, tạo ra một thiết kế mới – mà sau đó có thể được ghi lại. Các giao dịch thương mại có thể được ghi nhận, vì vậy người ta biết sản lượng từ một vụ thu hoạch hay trên một cánh đồng (và bao nhiêu bị nhà nước lấy đi trong các loại thuế). Định lượng cho phép dự đoán và do đó lập kế hoạch, ngay cả khi chỉ là thô như đơn giản đoán xem mùa thu hoạch năm tiếp theo có dồi dào như các năm trước không. Nó cho phép các đối tác trong một giao dịch ghi nhận những gì họ còn nợ nhau. Nếu không có đo lường và ghi chép thì có thể đã không có tiền, vì sẽ không có được dữ liệu để hỗ trợ nó.
Qua nhiều thế kỷ, việc đo lường được mở rộng từ chiều dài và trọng lượng đến diện tích, khối lượng và thời gian. Vào đầu thiên niên kỷ thứ nhất sau Công nguyên, các tính năng chính của đo lường đã có ở phương Tây. Nhưng có một thiếu sót đáng kể về cách thức đo lường của các nền văn minh sớm. Nó không được tối ưu hóa cho việc tính toán, thậm chí cả những phép tính toán tương đối đơn giản. Hệ thống đếm với các chữ số La Mã không phù hợp cho việc phân tích số. Nếu không có một hệ thống cơ số mười hay số thập phân, các phép nhân và chia những số lớn là rất khó khăn ngay cả đối với các chuyên gia, và các phép đơn giản cộng và trừ sẽ khó hiểu đối với hầu hết những người còn lại.
Một hệ thống số khác đã được phát triển ở Ấn Độ vào khoảng thế kỷ thứ nhất sau Công nguyên. Nó đã lan đến Ba Tư và được cải thiện, rồi sau đó được chuyển sang những người Ả Rập, là những người đã tinh chỉnh nó rất nhiều. Nó là cơ sở của các chữ số Ả Rập chúng ta sử dụng ngày nay. Cuộc Thập tự chinh có thể đã hủy diệt các vùng đất mà người châu Âu xâm chiếm, nhưng kiến thức đã di chuyển từ Đông sang Tây, và có lẽ sự di chuyển quan trọng nhất là chữ số Ả Rập. Giáo hoàng Sylvester II, người từng nghiên cứu chúng, đã ủng hộ việc sử dụng chúng vào cuối thiên niên kỷ thứ nhất. Tới thế kỷ XII, các văn bản tiếng Ả Rập mô tả hệ thống này đã được dịch sang tiếng Latin và lan khắp châu Âu. Kết quả là toán học đã cất cánh.
Ngay cả trước khi chữ số Ả Rập đến với châu Âu, việc tính toán đã được cải thiện thông qua các bàn tính. Đó là những khay nhẵn, trên đó các thẻ được đặt để biểu thị số lượng. Bằng việc trượt các thẻ trong những vùng nhất định, người ta có thể cộng hoặc trừ. Tuy nhiên, phương pháp này có những hạn chế nghiêm trọng. Thật khó để tính toán những con số rất lớn và rất nhỏ cùng một lúc. Quan trọng nhất, những con số trên bàn tính này không rõ ràng. Một bước di chuyển sai hoặc một va chạm bất cẩn có thể thay đổi một con số, dẫn đến những kết quả không chính xác. Bàn tính có thể được chấp nhận cho việc tính toán, nhưng chúng rất kém để ghi chép. Và cách duy nhất để ghi lại, lưu trữ các số hiển thị trên các bàn tính là chuyển chúng trở lại vào chữ số La Mã không mấy hiệu quả. (Những người châu Âu chưa bao giờ được tiếp xúc với các bàn tính của phương Đông – trong nhận thức muộn màng thì đó là một điều tốt, vì các thiết bị này có thể đã kéo dài việc sử dụng chữ số La Mã ở phương Tây.)
Toán học đã mang lại cho dữ liệu một ý nghĩa mới – bây giờ nó có thể được phân tích, chứ không chỉ được ghi lại và trích xuất. Việc áp dụng rộng rãi chữ số Ả Rập ở châu Âu đã phải mất hàng trăm năm, từ khi chúng xuất hiện vào thế kỷ XII đến cuối thế kỷ XVI. Vào thời điểm đó, các nhà toán học tự hào rằng họ có thể tính toán sáu lần nhanh hơn bằng chữ số Ả Rập so với bàn tính. Những gì cuối cùng đã giúp làm cho chữ số Ả Rập thành công là sự tiến hóa của một công cụ khác của dữ liệu hóa: kế toán kép.
Các nhà kế toán đã phát minh ra sổ sách kế toán vào thiên niên kỷ thứ ba trước công nguyên. Trong khi sổ sách kế toán phát triển qua nhiều thế kỷ sau đó, chủ yếu nó vẫn là một hệ thống ghi chép một giao dịch cụ thể ở một nơi. Những gì nó không thể làm được là cho các nhà kế toán và các ông chủ của họ biết một cách dễ dàng vào bất cứ lúc nào những gì họ quan tâm nhất: liệu một tài khoản cụ thể hoặc toàn bộ một công việc làm ăn có lợi nhuận hay không. Điều này bắt đầu thay đổi vào thế kỷ XIV, khi các nhà kế toán tại Ý bắt đầu ghi các giao dịch sử dụng hai mục, một cho các khoản có và một cho các khoản nợ, do đó tổng thể các tài khoản là cân bằng, vẻ đẹp của hệ thống này là nó cho phép dễ dàng nhìn thấy lợi nhuận và thua lỗ. Và đột nhiên dữ liệu vô tri vô giác bắt đầu biết nói.
Ngày nay kế toán kép thường chỉ được dùng nhờ công dụng của nó đối với kế toán và tài chính. Nhưng nó cũng đại diện cho một bước ngoặt trong sự phát triển của việc sử dụng dữ liệu. Nó cho phép thông tin được ghi lại theo hình thức các “hạng mục” liên kết các tài khoản với nhau. Nó vận hành bằng một bộ quy tắc về cách ghi dữ liệu như thế nào – một trong những ví dụ sớm nhất của việc ghi chuẩn của thông tin. Một kế toán viên có thể nhìn vào sổ sách của người khác và hiểu được chúng. Nó được tổ chức để thực hiện một loại hình cụ thể của việc truy vấn dữ liệu – tính toán lợi nhuận hoặc lỗ cho mỗi tài khoản – nhanh chóng và đơn giản. Và nó cung cấp những bằng chứng kiểm toán của các giao dịch để dữ liệu được dễ dàng theo dõi hơn. Các chuyên gia công nghệ có lẽ sẽ đánh giá cao nó hôm nay: nó có tính năng “sửa lỗi” được tích hợp. Nếu một bên của sổ kế toán trông không ổn, người ta có thể kiểm tra các mục tương ứng bên kia.
Tuy nhiên, cũng như chữ số Ả Rập, kế toán kép không phải là một thành công ngay lập tức. Hai trăm năm sau khi phương pháp này lần đầu tiên được nghĩ ra, nó đã cần một nhà toán học và một gia đình thương gia để làm thay đổi lịch sử của dữ liệu hóa.
Nhà toán học đó là một tu sĩ dòng Phanxicô, Luca Pacioli. Năm 1494 ông xuất bản một cuốn sách giáo khoa, viết cho đại chúng, về toán học và ứng dụng thương mại của nó. Cuốn sách này là một thành công lớn và thật ra có vai trò như cuốn sách giáo khoa toán học của thời đó. Nó cũng là cuốn sách đầu tiên sử dụng chữ số Ả Rập, và do đó sự phổ biến của nó đã tạo điều kiện cho việc chấp nhận chữ số Ả Rập ở châu Âu. Tuy nhiên, đóng góp lâu dài nhất của nó là phần dành cho sổ sách kế toán, trong đó Pacioli giải thích cặn kẽ hệ thống kế toán kép. Trong nhiều thập kỷ kế tiếp, tư liệu về sổ sách kế toán đã được xuất bản riêng bằng sáu ngôn ngữ, và nó đã là tài liệu tham khảo tiêu chuẩn về chủ đề này trong nhiều thế kỷ.
Còn về gia đình thương gia, đó là những thương nhân Venetian nổi tiếng và những nhà bảo hộ nghệ thuật: gia tộc Medici. Trong thế kỷ XVI, họ đã trở thành những chủ ngân hàng có ảnh hưởng nhất ở châu Âu, một phần không nhỏ vì họ đã sử dụng một phương pháp ưu việt để ghi dữ liệu: hệ thống kép. Cùng với nhau, sách giáo khoa của Pacioli và sự thành công của Medici trong việc áp dụng nó đã chốt lại chiến thắng của kế toán kép – và rộng hơn đã thiết lập được việc sử dụng chữ số Ả Rập ở phương Tây.
Song song với những tiến bộ trong việc ghi chép dữ liệu, những cách thức đo lường thế giới – biểu thị thời gian, khoảng cách, diện tích, khối lượng, và trọng lượng – đã tiếp tục đạt được độ chính xác ngày càng tăng. Lòng khao khát muốn hiểu được bản chất của sự vật thông qua định lượng đã định hình khoa học trong thế kỷ XIX, khi các học giả phát minh ra các công cụ và các đơn vị mới mẻ để đo và ghi lại dòng điện, áp suất không khí, nhiệt độ, tần số âm thanh… Đó là một thời đại mà tuyệt nhiên tất cả mọi thứ đều phải được xác định, lập ranh giới, và ký hiệu. Niềm đam mê đó còn đi xa tới mức đo sọ người để đo lường cho khả năng trí tuệ của họ. May mắn là cái môn giả-khoa-học nghiên cứu về sọ đã hầu như chết yểu, nhưng mong muốn định lượng mọi thứ cứ ngày càng tăng.
Việc đo lường hiện thực và ghi dữ liệu được phát triển mạnh là do sự kết hợp của các công cụ và một tư duy luôn sẵn sàng tiếp thu. Sự kết hợp này chính là mảnh đất màu mỡ từ đó dữ liệu hóa hiện đại đã phát triển. Các thành tố cho dữ liệu hóa đã tồn tại, mặc dù trong một thế giới của dữ liệu dạng tương tự, nó vẫn còn đắt đỏ và tốn thời gian. Trong nhiều trường hợp nó đòi hỏi dường như sự kiên nhẫn vô hạn, hoặc ít nhất là một sự cống hiến lâu dài, như việc quan sát các ngôi sao và các hành tinh về đêm đầy nhọc nhằn của Tycho Brahe trong những năm 1500.
Trong một số ít các trường hợp dữ liệu hóa thành công, như lược đồ hàng hải của trung tá Maury, nó thường là một sự trùng hợp may mắn: chẳng hạn Maury được giao một công việc bàn giấy nhưng với quyền truy cập vào một kho tàng nhật ký hàng hải. Tuy nhiên, bất cứ khi nào dữ liệu hóa thật sự thành công, nó đều tạo ra được những giá trị khổng lồ từ các thông tin cơ bản và mở ra những hiểu biết phi thường.
Sự xuất hiện của máy tính đã mang đến những thiết bị đo lường và lưu trữ kỹ thuật số giúp dữ liệu hóa trở nên hiệu quả hơn rất nhiều. Nó cũng giúp khám phá được những giá trị tiềm ẩn từ việc phân tích toán học đối với dữ liệu. Tóm lại, số hóa tăng tốc cho dữ liệu hóa. Nhưng nó không phải là một sự thay thế. Hoạt động số hóa – chuyển thông tin dạng tương tự thành dạng máy tính đọc được – tự nó không phải là dữ liệu hóa.
Khi từ ngữ trở thành dữ liệu
Sự khác biệt giữa số hóa và dữ liệu hóa trở nên rõ ràng khi chúng ta xem xét một lĩnh vực mà cả hai hiện tượng đã xảy ra và so sánh kết quả của chúng: sách. Năm 2004 Google đã công bố một kế hoạch táo bạo. Họ sẽ lấy tất cả các trang của tất cả các cuốn sách mà họ có được (trong khuôn khổ pháp luật về bản quyền) và cho phép tất cả mọi người trên toàn thế giới tìm kiếm và truy cập miễn phí qua Internet. Để đạt được điều này công ty hợp tác với một số thư viện lớn nhất và uy tín nhất trên thế giới và phát triển những máy quét có thể tự động lật các trang, để việc quét hàng triệu cuốn sách vừa có thể thực hiện được và vừa khả thi về mặt tài chính.
Đầu tiên, Google số hóa văn bản: từng trang được quét và ghi trong một tập tin hình ảnh có độ phân giải kỹ thuật số cao, được lưu trữ trên máy chủ của Google. Trang sách được chuyển thành một bản sao kỹ thuật số có thể dễ dàng được bất kỳ ai ở bất kỳ đâu truy cập thông qua Web. Tuy nhiên, việc truy cập sẽ đòi hỏi người đọc phải biết cuốn sách nào có thông tin mình quan tâm, hoặc phải đọc nhiều để tìm ra thông tin cần thiết. Người ta không thể tìm kiếm văn bản theo từ khóa, hoặc phân tích nó, bởi vì văn bản chưa được dữ liệu hóa. Tất cả những gì Google có là những hình ảnh mà chỉ con người mới có thể biến đổi thành thông tin hữu ích – bằng cách đọc.
Dù nó vẫn là một công cụ tuyệt vời – một Thư viện Alexandria kỹ thuật số hiện đại, toàn diện hơn bất kỳ thư viện nào trong lịch sử – Google vẫn muốn nhiều hơn nữa. Họ hiểu rằng thông tin chứa đựng những giá trị mà chỉ có thể được chuyển tải một khi nó được dữ liệu hóa. Và do vậy Google đã sử dụng phần mềm nhận dạng ký tự quang học để đọc một hình ảnh kỹ thuật số và nhận dạng ra các chữ cái, từ, câu, và đoạn văn trên đó. Kết quả là văn bản đã được dữ liệu hóa chứ không chỉ là một hình ảnh kỹ thuật số của trang sách.
Bây giờ các thông tin trên trang sách mới có thể được sử dụng không chỉ cho người đọc, mà còn cho các máy tính để xử lý và cho các thuật toán để phân tích. Dữ liệu hóa làm cho văn bản có thể lập chỉ mục và do đó có thể tìm kiếm được. Và nó cho phép một dòng phân tích văn bản bất tận. Bây giờ chúng ta có thể khám phá khi nào thì những từ hoặc cụm từ nhất định được sử dụng lần đầu tiên, hoặc trở nên phổ biến. Đó chính là thứ kiến thức làm sáng tỏ sự lan truyền của những ý tưởng và quá trình tiến hóa của tư duy con người qua nhiều thế kỷ và trong nhiều ngôn ngữ khác nhau. Bạn có thể tự thử nghiệm. Ngram Viewer của Google (https://books.google.com/ngrams) sẽ tạo ra một đồ thị của việc sử dụng các từ hoặc cụm từ theo thời gian, bằng cách sử dụng toàn bộ chỉ mục Sách của Google như một nguồn dữ liệu. Trong vòng vài giây chúng ta khám phá ra rằng cho đến năm 1900 thuật ngữ “nhân quả” được sử dụng thường xuyên hơn “tương quan”, nhưng sau đó tỷ lệ này đã đảo ngược. Chúng ta có thể so sánh phong cách văn bản và xác định được tác giả khi có tranh chấp tác quyền. Dữ liệu hóa cũng giúp cho việc phát hiện đạo văn trong các công trình hàn lâm trở nên dễ dàng hơn, kết quả là một số chính trị gia châu Âu, trong đó có một bộ trưởng quốc phòng Đức, đã bị buộc phải từ chức.
Ước tính có khoảng 130 triệu đầu sách đã được xuất bản kể từ khi in ấn được phát minh ra vào giữa thế kỷ XV. Đến năm 2012, bảy năm sau khi Google bắt đầu dự án sách, họ đã sao chụp hơn 20 triệu đầu sách, hơn 15 phần trăm di sản in ấn của thế giới – một khối lượng đáng kể. Điều này đã tạo ra một ngành học mới được gọi là “Culturomics”: từ vựng học tính toán để cố gắng hiểu hành vi con người và các xu hướng văn hóa thông qua việc phân tích định lượng các văn bản số hóa.
Trong một nghiên cứu, các chuyên gia tại Đại học Harvard khảo sát hàng triệu cuốn sách (tương đương với hơn 500 tỷ từ) và phát hiện ra rằng chỉ có chưa đến một nửa số lượng các từ tiếng Anh xuất hiện trên sách là có trong các từ điển. Thay vào đó, họ viết, sự dồi dào của từ ngữ “bao gồm cả từ vựng‘ngoài lề’ vốn không được ghi chép trong các nguồn tham khảo chuẩn”. Hơn nữa, bằng việc phân tích theo thuật toán các tài liệu tham khảo về nghệ sĩ Marc Chagall, người có các tác phẩm bị Đức Quốc xã cấm vì là người Do Thái, các nhà nghiên cứu đã chỉ ra rằng sự đàn áp hoặc kiểm duyệt một ý tưởng hoặc cá nhân để lại “dấu vết có thể định lượng được”. Từ ngữ cũng giống như hóa thạch được bọc trong các trang viết thay vì trầm tích đá. Các nhà nghiên cứu culturomics có thể khai thác chúng như các nhà khảo cổ.
Việc chuyển từ ngữ thành dữ liệu mở ra rất nhiều công dụng. Tất nhiên, dữ liệu có thể được con người sử dụng để đọc, còn máy móc dùng chúng để phân tích. Nhưng là mẫu mực của một công ty dữ-liệu-lớn, Google biết rằng thông tin còn có nhiều khả năng tiềm ẩn khác, có thể giúp ích cho bộ sưu tập của mình và cho dữ liệu hóa. Vì vậy, Google khéo léo sử dụng các văn bản được dữ liệu hóa từ dự án quét sách để cải thiện dịch vụ dịch máy của mình. Như đã giải thích trong Chương Ba, hệ thống sẽ lấy những cuốn sách được dịch và phân tích những từ và cụm từ nào được các dịch giả sử dụng như những lựa chọn thay thế từ một ngôn ngữ sang một ngôn ngữ khác. Hiểu biết được điều này thì sau đó có thể xử lý việc dịch như một vấn đề toán học khổng lồ, với các máy tính tìm ra xác suất để xác định từ nào là thay thế tốt nhất cho từ kia giữa các ngôn ngữ.
Tất nhiên Google không phải là tổ chức duy nhất mơ ước mang đến sự phong phú của di sản in ấn của thế giới vào thời đại máy tính, và nó hầu như không phải là nơi đầu tiên thử việc này. Dự án Gutenberg, một sáng kiến tình nguyện để đưa các tác phẩm thuộc sở hữu công cộng lên trực tuyến sớm có từ năm 1971, nhằm giúp mọi độc giả dễ tiếp cận các văn bản này. Tuy nhiên, dự án đã không xem xét một chức năng phụ trợ của từ ngữ nên không xem chúng như dữ liệu. Tương tự như vậy, các nhà xuất bản trong nhiều năm qua đã thử nghiệm với các phiên bản sách điện tử. Họ cũng nhìn thấy giá trị cốt lõi của sách là nội dung, chứ không phải là dữ liệu – mô hình kinh doanh của họ dựa vào điều này. Vì vậy, họ không bao giờ sử dụng hoặc cho phép người khác sử dụng các dữ liệu vốn có trong văn bản của một cuốn sách. Họ không bao giờ thấy sự cần thiết, hoặc đánh giá cao tiềm năng đó.
Nhiều công ty hiện nay đang cạnh tranh để chiếm lĩnh thị trường sách điện tử. Amazon, với máy đọc sách điện tử Kindle của mình, dường như là người dẫn đầu sớm. Nhưng đây là một lĩnh vực mà chiến lược của Amazon và Google khác nhau rất nhiều. Amazon đã dữ liệu hóa sách – nhưng không giống như Google, họ đã thất bại trong việc khai thác những chức năng mới của văn bản với vai trò dữ liệu. Jeff Bezos, người sáng lập và giám đốc điều hành của công ty, đã thuyết phục hàng trăm nhà xuất bản để phát hành sách của họ dưới dạng Kindle. Sách Kindle không phải được tạo từ ảnh của trang sách. Nếu như vậy, người đọc sẽ không thể thay đổi kích thước chữ hoặc hiển thị trang sách cả trên màn hình màu và trắng đen. Văn bản được dữ liệu hóa, không chỉ là số hóa. Thật ra, Amazon đã làm việc đó cho hàng triệu cuốn sách mới, những gì Google đang cố gắng cẩn thận đạt được đối với nhiều cuốn sách cũ hơn.
Tuy nhiên, khác với dịch vụ tuyệt vời của Amazon với “những từ ngữ quan trọng về mặt thống kê” – trong đó sử dụng các thuật toán để tìm liên kết giữa các chủ đề của sách mà bình thường có thể không rõ ràng – nhà bán lẻ trực tuyến đã không tận dụng sự giàu có của từ ngữ cho phân tích dữ-liệu-lớn. Amazon xem việc kinh doanh sách của mình là dựa trên nội dung độc giả xem, chứ không phải trên phân tích văn bản dữ liệu hóa. Và để công bằng, Amazon có thể phải đối mặt với những hạn chế từ các nhà xuất bản bảo thủ về việc Amazon có thể sử dụng thông tin chứa đựng trong các cuốn sách của họ như thế nào. Google, một cậu bé dữ-liệu-lớn hư hỏng sẵn sàng đẩy xa các giới hạn, không nhận thấy những hạn chế như vậy: bánh mĩ của Google được phết bơ bằng những cú nhấp chuột, chứ không phải bằng việc truy cập các đầu sách của người sử dụng. Có lẽ là công bằng khi nói rằng ít nhất trong lúc này, Amazon hiểu được giá trị của việc số hóa nội dung, trong khi Google hiểu được giá trị của việc dữ liệu hóa nó.
Khi vị trí trở thành dữ liệu
Một trong những phần cơ bản nhất của thông tin trong thế giới này chính là… bản thân thế giới. Nhưng qua gần hết lịch sử, lĩnh vực không gian chưa bao giờ được định lượng hoặc sử dụng ở dạng dữ liệu. Vị trí địa lý của thiên nhiên, các vật thể, và con người tất nhiên cấu thành thông tin. Dãy núi là ở đó; người là ở đây. Nhưng để trở nên hữu ích nhất, thông tin này phải được trở thành dữ liệu. Việc dữ liệu hóa vị trí đòi hỏi một vài điều kiện tiên quyết. Chúng ta cần một phương pháp để đo mỗi inch vuông của bề mặt Trái đất. Chúng ta cần một cách chuẩn hóa để ghi chú các phép đo. Chúng ta cần một công cụ để theo dõi và ghi lại các dữ liệu. Định lượng, tiêu chuẩn hóa, thu thập. Chỉ khi đó chúng ta mới có thể lưu trữ và phân tích vị trí không chỉ như nơi chốn, mà như dữ liệu.
Ở phương Tây, việc định lượng vị trí bắt đầu với người Hy Lạp. Khoảng năm 200 trước Công nguyên, Eratosthenes đã phát minh ra một hệ thống các đường lưới để phân ranh giới vị trí, giống như vĩ độ và kinh độ. Nhưng cũng giống như rất nhiều ý tưởng hay từ thời cổ đại, việc thực hành đã phai nhạt dần theo thời gian. Một thiên niên kỷ rưỡi sau, khoảng năm 1400 sau Công nguyên, một bản sao Geographia của Ptolemy đến Florence từ Constantinople, cũng giống như thời kỳ Phục hưng và buôn bán vận chuyển đã khơi dậy mối quan tâm đến khoa học và bí quyết từ người xưa. Luận thuyết của Ptolemy đã gây một sự náo động, và những bài học cũ của ông đã được áp dụng để giải quyết những thách thức trong hàng hải hiện đại. Từ đó, bản đồ xuất hiện với kinh độ, vĩ độ và tỷ lệ. Hệ thống sau đó đã được một nhà bản đồ học người Flanders, Gerardus Mercator, cải thiện vào năm 1570, cho phép các thủy thủ lập một tuyến đường thẳng trong một thế giới hình cầu.
Mặc dù thời điểm đó đã có phương tiện để ghi lại vị trí, nhưng chưa có định dạng được chấp nhận phổ biến để chia sẻ những thông tin này. Một hệ thống nhận diện chung là cần thiết, cũng giống như Internet hưởng lợi từ tên miền để làm những thứ như email hoạt động được một cách phổ dụng. Việc tiêu chuẩn hóa kinh độ và vĩ độ mất một thời gian dài. Cuối cùng nó được ghi nhận vào năm 1884 tại Hội nghị quốc tế Meridian ở Washington, DC, nơi mà 25 quốc gia đã chọn Greenwich, Anh, như kinh tuyến chính và điểm không của kinh độ (người Pháp, vốn tự xem mình là những nhà lãnh đạo về các tiêu chuẩn quốc tế, bỏ phiếu trắng). Trong những năm 1940 hệ tọa độ Universal Transverse Mercator (UTM) đã được tạo ra, phân chia thế giới thành 60 vùng để tăng độ chính xác.
Vị trí không gian địa lý bây giờ có thể được xác định, ghi nhận, đo đếm, phân tích, và chuyển tải trong một định dạng số chuẩn. Vị trí có thể được dữ liệu hóa. Nhưng vì chi phí để đo và ghi lại các thông tin trong môi trường dữ liệu ở dạng tương tự sẽ cao, nên nó hiếm khi được thực hiện. Để việc dữ liệu hóa diễn ra, người ta phải phát minh các công cụ đo vị trí với giá rẻ. Cho đến những năm 1970, cách duy nhất để xác định vị trí địa lý là sử dụng các điểm mốc, các chòm sao thiên văn, hoặc công nghệ radio định vị hạn chế.
Một sự thay đổi lớn đã xảy ra vào năm 1978, khi vệ tinh đầu tiên trong số 24 vệ tinh tạo nên hệ thống định vị toàn cầu (GPS) được phóng lên. Các thiết bị thu trên mặt đất có thể lập lưới tam giác vị trí của chúng bằng cách ghi nhận sự khác biệt về thời gian cần để nhận được một tín hiệu từ các vệ tinh cách xa 12.600 dặm trên không. Được Bộ Quốc phòng Hoa Kỳ phát triển, hệ thống lần đầu tiên được mở ra cho các mục đích phi quân sự trong những năm 1980 và được vận hành đầy đủ vào những năm 1990. Độ chính xác của nó được tăng cường cho các ứng dụng thương mại một thập kỷ sau đó. Chính xác đến từng mét, GPS đánh dấu thời điểm một phương thức đo vị trí, giấc mơ của các nhà hàng hải, các nhà làm bản đồ, và các nhà toán học từ thời cổ đại, cuối cùng đã được hợp nhất với các phương tiện kỹ thuật để thành công một cách nhanh chóng, với giá (tương đối) rẻ, và không yêu cầu bất kỳ kiến thức chuyên môn nào.
Tuy nhiên, các thông tin phải thực sự được tạo ra. Không có gì ngăn Eratosthenes và Mercator ước tính vị trí của họ mỗi phút trong ngày, nếu họ thích. Dù khả thi nhưng điều đó lại phi thực tế. Tương tự như vậy, những máy thu GPS ban đầu vừa phức tạp vừa đắt, thích hợp cho một chiếc tàu ngầm nhưng không phải cho tất cả mọi người ở mọi thời điểm. Tuy nhiên điều này đã thay đổi, nhờ vào sự phổ biến của các chip rẻ tiền nhúng trong các tiện ích kỹ thuật số. Giá của một mô-đun GPS giảm từ hàng trăm đôla trong những năm 1990 xuống khoảng một đôla ngày nay với số lượng lớn. Thường chỉ mất vài giây để GPS xác định được một vị trí, và tọa độ được chuẩn hóa. Vì vậy, 37° 14’ 06” Bắc, 115° 48’ 40” Tây chỉ có thể nghĩa là ta đang ở một căn cứ quân sự siêu bí mật của Mỹ ở một vùng hẻo lánh của bang Nevada được gọi là “Vùng 51”, nơi người ngoài hành tinh (có lẽ!) đang bị giam giữ.
Ngày nay GPS chỉ là một trong số nhiều hệ thống để nắm bắt vị trí. Các hệ thống vệ tinh đối thủ đang được tiến hành tại Trung Quốc và châu Âu. Và thậm chí độ chính xác tốt hơn có thể được thiết lập bởi lập lưới tam giác giữa các tháp di động hoặc các bộ định tuyến wifi để xác định vị trí dựa trên cường độ tín hiệu, vì GPS không hoạt động bên trong nhà hoặc giữa các tòa nhà cao tầng. Điều đó giúp giải thích tại sao các công ty như Google, Apple và Microsoft: đã thiết lập những hệ thống vị trí địa lý riêng của họ để bổ sung cho GPS. Các xe Street View của Google thu thập thông tin bộ định tuyến wifi khi họ chụp ảnh, và iPhone là một “spyPhone” (điện thoại do thám) thu thập dữ liệu vị trí và wifi và gửi nó trở lại Apple, mà người dùng không hề nhận ra. (Điện thoại Android của Google và hệ điều hành di động của Microsoft cũng thu thập loại dữ liệu này.)
Không chỉ người mà các vật thể cũng có thể bị theo dõi. Với những module vô tuyến đặt bên trong xe, việc dữ liệu hóa vị trí sẽ làm thay đổi các ý tưởng về bảo hiểm. Dữ liệu cho biết một cách chi tiết về thời gian, địa điểm, và khoảng cách xe chạy thực tế để định giá rủi ro tốt hơn. Ở Mỹ và Anh, người lái xe có thể mua bảo hiểm xe định giá theo thực tế xe được lái ở đâu và lúc nào, chứ không chỉ trả giá hàng năm theo tuổi tác, giới tính và hồ sơ quá khứ. Cách tiếp cận này để định giá bảo hiểm tạo ra những ưu đãi cho hành vi tốt. Nó thay đổi bản chất của bảo hiểm từ dựa trên sự tổng hợp nguy cơ sang một cái gì đó dựa trên hành động cá nhân. Việc theo dõi cá nhân thông qua chiếc xe cũng thay đổi bản chất của các chi phí cố định, như đường giao thông và cơ sở hạ tầng khác, bằng cách gắn việc sử dụng những tài nguyên này với những người lái xe và những người khác “tiêu thụ” chúng. Người ta đã không thể làm điều này trước khi chuyển vị trí địa lý trở thành một dạng dữ liệu liên tục cho tất cả mọi người và tất cả mọi thứ – nhưng đó là thế giới chúng ta đang đi tới.
Ví dụ UPS sử dụng dữ liệu ‘Vị-trí-địa-lý” theo nhiều cách. Xe của hãng được trang bị cảm biến, mô-đun vô tuyến, và GPS để trụ sở có thể dự đoán sự cố động cơ, như chúng ta đã thấy trong chương trước. Hơn nữa, nó cho phép công ty biết nơi chốn của xe tải trong trường hợp chậm trễ, để giám sát nhân viên, và theo dõi hành trình của họ để tối ưu hóa các tuyến đường.
Phim minh họa cơ chế phân tích của UPS
Chương trình phân tích này có tác động rất đặc biệt. Theo Jack Levis, giám đốc quản lý quy trình của UPS, năm 2011 UPS đã thu ngắn các tuyến đường cho xe của công ty tới 30 triệu dặm, tiết kiệm 3 triệu gallon nhiên liệu và 30 ngàn tấn carbon dioxide khí thải. Nó cũng cải thiện tính an toàn và hiệu quả: thuật toán tạo ra các tuyến đường với ít đoạn rẽ qua các giao lộ, yếu tố vốn thường dẫn đến tai nạn, lãng phí thời gian, và tiêu thụ nhiều nhiên liệu hơn vì xe thường xuyên phải dừng trước khi rẽ.
“Việc dự báo đã cho chúng ta kiến thức”, Levis của hãng UPS nói. “Nhưng phía sau kiến thức là một cái gì đó nhiều hơn nữa: sự khôn ngoan và sáng suốt. Tại một thời điểm nào đó, hệ thống sẽ thông minh tới mức nó sẽ dự đoán các vấn đề và sửa chữa chúng trước khi người dùng nhận ra rằng có điều gì đó sai”.
Đáng chú ý nhất là việc dữ liệu hóa vị trí theo thời gian được áp dụng cho con người. Trong nhiều năm qua, các nhà khai thác vô tuyến đã thu thập và phân tích thông tin để nâng tầm dịch vụ của mạng lưới của họ. Nhưng dữ liệu ngày càng được sử dụng nhiều cho các mục đích khác và được thu thập bởi bên thứ ba cho những dịch vụ mới. Ví dụ một số ứng dụng điện thoại thông minh thu thập thông tin vị trí cho dù bản thân ứng dụng có một tính năng dựa trên địa điểm hay không. Trong những trường hợp khác, ứng dụng chỉ được dùng để xây dựng một doanh nghiệp tận dụng kiến thức về địa điểm của người sử dụng. Một ví dụ là Foursquare, cho phép mọi người “đăng nhập” tại các địa điểm yêu thích của họ. Nó kiếm được thu nhập từ các chương trình khách hàng trung thành, giới thiệu nhà hàng, và các dịch vụ khác liên quan đến vị trí.
Khả năng thu thập dữ liệu vị trí địa lý của người sử dụng đang trở nên vô cùng giá trị. Ở mức độ cá nhân, nó giúp cho việc quảng cáo nhắm đến mục tiêu dựa trên việc khách hàng đang ở đâu và dự đoán sẽ đi tới đâu. Hơn nữa, thông tin có thể được tổng hợp để cho biết các xu hướng. Ví dụ việc tích lũy dữ liệu vị trí cho phép các công ty phát hiện ùn tắc giao thông mà không cần trông thấy những chiếc xe, nhờ số lượng và tốc độ của các máy điện thoại di chuyển trên một đường cao tốc tiết lộ thông tin này. Công ty AirSage xử lý 15 tỷ bản ghi thông tin vị trí địa lý mỗi ngày từ sự di chuyển của hàng triệu thuê bao điện thoại di động để tạo các báo cáo giao thông thời gian thực ở hơn 100 thành phố trên khắp nước Mỹ. Hai công ty vị trí địa lý khác, Sense Networks và Skyhook, có thể sử dụng dữ liệu vị trí để cho biết các khu vực của một thành phố có cuộc sống về đêm nhộn nhịp nhất, hoặc để ước tính có bao nhiêu người đã có mặt tại một cuộc biểu tình.
Tuy nhiên, những ứng dụng phi thương mại của vị trí địa lý mới chứng tỏ tầm quan trọng nhất. Sandy Pentland, Giám đốc Phòng thí nghiệm Động lực học Con người của MIT, và Nathan Eagle đã cùng nhau đi tiên phong trong lĩnh vực họ gọi là “khai thác thực tế”. Nó đề cập đến việc xử lý những lượng lớn dữ liệu từ điện thoại di động để đưa ra những kết luận và dự đoán về hành vi con người. Trong một nghiên cứu, việc phân tích các chuyển động và các mô hình cuộc gọi đã cho phép họ xác định thành công những người đã mắc bệnh cúm trước khi bản thân họ biết rằng họ bị bệnh. Trong trường hợp của một dịch cúm chết người, khả năng này có thể cứu hàng triệu sinh mạng bằng cách cho các nhân viên y tế công biết các khu vực bị ảnh hưởng nhất vào bất cứ lúc nào. Nhưng nếu đặt vào những bàn tay vô trách nhiệm thì sức mạnh của “khai thác thực tế” có thể gây nên những hậu quả khủng khiếp, như chúng ta sẽ thấy sau này.
Eagle, người sáng lập của công ty khởi động dữ liệu vô tuyến Jana, đã tập hợp dữ liệu điện thoại di động từ hơn 200 nhà khai thác trong hơn 100 quốc gia – khoảng 3,5 tỷ người ở châu Mỹ Latin, châu Phi, và châu Âu – để trả lời những câu hỏi mà các nhà quản lý tiếp thị quan tâm, như mỗi tuần một hộ gia đình giặt bao nhiêu lần. Nhưng ông cũng sử dụng dữ liệu lớn để kiểm tra các câu hỏi như các thành phố phát triển thịnh vượng như thế nào. Ông và một đồng nghiệp đã kết hợp dữ liệu vị trí trên các thuê bao điện thoại di động trả trước ở châu Phi với số tiền họ bỏ ra khi họ có nhiều tiền nhất trong tài khoản. Giá trị này tương quan mạnh với thu nhập: người giàu hơn mua nhiều phút hơn tại một thời điểm. Nhưng một trong những phát hiện ngược lại với lẽ thường mà Eagle thu được là những khu nhà ổ chuột, không chỉ là những khu trung tâm của sự nghèo nàn, mà còn hoạt động như những bàn đạp kinh tế. Điều quan trọng là những ứng dụng gián tiếp của dữ liệu vị trí không có gì liên quan tới việc định tuyến của truyền thông di động, mục đích ban đầu mà vì nó thông tin đã được tạo ra. Thay vào đó, khi vị trí được dữ liệu hóa, những công dụng mới sẽ nảy mầm và giá trị mới có thể được tạo ra.
Khi việc tương tác trở thành dữ liệu
Biên giới tiếp theo của dữ liệu hóa sẽ mang tính cá nhân hơn: các mối quan hệ, kinh nghiệm, và tâm trạng của chúng ta. Ý tưởng của dữ liệu hóa là xương sống của nhiều công ty truyền thông xã hội trên Web. Các diễn đàn mạng xã hội không chỉ đơn giản cung cấp cho chúng ta một cách để tìm và giữ liên lạc với bạn bè và đồng nghiệp, chúng lấy các yếu tố vô hình trong cuộc sống hàng ngày của chúng ta và biến thành dữ liệu có thể được sử dụng để làm những điều mới mẻ. Facebook dữ liệu hóa các mối quan hệ. Chúng luôn luôn tồn tại và cấu thành thông tin, nhưng chưa bao giờ được chính thức định nghĩa như là dữ liệu cho đến khi có “đồ thị xã hội” của Facebook. Twitter giúp dữ liệu hóa cảm xúc bằng cách tạo ra một cách dễ dàng cho người dùng ghi lại và chia sẻ những điều bận tâm của họ, mà trước đó đã bị “cuốn trôi” vào những con gió của thời gian. Linkedln dữ liệu hóa các kinh nghiệm chuyên môn trong quá khứ của chúng ta (giống như Maury đã chuyển những cuốn nhật ký hàng hải cũ), biến thông tin đó thành những dự đoán về hiện tại và tương lai: người mà chúng ta có thể biết, hoặc một công việc mà chúng ta có thể mong muốn.
Những cách sử dụng dữ liệu như vậy vẫn ở dạng phôi thai. Trong trường hợp của Facebook, điều này đã được thực hiện kiên nhẫn một cách khôn ngoan, vì công ty hiểu rằng việc tiết lộ quá nhiều mục đích mới cho dữ liệu của người sử dụng quá sớm có thể sẽ làm họ hoảng sợ. Bên cạnh đó, Facebook vẫn đang điều chỉnh mô hình kinh doanh của mình (và chính sách bảo mật) cho số lượng và loại hình thu thập dữ liệu nó muốn tiến hành. Do đó đa phần những lời chỉ trích mà nó phải đối mặt tập trung vào những thông tin nào nó có khả năng thu thập hơn là về những gì nó đã thực sự làm được với dữ liệu đó. Facebook có khoảng hơn một tỷ người sử dụng vào năm 2013, những người đã kết nối với nhau thông qua hơn 100 tỷ mối quan hệ bạn bè. Kết quả là đồ thị xã hội thu được đại diện cho hơn 10 phần trăm tổng dân số thế giới, được dữ liệu hóa và dễ tiếp cận đối với duy nhất một công ty.
Các ứng dụng tiềm năng của nó rất có triển vọng. Một số công ty mới thành lập đã cân nhắc việc tùy biến các đồ thị xã hội để sử dụng như những chỉ báo cho việc thiết lập điểm số tín dụng. Nó xuất phát từ ý tưởng là những con chim cùng loại thường tụ đàn: người thận trọng kết bạn với những người thận trọng, trong khi những kẻ trác táng thì lòng thòng với nhau. Nếu mở rộng, Facebook có thể là FICO tiếp theo, một cơ quan lập điểm tín dụng. Các bộ dữ liệu phong phú từ các công ty truyền thông xã hội cũng có thể tạo nên cơ sở của các doanh nghiệp mới, vượt xa việc chia sẻ hình ảnh, cập nhật trạng thái, và “thích”.
Twitter cũng nhận thấy dữ liệu của mình được sử dụng theo nhiều cách thú vị. Với một số người, việc 400 triệu tweet ngắn gọn được gửi đi mỗi ngày trong năm 2012 bởi hơn 140 triệu người sử dụng hàng tháng có vẻ ít nhiều giống như sự ba hoa rỗng tuếch ngẫu nhiên. Và, trên thực tế, chúng thường chỉ là như vậy. Tuy nhiên, công ty này tạo điều kiện cho việc dữ liệu hóa những suy nghĩ, tâm trạng, và mối tương tác của mọi người, những thứ chưa hề được thu lượm trước đó. Twitter đã thỏa thuận với hai công ty, Data-Sift và Gnip, để bán quyền truy cập vào dữ liệu. (Mặc dù tất cả các tweet là tài sản công cộng, việc truy cập vào “suối nguồn” phải tốn chi phí.) Nhiều doanh nghiệp phân tích cú pháp các tweet, đôi khi sử dụng một kỹ thuật gọi là phân tích cảm xúc, để thu thập toàn bộ phản hồi của khách hàng hoặc đánh giá tác động của chiến dịch tiếp thị.
Hai quỹ phòng hộ, Derwent Capital ở London và MarketPsych ở California, đã bắt đầu phân tích các văn bản được dữ liệu hóa của tweet như các tín hiệu cho đầu tư vào thị trường chứng khoán. (Các chiến lược kinh doanh thực tế của họ được giữ bí mật. Thay vì đổ tiền vào các công ty được quảng cáo rùm beng, có lẽ họ đã đầu tư cho sự suy thoái của chúng.) Cả hai công ty bây giờ bán các thông tin cho các nhà đầu tư. MarketPsych hợp tác với Thomson Reuters để cung cấp không dưới 18.864 chỉ số riêng biệt trên 119 quốc gia, được cập nhật từng phút, dựa trên các trạng thái cảm xúc như lạc quan, u ám, vui vẻ, sợ hãi, giận dữ, và ngay cả các chủ đề như đổi mới, kiện tụng, và xung đột.
Dữ liệu được sử dụng bởi con người không nhiều như bởi máy tính: các thần đồng toán học của Wall Street, được gọi là “những cây sào”, cắm dữ liệu vào các mô hình thuật toán của họ để tìm kiếm các mối tương quan vô hình có thể tận dụng để tạo ra lợi nhuận. Tần số của tweet về một chủ đề có thể dự đoán những điều khác nhau, chẳng hạn như doanh thu phòng vé của Hollywood, theo một trong những cha đẻ của phân tích mạng xã hội, Bernardo Huberman. Ông và một đồng nghiệp ở HP đã phát triển một mô hình xem xét tốc độ các tweet mới được đăng. Với điều này, họ đã có thể dự báo về thành công của một bộ phim tốt hơn so với các dự báo quen thuộc khác.
Nhưng còn có thể làm được nhiều thứ hơn thế nữa. Các tin nhắn Twitter bị giới hạn trong 140 ký tự, nhưng các siêu dữ liệu – tức “thông tin về thông tin” – kết hợp với mỗi tweet lại phong phú. Nó bao gồm 33 mục riêng biệt. Một số mục dường như không hữu ích, như “hình nền” trên trang Twitter của người sử dụng hoặc phần mềm họ dùng để truy cập vào dịch vụ. Nhưng những siêu dữ liệu khác lại vô cùng thú vị, chẳng hạn như ngôn ngữ của người sử dụng, vị trí địa lý của họ, số lượng và tên của những người họ “theo dõi”, hoặc những người “theo dõi” họ. Một nghiên cứu được đăng trên tạp chí Science năm 2011, phân tích 509 triệu tweet qua hai năm từ 2,4 triệu người ở 84 quốc gia, cho thấy tâm trạng của họ tuân theo các khuôn mẫu theo ngày và theo tuần tương tự nhau dù ở các nền văn hóa khác nhau trên thế giới – một điều không thể phát hiện được trước đây. Tâm trạng đã được dữ liệu hóa.
Việc dữ liệu hóa không chỉ liên quan đến việc biểu thị thái độ và tình cảm thành một hình thức có thể phân tích được, mà cả hành vi của con người. Điều này khó theo dõi được theo cách khác, đặc biệt là trong bối cảnh của cộng đồng rộng lớn hơn và các nhóm con bên trong nó. Nhà sinh vật học Marcel Salathé của Đại học Penn State cùng kỹ sư phần mềm Shashank Khandelwal đã phân tích các tweet và phát hiện ra rằng thái độ của nhiều người về tiêm chủng cũng phù hợp với khả năng họ đã thực sự chích ngừa cúm. Tuy nhiên, điều quan trọng là nghiên cứu của họ sử dụng siêu dữ liệu về ai đã kết nối với ai trong số những người “theo dõi” nhau trên Twitter để đi thêm một bước xa hơn. Họ nhận thấy rằng những phân nhóm người chưa chích ngừa có thể vẫn tồn tại. Điều làm cho nghiên cứu này trở nên đặc biệt là trong khi các nghiên cứu khác, chẳng hạn như Xu hướng Dịch cúm của Google, sử dụng dữ liệu tổng hợp để đánh giá tình trạng sức khỏe của các cá nhân, thì phân tích cảm xúc của Salathé đã thực sự dự đoán hành vi liên quan đến sức khỏe.
Những phát hiện sớm trên cho thấy dữ liệu hóa chắc chắn sẽ đi tiếp tới đâu. Cũng giống như Google, các mạng truyền thông xã hội như Facebook, Twitter, Linkedln, Foursquare, và nhiều mạng khác đang ngồi trên một rương khổng lồ các thông tin được dữ liệu hóa, mà một khi được phân tích, sẽ rọi ánh sáng lên các động lực xã hội ở tất cả mọi cấp độ, từ các cá nhân đến toàn bộ xã hội.
Dữ liệu hóa tất cả mọi thứ
Chỉ cần vận dụng chút trí tưởng tượng, ta có thể hình dung một kho tàng đủ mọi thứ có thể được chuyển thành dạng dữ liệu – và khiến chúng ta kinh ngạc. Với cùng một tinh thần như công trình của giáo sư Koshimizu về dáng điệu, IBM đã được cấp bằng sáng chế ở Mỹ vào năm 2012 về “Bảo đảm an toàn nhà cửa bằng công nghệ máy tính dựa trên bề mặt”. Đó là bằng sáng chế cho một sàn nhà cảm ứng, phần nào giống như một màn hình điện thoại thông minh khổng lồ. Triển vọng của việc sử dụng nó rất khả quan. Sàn nhà kiểu này có thể xác định các vật thể trên đó. Về cơ bản, nó có thể biết bật đèn một phòng hoặc mở cửa khi có người đi vào. Tuy nhiên, quan trọng hơn, nó có thể xác định các cá nhân theo trọng lượng của họ hay cách họ đứng và đi. Nó có thể biết nếu một người nào đó ngã và không đứng dậy được, một tính năng quan trọng cho người cao tuổi. Các nhà bán lẻ có thể biết được dòng di chuyển của khách mua trong các cửa hàng của họ. Một khi sàn nhà được dữ liệu hóa thì chẳng có “nóc nhà” nào giới hạn được các ứng dụng tiềm tàng của nó.
Việc dữ liệu hóa càng nhiều càng tốt không phải là chuyện xa vời như ta tưởng. Chẳng hạn số lượng “những-người-tự-theo-dõi-mình” là nhỏ tại thời điểm hiện nay nhưng sẽ ngày càng tăng. Nhờ điện thoại thông minh và công nghệ điện toán giá rẻ, việc dữ liệu hóa các hành vi quan trọng nhất của cuộc sống chưa bao giờ dễ dàng hơn. Rất nhiều công ty mới thành lập đã giúp mọi người theo dõi giấc ngủ của họ bằng cách đo sóng não suốt đêm. Công ty Zeo đã tạo ra cơ sở dữ liệu lớn nhất thế giới về giấc ngủ và những khác biệt về số giai đoạn “ngủ động mắt nhanh” (REM) của cả nam giới và nữ giới. Asthmapolis đã gắn một cảm biến lên một ống hít cho bệnh nhân hen suyễn để theo dõi vị trí thông qua GPS, tập hợp thông tin giúp công ty nhận rõ những yếu tố từ môi trường gây nên cơn hen suyễn, chẳng hạn như cự ly tới một số loại cây trồng nhất định.
Các công ty Fitbit và Jawbone giúp mọi người đo hoạt động thể chất và giấc ngủ của họ. Một công ty khác, Basis, cho phép người mang vòng đeo tay theo dõi các dấu hiệu sống của họ, trong đó có nhịp tim và độ dẫn của da – những thông số đo được sự căng thẳng. Việc có được dữ liệu ngày càng trở nên dễ dàng hơn và đơn giản hơn bao giờ hết. Năm 2009 Apple đã được cấp bằng sáng chế cho việc thu thập dữ liệu về mức ôxy trong máu, nhịp tim và nhiệt độ cơ thể bằng tai nghe của nó.
Có rất nhiều thứ để học hỏi từ việc dữ liệu hóa cách thức cơ thể một con người hoạt động. Các nhà nghiên cứu tại Đại học Gjovik ở Na Uy và Derawi Biometrics đã phát triển một ứng dụng cho điện thoại thông minh có thể phân tích dáng đi của một cá nhân trong khi đi bộ và sử dụng thông tin này như một hệ thống bảo mật để mở khóa điện thoại. Trong khi đó hai giáo sư tại Viện Nghiên cứu Công nghệ Georgia, Robert Delano và Brian Parise, đang phát triển một ứng dụng điện thoại thông minh được gọi là iTrem sử dụng đồng hồ gia tốc gắn trong điện thoại để theo dõi các chấn động cơ thể cho bệnh Parkinson và những rối loạn thần kinh khác, ứng dụng này là một lợi ích cho cả bác sĩ và bệnh nhân. Nó cho phép bệnh nhân bỏ qua những cuộc kiểm tra tốn kém tại phòng khám, nó cũng cho phép các chuyên gia y tế giám sát từ xa tình trạng của bệnh nhân và phản ứng của họ với các bước điều trị. Theo các nhà nghiên cứu ở Kyoto, một điện thoại thông minh chỉ kém hiệu quả chút ít khi đo các chấn động so với đồng hồ gia tốc ba trục sử dụng trong ngành y tế, vì vậy người ta có thể yên tâm sử dụng nó. Một lần nữa, một chút hỗn độn đã chiến thắng tính chính xác.
Trong hầu hết các trường hợp, chúng ta nắm bắt thông tin và chuyển thành dạng dữ liệu để cho phép nó được tái sử dụng. Điều này có thể xảy ra gần như ở khắp mọi nơi và gần như đối với tất cả mọi thứ. GreenGoose, một công ty mới thành lập ở San Francisco, bán các cảm biến nhỏ xíu phát hiện chuyển động, có thể được đặt trên các vật thể để theo dõi xem chúng được sử dụng nhiều bao nhiêu. Nếu đặt cảm biến trên một hộp chỉ nha khoa, một bình tưới nước, hoặc một cái chuồng mèo thì có thể dữ liệu hóa được việc vệ sinh răng miệng, chăm sóc cây trồng hoặc vật nuôi. Người ta hăng hái với những gì liên quan đến Internet một phần là vì chuyện lập mạng lưới, nhưng cũng còn vì việc dữ liệu hóa tất cả những gì xung quanh chúng ta.
Khi thế giới đã được dữ liệu hóa, tiềm năng sử dụng thông tin về cơ bản chỉ bị giới hạn bởi sự sáng tạo của mỗi người. Maury đã dữ liệu hóa những chuyên đi trước đây của thủy thủ thông qua việc lập bảng bằng tay rất siêng năng, và do đó đã mở khóa cho những hiểu biết và giá trị phi thường. Ngày nay chúng ta có các công cụ (số liệu thống kê và các thuật toán) và thiết bị cần thiết (những bộ xử lý kỹ thuật số và bộ nhớ) để thực hiện những công việc tương tự nhanh hơn, với quy mô lớn, và trong nhiều bối cảnh khác nhau. Trong thời đại của dữ liệu lớn, thậm chí những bộ phận xấu xí cũng có nhiều mặt tốt đẹp để sử dụng.
Chúng ta đang ở trung tâm của một dự án cơ sở hạ tầng tuyệt vời mà theo nghĩa nào đó là đối thủ của những dự án trong quá khứ, từ cống dẫn nước La Mã tới Bách khoa toàn thư của sự Khai sáng. Chúng ta không đánh giá hết điều này bởi vì dự án ngày nay là rất mới mẻ, bởi vì chúng ta đang ở ngay giữa nó, và bởi vì không giống như nước chảy trong cống, sản phẩm lao động của chúng ta là vô hình. Dự án đó là dữ liệu hóa. Giống như những tiến bộ cơ sở hạ tầng khác, nó sẽ mang lại những thay đổi cơ bản cho xã hội. cống dẫn nước đã tạo điều kiện cho các thành phố phát triển; in ấn đã tạo điều kiện cho Khai sáng; và báo chí đã thúc đẩy sự phát triển của nhà nước độc lập. Nhưng những cơ sở hạ tầng này tập trung vào các dòng chảy – của nước, của kiến thức. Điện thoại và Internet cũng vậy. Ngược lại, dữ liệu hóa đại diện cho một sự làm giàu quan trọng đối với hiểu biết của con người.
Với sự trợ giúp của dữ liệu lớn, chúng ta sẽ không còn xem thế giới như một chuỗi các diễn biến được giải thích như những hiện tượng tự nhiên hoặc xã hội, mà như một vũ trụ bao gồm chủ yếu là thông tin. Trong hơn một thế kỷ, các nhà vật lý đã đề nghị như vậy – rằng không phải các nguyên tử mà thông tin mới là cơ sở của tất cả mọi thứ. Phải thừa nhận rằng điều này có vẻ bí hiểm. Tuy nhiên, thông qua dữ liệu hóa, trong nhiều trường hợp chúng ta có thể nắm bắt và tính toán các khía cạnh vật chất và phi vật thể của sự sống và tác động lên chúng, trên một quy mô toàn diện hơn nhiều.
Việc xem thế giới như thông tin, như đại dương dữ liệu có thể được khám phá với bề rộng và chiều sâu lớn nhất từ trước đến nay, cho chúng ta một cái nhìn về thực tế mà chúng ta chưa hề có. Đây là một quan điểm có thể thâm nhập tất cả các lĩnh vực của đời sống. Ngày nay, chúng ta là một xã hội định lượng bởi chúng ta cho rằng có thể hiểu được thế giới bằng những con số và toán học. Và chúng ta thừa nhận kiến thức có thể được truyền tải qua thời gian và không gian vì ý tưởng của chữ viết ăn rất sâu vào trí não. Trong tương lai, có lẽ các thế hệ tiếp theo sẽ có một “ý thức dữ-liệu-lớn”. Khái niệm về chuyển đổi vô số chiều kích của thực tế thành dữ liệu có thể dường như mới mẻ đối với hầu hết mọi người hiện nay. Nhưng trong tương lai, chúng ta chắc chắn sẽ xem nó như một sự hiển nhiên (điều thú vị là nó trở lại nguồn gốc sâu xa của thuật ngữ “dữ liệu”).
Theo thời gian, tầm vóc ý nghĩa của dữ liệu hóa có thể khiến sự phát minh ra cống dẫn nước và báo chí trở thành nhỏ nhoi. Nó có thể sánh ngang với in ấn và Internet, khi mang đến cho chúng ta những phương tiện để sắp xếp lại thế giới theo một cách định lượng và có thể phân tích được. Tuy nhiên, tại thời điểm này, những người tiến bộ nhất trong dữ liệu hóa lại đang thuộc giới kinh doanh, nơi dữ liệu lớn đang được sử dụng để tạo ra các hình thức giá trị mới. Đây cũng chính là chủ đề của chương kế tiếp.
Matthew Fontaine Maury là một sĩ quan Hải quân Hoa Kỳ đầy triển vọng. Trên đường nhận một nhiệm vụ mới tại Consort vào năm 1839, xe ngựa của ông đột nhiên trượt khỏi đường, lật nhào, và ném ông vào không khí. Ông bị ngã đau, gãy xương đùi và trẹo khớp gối. Khớp được một bác sĩ địa phương chỉnh lại vào vị trí, nhưng xương đùi thì được xếp rất tồi và vài ngày sau bị tháo ra để đặt lại. Những vết thương đã làm Maury, lúc đó mới 33 tuổi, bị liệt một phần và không còn thích hợp với biển. Sau gần ba năm hồi phục, Hải quân xếp cho ông công việc bàn giấy, phụ trách một nơi nghe chẳng hấp dẫn chút nào – Kho Bản đồ và Khí giới.
Hóa ra đó lại là nơi hoàn hảo cho ông. Là một hoa tiêu trẻ, Maury từng rất bực bội vì các con tàu cứ chạy ngoằn ngoèo trên đại dương thay vì đi theo những tuyến đường trực tiếp hơn. Khi ông hỏi các thuyền trưởng về chuyện này, họ trả lời rằng việc đi theo một tuyến đường quen thuộc sẽ tốt hơn là chấp nhận may rủi với một tuyến đường mình không nắm rõ bằng, vốn dĩ tiềm ẩn những nguy hiểm. Họ xem đại dương như là một địa hạt không thể đoán trước, nơi các thủy thủ phải đối mặt những bất ngờ với tất cả gió và sóng.
Tuy nhiên, từ những chuyến đi của ông, Maury biết rằng điều này không hoàn toàn đúng, ông nhìn ra những khuôn mẫu ở khắp mọi nơi. Trong một chặng dừng kéo dài tại Valparaiso, Chile, ông đã chứng kiến những cơn gió hoạt động chính xác cứ như đồng hồ. Một cơn gió mạnh vào chiều muộn sẽ đột nhiên dịu đi lúc mặt trời lặn và trở thành một làn gió nhẹ, cứ như thể ai đó vừa ngắt van. Trong một chuyên đi khác ông đã vượt qua dòng hải lưu xanh ấm áp Gulf Stream khi nó chảy giữa những khoảng tối của nước biển Đại Tây Dương. Trông nó thật khác biệt và ổn định, cứ như thể đó là dòng sông Mississippi vậy. Thật ra, người Bồ Đào Nha đã đi lại trên Đại Tây Dương hàng thế kỷ bằng cách dựa vào các luồng gió đông và tây đều đặn được gọi là “gió mậu dịch”.
Bất cứ khi nào chuẩn úy hải quân Maury đến một cảng mới, ông đều tìm kiếm những thuyền trưởng già để thu thập kiến thức của họ, dựa trên các trải nghiệm được truyền lại qua các thế hệ. Ông đã học được những kiến thức về thủy triều, gió, và hải lưu hoạt động theo quy luật, nhưng không hề được tìm thấy trong các sách và bản đồ mà Hải quân cấp cho các thủy thủ. Thay vào đó, họ dựa trên những bản đồ đôi khi cũ cả trăm năm, nhiều bản đồ có rất nhiều thiếu sót hoặc hoàn toàn không chính xác. Trong cương vị mới là người quản lý Kho Bản đồ và Quân dụng, ông tập trung khắc phục điều đó.
Khi nhận nhiệm vụ, ông kiểm kê các phong vũ biểu, la bàn, kính lục phân, và đồng hồ bấm giờ trong bộ sưu tập của kho. Ông cũng chú ý tới vô số những cuốn sách, bản đồ, và biểu đồ hàng hải có trong kho. Ông đã tìm thấy những thùng mốc đầy các sổ ghi chép cũ từ tất cả những chuyến đi trước đây của các thuyền trưởng Hải quân. Người tiền nhiệm của ông đã xem chúng là rác. Với những lời hài hước hoặc những hình phác thảo kỳ quặc trên lề các trang giấy, chúng đôi khi có vẻ giống như một cách để thoát khỏi sự nhàm chán của chuyến đi hơn là một sự ghi chép về hành trình của con tàu.
Nhưng khi Maury phủi bụi những cuốn sách ố màu nước biển và xem kỹ bên trong, ông thật sự thích thú. Đây là những thông tin ông cần: hồ sơ về gió, nước và thời tiết tại những địa điểm cụ thể trong những ngày cụ thể. Mặc dù một số bản ghi cung cấp được ít giá trị, nhiều bản khác đã cho thấy bạt ngàn thông tin hữu ích. Ghép tất cả chúng lại, Maury nhận thấy một hình thức hoàn toàn mới của biểu đồ điều hướng sẽ hoàn toàn khả thi. Maury và cả tá “máy tính” của ông – chức danh của những người tính toán số liệu – bắt đầu quá trình cần mẫn trích xuất và lập bảng các thông tin đã bị giam cầm bên trong các cuốn sổ ghi chép đang bị hủy hoại.
Maury tổng hợp các dữ liệu và phân chia toàn bộ Đại Tây Dương thành các khối năm độ kinh tuyến và vĩ tuyến. Với từng phân khúc ông ghi nhiệt độ, tốc độ, hướng của gió và sóng, cùng với tháng, vì những điều kiện này khác nhau tùy thuộc vào thời gian trong năm. Khi kết hợp lại, dữ liệu cho thấy những mô hình và chỉ ra được những tuyến đường hiệu quả hơn.
Lời khuyên của nhiều thế hệ thủy thủ đôi khi đã đưa những con tàu thẳng tiến vào những vùng yên ả hoặc khiến chúng phải đọ sức với gió và dòng chảy ngược chiều. Trên một tuyến đường thông thường, từ New York đến Rio de Janeiro, các thủy thủ từ lâu đã có tư tưởng phải chống lại thiên nhiên thay vì dựa vào nó. Các hoa tiêu Mỹ được dạy tránh các nguy hiểm của một hành trình về phía nam thẳng đến Rio. Vì vậy, những con tàu của họ đã lướt theo dòng đông nam trước khi chuyển qua dòng tây nam sau khi vượt qua đường xích đạo. Khoảng cách đi thuyền thường lên tới ba lần xuyên suốt toàn bộ Đại Tây Dương. Tuyến đường phức tạp hóa ra lại là vô nghĩa. Một đường đơn giản trực tiếp về phía nam cũng đã là tốt.
Để tăng độ chính xác, Maury cần nhiều thông tin hơn. Ông đã tạo ra một phiếu chuẩn để ghi nhật ký dữ liệu của tàu và yêu cầu tất cả các tàu Hải quân Mỹ sử dụng và nộp lại khi kết thúc chuyến đi. Các tàu buôn rất muốn có được những sơ đồ của ông, nhưng Maury kiên quyết yêu cầu đổi lại họ phải nộp các phiếu ghi nhật ký tàu của họ (một phiên bản sớm của một mạng xã hội lan truyền). “Mỗi con tàu đi trên đại dương”, ông tuyên bố, “có thể từ nay về sau được xem như một đài quan sát nổi, một ngôi đền của khoa học”. Để tinh chỉnh các sơ đồ, ông đã tìm kiếm các điểm dữ liệu khác (giống như Google xây dựng trên thuật toán PageRank để bao gồm nhiều tín hiệu hơn). Ông yêu cầu các thuyền trưởng ném chai với các ghi chú cho thấy ngày, vị trí, gió, và dòng chảy phổ biến trên biển theo định kỳ, và vớt những chai như vậy khi phát hiện ra chúng. Nhiều tàu cắm một lá cờ đặc biệt để cho thấy họ đã hợp tác với việc trao đổi thông tin (tiền thân của các biểu tượng chia sẻ liên kết sau này xuất hiện trên một số trang web).
Từ các dữ liệu, các tuyến đường biển tự nhiên đã tự thể hiện, nơi mà gió và dòng chảy là đặc biệt thuận lợi. Các sơ đồ của Maury cắt giảm được những hành trình dài, thường khoảng một phần ba, giúp các thương gia tiết kiệm được rất nhiều chi phí. “Cho đến khi có được những tài liệu của ông, tôi đã vượt qua đại dương trong mịt mù”, một thuyền trưởng đã viết lời tán thưởng như vậy. Và thậm chí cả những người đi biển sành sỏi, vẫn từ chối các sơ đồ mới lạ và dựa trên những cách truyền thống hoặc trực giác của họ, cũng đóng một vai trò hữu ích: nếu hành trình của họ mất nhiều thời gian hơn hoặc gặp thảm họa, xem như họ đã chứng minh tính tiện ích cho hệ thống của Maury. Đến năm 1855, khi xuất bản tác phẩm có uy tín The Physical Geography of the Sea, Maury đã vẽ được 1,2 triệu điểm dữ liệu. “Do đó, một thủy thủ trẻ, thay vì mò mẫm theo cách của mình cho đến khi ánh sáng của kinh nghiệm đến với anh ta… thì qua đây sẽ thấy rằng anh ta đã có kinh nghiệm của một ngàn hoa tiêu để hướng dẫn cho mình, cùng một lúc”, ông đã viết.
Công trình của ông có ý nghĩa quan trọng cho việc lắp đặt cáp điện báo xuyên Đại Tây Dương đầu tiên. Và, sau một vụ va chạm thảm khốc trên biển, ông đã nhanh chóng sắp đặt hệ thống các làn tàu vận chuyển mà ngày nay đã trở thành phổ biến. Thậm chí ông còn áp dụng phương pháp của mình cho thiên văn học: khi hành tinh Neptune được phát hiện vào năm 1846, Maury đã có ý tưởng tuyệt vời là phối hợp các tài liệu lưu trữ đã nhầm lẫn nhắc đến nó như một ngôi sao, và chúng đã giúp vẽ được quỹ đạo của Neptune. Maury đã hầu như bị bỏ qua trong các sách lịch sử Mỹ, có lẽ bởi con người gốc Virginia này đã từ chức khỏi Hải quân trong thời kỳ Nội chiến và phục vụ như một điệp viên ở Anh cho phe Liên minh. Nhưng nhiều năm trước đó, khi ông đến châu Âu để kêu gọi sự hỗ trợ quốc tế cho các sơ đồ của mình, bốn quốc gia đã phong tước hiệp sĩ cho Maury, và ông đã nhận được huy chương vàng từ tám nước khác, bao gồm cả Vatican. Vào thời kỳ đầu của thế kỷ XXI, biểu đồ dẫn đường do Hải quân Mỹ xuất bản vẫn mang tên ông.
Trung tá Maury, “Thám tử của đại dương”, là một trong những người đầu tiên nhận ra rằng có một thứ giá trị đặc biệt trong một gói tổng hợp rất lớn của dữ liệu, điều không thể có được với lượng dữ liệu nhỏ hơn – một nguyên lý cốt lõi của dữ liệu lớn. Về cơ bản, ông hiểu rằng những tập nhật ký hàng hải mốc meo của Hải quân đã thực sự tạo nên “dữ liệu” có thể khai thác, trích xuất và lập bảng. Khi làm như vậy, ông là một trong những người tiên phong của dữ liệu hóa, khai quật dữ liệu từ một nguồn mà không ai nghĩ rằng có chứa bất kỳ giá trị nào. Giống như Oren Etzioni tại Farecast, người đã sử dụng thông tin về giá cũ của ngành công nghiệp hàng không để tạo ra một công việc kinh doanh sinh lợi, hay các kỹ sư tại Google, những người đã tận dụng những câu hỏi tìm kiếm cũ để hiểu về sự lây lan của dịch cúm, Maury đã lấy thông tin được tạo ra cho một mục đích và chuyển đổi nó thành một cái gì đó khác nữa.
Phương pháp của ông, gần tương tự với các kỹ thuật dữ-liệu-lớn ngày hôm nay, thật đáng kinh ngạc nếu xét rằng nó đã được thực hiện chỉ với giấy và bút chì. Câu chuyện của ông làm nổi bật mức độ của việc sử dụng dữ liệu trước thời đại số hóa. Ngày nay chúng ta có xu hướng kết hợp hai thứ này, nhưng điều quan trọng là giữ chúng tách biệt. Để có được một sự hình dung đầy đủ hơn về cách dữ liệu được trích xuất từ những nơi ít ngờ đến nhất, hãy xem một ví dụ hiện đại hơn.
Đánh giá tư thế của con người là môn nghệ thuật cả khoa học của Shigeomi Koshimizu, một giáo sư tại Học viện cao cấp Nhật Bản về Công nghệ ở Tokyo. Ít ai nghĩ rằng cách một người ngồi lại chứa đựng thông tin, nhưng thật ra là có. Khi một người đang ngồi, những yếu tố như đường nét của cơ thể, tư thế, và phân phối trọng lượng… đều có thể được định lượng và lập bảng. Koshimizu và đội ngũ kỹ sư của ông chuyển đổi các phần phía sau cơ thể thành dữ liệu bằng cách đo áp lực tại 360 điểm khác nhau từ cảm biến trong ghế ngồi xe và lập chỉ số mỗi điểm trên thang điểm từ 0 đến 256. Kết quả là mỗi cá nhân sẽ có một mã số duy nhất. Trong một thử nghiệm, hệ thống đã có thể phân biệt giữa khá nhiều người với độ chính xác 98 phần trăm.
Nghiên cứu kể trên không phải thứ ngớ ngẩn. Công nghệ này đang được phát triển thành một hệ thống chống trộm trong xe hơi. Một chiếc xe được trang bị công nghệ này sẽ nhận ra một người nào đó, khác với người lái xe đã được xác nhận, đang ngồi sau tay lái. Khi đó nó sẽ yêu cầu một mật khẩu để cho phép tiếp tục lái xe hoặc ngắt động cơ. Việc chuyển các tư thế ngồi thành dữ liệu đã tạo ra một dịch vụ khả thi và một công việc kinh doanh có khả năng sinh lợi. Và tính hữu dụng của nó có thể đi xa hơn cả việc ngăn chặn hành vi trộm cắp xe hơi. Ví dụ các dữ liệu tổng hợp có thể tiết lộ những manh mối về sự liên hệ giữa tư thế của người lái và mức an toàn giao thông, chẳng hạn như tư thế ngồi trước khi xảy ra tai nạn. Hệ thống cũng có thể cảm nhận được khi người lái xe có dấu hiệu mệt mỏi để gửi một cảnh báo hoặc tự động nhấn phanh. Và có thể nó không chỉ ngăn chặn một vụ ăn cắp xe mà còn xác định được kẻ trộm từ cặp mông của hắn (có thể nói như vậy).
Giáo sư Koshimizu đã chọn một thứ chưa bao giờ được xem như dữ liệu – hoặc thậm chí từng được hình dung rằng có khả năng cung cấp thông tin – và chuyển đổi nó thành một dạng số liệu. Tương tự như vậy, thuyền trưởng Maury đã chọn những tài liệu dường như rất ít có khả năng sử dụng để trích thông tin, biến nó thành dữ liệu vô cùng hữu ích. Việc này giúp các thông tin được sử dụng theo cách mới mẻ và tạo ra một giá trị độc đáo.
Từ “dữ liệu” mang nghĩa “đã có” trong tiếng Latin, theo nét nghĩa là một “điều thực tế”. Nó đã trở thành tiêu đề của một công trình kinh điển của Euclid, trong đó ông giải thích hình học từ những gì được biết đến hoặc có thể được chứng minh là được biết đến. Ngày nay dữ liệu ám chỉ một cái gì đó cho phép nó được ghi lại, phân tích, và tổ chức. Chưa có thuật ngữ chính xác cho các loại chuyển đổi như của thuyền trưởng Maury và giáo sư Koshimizu. Vì vậy, hãy tạm gọi chúng là dữ liệu hóa (datafication). Dữ liệu hóa một hiện tượng là đặt nó trong một dạng định lượng để nó có thể được phân tích và lập bảng.
Một lần nữa, điều này rất khác với việc số hóa – quá trình chuyển đổi thông tin dạng tương tự thành những số 0 và 1 của mã nhị phân để máy tính có thể xử lý được, số hóa không phải là thứ đầu tiên chúng ta làm với máy tính. Thời kỳ ban đầu của cuộc cách mạng máy tính là tính toán, như từ nguyên của nó cho thấy. Chúng ta sử dụng máy để làm các phép tính toán từng đòi hỏi rất nhiều thời gian nếu bằng các phương pháp trước đây: chẳng hạn như bảng quỹ đạo tên lửa, tổng điều tra dân số, và dự báo thời tiết. Chỉ sau đó mới đến việc lấy nội dung tương tự và số hóa nó. Do đó khi Nicholas Negroponte của MIT Media Lab xuất bản cuốn sách mang tính bước ngoặt của ông năm 1995 tên là BeingDigital, một trong những chủ đề lớn của ông là sự chuyển đổi từ các nguyên tử sang các bit. Về căn bản, chúng ta đã số hóa văn bản trong những năm 1990. Gần đây hơn, khi khả năng lưu trữ, sức mạnh xử lý, và băng thông đã tăng lên, chúng ta đã thực hiện nó với các hình dạng nội dung khác như hình ảnh, video, và âm nhạc.
Ngày nay có một niềm tin tuyệt đối trong các chuyên gia công nghệ rằng dữ liệu lớn bắt nguồn từ cuộc cách mạng Silicon. Nhưng tất nhiên không phải vậy. Các hệ thống công nghệ thông tin hiện đại chắc chắn đã làm cho dữ liệu lớn trở nên khả thi, nhưng cốt lõi của việc chuyển đổi sang dữ liệu lớn là sự tiếp nối của cuộc tìm kiếm cổ xưa của loài người để đo lường, ghi lại và phân tích thế giới. Cuộc cách mạng IT là điều hiển nhiên khắp xung quanh chúng ta, nhưng sự nhấn mạnh chủ yếu vẫn trên chữ T (technology), công nghệ. Đã tới lúc phải thay đổi cách nhìn của chúng ta để tập trung vào chữ I (information), thông tin. Để nắm bắt thông tin có thể định lượng, để dữ liệu hóa, chúng ta cần biết cách đo lường và ghi lại những gì chúng ta đo. Điều này đòi hỏi các công cụ thích hợp. Nó cũng đòi hỏi một khao khát được định lượng và ghi chép lại. Cả hai đều là điều kiện tiên quyết của việc dữ liệu hóa, và chúng ta đã phát triển các yếu tố cơ sở cần thiết cho dữ liệu hóa từ nhiều thế kỷ trước buổi bình minh của thời đại kỹ thuật số.
Định lượng thế giới
Khả năng ghi thông tin là một trong những đường ranh phân giới giữa xã hội nguyên thủy và xã hội tiên tiến. Đếm và đo lường cơ bản về chiều dài và trọng lượng là một trong những công cụ mang tính khái niệm lâu đời nhất của các nền văn minh sớm.
Vào thiên niên kỷ thứ ba trước Công nguyên, ý tưởng về ghi chép lại thông tin đã tiến bộ đáng kể trong vùng thung lũng Indus, Ai Cập và Lưỡng Hà. Độ chính xác tăng lên, cũng như việc sử dụng đo lường trong cuộc sống hàng ngày. Sự phát triển của chữ viết ở vùng Lưỡng Hà đã mang đến một phương pháp chính xác cho việc theo dõi sản xuất và các giao dịch kinh doanh. Ngôn ngữ viết cho phép các nền văn minh sớm đo lường được những yếu tố thực tại, ghi lại chúng, và truy tìm chúng sau này. Kết hợp với nhau, việc đo lường và ghi nhận đã hỗ trợ việc tạo ra dữ liệu. Chúng là những nền tảng đầu tiên của dữ liệu hóa.
Điều này tạo ra khả năng tái tạo hoạt động của con người. Ví dụ các tòa nhà có thể được sao lại từ hồ sơ các kích thước và vật liệu của chúng. Nó cũng cho phép thử nghiệm: một kiến trúc sư hay một nhà xây dựng có thể thay đổi một số kích thước nhất định trong khi vẫn giữ những kích thước khác không thay đổi, tạo ra một thiết kế mới – mà sau đó có thể được ghi lại. Các giao dịch thương mại có thể được ghi nhận, vì vậy người ta biết sản lượng từ một vụ thu hoạch hay trên một cánh đồng (và bao nhiêu bị nhà nước lấy đi trong các loại thuế). Định lượng cho phép dự đoán và do đó lập kế hoạch, ngay cả khi chỉ là thô như đơn giản đoán xem mùa thu hoạch năm tiếp theo có dồi dào như các năm trước không. Nó cho phép các đối tác trong một giao dịch ghi nhận những gì họ còn nợ nhau. Nếu không có đo lường và ghi chép thì có thể đã không có tiền, vì sẽ không có được dữ liệu để hỗ trợ nó.
Qua nhiều thế kỷ, việc đo lường được mở rộng từ chiều dài và trọng lượng đến diện tích, khối lượng và thời gian. Vào đầu thiên niên kỷ thứ nhất sau Công nguyên, các tính năng chính của đo lường đã có ở phương Tây. Nhưng có một thiếu sót đáng kể về cách thức đo lường của các nền văn minh sớm. Nó không được tối ưu hóa cho việc tính toán, thậm chí cả những phép tính toán tương đối đơn giản. Hệ thống đếm với các chữ số La Mã không phù hợp cho việc phân tích số. Nếu không có một hệ thống cơ số mười hay số thập phân, các phép nhân và chia những số lớn là rất khó khăn ngay cả đối với các chuyên gia, và các phép đơn giản cộng và trừ sẽ khó hiểu đối với hầu hết những người còn lại.
Một hệ thống số khác đã được phát triển ở Ấn Độ vào khoảng thế kỷ thứ nhất sau Công nguyên. Nó đã lan đến Ba Tư và được cải thiện, rồi sau đó được chuyển sang những người Ả Rập, là những người đã tinh chỉnh nó rất nhiều. Nó là cơ sở của các chữ số Ả Rập chúng ta sử dụng ngày nay. Cuộc Thập tự chinh có thể đã hủy diệt các vùng đất mà người châu Âu xâm chiếm, nhưng kiến thức đã di chuyển từ Đông sang Tây, và có lẽ sự di chuyển quan trọng nhất là chữ số Ả Rập. Giáo hoàng Sylvester II, người từng nghiên cứu chúng, đã ủng hộ việc sử dụng chúng vào cuối thiên niên kỷ thứ nhất. Tới thế kỷ XII, các văn bản tiếng Ả Rập mô tả hệ thống này đã được dịch sang tiếng Latin và lan khắp châu Âu. Kết quả là toán học đã cất cánh.
Ngay cả trước khi chữ số Ả Rập đến với châu Âu, việc tính toán đã được cải thiện thông qua các bàn tính. Đó là những khay nhẵn, trên đó các thẻ được đặt để biểu thị số lượng. Bằng việc trượt các thẻ trong những vùng nhất định, người ta có thể cộng hoặc trừ. Tuy nhiên, phương pháp này có những hạn chế nghiêm trọng. Thật khó để tính toán những con số rất lớn và rất nhỏ cùng một lúc. Quan trọng nhất, những con số trên bàn tính này không rõ ràng. Một bước di chuyển sai hoặc một va chạm bất cẩn có thể thay đổi một con số, dẫn đến những kết quả không chính xác. Bàn tính có thể được chấp nhận cho việc tính toán, nhưng chúng rất kém để ghi chép. Và cách duy nhất để ghi lại, lưu trữ các số hiển thị trên các bàn tính là chuyển chúng trở lại vào chữ số La Mã không mấy hiệu quả. (Những người châu Âu chưa bao giờ được tiếp xúc với các bàn tính của phương Đông – trong nhận thức muộn màng thì đó là một điều tốt, vì các thiết bị này có thể đã kéo dài việc sử dụng chữ số La Mã ở phương Tây.)
Toán học đã mang lại cho dữ liệu một ý nghĩa mới – bây giờ nó có thể được phân tích, chứ không chỉ được ghi lại và trích xuất. Việc áp dụng rộng rãi chữ số Ả Rập ở châu Âu đã phải mất hàng trăm năm, từ khi chúng xuất hiện vào thế kỷ XII đến cuối thế kỷ XVI. Vào thời điểm đó, các nhà toán học tự hào rằng họ có thể tính toán sáu lần nhanh hơn bằng chữ số Ả Rập so với bàn tính. Những gì cuối cùng đã giúp làm cho chữ số Ả Rập thành công là sự tiến hóa của một công cụ khác của dữ liệu hóa: kế toán kép.
Các nhà kế toán đã phát minh ra sổ sách kế toán vào thiên niên kỷ thứ ba trước công nguyên. Trong khi sổ sách kế toán phát triển qua nhiều thế kỷ sau đó, chủ yếu nó vẫn là một hệ thống ghi chép một giao dịch cụ thể ở một nơi. Những gì nó không thể làm được là cho các nhà kế toán và các ông chủ của họ biết một cách dễ dàng vào bất cứ lúc nào những gì họ quan tâm nhất: liệu một tài khoản cụ thể hoặc toàn bộ một công việc làm ăn có lợi nhuận hay không. Điều này bắt đầu thay đổi vào thế kỷ XIV, khi các nhà kế toán tại Ý bắt đầu ghi các giao dịch sử dụng hai mục, một cho các khoản có và một cho các khoản nợ, do đó tổng thể các tài khoản là cân bằng, vẻ đẹp của hệ thống này là nó cho phép dễ dàng nhìn thấy lợi nhuận và thua lỗ. Và đột nhiên dữ liệu vô tri vô giác bắt đầu biết nói.
Ngày nay kế toán kép thường chỉ được dùng nhờ công dụng của nó đối với kế toán và tài chính. Nhưng nó cũng đại diện cho một bước ngoặt trong sự phát triển của việc sử dụng dữ liệu. Nó cho phép thông tin được ghi lại theo hình thức các “hạng mục” liên kết các tài khoản với nhau. Nó vận hành bằng một bộ quy tắc về cách ghi dữ liệu như thế nào – một trong những ví dụ sớm nhất của việc ghi chuẩn của thông tin. Một kế toán viên có thể nhìn vào sổ sách của người khác và hiểu được chúng. Nó được tổ chức để thực hiện một loại hình cụ thể của việc truy vấn dữ liệu – tính toán lợi nhuận hoặc lỗ cho mỗi tài khoản – nhanh chóng và đơn giản. Và nó cung cấp những bằng chứng kiểm toán của các giao dịch để dữ liệu được dễ dàng theo dõi hơn. Các chuyên gia công nghệ có lẽ sẽ đánh giá cao nó hôm nay: nó có tính năng “sửa lỗi” được tích hợp. Nếu một bên của sổ kế toán trông không ổn, người ta có thể kiểm tra các mục tương ứng bên kia.
Tuy nhiên, cũng như chữ số Ả Rập, kế toán kép không phải là một thành công ngay lập tức. Hai trăm năm sau khi phương pháp này lần đầu tiên được nghĩ ra, nó đã cần một nhà toán học và một gia đình thương gia để làm thay đổi lịch sử của dữ liệu hóa.
Nhà toán học đó là một tu sĩ dòng Phanxicô, Luca Pacioli. Năm 1494 ông xuất bản một cuốn sách giáo khoa, viết cho đại chúng, về toán học và ứng dụng thương mại của nó. Cuốn sách này là một thành công lớn và thật ra có vai trò như cuốn sách giáo khoa toán học của thời đó. Nó cũng là cuốn sách đầu tiên sử dụng chữ số Ả Rập, và do đó sự phổ biến của nó đã tạo điều kiện cho việc chấp nhận chữ số Ả Rập ở châu Âu. Tuy nhiên, đóng góp lâu dài nhất của nó là phần dành cho sổ sách kế toán, trong đó Pacioli giải thích cặn kẽ hệ thống kế toán kép. Trong nhiều thập kỷ kế tiếp, tư liệu về sổ sách kế toán đã được xuất bản riêng bằng sáu ngôn ngữ, và nó đã là tài liệu tham khảo tiêu chuẩn về chủ đề này trong nhiều thế kỷ.
Còn về gia đình thương gia, đó là những thương nhân Venetian nổi tiếng và những nhà bảo hộ nghệ thuật: gia tộc Medici. Trong thế kỷ XVI, họ đã trở thành những chủ ngân hàng có ảnh hưởng nhất ở châu Âu, một phần không nhỏ vì họ đã sử dụng một phương pháp ưu việt để ghi dữ liệu: hệ thống kép. Cùng với nhau, sách giáo khoa của Pacioli và sự thành công của Medici trong việc áp dụng nó đã chốt lại chiến thắng của kế toán kép – và rộng hơn đã thiết lập được việc sử dụng chữ số Ả Rập ở phương Tây.
Song song với những tiến bộ trong việc ghi chép dữ liệu, những cách thức đo lường thế giới – biểu thị thời gian, khoảng cách, diện tích, khối lượng, và trọng lượng – đã tiếp tục đạt được độ chính xác ngày càng tăng. Lòng khao khát muốn hiểu được bản chất của sự vật thông qua định lượng đã định hình khoa học trong thế kỷ XIX, khi các học giả phát minh ra các công cụ và các đơn vị mới mẻ để đo và ghi lại dòng điện, áp suất không khí, nhiệt độ, tần số âm thanh… Đó là một thời đại mà tuyệt nhiên tất cả mọi thứ đều phải được xác định, lập ranh giới, và ký hiệu. Niềm đam mê đó còn đi xa tới mức đo sọ người để đo lường cho khả năng trí tuệ của họ. May mắn là cái môn giả-khoa-học nghiên cứu về sọ đã hầu như chết yểu, nhưng mong muốn định lượng mọi thứ cứ ngày càng tăng.
Việc đo lường hiện thực và ghi dữ liệu được phát triển mạnh là do sự kết hợp của các công cụ và một tư duy luôn sẵn sàng tiếp thu. Sự kết hợp này chính là mảnh đất màu mỡ từ đó dữ liệu hóa hiện đại đã phát triển. Các thành tố cho dữ liệu hóa đã tồn tại, mặc dù trong một thế giới của dữ liệu dạng tương tự, nó vẫn còn đắt đỏ và tốn thời gian. Trong nhiều trường hợp nó đòi hỏi dường như sự kiên nhẫn vô hạn, hoặc ít nhất là một sự cống hiến lâu dài, như việc quan sát các ngôi sao và các hành tinh về đêm đầy nhọc nhằn của Tycho Brahe trong những năm 1500.
Trong một số ít các trường hợp dữ liệu hóa thành công, như lược đồ hàng hải của trung tá Maury, nó thường là một sự trùng hợp may mắn: chẳng hạn Maury được giao một công việc bàn giấy nhưng với quyền truy cập vào một kho tàng nhật ký hàng hải. Tuy nhiên, bất cứ khi nào dữ liệu hóa thật sự thành công, nó đều tạo ra được những giá trị khổng lồ từ các thông tin cơ bản và mở ra những hiểu biết phi thường.
Sự xuất hiện của máy tính đã mang đến những thiết bị đo lường và lưu trữ kỹ thuật số giúp dữ liệu hóa trở nên hiệu quả hơn rất nhiều. Nó cũng giúp khám phá được những giá trị tiềm ẩn từ việc phân tích toán học đối với dữ liệu. Tóm lại, số hóa tăng tốc cho dữ liệu hóa. Nhưng nó không phải là một sự thay thế. Hoạt động số hóa – chuyển thông tin dạng tương tự thành dạng máy tính đọc được – tự nó không phải là dữ liệu hóa.
Khi từ ngữ trở thành dữ liệu
Sự khác biệt giữa số hóa và dữ liệu hóa trở nên rõ ràng khi chúng ta xem xét một lĩnh vực mà cả hai hiện tượng đã xảy ra và so sánh kết quả của chúng: sách. Năm 2004 Google đã công bố một kế hoạch táo bạo. Họ sẽ lấy tất cả các trang của tất cả các cuốn sách mà họ có được (trong khuôn khổ pháp luật về bản quyền) và cho phép tất cả mọi người trên toàn thế giới tìm kiếm và truy cập miễn phí qua Internet. Để đạt được điều này công ty hợp tác với một số thư viện lớn nhất và uy tín nhất trên thế giới và phát triển những máy quét có thể tự động lật các trang, để việc quét hàng triệu cuốn sách vừa có thể thực hiện được và vừa khả thi về mặt tài chính.
Đầu tiên, Google số hóa văn bản: từng trang được quét và ghi trong một tập tin hình ảnh có độ phân giải kỹ thuật số cao, được lưu trữ trên máy chủ của Google. Trang sách được chuyển thành một bản sao kỹ thuật số có thể dễ dàng được bất kỳ ai ở bất kỳ đâu truy cập thông qua Web. Tuy nhiên, việc truy cập sẽ đòi hỏi người đọc phải biết cuốn sách nào có thông tin mình quan tâm, hoặc phải đọc nhiều để tìm ra thông tin cần thiết. Người ta không thể tìm kiếm văn bản theo từ khóa, hoặc phân tích nó, bởi vì văn bản chưa được dữ liệu hóa. Tất cả những gì Google có là những hình ảnh mà chỉ con người mới có thể biến đổi thành thông tin hữu ích – bằng cách đọc.
Dù nó vẫn là một công cụ tuyệt vời – một Thư viện Alexandria kỹ thuật số hiện đại, toàn diện hơn bất kỳ thư viện nào trong lịch sử – Google vẫn muốn nhiều hơn nữa. Họ hiểu rằng thông tin chứa đựng những giá trị mà chỉ có thể được chuyển tải một khi nó được dữ liệu hóa. Và do vậy Google đã sử dụng phần mềm nhận dạng ký tự quang học để đọc một hình ảnh kỹ thuật số và nhận dạng ra các chữ cái, từ, câu, và đoạn văn trên đó. Kết quả là văn bản đã được dữ liệu hóa chứ không chỉ là một hình ảnh kỹ thuật số của trang sách.
Bây giờ các thông tin trên trang sách mới có thể được sử dụng không chỉ cho người đọc, mà còn cho các máy tính để xử lý và cho các thuật toán để phân tích. Dữ liệu hóa làm cho văn bản có thể lập chỉ mục và do đó có thể tìm kiếm được. Và nó cho phép một dòng phân tích văn bản bất tận. Bây giờ chúng ta có thể khám phá khi nào thì những từ hoặc cụm từ nhất định được sử dụng lần đầu tiên, hoặc trở nên phổ biến. Đó chính là thứ kiến thức làm sáng tỏ sự lan truyền của những ý tưởng và quá trình tiến hóa của tư duy con người qua nhiều thế kỷ và trong nhiều ngôn ngữ khác nhau. Bạn có thể tự thử nghiệm. Ngram Viewer của Google (https://books.google.com/ngrams) sẽ tạo ra một đồ thị của việc sử dụng các từ hoặc cụm từ theo thời gian, bằng cách sử dụng toàn bộ chỉ mục Sách của Google như một nguồn dữ liệu. Trong vòng vài giây chúng ta khám phá ra rằng cho đến năm 1900 thuật ngữ “nhân quả” được sử dụng thường xuyên hơn “tương quan”, nhưng sau đó tỷ lệ này đã đảo ngược. Chúng ta có thể so sánh phong cách văn bản và xác định được tác giả khi có tranh chấp tác quyền. Dữ liệu hóa cũng giúp cho việc phát hiện đạo văn trong các công trình hàn lâm trở nên dễ dàng hơn, kết quả là một số chính trị gia châu Âu, trong đó có một bộ trưởng quốc phòng Đức, đã bị buộc phải từ chức.
Ước tính có khoảng 130 triệu đầu sách đã được xuất bản kể từ khi in ấn được phát minh ra vào giữa thế kỷ XV. Đến năm 2012, bảy năm sau khi Google bắt đầu dự án sách, họ đã sao chụp hơn 20 triệu đầu sách, hơn 15 phần trăm di sản in ấn của thế giới – một khối lượng đáng kể. Điều này đã tạo ra một ngành học mới được gọi là “Culturomics”: từ vựng học tính toán để cố gắng hiểu hành vi con người và các xu hướng văn hóa thông qua việc phân tích định lượng các văn bản số hóa.
Trong một nghiên cứu, các chuyên gia tại Đại học Harvard khảo sát hàng triệu cuốn sách (tương đương với hơn 500 tỷ từ) và phát hiện ra rằng chỉ có chưa đến một nửa số lượng các từ tiếng Anh xuất hiện trên sách là có trong các từ điển. Thay vào đó, họ viết, sự dồi dào của từ ngữ “bao gồm cả từ vựng‘ngoài lề’ vốn không được ghi chép trong các nguồn tham khảo chuẩn”. Hơn nữa, bằng việc phân tích theo thuật toán các tài liệu tham khảo về nghệ sĩ Marc Chagall, người có các tác phẩm bị Đức Quốc xã cấm vì là người Do Thái, các nhà nghiên cứu đã chỉ ra rằng sự đàn áp hoặc kiểm duyệt một ý tưởng hoặc cá nhân để lại “dấu vết có thể định lượng được”. Từ ngữ cũng giống như hóa thạch được bọc trong các trang viết thay vì trầm tích đá. Các nhà nghiên cứu culturomics có thể khai thác chúng như các nhà khảo cổ.
Việc chuyển từ ngữ thành dữ liệu mở ra rất nhiều công dụng. Tất nhiên, dữ liệu có thể được con người sử dụng để đọc, còn máy móc dùng chúng để phân tích. Nhưng là mẫu mực của một công ty dữ-liệu-lớn, Google biết rằng thông tin còn có nhiều khả năng tiềm ẩn khác, có thể giúp ích cho bộ sưu tập của mình và cho dữ liệu hóa. Vì vậy, Google khéo léo sử dụng các văn bản được dữ liệu hóa từ dự án quét sách để cải thiện dịch vụ dịch máy của mình. Như đã giải thích trong Chương Ba, hệ thống sẽ lấy những cuốn sách được dịch và phân tích những từ và cụm từ nào được các dịch giả sử dụng như những lựa chọn thay thế từ một ngôn ngữ sang một ngôn ngữ khác. Hiểu biết được điều này thì sau đó có thể xử lý việc dịch như một vấn đề toán học khổng lồ, với các máy tính tìm ra xác suất để xác định từ nào là thay thế tốt nhất cho từ kia giữa các ngôn ngữ.
Tất nhiên Google không phải là tổ chức duy nhất mơ ước mang đến sự phong phú của di sản in ấn của thế giới vào thời đại máy tính, và nó hầu như không phải là nơi đầu tiên thử việc này. Dự án Gutenberg, một sáng kiến tình nguyện để đưa các tác phẩm thuộc sở hữu công cộng lên trực tuyến sớm có từ năm 1971, nhằm giúp mọi độc giả dễ tiếp cận các văn bản này. Tuy nhiên, dự án đã không xem xét một chức năng phụ trợ của từ ngữ nên không xem chúng như dữ liệu. Tương tự như vậy, các nhà xuất bản trong nhiều năm qua đã thử nghiệm với các phiên bản sách điện tử. Họ cũng nhìn thấy giá trị cốt lõi của sách là nội dung, chứ không phải là dữ liệu – mô hình kinh doanh của họ dựa vào điều này. Vì vậy, họ không bao giờ sử dụng hoặc cho phép người khác sử dụng các dữ liệu vốn có trong văn bản của một cuốn sách. Họ không bao giờ thấy sự cần thiết, hoặc đánh giá cao tiềm năng đó.
Nhiều công ty hiện nay đang cạnh tranh để chiếm lĩnh thị trường sách điện tử. Amazon, với máy đọc sách điện tử Kindle của mình, dường như là người dẫn đầu sớm. Nhưng đây là một lĩnh vực mà chiến lược của Amazon và Google khác nhau rất nhiều. Amazon đã dữ liệu hóa sách – nhưng không giống như Google, họ đã thất bại trong việc khai thác những chức năng mới của văn bản với vai trò dữ liệu. Jeff Bezos, người sáng lập và giám đốc điều hành của công ty, đã thuyết phục hàng trăm nhà xuất bản để phát hành sách của họ dưới dạng Kindle. Sách Kindle không phải được tạo từ ảnh của trang sách. Nếu như vậy, người đọc sẽ không thể thay đổi kích thước chữ hoặc hiển thị trang sách cả trên màn hình màu và trắng đen. Văn bản được dữ liệu hóa, không chỉ là số hóa. Thật ra, Amazon đã làm việc đó cho hàng triệu cuốn sách mới, những gì Google đang cố gắng cẩn thận đạt được đối với nhiều cuốn sách cũ hơn.
Tuy nhiên, khác với dịch vụ tuyệt vời của Amazon với “những từ ngữ quan trọng về mặt thống kê” – trong đó sử dụng các thuật toán để tìm liên kết giữa các chủ đề của sách mà bình thường có thể không rõ ràng – nhà bán lẻ trực tuyến đã không tận dụng sự giàu có của từ ngữ cho phân tích dữ-liệu-lớn. Amazon xem việc kinh doanh sách của mình là dựa trên nội dung độc giả xem, chứ không phải trên phân tích văn bản dữ liệu hóa. Và để công bằng, Amazon có thể phải đối mặt với những hạn chế từ các nhà xuất bản bảo thủ về việc Amazon có thể sử dụng thông tin chứa đựng trong các cuốn sách của họ như thế nào. Google, một cậu bé dữ-liệu-lớn hư hỏng sẵn sàng đẩy xa các giới hạn, không nhận thấy những hạn chế như vậy: bánh mĩ của Google được phết bơ bằng những cú nhấp chuột, chứ không phải bằng việc truy cập các đầu sách của người sử dụng. Có lẽ là công bằng khi nói rằng ít nhất trong lúc này, Amazon hiểu được giá trị của việc số hóa nội dung, trong khi Google hiểu được giá trị của việc dữ liệu hóa nó.
Khi vị trí trở thành dữ liệu
Một trong những phần cơ bản nhất của thông tin trong thế giới này chính là… bản thân thế giới. Nhưng qua gần hết lịch sử, lĩnh vực không gian chưa bao giờ được định lượng hoặc sử dụng ở dạng dữ liệu. Vị trí địa lý của thiên nhiên, các vật thể, và con người tất nhiên cấu thành thông tin. Dãy núi là ở đó; người là ở đây. Nhưng để trở nên hữu ích nhất, thông tin này phải được trở thành dữ liệu. Việc dữ liệu hóa vị trí đòi hỏi một vài điều kiện tiên quyết. Chúng ta cần một phương pháp để đo mỗi inch vuông của bề mặt Trái đất. Chúng ta cần một cách chuẩn hóa để ghi chú các phép đo. Chúng ta cần một công cụ để theo dõi và ghi lại các dữ liệu. Định lượng, tiêu chuẩn hóa, thu thập. Chỉ khi đó chúng ta mới có thể lưu trữ và phân tích vị trí không chỉ như nơi chốn, mà như dữ liệu.
Ở phương Tây, việc định lượng vị trí bắt đầu với người Hy Lạp. Khoảng năm 200 trước Công nguyên, Eratosthenes đã phát minh ra một hệ thống các đường lưới để phân ranh giới vị trí, giống như vĩ độ và kinh độ. Nhưng cũng giống như rất nhiều ý tưởng hay từ thời cổ đại, việc thực hành đã phai nhạt dần theo thời gian. Một thiên niên kỷ rưỡi sau, khoảng năm 1400 sau Công nguyên, một bản sao Geographia của Ptolemy đến Florence từ Constantinople, cũng giống như thời kỳ Phục hưng và buôn bán vận chuyển đã khơi dậy mối quan tâm đến khoa học và bí quyết từ người xưa. Luận thuyết của Ptolemy đã gây một sự náo động, và những bài học cũ của ông đã được áp dụng để giải quyết những thách thức trong hàng hải hiện đại. Từ đó, bản đồ xuất hiện với kinh độ, vĩ độ và tỷ lệ. Hệ thống sau đó đã được một nhà bản đồ học người Flanders, Gerardus Mercator, cải thiện vào năm 1570, cho phép các thủy thủ lập một tuyến đường thẳng trong một thế giới hình cầu.
Mặc dù thời điểm đó đã có phương tiện để ghi lại vị trí, nhưng chưa có định dạng được chấp nhận phổ biến để chia sẻ những thông tin này. Một hệ thống nhận diện chung là cần thiết, cũng giống như Internet hưởng lợi từ tên miền để làm những thứ như email hoạt động được một cách phổ dụng. Việc tiêu chuẩn hóa kinh độ và vĩ độ mất một thời gian dài. Cuối cùng nó được ghi nhận vào năm 1884 tại Hội nghị quốc tế Meridian ở Washington, DC, nơi mà 25 quốc gia đã chọn Greenwich, Anh, như kinh tuyến chính và điểm không của kinh độ (người Pháp, vốn tự xem mình là những nhà lãnh đạo về các tiêu chuẩn quốc tế, bỏ phiếu trắng). Trong những năm 1940 hệ tọa độ Universal Transverse Mercator (UTM) đã được tạo ra, phân chia thế giới thành 60 vùng để tăng độ chính xác.
Vị trí không gian địa lý bây giờ có thể được xác định, ghi nhận, đo đếm, phân tích, và chuyển tải trong một định dạng số chuẩn. Vị trí có thể được dữ liệu hóa. Nhưng vì chi phí để đo và ghi lại các thông tin trong môi trường dữ liệu ở dạng tương tự sẽ cao, nên nó hiếm khi được thực hiện. Để việc dữ liệu hóa diễn ra, người ta phải phát minh các công cụ đo vị trí với giá rẻ. Cho đến những năm 1970, cách duy nhất để xác định vị trí địa lý là sử dụng các điểm mốc, các chòm sao thiên văn, hoặc công nghệ radio định vị hạn chế.
Một sự thay đổi lớn đã xảy ra vào năm 1978, khi vệ tinh đầu tiên trong số 24 vệ tinh tạo nên hệ thống định vị toàn cầu (GPS) được phóng lên. Các thiết bị thu trên mặt đất có thể lập lưới tam giác vị trí của chúng bằng cách ghi nhận sự khác biệt về thời gian cần để nhận được một tín hiệu từ các vệ tinh cách xa 12.600 dặm trên không. Được Bộ Quốc phòng Hoa Kỳ phát triển, hệ thống lần đầu tiên được mở ra cho các mục đích phi quân sự trong những năm 1980 và được vận hành đầy đủ vào những năm 1990. Độ chính xác của nó được tăng cường cho các ứng dụng thương mại một thập kỷ sau đó. Chính xác đến từng mét, GPS đánh dấu thời điểm một phương thức đo vị trí, giấc mơ của các nhà hàng hải, các nhà làm bản đồ, và các nhà toán học từ thời cổ đại, cuối cùng đã được hợp nhất với các phương tiện kỹ thuật để thành công một cách nhanh chóng, với giá (tương đối) rẻ, và không yêu cầu bất kỳ kiến thức chuyên môn nào.
Tuy nhiên, các thông tin phải thực sự được tạo ra. Không có gì ngăn Eratosthenes và Mercator ước tính vị trí của họ mỗi phút trong ngày, nếu họ thích. Dù khả thi nhưng điều đó lại phi thực tế. Tương tự như vậy, những máy thu GPS ban đầu vừa phức tạp vừa đắt, thích hợp cho một chiếc tàu ngầm nhưng không phải cho tất cả mọi người ở mọi thời điểm. Tuy nhiên điều này đã thay đổi, nhờ vào sự phổ biến của các chip rẻ tiền nhúng trong các tiện ích kỹ thuật số. Giá của một mô-đun GPS giảm từ hàng trăm đôla trong những năm 1990 xuống khoảng một đôla ngày nay với số lượng lớn. Thường chỉ mất vài giây để GPS xác định được một vị trí, và tọa độ được chuẩn hóa. Vì vậy, 37° 14’ 06” Bắc, 115° 48’ 40” Tây chỉ có thể nghĩa là ta đang ở một căn cứ quân sự siêu bí mật của Mỹ ở một vùng hẻo lánh của bang Nevada được gọi là “Vùng 51”, nơi người ngoài hành tinh (có lẽ!) đang bị giam giữ.
Ngày nay GPS chỉ là một trong số nhiều hệ thống để nắm bắt vị trí. Các hệ thống vệ tinh đối thủ đang được tiến hành tại Trung Quốc và châu Âu. Và thậm chí độ chính xác tốt hơn có thể được thiết lập bởi lập lưới tam giác giữa các tháp di động hoặc các bộ định tuyến wifi để xác định vị trí dựa trên cường độ tín hiệu, vì GPS không hoạt động bên trong nhà hoặc giữa các tòa nhà cao tầng. Điều đó giúp giải thích tại sao các công ty như Google, Apple và Microsoft: đã thiết lập những hệ thống vị trí địa lý riêng của họ để bổ sung cho GPS. Các xe Street View của Google thu thập thông tin bộ định tuyến wifi khi họ chụp ảnh, và iPhone là một “spyPhone” (điện thoại do thám) thu thập dữ liệu vị trí và wifi và gửi nó trở lại Apple, mà người dùng không hề nhận ra. (Điện thoại Android của Google và hệ điều hành di động của Microsoft cũng thu thập loại dữ liệu này.)
Không chỉ người mà các vật thể cũng có thể bị theo dõi. Với những module vô tuyến đặt bên trong xe, việc dữ liệu hóa vị trí sẽ làm thay đổi các ý tưởng về bảo hiểm. Dữ liệu cho biết một cách chi tiết về thời gian, địa điểm, và khoảng cách xe chạy thực tế để định giá rủi ro tốt hơn. Ở Mỹ và Anh, người lái xe có thể mua bảo hiểm xe định giá theo thực tế xe được lái ở đâu và lúc nào, chứ không chỉ trả giá hàng năm theo tuổi tác, giới tính và hồ sơ quá khứ. Cách tiếp cận này để định giá bảo hiểm tạo ra những ưu đãi cho hành vi tốt. Nó thay đổi bản chất của bảo hiểm từ dựa trên sự tổng hợp nguy cơ sang một cái gì đó dựa trên hành động cá nhân. Việc theo dõi cá nhân thông qua chiếc xe cũng thay đổi bản chất của các chi phí cố định, như đường giao thông và cơ sở hạ tầng khác, bằng cách gắn việc sử dụng những tài nguyên này với những người lái xe và những người khác “tiêu thụ” chúng. Người ta đã không thể làm điều này trước khi chuyển vị trí địa lý trở thành một dạng dữ liệu liên tục cho tất cả mọi người và tất cả mọi thứ – nhưng đó là thế giới chúng ta đang đi tới.
Ví dụ UPS sử dụng dữ liệu ‘Vị-trí-địa-lý” theo nhiều cách. Xe của hãng được trang bị cảm biến, mô-đun vô tuyến, và GPS để trụ sở có thể dự đoán sự cố động cơ, như chúng ta đã thấy trong chương trước. Hơn nữa, nó cho phép công ty biết nơi chốn của xe tải trong trường hợp chậm trễ, để giám sát nhân viên, và theo dõi hành trình của họ để tối ưu hóa các tuyến đường.
Phim minh họa cơ chế phân tích của UPS
Chương trình phân tích này có tác động rất đặc biệt. Theo Jack Levis, giám đốc quản lý quy trình của UPS, năm 2011 UPS đã thu ngắn các tuyến đường cho xe của công ty tới 30 triệu dặm, tiết kiệm 3 triệu gallon nhiên liệu và 30 ngàn tấn carbon dioxide khí thải. Nó cũng cải thiện tính an toàn và hiệu quả: thuật toán tạo ra các tuyến đường với ít đoạn rẽ qua các giao lộ, yếu tố vốn thường dẫn đến tai nạn, lãng phí thời gian, và tiêu thụ nhiều nhiên liệu hơn vì xe thường xuyên phải dừng trước khi rẽ.
“Việc dự báo đã cho chúng ta kiến thức”, Levis của hãng UPS nói. “Nhưng phía sau kiến thức là một cái gì đó nhiều hơn nữa: sự khôn ngoan và sáng suốt. Tại một thời điểm nào đó, hệ thống sẽ thông minh tới mức nó sẽ dự đoán các vấn đề và sửa chữa chúng trước khi người dùng nhận ra rằng có điều gì đó sai”.
Đáng chú ý nhất là việc dữ liệu hóa vị trí theo thời gian được áp dụng cho con người. Trong nhiều năm qua, các nhà khai thác vô tuyến đã thu thập và phân tích thông tin để nâng tầm dịch vụ của mạng lưới của họ. Nhưng dữ liệu ngày càng được sử dụng nhiều cho các mục đích khác và được thu thập bởi bên thứ ba cho những dịch vụ mới. Ví dụ một số ứng dụng điện thoại thông minh thu thập thông tin vị trí cho dù bản thân ứng dụng có một tính năng dựa trên địa điểm hay không. Trong những trường hợp khác, ứng dụng chỉ được dùng để xây dựng một doanh nghiệp tận dụng kiến thức về địa điểm của người sử dụng. Một ví dụ là Foursquare, cho phép mọi người “đăng nhập” tại các địa điểm yêu thích của họ. Nó kiếm được thu nhập từ các chương trình khách hàng trung thành, giới thiệu nhà hàng, và các dịch vụ khác liên quan đến vị trí.
Khả năng thu thập dữ liệu vị trí địa lý của người sử dụng đang trở nên vô cùng giá trị. Ở mức độ cá nhân, nó giúp cho việc quảng cáo nhắm đến mục tiêu dựa trên việc khách hàng đang ở đâu và dự đoán sẽ đi tới đâu. Hơn nữa, thông tin có thể được tổng hợp để cho biết các xu hướng. Ví dụ việc tích lũy dữ liệu vị trí cho phép các công ty phát hiện ùn tắc giao thông mà không cần trông thấy những chiếc xe, nhờ số lượng và tốc độ của các máy điện thoại di chuyển trên một đường cao tốc tiết lộ thông tin này. Công ty AirSage xử lý 15 tỷ bản ghi thông tin vị trí địa lý mỗi ngày từ sự di chuyển của hàng triệu thuê bao điện thoại di động để tạo các báo cáo giao thông thời gian thực ở hơn 100 thành phố trên khắp nước Mỹ. Hai công ty vị trí địa lý khác, Sense Networks và Skyhook, có thể sử dụng dữ liệu vị trí để cho biết các khu vực của một thành phố có cuộc sống về đêm nhộn nhịp nhất, hoặc để ước tính có bao nhiêu người đã có mặt tại một cuộc biểu tình.
Tuy nhiên, những ứng dụng phi thương mại của vị trí địa lý mới chứng tỏ tầm quan trọng nhất. Sandy Pentland, Giám đốc Phòng thí nghiệm Động lực học Con người của MIT, và Nathan Eagle đã cùng nhau đi tiên phong trong lĩnh vực họ gọi là “khai thác thực tế”. Nó đề cập đến việc xử lý những lượng lớn dữ liệu từ điện thoại di động để đưa ra những kết luận và dự đoán về hành vi con người. Trong một nghiên cứu, việc phân tích các chuyển động và các mô hình cuộc gọi đã cho phép họ xác định thành công những người đã mắc bệnh cúm trước khi bản thân họ biết rằng họ bị bệnh. Trong trường hợp của một dịch cúm chết người, khả năng này có thể cứu hàng triệu sinh mạng bằng cách cho các nhân viên y tế công biết các khu vực bị ảnh hưởng nhất vào bất cứ lúc nào. Nhưng nếu đặt vào những bàn tay vô trách nhiệm thì sức mạnh của “khai thác thực tế” có thể gây nên những hậu quả khủng khiếp, như chúng ta sẽ thấy sau này.
Eagle, người sáng lập của công ty khởi động dữ liệu vô tuyến Jana, đã tập hợp dữ liệu điện thoại di động từ hơn 200 nhà khai thác trong hơn 100 quốc gia – khoảng 3,5 tỷ người ở châu Mỹ Latin, châu Phi, và châu Âu – để trả lời những câu hỏi mà các nhà quản lý tiếp thị quan tâm, như mỗi tuần một hộ gia đình giặt bao nhiêu lần. Nhưng ông cũng sử dụng dữ liệu lớn để kiểm tra các câu hỏi như các thành phố phát triển thịnh vượng như thế nào. Ông và một đồng nghiệp đã kết hợp dữ liệu vị trí trên các thuê bao điện thoại di động trả trước ở châu Phi với số tiền họ bỏ ra khi họ có nhiều tiền nhất trong tài khoản. Giá trị này tương quan mạnh với thu nhập: người giàu hơn mua nhiều phút hơn tại một thời điểm. Nhưng một trong những phát hiện ngược lại với lẽ thường mà Eagle thu được là những khu nhà ổ chuột, không chỉ là những khu trung tâm của sự nghèo nàn, mà còn hoạt động như những bàn đạp kinh tế. Điều quan trọng là những ứng dụng gián tiếp của dữ liệu vị trí không có gì liên quan tới việc định tuyến của truyền thông di động, mục đích ban đầu mà vì nó thông tin đã được tạo ra. Thay vào đó, khi vị trí được dữ liệu hóa, những công dụng mới sẽ nảy mầm và giá trị mới có thể được tạo ra.
Khi việc tương tác trở thành dữ liệu
Biên giới tiếp theo của dữ liệu hóa sẽ mang tính cá nhân hơn: các mối quan hệ, kinh nghiệm, và tâm trạng của chúng ta. Ý tưởng của dữ liệu hóa là xương sống của nhiều công ty truyền thông xã hội trên Web. Các diễn đàn mạng xã hội không chỉ đơn giản cung cấp cho chúng ta một cách để tìm và giữ liên lạc với bạn bè và đồng nghiệp, chúng lấy các yếu tố vô hình trong cuộc sống hàng ngày của chúng ta và biến thành dữ liệu có thể được sử dụng để làm những điều mới mẻ. Facebook dữ liệu hóa các mối quan hệ. Chúng luôn luôn tồn tại và cấu thành thông tin, nhưng chưa bao giờ được chính thức định nghĩa như là dữ liệu cho đến khi có “đồ thị xã hội” của Facebook. Twitter giúp dữ liệu hóa cảm xúc bằng cách tạo ra một cách dễ dàng cho người dùng ghi lại và chia sẻ những điều bận tâm của họ, mà trước đó đã bị “cuốn trôi” vào những con gió của thời gian. Linkedln dữ liệu hóa các kinh nghiệm chuyên môn trong quá khứ của chúng ta (giống như Maury đã chuyển những cuốn nhật ký hàng hải cũ), biến thông tin đó thành những dự đoán về hiện tại và tương lai: người mà chúng ta có thể biết, hoặc một công việc mà chúng ta có thể mong muốn.
Những cách sử dụng dữ liệu như vậy vẫn ở dạng phôi thai. Trong trường hợp của Facebook, điều này đã được thực hiện kiên nhẫn một cách khôn ngoan, vì công ty hiểu rằng việc tiết lộ quá nhiều mục đích mới cho dữ liệu của người sử dụng quá sớm có thể sẽ làm họ hoảng sợ. Bên cạnh đó, Facebook vẫn đang điều chỉnh mô hình kinh doanh của mình (và chính sách bảo mật) cho số lượng và loại hình thu thập dữ liệu nó muốn tiến hành. Do đó đa phần những lời chỉ trích mà nó phải đối mặt tập trung vào những thông tin nào nó có khả năng thu thập hơn là về những gì nó đã thực sự làm được với dữ liệu đó. Facebook có khoảng hơn một tỷ người sử dụng vào năm 2013, những người đã kết nối với nhau thông qua hơn 100 tỷ mối quan hệ bạn bè. Kết quả là đồ thị xã hội thu được đại diện cho hơn 10 phần trăm tổng dân số thế giới, được dữ liệu hóa và dễ tiếp cận đối với duy nhất một công ty.
Các ứng dụng tiềm năng của nó rất có triển vọng. Một số công ty mới thành lập đã cân nhắc việc tùy biến các đồ thị xã hội để sử dụng như những chỉ báo cho việc thiết lập điểm số tín dụng. Nó xuất phát từ ý tưởng là những con chim cùng loại thường tụ đàn: người thận trọng kết bạn với những người thận trọng, trong khi những kẻ trác táng thì lòng thòng với nhau. Nếu mở rộng, Facebook có thể là FICO tiếp theo, một cơ quan lập điểm tín dụng. Các bộ dữ liệu phong phú từ các công ty truyền thông xã hội cũng có thể tạo nên cơ sở của các doanh nghiệp mới, vượt xa việc chia sẻ hình ảnh, cập nhật trạng thái, và “thích”.
Twitter cũng nhận thấy dữ liệu của mình được sử dụng theo nhiều cách thú vị. Với một số người, việc 400 triệu tweet ngắn gọn được gửi đi mỗi ngày trong năm 2012 bởi hơn 140 triệu người sử dụng hàng tháng có vẻ ít nhiều giống như sự ba hoa rỗng tuếch ngẫu nhiên. Và, trên thực tế, chúng thường chỉ là như vậy. Tuy nhiên, công ty này tạo điều kiện cho việc dữ liệu hóa những suy nghĩ, tâm trạng, và mối tương tác của mọi người, những thứ chưa hề được thu lượm trước đó. Twitter đã thỏa thuận với hai công ty, Data-Sift và Gnip, để bán quyền truy cập vào dữ liệu. (Mặc dù tất cả các tweet là tài sản công cộng, việc truy cập vào “suối nguồn” phải tốn chi phí.) Nhiều doanh nghiệp phân tích cú pháp các tweet, đôi khi sử dụng một kỹ thuật gọi là phân tích cảm xúc, để thu thập toàn bộ phản hồi của khách hàng hoặc đánh giá tác động của chiến dịch tiếp thị.
Hai quỹ phòng hộ, Derwent Capital ở London và MarketPsych ở California, đã bắt đầu phân tích các văn bản được dữ liệu hóa của tweet như các tín hiệu cho đầu tư vào thị trường chứng khoán. (Các chiến lược kinh doanh thực tế của họ được giữ bí mật. Thay vì đổ tiền vào các công ty được quảng cáo rùm beng, có lẽ họ đã đầu tư cho sự suy thoái của chúng.) Cả hai công ty bây giờ bán các thông tin cho các nhà đầu tư. MarketPsych hợp tác với Thomson Reuters để cung cấp không dưới 18.864 chỉ số riêng biệt trên 119 quốc gia, được cập nhật từng phút, dựa trên các trạng thái cảm xúc như lạc quan, u ám, vui vẻ, sợ hãi, giận dữ, và ngay cả các chủ đề như đổi mới, kiện tụng, và xung đột.
Dữ liệu được sử dụng bởi con người không nhiều như bởi máy tính: các thần đồng toán học của Wall Street, được gọi là “những cây sào”, cắm dữ liệu vào các mô hình thuật toán của họ để tìm kiếm các mối tương quan vô hình có thể tận dụng để tạo ra lợi nhuận. Tần số của tweet về một chủ đề có thể dự đoán những điều khác nhau, chẳng hạn như doanh thu phòng vé của Hollywood, theo một trong những cha đẻ của phân tích mạng xã hội, Bernardo Huberman. Ông và một đồng nghiệp ở HP đã phát triển một mô hình xem xét tốc độ các tweet mới được đăng. Với điều này, họ đã có thể dự báo về thành công của một bộ phim tốt hơn so với các dự báo quen thuộc khác.
Nhưng còn có thể làm được nhiều thứ hơn thế nữa. Các tin nhắn Twitter bị giới hạn trong 140 ký tự, nhưng các siêu dữ liệu – tức “thông tin về thông tin” – kết hợp với mỗi tweet lại phong phú. Nó bao gồm 33 mục riêng biệt. Một số mục dường như không hữu ích, như “hình nền” trên trang Twitter của người sử dụng hoặc phần mềm họ dùng để truy cập vào dịch vụ. Nhưng những siêu dữ liệu khác lại vô cùng thú vị, chẳng hạn như ngôn ngữ của người sử dụng, vị trí địa lý của họ, số lượng và tên của những người họ “theo dõi”, hoặc những người “theo dõi” họ. Một nghiên cứu được đăng trên tạp chí Science năm 2011, phân tích 509 triệu tweet qua hai năm từ 2,4 triệu người ở 84 quốc gia, cho thấy tâm trạng của họ tuân theo các khuôn mẫu theo ngày và theo tuần tương tự nhau dù ở các nền văn hóa khác nhau trên thế giới – một điều không thể phát hiện được trước đây. Tâm trạng đã được dữ liệu hóa.
Việc dữ liệu hóa không chỉ liên quan đến việc biểu thị thái độ và tình cảm thành một hình thức có thể phân tích được, mà cả hành vi của con người. Điều này khó theo dõi được theo cách khác, đặc biệt là trong bối cảnh của cộng đồng rộng lớn hơn và các nhóm con bên trong nó. Nhà sinh vật học Marcel Salathé của Đại học Penn State cùng kỹ sư phần mềm Shashank Khandelwal đã phân tích các tweet và phát hiện ra rằng thái độ của nhiều người về tiêm chủng cũng phù hợp với khả năng họ đã thực sự chích ngừa cúm. Tuy nhiên, điều quan trọng là nghiên cứu của họ sử dụng siêu dữ liệu về ai đã kết nối với ai trong số những người “theo dõi” nhau trên Twitter để đi thêm một bước xa hơn. Họ nhận thấy rằng những phân nhóm người chưa chích ngừa có thể vẫn tồn tại. Điều làm cho nghiên cứu này trở nên đặc biệt là trong khi các nghiên cứu khác, chẳng hạn như Xu hướng Dịch cúm của Google, sử dụng dữ liệu tổng hợp để đánh giá tình trạng sức khỏe của các cá nhân, thì phân tích cảm xúc của Salathé đã thực sự dự đoán hành vi liên quan đến sức khỏe.
Những phát hiện sớm trên cho thấy dữ liệu hóa chắc chắn sẽ đi tiếp tới đâu. Cũng giống như Google, các mạng truyền thông xã hội như Facebook, Twitter, Linkedln, Foursquare, và nhiều mạng khác đang ngồi trên một rương khổng lồ các thông tin được dữ liệu hóa, mà một khi được phân tích, sẽ rọi ánh sáng lên các động lực xã hội ở tất cả mọi cấp độ, từ các cá nhân đến toàn bộ xã hội.
Dữ liệu hóa tất cả mọi thứ
Chỉ cần vận dụng chút trí tưởng tượng, ta có thể hình dung một kho tàng đủ mọi thứ có thể được chuyển thành dạng dữ liệu – và khiến chúng ta kinh ngạc. Với cùng một tinh thần như công trình của giáo sư Koshimizu về dáng điệu, IBM đã được cấp bằng sáng chế ở Mỹ vào năm 2012 về “Bảo đảm an toàn nhà cửa bằng công nghệ máy tính dựa trên bề mặt”. Đó là bằng sáng chế cho một sàn nhà cảm ứng, phần nào giống như một màn hình điện thoại thông minh khổng lồ. Triển vọng của việc sử dụng nó rất khả quan. Sàn nhà kiểu này có thể xác định các vật thể trên đó. Về cơ bản, nó có thể biết bật đèn một phòng hoặc mở cửa khi có người đi vào. Tuy nhiên, quan trọng hơn, nó có thể xác định các cá nhân theo trọng lượng của họ hay cách họ đứng và đi. Nó có thể biết nếu một người nào đó ngã và không đứng dậy được, một tính năng quan trọng cho người cao tuổi. Các nhà bán lẻ có thể biết được dòng di chuyển của khách mua trong các cửa hàng của họ. Một khi sàn nhà được dữ liệu hóa thì chẳng có “nóc nhà” nào giới hạn được các ứng dụng tiềm tàng của nó.
Việc dữ liệu hóa càng nhiều càng tốt không phải là chuyện xa vời như ta tưởng. Chẳng hạn số lượng “những-người-tự-theo-dõi-mình” là nhỏ tại thời điểm hiện nay nhưng sẽ ngày càng tăng. Nhờ điện thoại thông minh và công nghệ điện toán giá rẻ, việc dữ liệu hóa các hành vi quan trọng nhất của cuộc sống chưa bao giờ dễ dàng hơn. Rất nhiều công ty mới thành lập đã giúp mọi người theo dõi giấc ngủ của họ bằng cách đo sóng não suốt đêm. Công ty Zeo đã tạo ra cơ sở dữ liệu lớn nhất thế giới về giấc ngủ và những khác biệt về số giai đoạn “ngủ động mắt nhanh” (REM) của cả nam giới và nữ giới. Asthmapolis đã gắn một cảm biến lên một ống hít cho bệnh nhân hen suyễn để theo dõi vị trí thông qua GPS, tập hợp thông tin giúp công ty nhận rõ những yếu tố từ môi trường gây nên cơn hen suyễn, chẳng hạn như cự ly tới một số loại cây trồng nhất định.
Các công ty Fitbit và Jawbone giúp mọi người đo hoạt động thể chất và giấc ngủ của họ. Một công ty khác, Basis, cho phép người mang vòng đeo tay theo dõi các dấu hiệu sống của họ, trong đó có nhịp tim và độ dẫn của da – những thông số đo được sự căng thẳng. Việc có được dữ liệu ngày càng trở nên dễ dàng hơn và đơn giản hơn bao giờ hết. Năm 2009 Apple đã được cấp bằng sáng chế cho việc thu thập dữ liệu về mức ôxy trong máu, nhịp tim và nhiệt độ cơ thể bằng tai nghe của nó.
Có rất nhiều thứ để học hỏi từ việc dữ liệu hóa cách thức cơ thể một con người hoạt động. Các nhà nghiên cứu tại Đại học Gjovik ở Na Uy và Derawi Biometrics đã phát triển một ứng dụng cho điện thoại thông minh có thể phân tích dáng đi của một cá nhân trong khi đi bộ và sử dụng thông tin này như một hệ thống bảo mật để mở khóa điện thoại. Trong khi đó hai giáo sư tại Viện Nghiên cứu Công nghệ Georgia, Robert Delano và Brian Parise, đang phát triển một ứng dụng điện thoại thông minh được gọi là iTrem sử dụng đồng hồ gia tốc gắn trong điện thoại để theo dõi các chấn động cơ thể cho bệnh Parkinson và những rối loạn thần kinh khác, ứng dụng này là một lợi ích cho cả bác sĩ và bệnh nhân. Nó cho phép bệnh nhân bỏ qua những cuộc kiểm tra tốn kém tại phòng khám, nó cũng cho phép các chuyên gia y tế giám sát từ xa tình trạng của bệnh nhân và phản ứng của họ với các bước điều trị. Theo các nhà nghiên cứu ở Kyoto, một điện thoại thông minh chỉ kém hiệu quả chút ít khi đo các chấn động so với đồng hồ gia tốc ba trục sử dụng trong ngành y tế, vì vậy người ta có thể yên tâm sử dụng nó. Một lần nữa, một chút hỗn độn đã chiến thắng tính chính xác.
Trong hầu hết các trường hợp, chúng ta nắm bắt thông tin và chuyển thành dạng dữ liệu để cho phép nó được tái sử dụng. Điều này có thể xảy ra gần như ở khắp mọi nơi và gần như đối với tất cả mọi thứ. GreenGoose, một công ty mới thành lập ở San Francisco, bán các cảm biến nhỏ xíu phát hiện chuyển động, có thể được đặt trên các vật thể để theo dõi xem chúng được sử dụng nhiều bao nhiêu. Nếu đặt cảm biến trên một hộp chỉ nha khoa, một bình tưới nước, hoặc một cái chuồng mèo thì có thể dữ liệu hóa được việc vệ sinh răng miệng, chăm sóc cây trồng hoặc vật nuôi. Người ta hăng hái với những gì liên quan đến Internet một phần là vì chuyện lập mạng lưới, nhưng cũng còn vì việc dữ liệu hóa tất cả những gì xung quanh chúng ta.
Khi thế giới đã được dữ liệu hóa, tiềm năng sử dụng thông tin về cơ bản chỉ bị giới hạn bởi sự sáng tạo của mỗi người. Maury đã dữ liệu hóa những chuyên đi trước đây của thủy thủ thông qua việc lập bảng bằng tay rất siêng năng, và do đó đã mở khóa cho những hiểu biết và giá trị phi thường. Ngày nay chúng ta có các công cụ (số liệu thống kê và các thuật toán) và thiết bị cần thiết (những bộ xử lý kỹ thuật số và bộ nhớ) để thực hiện những công việc tương tự nhanh hơn, với quy mô lớn, và trong nhiều bối cảnh khác nhau. Trong thời đại của dữ liệu lớn, thậm chí những bộ phận xấu xí cũng có nhiều mặt tốt đẹp để sử dụng.
Chúng ta đang ở trung tâm của một dự án cơ sở hạ tầng tuyệt vời mà theo nghĩa nào đó là đối thủ của những dự án trong quá khứ, từ cống dẫn nước La Mã tới Bách khoa toàn thư của sự Khai sáng. Chúng ta không đánh giá hết điều này bởi vì dự án ngày nay là rất mới mẻ, bởi vì chúng ta đang ở ngay giữa nó, và bởi vì không giống như nước chảy trong cống, sản phẩm lao động của chúng ta là vô hình. Dự án đó là dữ liệu hóa. Giống như những tiến bộ cơ sở hạ tầng khác, nó sẽ mang lại những thay đổi cơ bản cho xã hội. cống dẫn nước đã tạo điều kiện cho các thành phố phát triển; in ấn đã tạo điều kiện cho Khai sáng; và báo chí đã thúc đẩy sự phát triển của nhà nước độc lập. Nhưng những cơ sở hạ tầng này tập trung vào các dòng chảy – của nước, của kiến thức. Điện thoại và Internet cũng vậy. Ngược lại, dữ liệu hóa đại diện cho một sự làm giàu quan trọng đối với hiểu biết của con người.
Với sự trợ giúp của dữ liệu lớn, chúng ta sẽ không còn xem thế giới như một chuỗi các diễn biến được giải thích như những hiện tượng tự nhiên hoặc xã hội, mà như một vũ trụ bao gồm chủ yếu là thông tin. Trong hơn một thế kỷ, các nhà vật lý đã đề nghị như vậy – rằng không phải các nguyên tử mà thông tin mới là cơ sở của tất cả mọi thứ. Phải thừa nhận rằng điều này có vẻ bí hiểm. Tuy nhiên, thông qua dữ liệu hóa, trong nhiều trường hợp chúng ta có thể nắm bắt và tính toán các khía cạnh vật chất và phi vật thể của sự sống và tác động lên chúng, trên một quy mô toàn diện hơn nhiều.
Việc xem thế giới như thông tin, như đại dương dữ liệu có thể được khám phá với bề rộng và chiều sâu lớn nhất từ trước đến nay, cho chúng ta một cái nhìn về thực tế mà chúng ta chưa hề có. Đây là một quan điểm có thể thâm nhập tất cả các lĩnh vực của đời sống. Ngày nay, chúng ta là một xã hội định lượng bởi chúng ta cho rằng có thể hiểu được thế giới bằng những con số và toán học. Và chúng ta thừa nhận kiến thức có thể được truyền tải qua thời gian và không gian vì ý tưởng của chữ viết ăn rất sâu vào trí não. Trong tương lai, có lẽ các thế hệ tiếp theo sẽ có một “ý thức dữ-liệu-lớn”. Khái niệm về chuyển đổi vô số chiều kích của thực tế thành dữ liệu có thể dường như mới mẻ đối với hầu hết mọi người hiện nay. Nhưng trong tương lai, chúng ta chắc chắn sẽ xem nó như một sự hiển nhiên (điều thú vị là nó trở lại nguồn gốc sâu xa của thuật ngữ “dữ liệu”).
Theo thời gian, tầm vóc ý nghĩa của dữ liệu hóa có thể khiến sự phát minh ra cống dẫn nước và báo chí trở thành nhỏ nhoi. Nó có thể sánh ngang với in ấn và Internet, khi mang đến cho chúng ta những phương tiện để sắp xếp lại thế giới theo một cách định lượng và có thể phân tích được. Tuy nhiên, tại thời điểm này, những người tiến bộ nhất trong dữ liệu hóa lại đang thuộc giới kinh doanh, nơi dữ liệu lớn đang được sử dụng để tạo ra các hình thức giá trị mới. Đây cũng chính là chủ đề của chương kế tiếp.
Đọc truyện hay đừng quên like và chia sẻ truyện tới bạn bè, để lại bình luận là cách để ủng hộ webtruyenfree. Thỉnh thoảng ấn vào q uảng c áo ngày 1-2 lần để tụi mình có kinh phí duy trì web các bạn nhé!