Dữ Liệu Lớn - Big Data
Chương 1: Hiện Tại
NĂM 2009 MỘT VI-RÚT CÚM mới được phát hiện. Kết hợp các yếu tố của các vi-rút gây cúm gà, chủng mới này, được gọi là H1N1, đã lây lan nhanh chóng. Trong vài tuần, các cơ sở y tế khắp thế giới lo sợ một đại dịch khủng khiếp đang xảy ra. Một số nhà bình luận đã cảnh báo về một dịch bệnh có quy mô của dịch cúm Tây Ban Nha vào năm 1918, lây nhiễm cho nửa tỷ người và làm chết hàng chục triệu người. Tồi tệ hơn là không hề có vắc-xin nào để chống lại vi-rút mới này. Hy vọng duy nhất của cơ quan y tế là giảm mức lây lan. Nhưng để làm điều đó, họ cần biết bệnh đã lan tới đâu.
Ở Mỹ, Trung tâm Kiểm soát và Phòng chống Bệnh dịch (CDC) đã yêu cầu các bác sĩ thông báo về các ca bệnh cúm mới. Nhưng bức tranh thật về đại dịch vẫn luôn bị chậm trễ một hoặc hai tuần. Nhiều người có thể bị bệnh vài ngày rồi mới đi gặp bác sĩ. Việc chuyển tiếp thông tin về các cơ quan trung ương đòi hỏi thời gian, và CDC chỉ xử lý các con số mỗi tuần một lần. Với một bệnh dịch lây lan nhanh, hai tuần chậm trễ cũng giống như dài vô tận. Sự chậm trễ này đã hoàn toàn vô hiệu hóa các cơ quan y tế tại những thời điểm gay cấn nhất.
Lúc việc đó xảy ra, vài tuần trước khi vi-rút H1N1 xuất hiện rầm rộ trên các phương tiện truyền thông, các kỹ sư của công ty Internet khổng lồ Google đã đăng một bài đáng chú ý trên tạp chí khoa học Nature. Nó đã tạo một chuyện giật gân trong giới chức y tế và các nhà khoa học máy tính, nhưng ngoài ra thì ít được quan tâm. Các tác giả lý giải Google có thể “dự đoán” sự lây lan của bệnh cúm mùa đông ở Mỹ như thế nào, không chỉ ở mức độ toàn quốc, mà còn chi tiết tới mức vùng và thậm chí tới mức tiểu bang. Google có thể đạt được điều này bằng cách xem xét những gì người sử dụng đã tìm kiếm trên Internet. Bởi Google nhận được hơn ba tỷ câu hỏi tìm kiếm mỗi ngày và lưu giữ tất cả chúng, nên nó có vô số dữ liệu để phân tích.
Google lấy 50 triệu cụm từ được tìm kiếm phổ biến nhất của người Mỹ và so sánh chúng với dữ liệu của CDC về sự lây lan của bệnh cúm mùa giữa các năm 2003 và 2008. Ý tưởng là để xác định các khu vực bị lây nhiễm vi-rút cúm thông qua những gì người ta tìm kiếm trên Internet, và không ai khác có nhiều dữ liệu, năng lực tính toán và hiểu biết về thống kê như Google.
Dù các chuyên viên của Google phỏng đoán các lệnh tìm kiếm có thể nhằm thu lượm thông tin về cúm – gõ các câu đại loại như “thuốc ho và sốt” – nhưng không phải vậy: họ không biết, và họ đã thiết kế một hệ thống không quan tâm tới điều đó. Tất cả những gì hệ thống của họ làm là phát hiện mối tương quan giữa tần suất của một số câu hỏi tìm kiếm và sự lây lan của bệnh cúm theo thời gian và không gian. Tổng cộng, họ xử lý một lượng đáng kinh ngạc 450 triệu mô hình toán học khác nhau để kiểm tra các điều kiện tìm kiếm, so sánh các dự đoán của họ với các trường hợp bệnh thực tế từ CDC trong năm 2007 và 2008. Và họ đã vớ được vàng: phần mềm của họ tìm thấy một sự kết hợp của 45 điều kiện tìm kiếm mà khi sử dụng cùng với một mô hình toán học, có một mối tương quan mạnh mẽ giữa phỏng đoán của họ và các số liệu chính thức trên toàn quốc. Giống như CDC, họ có thể cho biết cúm đã lây lan tới đâu, nhưng khác với CDC, họ có thể nói điều đó gần như trong thời gian thực, chứ không phải trễ một hoặc hai tuần.
Do vậy, khi dịch bệnh H1N1 tấn công vào năm 2009, hệ thống của Google đã chứng tỏ là một chỉ báo có ích hơn và nhanh hơn so với các số liệu thống kê của chính phủ thường chậm trễ. Các quan chức y tế đã được trang bị những thông tin có giá trị.
Điều gây ấn tượng là phương pháp của Google không liên quan gì đến việc phân phối gạc miệng hoặc liên hệ với các phòng khám. Thay vào đó, nó được xây dựng trên “dữ liệu lớn” – khả năng của xã hội khai thác thông tin theo những cách thức mới để đưa ra những kiến thức hữu ích hay những sản phẩm và dịch vụ có giá trị đáng kể. Với nó, khi đại dịch kế tiếp xảy ra, thế giới sẽ có sẵn một công cụ tốt hơn để dự đoán và do đó ngăn chặn sự lây lan.
Phim minh họa phương pháp của Google
Y tế công chỉ là một lĩnh vực trong đó dữ liệu lớn đang làm nên một sự khác biệt vĩ đại. Nhiều lĩnh vực khác cũng đang được định hình lại bởi dữ liệu lớn. Dịch vụ mua vé máy bay là một thí dụ.
Năm 2003, Oren Etzioni cần bay từ Seattle tới Los Angeles để dự lễ cưới em trai của ông. Nhiều tháng trước đó, ông lên mạng và mua một vé máy bay, tin rằng càng mua sớm, vé càng rẻ. Trên chuyến bay, do tò mò, Etzioni hỏi người ngồi kế bên xem giá vé của ông ta là bao nhiêu và ông ta mua khi nào. Hóa ra ông ta trả thấp hơn nhiều so với Etzioni, mà thậm chí ông ta mới chỉ mua vé gần đây. Khá tức giận, Etzioni hỏi một hành khách khác và một hành khách khác nữa. Hầu hết họ đã trả ít tiền hơn.
Với hầu hết chúng ta, ý nghĩa của cảm giác bị lừa có thể đã tiêu tan khi chúng ta gấp khay bàn ăn trước mặt, dựng thẳng ghế và khóa thắt lưng an toàn. Nhưng Etzioni là một trong những nhà khoa học máy tính hàng đầu của Mỹ. Ông nhìn thế giới như một chuỗi các bài toán dữ-liệu-lớn có thể giải được. Và ông đang làm chủ chúng từ khi là người đầu tiên tốt nghiệp Đại học Harvard về chuyên ngành khoa học máy tính vào năm 1986.
Từ căn phòng của mình tại Đại học Washington, ông đã khỏi xướng những công ty dữ-liệu-lớn trước khi thuật ngữ “dữ liệu lớn” được biết tới. Ông đã giúp phát triển một trong những công cụ tìm kiếm Web đầu tiên, MetaCrawler, được đưa ra sử dụng vào năm 1994 rồi sau được bán cho InfoSpace, lúc đó là một công ty bất động sản trực tuyến lớn. Ông đã đồng sáng lập Netbot, trang web mua hàng so sánh lớn đầu tiên, sau đó bán nó cho Excite. Ông khởi động công ty làm công cụ trích ý nghĩa từ các văn bản, gọi là ClearForest, sau này được Reuters mua lại.
Trở lại câu chuyện chính, Etzioni quyết tìm ra cách để có thể biết liệu một giá vé ta thấy trên mạng có phải là một giá tốt hay không. Một chỗ ngồi trên máy bay là một thương phẩm: mỗi chỗ về cơ bản là hoàn toàn giống với những chỗ khác trên cùng chuyến bay. Nhưng giá lại rất khác nhau, dựa trên vô số yếu tố mà chủ yếu chỉ chính các hãng bay mới biết.
Etzioni đi đến kết luận ông không cần giải mã ý nghĩa hay nguyên nhân giá cả khác nhau. Thay vào đó, ông đơn giản phải dự đoán liệu giá được báo có khả năng tăng hay giảm trong tương lai. Điều này là khả thi, nếu không nói là dễ. Những gì cần thiết là phân tích tất cả các vé bán cho một tuyến đường và khảo sát các giá phải trả tương quan với số ngày mua trước lúc khởi hành.
Nếu giá trung bình của vé có xu hướng giảm, thì rất nên đợi để mua sau. Nếu giá trung bình có xu hướng tăng, hệ thống sẽ khuyến cáo mua vé ngay với giá được báo. Nói cách khác, thứ cần thiết là một dạng cải tiến của cuộc điều tra thông tin Etzioni đã thực hiện trên tầng cao 30.000 feet. Chắc chắn đó là một bài toán lớn khác của khoa học máy tính. Nhưng, đó là một bài toán ông có thể giải được. Do vậy Etzioni đã bắt tay vào công việc.
Sử dụng một mẫu gồm 12.000 lượt thống kê giá vé qua “thu lượm” thông tin trong 41 ngày từ một trang web du lịch, Etzioni đã tạo được một mô hình dự báo giúp hành khách tiết kiệm chi phí. Mô hình không có hiểu biết về câu hỏi tại sao, mà chỉ biết về câu hỏi cái gì. Nó không biết bất kỳ tham biến nào tham gia vào những quyết định về giá của các hãng hàng không, chẳng hạn số chỗ ngồi còn chưa bán được, mùa vụ, hay một loại thu xếp lưu trú qua đêm thứ Bảy có thể làm giảm giá vé. Hệ thống dự đoán dựa vào những gì đã biết: xác suất có được từ những chuyến bay khác. “Mua hay không mua, đó là câu hỏi”, Etzioni ngẫm nghĩ. Thế nên ông đặt tên rất thích hợp cho dự án là Hamlet.
Dự án nhỏ đã phát triển thành một doanh nghiệp khởi động được hỗ trợ bằng vốn mạo hiểm mang tên Farecast. Bằng cách dự báo giá của một vé máy bay rất có thể tăng hoặc giảm, và tăng hoặc giảm bao nhiêu, Farecast trao quyền cho người tiêu dùng lựa chọn khi nào thì nhấp vào nút “mua”. Nó trang bị cho họ thông tin mà trước đây họ chưa bao giờ truy cập được. Đề cao tính tự minh bạch, Farecast cho điểm độ tin cậy đối với dự báo của chính nó và cũng thông báo số điểm này cho người sử dụng.
Để hoạt động, hệ thống cần rất nhiều dữ liệu. Nhằm cải thiện hiệu suất của hệ thống, Etzioni đã nhúng tay vào một trong các cơ sở dữ liệu đăng ký chỗ của ngành hàng không. Với thông tin này, hệ thống có thể đưa ra các dự báo dựa vào từng chỗ ngồi trên từng chuyến bay cho hầu hết các tuyến bay của hàng không thương mại Mỹ trong một năm. Farecast xử lý gần 200 tỷ bản ghi giá vé máy bay để đưa ra các dự báo của nó. Làm như vậy, Farecast đã tiết kiệm được cho người tiêu dùng bộn tiền.
Với mái tóc màu nâu cát, nụ cười chân thành, và nét đẹp hiền hậu, Etzinoni hầu như không có vẻ là loại người có thể phủ nhận hàng triệu đôla doanh thu tiềm năng của ngành hàng không. Trong thực tế, ông đặt tầm ngắm của mình còn xa hơn thế. Năm 2008 ông đặt kế hoạch áp dụng phương pháp này cho các sản phẩm khác như phòng khách sạn, vé nghe hòa nhạc, và xe hơi cũ: tất cả mọi thứ với sự khác biệt rất ít về sản phẩm, có độ biến động giá cả cao, và có rất nhiều dữ liệu. Nhưng trước khi ông có thể triển khai được các kế hoạch của mình, Microsoft đã tới gõ cửa, mua Farecast với khoảng $110 triệu, và tích hợp nó vào công cụ tìm kiếm Bing. Tới năm 2012 hệ thống đã khuyến cáo đúng tới 75% và tiết kiệm cho hành khách trung bình $50 mỗi vé.
Farecast là hình ảnh thu nhỏ của một công ty dữ-liệu-lớn và một thí dụ cho thấy thế giới hướng tới đâu. Etzioni không thể thiết lập công ty năm hoặc mười năm sớm hơn. “Đó là điều bất khả”, ông nói. Lượng sức mạnh tính toán và lưu trữ cần thiết đã là quá lớn. Nhưng, mặc dù những thay đổi về công nghệ là yếu tố quan trọng giúp cho nó trở thành khả thi, một số điều quan trọng hơn cũng thay đổi – những điều tinh tế. Đã có sự thay đổi trong suy nghĩ về việc dữ liệu có thể được sử dụng như thế nào.
Dữ liệu không còn được xem là tĩnh hoặc cũ, tính hữu ích của dữ liệu kết thúc một khi mục tiêu mà vì nó dữ liệu được thu thập đã đạt được, chẳng hạn sau khi máy bay đã hạ cánh (hoặc trong trường hợp của Google, khi một câu hỏi tìm kiếm đã được xử lý). Thay vào đó, dữ liệu trở thành một nguyên liệu thô của doanh nghiệp, một đầu vào kinh tế quan trọng, được sử dụng để tạo ra một dạng mới của giá trị kinh tế. Thực tế, với suy nghĩ đúng đắn, dữ liệu có thể được dùng lại một cách thông minh để trở thành một suối nguồn của thông tin và những dịch vụ mới. Dữ liệu có thể tiết lộ bí mật cho những ai có sự khiêm nhường, sự sẵn lòng và công cụ để lắng nghe.
Hãy để cho dữ liệu nói
Thật dễ nhận thấy những thành quả của xã hội thông tin, với một điện thoại di động và một máy tính bỏ túi mỗi người, cùng các hệ thống công nghệ thông tin lớn trong văn phòng khắp mọi nơi. Nhưng điều người ta ít thấy rõ hơn là chính thông tin.
Một nửa thế kỷ sau khi máy tính bước vào xã hội chính thống, dữ liệu bắt đầu được tích lũy nhiều tới mức mà một điều gì đó mới mẻ và đặc biệt sắp xảy ra. Không những thế giới tràn ngập thông tin nhiều hơn bao giờ hết, mà thông tin còn tăng nhanh hơn. Sự thay đổi về quy mô đã dẫn đến một sự thay đổi về trạng thái. Thay đổi về lượng đã dẫn tới thay đổi về chất. Các khoa học như thiên văn, gen, mới được trải nghiệm sự bùng nổ trong những năm 2000, đã đưa ra thuật ngữ “dữ liệu lớn”, khái niệm mà nay đã di trú vào tất cả các lĩnh vực của đời sống con người.
Không có một định nghĩa chính xác cho dữ liệu lớn. Ban đầu ý tưởng là dung lượng thông tin đã tăng quá lớn tới mức số lượng cần khảo sát không còn vừa vào bộ nhớ các máy tính dùng để xử lý, do vậy các kỹ sư cần cải tạo các công cụ họ dùng để có thể phân tích được tất cả thông tin. Đó là xuất xứ của các công nghệ xử lý mới như MapReduce của Google và nguồn mở tương đương của nó, Hadoop, khởi đầu từ Yahoo. Những công nghệ này cho phép ta quản lý những khối lượng dữ liệu lớn hơn nhiều so với trước đây, và quan trọng là không cần đưa dữ liệu vào các hàng ngăn nắp hoặc các bảng cơ sở dữ liệu cổ điển. Các công nghệ nghiền dữ liệu khác, bỏ qua các cấu trúc phân cấp và đồng nhất cứng nhắc cổ điển, cũng ở trong tầm ngắm. Đồng thời, do các công ty Internet có thể thu thập được vô số dữ liệu quý giá và có động cơ kinh tế lớn để khai thác chúng, nên các công ty này trở thành người sử dụng hàng đầu của các công nghệ xử lý hiện đại nhất, vượt qua các công ty truyền thống, đôi khi có tới hàng chục năm kinh nghiệm nhiều hơn.
Một cách để suy nghĩ về vấn đề ngày hôm nay – và cũng là cách chúng tôi thực hiện trong cuốn sách này – là: dữ liệu lớn đề cập tới những thứ người ta có thể làm với một quy mô lớn mà không thể làm với một quy mô nhỏ hơn, để trích xuất những hiểu biết mới hoặc tạo ra những dạng giá trị mới, theo những cách thức có thể làm thay đổi các thị trường, các tổ chức, mối quan hệ giữa các công dân và các chính phủ, và hơn thế nữa.
Nhưng đó chỉ là bước khởi đầu. Thời đại của dữ liệu lớn thách thức cách chúng ta sống và tương tác với thế giới. Nổi bật nhất, xã hội sẽ phải cắt giảm một số nỗi ám ảnh của nó về quan hệ nhân quả để đổi lấy mối tương quan đơn giản, không biết tại sao mà chỉ biết cái gì. Điều đó làm đổ vỡ hàng thế kỷ các tập quán đã được thiết lập và thách thức hiểu biết cơ bản nhất của chúng ta về việc làm thế nào để đưa ra được quyết định và hiểu được thực tế.
Dữ liệu lớn đánh dấu bước khởi đầu của một biến đổi lớn. Giống như nhiều công nghệ mới, dữ liệu lớn chắc chắn sẽ trở thành nạn nhân của chu kỳ thổi phồng khét tiếng của Thung Lũng Silicon: sau khi được tiếp đón trên trang đầu của các tạp chí và tại các hội nghị công nghiệp, xu hướng này sẽ bị ruồng bỏ và rất nhiều công ty khởi động say mê dữ liệu sẽ bị lúng túng. Nhưng cả thái độ say mê và nguyền rủa đều hiểu lầm một cách khá sâu tầm quan trọng của những gì đang xảy ra. Đúng như kính thiên văn tạo điều kiện cho chúng ta hiểu biết được vũ trụ và kính hiển vi cho phép chúng ta hiểu biết được vi trùng, các kỹ thuật mới để thu thập và phân tích những tập hợp lớn dữ liệu sẽ giúp chúng ta tìm ra ý nghĩa của thế giới theo những cách thức mà chúng ta mới chỉ vừa bắt đầu ưa thích. Trong cuốn sách này, chúng tôi không hẳn là những kẻ truyền giáo của dữ liệu lớn mà chỉ là những người đưa tin. Và, một lần nữa xin nhấn mạnh, cuộc cách mạng thật sự không phải ở những chiếc máy tính toán dữ liệu mà ở chính dữ liệu và cách ta sử dụng chúng.
Để đánh giá mức độ một cuộc cách mạng thông tin đã tiến triển tới đâu, ta hãy xem xét các xu hướng xuyên suốt các lĩnh vực của xã hội. Lấy ví dụ thiên văn học. Khi Sloan Digital Sky Survey (SDSS – Trạm quan sát bầu trời bằng kỹ thuật số Sloan) bắt đầu hoạt động vào năm 2000, kính thiên văn của nó tại New Mexico trong mấy tuần đầu tiên đã thu thập nhiều dữ liệu hơn những gì được thu thập trong toàn bộ lịch sử của ngành thiên văn. Đến năm 2010, lưu trữ của trạm đã bạt ngàn với con số khổng lồ 140 tera (10 mũ 12) byte thông tin. Nhưng kẻ kế nhiệm, kính thiên văn của Large Synoptic Survey (LSST) ở Chile, dự kiến vận hành vào năm 2016, cứ mỗi năm ngày sẽ thu thập được lượng dữ liệu tương đương như thế.
Những số lượng vô cùng to lớn như vậy cũng có thể được tìm thấy ngay xung quanh chúng ta. Khi các nhà khoa học lần đầu giải mã gen người vào năm 2003, họ đã mất một thập kỷ làm việc miệt mài để xác định trình tự cho ba tỷ cặp cơ sở. Bây giờ, sau một thập kỷ, một thiết bị đơn lẻ cũng có thể xác định trình tự cho số lượng DNA như vậy chỉ trong một ngày. Trong ngành tài chính, khoảng 7 tỷ cổ phiếu được mua bán mỗi ngày trên các thị trường chứng khoán Mỹ, trong số đó khoảng hai phần ba được giao dịch bằng các thuật toán máy tính dựa trên các mô hình toán học xử lý hàng núi dữ liệu để dự đoán lợi nhuận trong khi cố gắng giảm thiểu rủi ro.
Các công ty Internet đặc biệt bị tràn ngập. Google xử lý hơn 24 peta (10 mũ 15) byte dữ liệu mỗi ngày, một khối lượng gấp hàng ngàn lần tất cả các ấn phẩm trong Thư viện Quốc hội Mỹ. Facebook, một công ty không hề tồn tại một thập kỷ trước, nhận hơn 10 triệu ảnh mới được tải lên mỗi giờ. Các thành viên Facebook nhấp nút “like” hoặc gửi lời bình luận gần ba tỷ lần mỗi ngày, tạo một dấu vết số để công ty có thể “đào xới” nhằm biết được các sở thích của người sử dụng. Trong khi đó, 800 triệu người sử dụng dịch vụ Youtube của Google tải lên hơn một giờ video mỗi giây. Thành viên của mạng Twitter tăng khoảng 200 phần trăm mỗi năm và đến năm 2012 đã có hơn 400 triệu tweet mỗi ngày.
Từ khoa học tới y tế, từ ngân hàng tới Internet, các lĩnh vực có thể khác nhau, nhưng cùng nhau chúng đều có một câu chuyện tương tự: số lượng dữ liệu trong thế giới đang tăng rất nhanh, vượt sức không chỉ những chiếc máy tính mà cả trí tưởng tượng của chúng ta.
Nhiều người đã thử đưa ra một con số thực tế về lượng thông tin xung quanh chúng ta và tính toán xem nó tăng như thế nào. Họ đã có những mức độ thành công khác nhau bởi họ đo lường những thứ khác nhau.. Một trong những nghiên cứu toàn diện hơn được Martin Hilbert của Trường Truyền thông và Báo chí Annenberg thuộc Đại học Nam California thực hiện. Ông đã nỗ lực đưa ra một con số cho mọi thứ đã từng được sản xuất, lưu trữ và truyền tải. Chúng không chỉ bao gồm sách, tranh, email, ảnh, nhạc, và phim (cả dạng analog và digital), mà còn có trò chơi điện tử, cuộc gọi điện thoại, thậm chí các hệ thống điều hướng xe và thư gửi qua bưu điện. Ông cũng bao gồm các phương tiện truyền thông phát sóng như truyền hình và radio, dựa trên tiếp cận khán giả.
Theo ước lượng của Hilbert, hơn 300 exa (10 mũ 18) byte dữ liệu lưu trữ đã tồn tại vào năm 2007. Để dễ hình dung ý nghĩa của nó, thử nghĩ thế này. Một bộ phim dài ở dạng kỹ thuật số có thể được nén vào một tập tin 1 giga byte. Một exa byte là 1 tỷ gi ga byte. Tóm lại là vô cùng nhiều. Điều thú vị là năm 2007 chỉ khoảng 7 phần trăm dữ liệu ở dạng analog (giấy, sách, ảnh in, vân vân). Phần còn lại là ở dạng digital – kỹ thuật số. Nhưng mới gần đây, bức tranh đã rất khác. Mặc dù những ý tưởng của cuộc “cách mạng thông tin” và “thời đại kỹ thuật số” đã xuất hiện từ những năm 1960, chúng mới chỉ trở thành hiện thực ở vài khía cạnh. Tới tận năm 2000, mới chỉ có một phần tư thông tin lưu trữ của thế giới được số hóa. Ba phần tư còn lại vẫn ở trên giấy, phim, đĩa nhựa, băng từ, và những thứ tương tự.
Lượng thông tin kỹ thuật số lúc đó chưa nhiều – một điều thật kém cỏi với những ai lướt mạng và mua sách trực tuyến suốt thời gian dài. (Thực tế, vào năm 1986, khoảng 40 phần trăm sức mạnh tính toán thông dụng của thế giới là ở dạng những chiếc máy tính bỏ túi, lớn hơn sức mạnh của tất cả các máy tính cá nhân tại thời điểm đó.) Nhưng vì dữ liệu kỹ thuật số phát triển rất nhanh – cứ hơn ba năm lại tăng gấp đôi, theo Hilbert – nên tình hình đã nhanh chóng tự đảo ngược. Thông tin analog, ngược lại, không hề tăng. Do vậy vào năm 2013 lượng thông tin lưu trữ trong thế giới ước lượng khoảng 1.200 exa byte, trong đó chưa đến 2 phần trăm là phi kỹ thuật số.
Chẳng có cách nào phù hợp để hình dung kích thước như vậy của dữ liệu là có ý nghĩa gì. Nếu tất cả được in thành sách, chúng có thể phủ kín bề mặt của nước Mỹ với chiều dày 52 lớp. Nếu được ghi vào CD-ROM và xếp chồng lên nhau, chúng có thể tạo thành 5 cột vươn cao tới mặt trăng. Vào thế kỷ thứ ba trước Công nguyên, khi Ptolemy II của Ai Cập cố gắng lưu trữ một bản của mỗi tác phẩm từng được viết ra, Thư viện lớn của Alexandria đã tượng trưng cho toàn bộ tri thức của thế giới. Trận lũ lớn kỹ thuật số hiện đang quét qua trái đất tương đương với việc cung cấp cho mỗi người sống trên trái đất hôm nay 320 lần nhiều hơn thông tin như ước lượng đã được lưu trữ ở Thư viện Alexandria.
Mọi thứ thật sự được tăng tốc. Lượng thông tin lưu trữ tăng nhanh hơn gấp bốn lần so với kinh tế thế giới, trong khi sức mạnh xử lý của máy tính tăng nhanh hơn gấp chín lần. Không ngạc nhiên khi người ta than phiền tình trạng quá tải thông tin. Ai cũng bị tác động bởi những thay đổi này.
Hãy nhìn một cách dài hạn, bằng cách so sánh trận lũ dữ liệu hiện tại với cuộc cách mạng thông tin trước đây, cách mạng in sách của Gutenberg được phát minh khoảng năm 1439. Trong năm mươi năm từ 1453 tới 1503 khoảng 8 triệu cuốn sách đã được in, theo nhà sử học Elizabeth Eisenstein. số lượng đó được xem là nhiều hơn tất cả những gì các thầy thông giáo đã chép ra kể từ lúc thiết lập nên Constantinople khoảng 1.200 năm trước. Nói cách khác, phải mất năm mươi năm để khối lượng thông tin tăng gấp đôi ở Âu châu, so với khoảng mỗi ba năm hiện nay.
Sự tăng trưởng này có ý nghĩa gì? Peter Norvig, một chuyên gia trí tuệ nhân tạo tại Google, thích nghĩ về nó với một sự tương tự về hình ảnh. Ông yêu cầu chúng tôi trước hết xem xét con ngựa mang tính biểu tượng từ các hình vẽ hang động ở Lascaux, Pháp, từ thời Paleolithic khoảng 17 ngàn năm trước. Sau đó nghĩ tới một bức ảnh của một con ngựa – hoặc tốt hơn là những phác họa của Pablo Picasso, trông không khác mấy các hình vẽ hang động. Thực tế, khi Picasso được cho xem các hình vẽ Lascaux, từ thời đó ông đã hài hước rằng: “Chúng ta đã không phát minh ra được thứ gì cả”.
Những lời của Picasso đúng ở một mức độ, nhưng không đúng ở một mức độ khác. Hãy nhớ lại bức ảnh chụp con ngựa. Trong khi phải mất nhiều thời gian để vẽ hình một con ngựa, bây giờ sự miêu tả một con ngựa có thể được thực hiện nhanh hơn nhiều với nhiếp ảnh. Đó là sự thay đổi, nhưng có thể đó không phải là thứ quan trọng nhất, bởi về cơ bản nó vẫn thế: hình ảnh của một con ngựa. Nhưng bây giờ, Norvig yêu cầu thu hình của một con ngựa và tăng tốc độ lên tới 24 khung hình mỗi giây. Sự thay đổi lượng đã tạo ra một thay đổi chất. Một bộ phim khác một cách cơ bản với một bức ảnh tĩnh. Với dữ liệu lớn cũng vậy: bằng cách thay đổi số lượng, chúng ta thay đổi bản chất.
Hãy xét một sự tương tự từ công nghệ nano – nơi mà mọi thứ trở nên nhỏ đi, chứ không lớn lên. Nguyên lý phía sau của công nghệ nano là khi đạt tới mức phân tử, các tính chất vật lý có thể thay đổi. Hiểu biết những đặc tính mới này có nghĩa là ta có thể sắp đặt để vật chất làm những thứ mà trước đây không thể làm được. Thí dụ, tại quy mô nano, kim loại có thể mềm dẻo hơn và gốm sứ có thể căng ra được. Ngược lại, khi tăng quy mô của dữ liệu, chúng ta có thể thực hiên được những thứ mới mà không thể nào thực hiện được khi chỉ làm việc với những số lượng nhỏ hơn.
Đôi khi những khó khăn mà chúng ta đang sống cùng thực ra chỉ là những chức năng của quy mô mà chúng ta hoạt động trong đó, và điều này cũng tương tự cho tất cả mọi thứ. Hãy xét một sự tương tự thứ ba, lại cũng từ các ngành khoa học. Đối với con người, định luật vật lý quan trọng nhất là lực hấp dẫn: nó ngự trị trên tất cả những gì chúng ta làm. Nhưng đối với những côn trùng nhỏ xíu, trọng lực hầu như vô nghĩa. Đối với một số loài như nhện nước, định luật vật lý có tác động với chúng chính là sức căng bề mặt, cho phép chúng đi qua một cái ao mà không chìm xuống.
Với thông tin, cũng như với vật lý, kích thước là quan trọng. Do đó, Google có thể xác định được sự lây lan của bệnh cúm chính xác như các dữ liệu chính thức dựa trên việc bệnh nhân thực sự tới gặp bác sĩ. Google có thể làm điều này bằng cách kết hợp hàng trăm tỷ từ khóa tìm kiếm – và nó có thể đưa ra một câu trả lời gần như trong thời gian thực, nhanh hơn nhiều các nguồn chính thức. Tương tự như vậy, Farecast của Etzioni có thể dự đoán sự biến động giá của một chiếc vé máy bay và do đó chuyển quyền lực kinh tế đáng kể vào tay người tiêu dùng. Nhưng cả hai chỉ có thể làm tốt như vậy bằng cách phân tích hàng trăm tỷ điểm dữ liệu.
Hai ví dụ trên cho thấy tầm quan trọng về khoa học và xã hội của dữ liệu lớn cũng như mức độ mà dữ liệu lớn có thể trở thành một nguồn giá trị kinh tế. Chúng đánh dấu hai cách thức mà thế giới dữ liệu lớn đã sẵn sàng để cải tổ tất cả mọi thứ, từ các doanh nghiệp và các ngành khoa học tới chăm sóc sức khỏe, chính phủ, giáo dục, kinh tế, nhân văn, và mọi khía cạnh khác của xã hội.
Mặc dù mới chỉ đang ở buổi bình minh của dữ liệu lớn, chúng ta dựa vào nó hàng ngày. Bộ lọc thu rác được thiết kế để tự động thích ứng khi các loại email rác thay đổi: phần mềm không thể được lập trình để biết ngăn chặn “via6ra” hoặc vô số các biến thể của nó. Các trang web hẹn hò ghép các cặp trên cơ sở các thuộc tính tương quan thế nào với những cặp đã được ghép thành công trước đó. Tính năng “tự động sửa lỗi” trong điện thoại thông minh theo dấu các thao tác của chúng ta và bổ sung thêm những từ mới vào từ điển chính tả của nó dựa trên những gì chúng ta nhập vào. Tuy nhiên, những ứng dụng này mới chỉ là sự bắt đầu. Từ những chiếc xe hơi có thể phát hiện khi nào cần đi hướng khác hoặc phanh, đến máy tính Watson của IBM đánh bại con người trong trò chơi truyền hình Jeopardy!, cách tiếp cận này sẽ cải tạo nhiều khía cạnh của thế giới chúng ta đang sống.
Tại cốt lõi của nó, dữ liệu lớn là về các dự đoán. Mặc dù nó được mô tả như một phần của ngành khoa học máy tính được gọi là trí tuệ nhân tạo, và cụ thể hơn, một lĩnh vực được gọi là học qua máy, việc đặc trưng hóa này gây nhầm lẫn. Dữ liệu lớn không phải là về việc cố gắng “dạy” một máy tính “nghĩ” giống như con người. Thay vào đó, nó là về việc áp dụng toán học với số lượng lớn dữ liệu để suy ra xác suất: khả năng một email là thư rác; các ký tự gõ “teh” đáng lẽ phải là “the”; quỹ đạo và vận tốc của một người lái xe cho phép anh ta qua được phố đúng thời gian. Điều quan trọng là các hệ thống này thao tác tốt bởi chúng được nạp với rất nhiều dữ liệu để làm cơ sở cho các dự đoán của chúng. Hơn nữa, hệ thống được thiết kế để tự cải thiện theo thời gian, bằng cách giữ một nhãn (tab) về các tín hiệu và mẫu tốt nhất để tìm kiếm khi có thêm dữ liệu được đua vào.
Trong tương lai – và có thể sớm hơn chúng ta nghĩ – nhiều khía cạnh của cuộc sống sẽ được tăng cường hoặc thay thế bằng những hệ thống máy tính, những khía cạnh mà hôm nay là phạm vi hoạt động duy nhất của sự phán xét con người. Không chỉ việc lái xe hoặc mai mối, mà cả những việc phức tạp hơn. Rốt cuộc, Amazon có thể giới thiệu được cuốn sách lý tưởng, Google có thể xếp hạng được trang web phù hợp nhất, Facebook biết được sở thích của chúng ta, và Linkedln tiên đoán được người mà chúng ta biết. Cũng những công nghệ này sẽ được áp dụng cho chẩn đoán bệnh, đề xuất phương pháp điều trị, thậm chí có thể xác định “tội phạm” trước khi hắn thực sự phạm tội. Cũng giống như Internet hoàn toàn thay đổi thế giới bằng cách thêm truyền thông vào máy tính, dữ liệu lớn sẽ thay đổi các khía cạnh cơ bản của cuộc sống bằng cách cho nó một kích thước định lượng chưa hề có trước đây.
Nhiều hơn, lộn xộn, đủ tốt
Dữ liệu lớn sẽ là một nguồn của giá trị kinh tế và cách tân mới. Thậm chí còn hơn nữa. Uy thế của dữ liệu lớn tượng trưng cho ba sự thay đổi trong cách chúng ta phân tích thông tin, làm biến đổi cách chúng ta hiểu và tổ chức xã hội.
Sự thay đổi thứ nhất được mô tả trong Chương Hai. Trong thế giới mới này, chúng ta có thể phân tích nhiều dữ liệu hơn hẳn. Trong một số trường hợp, chúng ta thậm chí có thể xử lý tất cả dữ liệu liên quan đến một hiện tượng đặc biệt. Từ thế kỷ thứ mười chín, xã hội đã phụ thuộc vào việc sử dụng các hình mẫu khi phải đối mặt với những số lượng lớn. Tuy nhiên, sự cần thiết phải lấy mẫu là một tạo tác của thời kỳ khan hiếm thông tin, một sản phẩm của những hạn chế tự nhiên khi tương tác với thông tin trong thời đại analog. Trước khi công nghệ kỹ thuật số có hiệu suất cao thịnh hành, chúng ta không hề nhận ra chọn mẫu là những xiềng xích nhân tạo – chúng ta thường hiển nhiên chấp nhận nó. Việc sử dụng tất cả các dữ liệu cho phép chúng ta xem xét những chi tiết chưa hề xem được khi bị giới hạn với những số lượng nhỏ hơn. Dữ liệu lớn cho chúng ta một cái nhìn đặc biệt rõ ràng về các tiểu phần: tiểu thể loại và tiểu thị trường mà mẫu không thể ước định được.
Việc xem xét dữ liệu rộng lớn hơn cũng cho phép chúng ta nới lỏng mong muốn hướng tới tính chính xác, là sự thay đổi thứ hai, được đề cập tới trong Chương Ba. Đó là một sự đánh đổi: với ít lỗi hơn từ chọn mẫu, chúng ta có thể chấp nhận nhiều lỗi đo lường hơn. Khi khả năng để đo lường là có hạn, chúng ta chỉ tính đến những thứ quan trọng nhất. Sự cố gắng để có được con số chính xác là hợp lý.
Ta không thể bán được gia súc nếu người mua không biết chắc liệu có 100 hay chỉ có 80 con trong đàn. Cho đến gần đây, tất cả các công cụ kỹ thuật số của chúng ta có tiền đề là sự chính xác: chúng ta giả định rằng công cụ cơ sở dữ liệu sẽ truy tìm được các bản ghi hoàn toàn phù hợp với câu hỏi của chúng ta, giống như các bảng tính điện tử lập biểu các con số trong một cột.
Loại tư duy này là một chức năng của môi trường “dữ liệu nhỏ”: với rất ít thứ để đo lường, chúng ta phải xem xét những gì quan tâm để định lượng một cách càng chính xác càng tốt.
Theo một số cách nào đó thì việc này là hiển nhiên: một cửa hàng nhỏ có thể đếm tiền trong quỹ cuối ngày tới tận đồng xu, nhưng chúng ta sẽ không – thực sự là không thể – làm tương tự cho tổng sản phẩm nội địa của một quốc gia. Khi quy mô tăng, số lượng của những sự không chính xác cũng tăng.
Tính chính xác đòi hỏi dữ liệu được giám tuyển một cách cẩn thận. Điều này có thể làm được cho những số lượng nhỏ, và tất nhiên một số trường hợp vẫn đòi hỏi như vậy: ta hoặc có hoặc không có đủ tiền trong ngân hàng để viết một chi phiếu. Nhưng đổi lại, khi sử dụng những bộ dữ liệu toàn diện hơn nhiều, chúng ta có thể bỏ đi tính chính xác cứng nhắc trong một thế giới dữ liệu lớn.
Thông thường, dữ liệu lớn là lộn xộn, khác nhau về chất lượng, và được phân bổ giữa vô số các máy chủ trên khắp thế giới. Với dữ liệu lớn, chúng ta sẽ thường hài lòng với khả năng định hướng chung chứ không phải là hiểu biết một hiện tượng chi tiết tới tận xăng-ti-mét, đồng xu, hay nguyên tử. Chúng ta không bỏ qua hoàn toàn sự chính xác; chúng ta chỉ bỏ qua sự sùng bái nó. Những gì chúng ta mất về độ chính xác ở cấp vi mô sẽ được bù đắp lại nhờ cái nhìn sâu sắc ở cấp vĩ mô.
Hai sự thay đổi này dẫn đến một sự thay đổi thứ ba, mà chúng ta giải thích trong Chương Bốn: sự chuyển hướng khỏi việc tìm kiếm lâu đời cho quan hệ nhân quả. Là con người, chúng ta đã được định vị để đi tìm kiếm các nguyên nhân, mặc dù việc tìm kiếm quan hệ nhân quả thường rất khó khăn và có thể dẫn chúng ta lạc đường. Trong một thế giới dữ liệu lớn, ngược lại, chúng ta sẽ không phải gắn chặt vào quan hệ nhân quả; thay vào đó chúng ta có thể khám phá các khuôn mẫu và mối tương quan trong các dữ liệu để thu được những hiểu biết mới lạ và vô giá. Các mối tương quan có thể không cho chúng ta biết chính xác tại sao một cái gì đó đang xảy ra, nhưng chúng cảnh báo chúng ta rằng cái đó đang xảy ra.
Và trong nhiều tình huống thì điều này là đủ tốt. Nếu hàng triệu hồ sơ y tế điện tử cho thấy những bệnh nhân ung thư nếu dùng một kết hợp nào đó của aspirin và nước cam thì thấy bệnh của họ thuyên giảm, thì nguyên nhân chính xác cho việc cải thiện sức khỏe có thể ít quan trọng hơn so với thực tế là họ sống. Tương tự như vậy, nếu chúng ta có thể tiết kiệm được tiền bằng cách biết thời gian tốt nhất để mua một vé máy bay mà không hiểu các phương pháp phía sau sự điên rồ của vé máy bay, như vậy cũng đủ tốt rồi. Dữ liệu lớn là về cái gì, chứ không về tại sao. Chúng ta không luôn luôn cần biết nguyên nhân của một hiện tượng, thay vào đó, chúng ta có thể để cho dữ liệu tự nói.
Trước thời dữ liệu lớn, phân tích của chúng ta thường được giới hạn vào việc thử nghiệm một số lượng nhỏ những giả thuyết được xác định rõ ràng trước khi thu thập dữ liệu. Khi để cho các dữ liệu lên tiếng, chúng ta có thể tạo nên những kết nối mà ta chưa bao giờ nghĩ là chúng tồn tại. Do đó, một số quỹ đầu tư phân tích Twitter để dự đoán hiệu suất của thị trường chứng khoán. Amazon và Netilix căn cứ đề xuất sản phẩm của họ trên vô số các tương tác của người dùng trên các trang này. Twitter, Linkedln và Facebook cũng đều quy chiếu “đồ thị xã hội” các mối quan hệ của người sử dụng để tìm hiểu các sở thích của họ.
Tất nhiên, con người đã phân tích dữ liệu hàng thiên niên kỷ nay. Chữ viết đã được phát triển ở vùng Lưỡng Hà cổ đại bởi các quan chức muốn có một công cụ hiệu quả để ghi lại và theo dõi thông tin. Từ thời Kinh Thánh, các chính phủ đã tổ chức các cuộc điều tra để thu thập các bộ dữ liệu lớn về công dân của họ, và tương tự đã hai trăm năm nay, các chuyên gia tính toán thu thập khối lượng lớn dữ liệu liên quan đến các rủi ro mà họ hy vọng sẽ hiểu được – hoặc ít nhất là tránh được.
Tuy nhiên, trong thời đại analog, việc thu thập và phân tích dữ liệu như vậy là vô cùng tốn kém và mất thời gian. Những câu hỏi mới thường có nghĩa là dữ liệu phải được thu thập lại và việc phân tích phải bắt đầu lại. Bước tiến lớn đối với việc quản lý dữ liệu hiệu quả hơn đã xuất hiện cùng với số hóa: giúp cho máy tính có thể đọc thông tin analog, mà cũng làm cho nó dễ dàng hơn và rẻ hơn để lưu trữ và xử lý.
Bước phát triển này đã cải thiện hiệu quả đáng kể. Việc thu thập và phân tích thông tin trước đây phải mất hàng năm, nay có thể được thực hiện trong vài ngày hoặc thậm chí ngắn hơn. Nhưng rất ít thứ khác thay đổi. Những người phân tích dữ liệu đã quá thường xuyên bị ngập trong thế giới analog, cho rằng các tập dữ liệu chỉ có những mục đích đơn lẻ mà giá trị của chúng đã được gắn liền. Các tiến trình của chúng ta đã duy trì định kiến này. Dù cũng quan trọng như số hóa đã tạo điều kiện cho việc chuyển sang dữ liệu lớn, nhưng chỉ sự tồn tại của máy tính đã không làm cho dữ liệu lớn xảy ra.
Tuy chưa có thuật ngữ thật tốt để mô tả những gì đang diễn ra hiện nay, nhưng một thuật ngữ giúp định hình được những thay đổi đó là dữ liệu hóa (datafication), một khái niệm mà chúng ta giới thiệu trong Chương Năm. Nó ám chỉ việc lấy thông tin về tất cả mọi thứ dưới ánh mặt trời – bao gồm cả những thứ chúng ta không bao giờ xem là thông tin, chẳng hạn như vị trí của một người, những rung động của một động cơ, hoặc sự căng trên một cây cầu – và biến nó thành một định dạng dữ liệu để thực hiện định lượng nó. Điều này cho phép chúng ta sử dụng thông tin theo những cách mới, chẳng hạn như trong phân tích tiên đoán: phát hiện một động cơ dễ bị sự cố dựa trên độ nóng hay những rung động mà nó tạo ra. Kết quả là chúng ta có thể mở khóa những giá trị tiềm ẩn, bên trong của thông tin.
Có một cuộc truy lùng kho báu đang xảy ra, được thúc đẩy bởi những hiểu biết sâu sắc từ các dữ liệu và giá trị tiềm tàng có thể được khai thông nhờ sự chuyển dịch từ quan hệ nhân quả sang tương liên. Nhưng nó không chỉ là một kho báu. Mỗi bộ dữ liệu riêng lẻ rất có thể có một số giá trị nào đó nội tại, ẩn, chưa được khai phá, và cuộc đua ở đây là để khám phá và nắm bắt tất cả những thứ đó.
Dữ liệu lớn thay đổi bản chất của kinh doanh, thị trường, và xã hội, như chúng ta mô tả trong Chương Sáu và Bảy. Trong thế kỷ XX, giá trị đã chuyển từ cơ sở hạ tầng vật lý như đất đai và nhà máy sang những thứ vô hình như thương hiệu và sở hữu trí tuệ. Điều này bây giờ mở rộng tới dữ liệu, cái đang trở thành một tài sản đáng kể của công ty, một đầu vào kinh tế quan trọng, và là nền tảng của các mô hình kinh doanh mới. Nó là dầu hỏa của nền kinh tế thông tin. Mặc dù dữ liệu hiếm khi được ghi nhận vào bảng cân đối của doanh nghiệp, nhưng điều này có lẽ chỉ là vấn đề thời gian.
Mặc dù một số kỹ thuật nghiền (crunching) dữ liệu đã xuất hiện được một thời gian, trong quá khứ chúng chỉ được dành cho cơ quan tình báo, các phòng nghiên cứu, và các công ty lớn nhất thế giới. Xét cho cùng, Walmart và Capital One đã đi tiên phong trong việc sử dụng dữ liệu lớn trong bán lẻ và ngân hàng, và qua đó làm thay đổi ngành công nghiệp của họ. Bây giờ nhiều trong số những công cụ này đã được dân chủ hóa (mặc dù dữ liệu thì không).
Ảnh hưởng lên các cá nhân có thể là cú sốc lớn nhất. Kinh nghiệm chuyên môn về lĩnh vực đặc thù trở thành ít quan trọng hơn trong một thế giới mà ở đó xác suất và mối tương quan là tối cao. Trong bộ phim Moneyball, các tuyển trạch viên bóng chày đã bị các nhà thống kê lấn lướt, khi bản năng nhường chỗ cho các phân tích tinh vi. Tương tự như vậy, các chuyên gia sẽ không biến mất, nhưng họ sẽ phải đối mặt với những điều mà các phân tích dữ liệu lớn thể hiện. Điều này sẽ bắt buộc có sự điều chỉnh những ý tưởng truyền thống của quản lý, ra quyết định, nguồn nhân lực và giáo dục.
Hầu hết các thể chế của chúng ta được thiết lập theo giả định rằng các quyết định của con người được dựa trên thông tin mang bản chất nhỏ lẻ, chính xác, và nhân quả. Nhưng tình hình thay đổi khi dữ liệu là rất lớn, có thể được xử lý một cách nhanh chóng, và chấp nhận sự không chính xác. Hơn nữa, do kích thước rất lớn của dữ liệu, các quyết định có thể thường được thực hiện không bởi con người mà bởi máy. Chúng ta sẽ xem xét những mặt tối của dữ liệu lớn trong Chương Tám. Xã hội đã có hàng thiên niên kỷ trải nghiệm trong việc tìm hiểu và giám sát hành vi của con người. Nhưng làm thế nào để bạn chỉnh đốn một thuật toán? Buổi đầu của tính toán, các nhà hoạch định chính sách công nhận công nghệ có thể được sử dụng để làm suy giảm sự riêng tư ra sao. Kể từ đó xã hội đã xây dựng nhiều quy tắc để bảo vệ thông tin cá nhân. Nhưng trong thời đại của dữ liệu lớn, những luật lệ này tạo thành một dạng Phòng tuyến Maginot gần như vô dụng. Người ta sẵn sàng chia sẻ thông tin trực tuyến – một tính năng trung tâm của các dịch vụ, không phải là một lỗ hổng để ngăn chặn.
Trong khi đó, mối nguy hiểm đối với những cá nhân như chúng ta chuyển từ yếu tố riêng tư sang xác suất: các thuật toán sẽ dự đoán khả năng một người bị nhồi máu cơ tim (và phải trả nhiều hơn cho bảo hiểm y tế), khả năng vỡ nợ của một khoản thế chấp (và bị từ chối một khoản vay), hoặc phạm tội (và có lẽ bị bắt trước). Nó dẫn đến một sự xem xét mang tính đạo đức về vai trò của tự do ý chí đối với sự độc tài của dữ liệu. Liệu có nên để ý chí cá nhân chiến thắng dữ liệu lớn, ngay cả khi số liệu thống kê lý giải khác? Cũng giống như việc in ấn đã chuẩn bị nền tảng cho các đạo luật đảm bảo tự do ngôn luận – điều không tồn tại trước đó bởi có rất ít việc biểu đạt bằng văn bản cần được bảo vệ – thời đại của dữ liệu lớn sẽ đòi hỏi những quy định mới để bảo vệ sự thiêng liêng của cá nhân.
Dù gì đi nữa, cách thức chúng ta kiểm soát và xử lý dữ liệu sẽ phải thay đổi. Chúng ta đang bước vào một thế giới của những dự đoán liên tục dựa trên dữ liệu, ở đó chúng ta có thể không giải thích được các nguyên nhân đằng sau những quyết định của chúng ta. Thử hỏi còn có ý nghĩa gì khi bác sĩ không thể biện minh cho biện pháp can thiệp y tế của mình nếu không yêu cầu bệnh nhân trông chờ vào một cái hộp đen, giống như bác sĩ phải làm khi dựa vào chẩn đoán được dẫn dắt bởi dữ liệu lớn? Liệu chuẩn mực “chứng cứ hợp lý” của hệ thống tư pháp có cần phải thay đổi thành “chứng cứ theo xác suất” – và nếu như vậy thì hệ quả của điều này là những gì đối với tự do và phẩm giá con người?
Những nguyên tắc mới là cần thiết cho thời đại của dữ liệu lớn, mà chúng ta đặt ra trong Chương Chín. Mặc dù chúng được xây dựng dựa trên các giá trị đã được phát triển và được ghi nhận đối với thế giới của dữ liệu nhỏ, điều đó không đơn giản là vấn đề làm mới lại những quy định cũ cho hoàn cảnh mới, mà là hoàn toàn công nhận sự cần thiết của những nguyên tắc mới.
Những lợi ích cho xã hội sẽ là vô kể, khi dữ liệu lớn trở thành bộ phận của giải pháp cho những vấn đề bức xúc toàn cầu, như giải quyết thay đổi khí hậu, xóa bỏ bệnh tật, thúc đẩy sự quản trị tốt và phát triển kinh tế. Nhưng thời đại dữ liệu lớn cũng thách thức chúng ta phải chuẩn bị tốt hơn về những cách thức trong đó việc khai thác công nghệ sẽ làm thay đổi các tổ chức của chúng ta và chính bản thân chúng ta.
Dữ liệu lớn đánh dấu một bước quan trọng trong việc tìm kiếm của con người để định lượng và hiểu thế giới; một ưu thế của những thứ chưa bao giờ được đo lường, lưu trữ, phân tích và chia sẻ trước khi được dữ liệu hóa. Việc khai thác lượng lớn dữ liệu thay vì chỉ một phần nhỏ, và việc có đặc quyền với nhiều dữ liệu có độ chính xác thấp hơn, sẽ mở ra cánh cửa tới những cách hiểu biết mới. Nó dẫn xã hội tới việc từ bỏ ưu tiên lâu đời cho nhân quả, và trong nhiều trường hợp thu được các lợi ích của mối tương liên.
Lý tưởng về việc xác định được những cơ chế nhân-quả chỉ là một kiểu ảo tưởng tự mãn; dữ liệu lớn đã làm đảo lộn điều này. Một lần nữa chúng ta đang lâm vào một sự bế tắc lịch sử nơi “thần thánh cũng chết”, nghĩa là những điều chắc chắn chúng ta đã từng tin vào, một lần nữa lại thay đổi. Nhưng lần này chúng được thay thế một cách thật trớ trêu bằng những chứng cứ tốt hơn. Vậy thì trực giác, niềm tin, và những điều mơ hồ sẽ còn lại vai trò gì, so với các chứng cứ và việc học tập bằng trải nghiệm? Khi thế giới chuyển từ quan hệ nhân quả sang tương liên, làm sao chúng ta có thể tiến một cách thực dụng về phía trước mà không làm suy yếu những nền tảng của xã hội, nhân loại, và tiến bộ dựa trên nhân-quả?
Cuốn sách này mong muốn giải thích chúng ta đang ở đâu, dõi theo dấu vết chúng ta đã tới đây như thế nào, và cung cấp một hướng dẫn hết sức cần thiết về những lợi ích và những nguy hiểm nằm ở phía trước.
NĂM 2009 MỘT VI-RÚT CÚM mới được phát hiện. Kết hợp các yếu tố của các vi-rút gây cúm gà, chủng mới này, được gọi là H1N1, đã lây lan nhanh chóng. Trong vài tuần, các cơ sở y tế khắp thế giới lo sợ một đại dịch khủng khiếp đang xảy ra. Một số nhà bình luận đã cảnh báo về một dịch bệnh có quy mô của dịch cúm Tây Ban Nha vào năm 1918, lây nhiễm cho nửa tỷ người và làm chết hàng chục triệu người. Tồi tệ hơn là không hề có vắc-xin nào để chống lại vi-rút mới này. Hy vọng duy nhất của cơ quan y tế là giảm mức lây lan. Nhưng để làm điều đó, họ cần biết bệnh đã lan tới đâu.
Ở Mỹ, Trung tâm Kiểm soát và Phòng chống Bệnh dịch (CDC) đã yêu cầu các bác sĩ thông báo về các ca bệnh cúm mới. Nhưng bức tranh thật về đại dịch vẫn luôn bị chậm trễ một hoặc hai tuần. Nhiều người có thể bị bệnh vài ngày rồi mới đi gặp bác sĩ. Việc chuyển tiếp thông tin về các cơ quan trung ương đòi hỏi thời gian, và CDC chỉ xử lý các con số mỗi tuần một lần. Với một bệnh dịch lây lan nhanh, hai tuần chậm trễ cũng giống như dài vô tận. Sự chậm trễ này đã hoàn toàn vô hiệu hóa các cơ quan y tế tại những thời điểm gay cấn nhất.
Lúc việc đó xảy ra, vài tuần trước khi vi-rút H1N1 xuất hiện rầm rộ trên các phương tiện truyền thông, các kỹ sư của công ty Internet khổng lồ Google đã đăng một bài đáng chú ý trên tạp chí khoa học Nature. Nó đã tạo một chuyện giật gân trong giới chức y tế và các nhà khoa học máy tính, nhưng ngoài ra thì ít được quan tâm. Các tác giả lý giải Google có thể “dự đoán” sự lây lan của bệnh cúm mùa đông ở Mỹ như thế nào, không chỉ ở mức độ toàn quốc, mà còn chi tiết tới mức vùng và thậm chí tới mức tiểu bang. Google có thể đạt được điều này bằng cách xem xét những gì người sử dụng đã tìm kiếm trên Internet. Bởi Google nhận được hơn ba tỷ câu hỏi tìm kiếm mỗi ngày và lưu giữ tất cả chúng, nên nó có vô số dữ liệu để phân tích.
Google lấy 50 triệu cụm từ được tìm kiếm phổ biến nhất của người Mỹ và so sánh chúng với dữ liệu của CDC về sự lây lan của bệnh cúm mùa giữa các năm 2003 và 2008. Ý tưởng là để xác định các khu vực bị lây nhiễm vi-rút cúm thông qua những gì người ta tìm kiếm trên Internet, và không ai khác có nhiều dữ liệu, năng lực tính toán và hiểu biết về thống kê như Google.
Dù các chuyên viên của Google phỏng đoán các lệnh tìm kiếm có thể nhằm thu lượm thông tin về cúm – gõ các câu đại loại như “thuốc ho và sốt” – nhưng không phải vậy: họ không biết, và họ đã thiết kế một hệ thống không quan tâm tới điều đó. Tất cả những gì hệ thống của họ làm là phát hiện mối tương quan giữa tần suất của một số câu hỏi tìm kiếm và sự lây lan của bệnh cúm theo thời gian và không gian. Tổng cộng, họ xử lý một lượng đáng kinh ngạc 450 triệu mô hình toán học khác nhau để kiểm tra các điều kiện tìm kiếm, so sánh các dự đoán của họ với các trường hợp bệnh thực tế từ CDC trong năm 2007 và 2008. Và họ đã vớ được vàng: phần mềm của họ tìm thấy một sự kết hợp của 45 điều kiện tìm kiếm mà khi sử dụng cùng với một mô hình toán học, có một mối tương quan mạnh mẽ giữa phỏng đoán của họ và các số liệu chính thức trên toàn quốc. Giống như CDC, họ có thể cho biết cúm đã lây lan tới đâu, nhưng khác với CDC, họ có thể nói điều đó gần như trong thời gian thực, chứ không phải trễ một hoặc hai tuần.
Do vậy, khi dịch bệnh H1N1 tấn công vào năm 2009, hệ thống của Google đã chứng tỏ là một chỉ báo có ích hơn và nhanh hơn so với các số liệu thống kê của chính phủ thường chậm trễ. Các quan chức y tế đã được trang bị những thông tin có giá trị.
Điều gây ấn tượng là phương pháp của Google không liên quan gì đến việc phân phối gạc miệng hoặc liên hệ với các phòng khám. Thay vào đó, nó được xây dựng trên “dữ liệu lớn” – khả năng của xã hội khai thác thông tin theo những cách thức mới để đưa ra những kiến thức hữu ích hay những sản phẩm và dịch vụ có giá trị đáng kể. Với nó, khi đại dịch kế tiếp xảy ra, thế giới sẽ có sẵn một công cụ tốt hơn để dự đoán và do đó ngăn chặn sự lây lan.
Phim minh họa phương pháp của Google
Y tế công chỉ là một lĩnh vực trong đó dữ liệu lớn đang làm nên một sự khác biệt vĩ đại. Nhiều lĩnh vực khác cũng đang được định hình lại bởi dữ liệu lớn. Dịch vụ mua vé máy bay là một thí dụ.
Năm 2003, Oren Etzioni cần bay từ Seattle tới Los Angeles để dự lễ cưới em trai của ông. Nhiều tháng trước đó, ông lên mạng và mua một vé máy bay, tin rằng càng mua sớm, vé càng rẻ. Trên chuyến bay, do tò mò, Etzioni hỏi người ngồi kế bên xem giá vé của ông ta là bao nhiêu và ông ta mua khi nào. Hóa ra ông ta trả thấp hơn nhiều so với Etzioni, mà thậm chí ông ta mới chỉ mua vé gần đây. Khá tức giận, Etzioni hỏi một hành khách khác và một hành khách khác nữa. Hầu hết họ đã trả ít tiền hơn.
Với hầu hết chúng ta, ý nghĩa của cảm giác bị lừa có thể đã tiêu tan khi chúng ta gấp khay bàn ăn trước mặt, dựng thẳng ghế và khóa thắt lưng an toàn. Nhưng Etzioni là một trong những nhà khoa học máy tính hàng đầu của Mỹ. Ông nhìn thế giới như một chuỗi các bài toán dữ-liệu-lớn có thể giải được. Và ông đang làm chủ chúng từ khi là người đầu tiên tốt nghiệp Đại học Harvard về chuyên ngành khoa học máy tính vào năm 1986.
Từ căn phòng của mình tại Đại học Washington, ông đã khỏi xướng những công ty dữ-liệu-lớn trước khi thuật ngữ “dữ liệu lớn” được biết tới. Ông đã giúp phát triển một trong những công cụ tìm kiếm Web đầu tiên, MetaCrawler, được đưa ra sử dụng vào năm 1994 rồi sau được bán cho InfoSpace, lúc đó là một công ty bất động sản trực tuyến lớn. Ông đã đồng sáng lập Netbot, trang web mua hàng so sánh lớn đầu tiên, sau đó bán nó cho Excite. Ông khởi động công ty làm công cụ trích ý nghĩa từ các văn bản, gọi là ClearForest, sau này được Reuters mua lại.
Trở lại câu chuyện chính, Etzioni quyết tìm ra cách để có thể biết liệu một giá vé ta thấy trên mạng có phải là một giá tốt hay không. Một chỗ ngồi trên máy bay là một thương phẩm: mỗi chỗ về cơ bản là hoàn toàn giống với những chỗ khác trên cùng chuyến bay. Nhưng giá lại rất khác nhau, dựa trên vô số yếu tố mà chủ yếu chỉ chính các hãng bay mới biết.
Etzioni đi đến kết luận ông không cần giải mã ý nghĩa hay nguyên nhân giá cả khác nhau. Thay vào đó, ông đơn giản phải dự đoán liệu giá được báo có khả năng tăng hay giảm trong tương lai. Điều này là khả thi, nếu không nói là dễ. Những gì cần thiết là phân tích tất cả các vé bán cho một tuyến đường và khảo sát các giá phải trả tương quan với số ngày mua trước lúc khởi hành.
Nếu giá trung bình của vé có xu hướng giảm, thì rất nên đợi để mua sau. Nếu giá trung bình có xu hướng tăng, hệ thống sẽ khuyến cáo mua vé ngay với giá được báo. Nói cách khác, thứ cần thiết là một dạng cải tiến của cuộc điều tra thông tin Etzioni đã thực hiện trên tầng cao 30.000 feet. Chắc chắn đó là một bài toán lớn khác của khoa học máy tính. Nhưng, đó là một bài toán ông có thể giải được. Do vậy Etzioni đã bắt tay vào công việc.
Sử dụng một mẫu gồm 12.000 lượt thống kê giá vé qua “thu lượm” thông tin trong 41 ngày từ một trang web du lịch, Etzioni đã tạo được một mô hình dự báo giúp hành khách tiết kiệm chi phí. Mô hình không có hiểu biết về câu hỏi tại sao, mà chỉ biết về câu hỏi cái gì. Nó không biết bất kỳ tham biến nào tham gia vào những quyết định về giá của các hãng hàng không, chẳng hạn số chỗ ngồi còn chưa bán được, mùa vụ, hay một loại thu xếp lưu trú qua đêm thứ Bảy có thể làm giảm giá vé. Hệ thống dự đoán dựa vào những gì đã biết: xác suất có được từ những chuyến bay khác. “Mua hay không mua, đó là câu hỏi”, Etzioni ngẫm nghĩ. Thế nên ông đặt tên rất thích hợp cho dự án là Hamlet.
Dự án nhỏ đã phát triển thành một doanh nghiệp khởi động được hỗ trợ bằng vốn mạo hiểm mang tên Farecast. Bằng cách dự báo giá của một vé máy bay rất có thể tăng hoặc giảm, và tăng hoặc giảm bao nhiêu, Farecast trao quyền cho người tiêu dùng lựa chọn khi nào thì nhấp vào nút “mua”. Nó trang bị cho họ thông tin mà trước đây họ chưa bao giờ truy cập được. Đề cao tính tự minh bạch, Farecast cho điểm độ tin cậy đối với dự báo của chính nó và cũng thông báo số điểm này cho người sử dụng.
Để hoạt động, hệ thống cần rất nhiều dữ liệu. Nhằm cải thiện hiệu suất của hệ thống, Etzioni đã nhúng tay vào một trong các cơ sở dữ liệu đăng ký chỗ của ngành hàng không. Với thông tin này, hệ thống có thể đưa ra các dự báo dựa vào từng chỗ ngồi trên từng chuyến bay cho hầu hết các tuyến bay của hàng không thương mại Mỹ trong một năm. Farecast xử lý gần 200 tỷ bản ghi giá vé máy bay để đưa ra các dự báo của nó. Làm như vậy, Farecast đã tiết kiệm được cho người tiêu dùng bộn tiền.
Với mái tóc màu nâu cát, nụ cười chân thành, và nét đẹp hiền hậu, Etzinoni hầu như không có vẻ là loại người có thể phủ nhận hàng triệu đôla doanh thu tiềm năng của ngành hàng không. Trong thực tế, ông đặt tầm ngắm của mình còn xa hơn thế. Năm 2008 ông đặt kế hoạch áp dụng phương pháp này cho các sản phẩm khác như phòng khách sạn, vé nghe hòa nhạc, và xe hơi cũ: tất cả mọi thứ với sự khác biệt rất ít về sản phẩm, có độ biến động giá cả cao, và có rất nhiều dữ liệu. Nhưng trước khi ông có thể triển khai được các kế hoạch của mình, Microsoft đã tới gõ cửa, mua Farecast với khoảng $110 triệu, và tích hợp nó vào công cụ tìm kiếm Bing. Tới năm 2012 hệ thống đã khuyến cáo đúng tới 75% và tiết kiệm cho hành khách trung bình $50 mỗi vé.
Farecast là hình ảnh thu nhỏ của một công ty dữ-liệu-lớn và một thí dụ cho thấy thế giới hướng tới đâu. Etzioni không thể thiết lập công ty năm hoặc mười năm sớm hơn. “Đó là điều bất khả”, ông nói. Lượng sức mạnh tính toán và lưu trữ cần thiết đã là quá lớn. Nhưng, mặc dù những thay đổi về công nghệ là yếu tố quan trọng giúp cho nó trở thành khả thi, một số điều quan trọng hơn cũng thay đổi – những điều tinh tế. Đã có sự thay đổi trong suy nghĩ về việc dữ liệu có thể được sử dụng như thế nào.
Dữ liệu không còn được xem là tĩnh hoặc cũ, tính hữu ích của dữ liệu kết thúc một khi mục tiêu mà vì nó dữ liệu được thu thập đã đạt được, chẳng hạn sau khi máy bay đã hạ cánh (hoặc trong trường hợp của Google, khi một câu hỏi tìm kiếm đã được xử lý). Thay vào đó, dữ liệu trở thành một nguyên liệu thô của doanh nghiệp, một đầu vào kinh tế quan trọng, được sử dụng để tạo ra một dạng mới của giá trị kinh tế. Thực tế, với suy nghĩ đúng đắn, dữ liệu có thể được dùng lại một cách thông minh để trở thành một suối nguồn của thông tin và những dịch vụ mới. Dữ liệu có thể tiết lộ bí mật cho những ai có sự khiêm nhường, sự sẵn lòng và công cụ để lắng nghe.
Hãy để cho dữ liệu nói
Thật dễ nhận thấy những thành quả của xã hội thông tin, với một điện thoại di động và một máy tính bỏ túi mỗi người, cùng các hệ thống công nghệ thông tin lớn trong văn phòng khắp mọi nơi. Nhưng điều người ta ít thấy rõ hơn là chính thông tin.
Một nửa thế kỷ sau khi máy tính bước vào xã hội chính thống, dữ liệu bắt đầu được tích lũy nhiều tới mức mà một điều gì đó mới mẻ và đặc biệt sắp xảy ra. Không những thế giới tràn ngập thông tin nhiều hơn bao giờ hết, mà thông tin còn tăng nhanh hơn. Sự thay đổi về quy mô đã dẫn đến một sự thay đổi về trạng thái. Thay đổi về lượng đã dẫn tới thay đổi về chất. Các khoa học như thiên văn, gen, mới được trải nghiệm sự bùng nổ trong những năm 2000, đã đưa ra thuật ngữ “dữ liệu lớn”, khái niệm mà nay đã di trú vào tất cả các lĩnh vực của đời sống con người.
Không có một định nghĩa chính xác cho dữ liệu lớn. Ban đầu ý tưởng là dung lượng thông tin đã tăng quá lớn tới mức số lượng cần khảo sát không còn vừa vào bộ nhớ các máy tính dùng để xử lý, do vậy các kỹ sư cần cải tạo các công cụ họ dùng để có thể phân tích được tất cả thông tin. Đó là xuất xứ của các công nghệ xử lý mới như MapReduce của Google và nguồn mở tương đương của nó, Hadoop, khởi đầu từ Yahoo. Những công nghệ này cho phép ta quản lý những khối lượng dữ liệu lớn hơn nhiều so với trước đây, và quan trọng là không cần đưa dữ liệu vào các hàng ngăn nắp hoặc các bảng cơ sở dữ liệu cổ điển. Các công nghệ nghiền dữ liệu khác, bỏ qua các cấu trúc phân cấp và đồng nhất cứng nhắc cổ điển, cũng ở trong tầm ngắm. Đồng thời, do các công ty Internet có thể thu thập được vô số dữ liệu quý giá và có động cơ kinh tế lớn để khai thác chúng, nên các công ty này trở thành người sử dụng hàng đầu của các công nghệ xử lý hiện đại nhất, vượt qua các công ty truyền thống, đôi khi có tới hàng chục năm kinh nghiệm nhiều hơn.
Một cách để suy nghĩ về vấn đề ngày hôm nay – và cũng là cách chúng tôi thực hiện trong cuốn sách này – là: dữ liệu lớn đề cập tới những thứ người ta có thể làm với một quy mô lớn mà không thể làm với một quy mô nhỏ hơn, để trích xuất những hiểu biết mới hoặc tạo ra những dạng giá trị mới, theo những cách thức có thể làm thay đổi các thị trường, các tổ chức, mối quan hệ giữa các công dân và các chính phủ, và hơn thế nữa.
Nhưng đó chỉ là bước khởi đầu. Thời đại của dữ liệu lớn thách thức cách chúng ta sống và tương tác với thế giới. Nổi bật nhất, xã hội sẽ phải cắt giảm một số nỗi ám ảnh của nó về quan hệ nhân quả để đổi lấy mối tương quan đơn giản, không biết tại sao mà chỉ biết cái gì. Điều đó làm đổ vỡ hàng thế kỷ các tập quán đã được thiết lập và thách thức hiểu biết cơ bản nhất của chúng ta về việc làm thế nào để đưa ra được quyết định và hiểu được thực tế.
Dữ liệu lớn đánh dấu bước khởi đầu của một biến đổi lớn. Giống như nhiều công nghệ mới, dữ liệu lớn chắc chắn sẽ trở thành nạn nhân của chu kỳ thổi phồng khét tiếng của Thung Lũng Silicon: sau khi được tiếp đón trên trang đầu của các tạp chí và tại các hội nghị công nghiệp, xu hướng này sẽ bị ruồng bỏ và rất nhiều công ty khởi động say mê dữ liệu sẽ bị lúng túng. Nhưng cả thái độ say mê và nguyền rủa đều hiểu lầm một cách khá sâu tầm quan trọng của những gì đang xảy ra. Đúng như kính thiên văn tạo điều kiện cho chúng ta hiểu biết được vũ trụ và kính hiển vi cho phép chúng ta hiểu biết được vi trùng, các kỹ thuật mới để thu thập và phân tích những tập hợp lớn dữ liệu sẽ giúp chúng ta tìm ra ý nghĩa của thế giới theo những cách thức mà chúng ta mới chỉ vừa bắt đầu ưa thích. Trong cuốn sách này, chúng tôi không hẳn là những kẻ truyền giáo của dữ liệu lớn mà chỉ là những người đưa tin. Và, một lần nữa xin nhấn mạnh, cuộc cách mạng thật sự không phải ở những chiếc máy tính toán dữ liệu mà ở chính dữ liệu và cách ta sử dụng chúng.
Để đánh giá mức độ một cuộc cách mạng thông tin đã tiến triển tới đâu, ta hãy xem xét các xu hướng xuyên suốt các lĩnh vực của xã hội. Lấy ví dụ thiên văn học. Khi Sloan Digital Sky Survey (SDSS – Trạm quan sát bầu trời bằng kỹ thuật số Sloan) bắt đầu hoạt động vào năm 2000, kính thiên văn của nó tại New Mexico trong mấy tuần đầu tiên đã thu thập nhiều dữ liệu hơn những gì được thu thập trong toàn bộ lịch sử của ngành thiên văn. Đến năm 2010, lưu trữ của trạm đã bạt ngàn với con số khổng lồ 140 tera (10 mũ 12) byte thông tin. Nhưng kẻ kế nhiệm, kính thiên văn của Large Synoptic Survey (LSST) ở Chile, dự kiến vận hành vào năm 2016, cứ mỗi năm ngày sẽ thu thập được lượng dữ liệu tương đương như thế.
Những số lượng vô cùng to lớn như vậy cũng có thể được tìm thấy ngay xung quanh chúng ta. Khi các nhà khoa học lần đầu giải mã gen người vào năm 2003, họ đã mất một thập kỷ làm việc miệt mài để xác định trình tự cho ba tỷ cặp cơ sở. Bây giờ, sau một thập kỷ, một thiết bị đơn lẻ cũng có thể xác định trình tự cho số lượng DNA như vậy chỉ trong một ngày. Trong ngành tài chính, khoảng 7 tỷ cổ phiếu được mua bán mỗi ngày trên các thị trường chứng khoán Mỹ, trong số đó khoảng hai phần ba được giao dịch bằng các thuật toán máy tính dựa trên các mô hình toán học xử lý hàng núi dữ liệu để dự đoán lợi nhuận trong khi cố gắng giảm thiểu rủi ro.
Các công ty Internet đặc biệt bị tràn ngập. Google xử lý hơn 24 peta (10 mũ 15) byte dữ liệu mỗi ngày, một khối lượng gấp hàng ngàn lần tất cả các ấn phẩm trong Thư viện Quốc hội Mỹ. Facebook, một công ty không hề tồn tại một thập kỷ trước, nhận hơn 10 triệu ảnh mới được tải lên mỗi giờ. Các thành viên Facebook nhấp nút “like” hoặc gửi lời bình luận gần ba tỷ lần mỗi ngày, tạo một dấu vết số để công ty có thể “đào xới” nhằm biết được các sở thích của người sử dụng. Trong khi đó, 800 triệu người sử dụng dịch vụ Youtube của Google tải lên hơn một giờ video mỗi giây. Thành viên của mạng Twitter tăng khoảng 200 phần trăm mỗi năm và đến năm 2012 đã có hơn 400 triệu tweet mỗi ngày.
Từ khoa học tới y tế, từ ngân hàng tới Internet, các lĩnh vực có thể khác nhau, nhưng cùng nhau chúng đều có một câu chuyện tương tự: số lượng dữ liệu trong thế giới đang tăng rất nhanh, vượt sức không chỉ những chiếc máy tính mà cả trí tưởng tượng của chúng ta.
Nhiều người đã thử đưa ra một con số thực tế về lượng thông tin xung quanh chúng ta và tính toán xem nó tăng như thế nào. Họ đã có những mức độ thành công khác nhau bởi họ đo lường những thứ khác nhau.. Một trong những nghiên cứu toàn diện hơn được Martin Hilbert của Trường Truyền thông và Báo chí Annenberg thuộc Đại học Nam California thực hiện. Ông đã nỗ lực đưa ra một con số cho mọi thứ đã từng được sản xuất, lưu trữ và truyền tải. Chúng không chỉ bao gồm sách, tranh, email, ảnh, nhạc, và phim (cả dạng analog và digital), mà còn có trò chơi điện tử, cuộc gọi điện thoại, thậm chí các hệ thống điều hướng xe và thư gửi qua bưu điện. Ông cũng bao gồm các phương tiện truyền thông phát sóng như truyền hình và radio, dựa trên tiếp cận khán giả.
Theo ước lượng của Hilbert, hơn 300 exa (10 mũ 18) byte dữ liệu lưu trữ đã tồn tại vào năm 2007. Để dễ hình dung ý nghĩa của nó, thử nghĩ thế này. Một bộ phim dài ở dạng kỹ thuật số có thể được nén vào một tập tin 1 giga byte. Một exa byte là 1 tỷ gi ga byte. Tóm lại là vô cùng nhiều. Điều thú vị là năm 2007 chỉ khoảng 7 phần trăm dữ liệu ở dạng analog (giấy, sách, ảnh in, vân vân). Phần còn lại là ở dạng digital – kỹ thuật số. Nhưng mới gần đây, bức tranh đã rất khác. Mặc dù những ý tưởng của cuộc “cách mạng thông tin” và “thời đại kỹ thuật số” đã xuất hiện từ những năm 1960, chúng mới chỉ trở thành hiện thực ở vài khía cạnh. Tới tận năm 2000, mới chỉ có một phần tư thông tin lưu trữ của thế giới được số hóa. Ba phần tư còn lại vẫn ở trên giấy, phim, đĩa nhựa, băng từ, và những thứ tương tự.
Lượng thông tin kỹ thuật số lúc đó chưa nhiều – một điều thật kém cỏi với những ai lướt mạng và mua sách trực tuyến suốt thời gian dài. (Thực tế, vào năm 1986, khoảng 40 phần trăm sức mạnh tính toán thông dụng của thế giới là ở dạng những chiếc máy tính bỏ túi, lớn hơn sức mạnh của tất cả các máy tính cá nhân tại thời điểm đó.) Nhưng vì dữ liệu kỹ thuật số phát triển rất nhanh – cứ hơn ba năm lại tăng gấp đôi, theo Hilbert – nên tình hình đã nhanh chóng tự đảo ngược. Thông tin analog, ngược lại, không hề tăng. Do vậy vào năm 2013 lượng thông tin lưu trữ trong thế giới ước lượng khoảng 1.200 exa byte, trong đó chưa đến 2 phần trăm là phi kỹ thuật số.
Chẳng có cách nào phù hợp để hình dung kích thước như vậy của dữ liệu là có ý nghĩa gì. Nếu tất cả được in thành sách, chúng có thể phủ kín bề mặt của nước Mỹ với chiều dày 52 lớp. Nếu được ghi vào CD-ROM và xếp chồng lên nhau, chúng có thể tạo thành 5 cột vươn cao tới mặt trăng. Vào thế kỷ thứ ba trước Công nguyên, khi Ptolemy II của Ai Cập cố gắng lưu trữ một bản của mỗi tác phẩm từng được viết ra, Thư viện lớn của Alexandria đã tượng trưng cho toàn bộ tri thức của thế giới. Trận lũ lớn kỹ thuật số hiện đang quét qua trái đất tương đương với việc cung cấp cho mỗi người sống trên trái đất hôm nay 320 lần nhiều hơn thông tin như ước lượng đã được lưu trữ ở Thư viện Alexandria.
Mọi thứ thật sự được tăng tốc. Lượng thông tin lưu trữ tăng nhanh hơn gấp bốn lần so với kinh tế thế giới, trong khi sức mạnh xử lý của máy tính tăng nhanh hơn gấp chín lần. Không ngạc nhiên khi người ta than phiền tình trạng quá tải thông tin. Ai cũng bị tác động bởi những thay đổi này.
Hãy nhìn một cách dài hạn, bằng cách so sánh trận lũ dữ liệu hiện tại với cuộc cách mạng thông tin trước đây, cách mạng in sách của Gutenberg được phát minh khoảng năm 1439. Trong năm mươi năm từ 1453 tới 1503 khoảng 8 triệu cuốn sách đã được in, theo nhà sử học Elizabeth Eisenstein. số lượng đó được xem là nhiều hơn tất cả những gì các thầy thông giáo đã chép ra kể từ lúc thiết lập nên Constantinople khoảng 1.200 năm trước. Nói cách khác, phải mất năm mươi năm để khối lượng thông tin tăng gấp đôi ở Âu châu, so với khoảng mỗi ba năm hiện nay.
Sự tăng trưởng này có ý nghĩa gì? Peter Norvig, một chuyên gia trí tuệ nhân tạo tại Google, thích nghĩ về nó với một sự tương tự về hình ảnh. Ông yêu cầu chúng tôi trước hết xem xét con ngựa mang tính biểu tượng từ các hình vẽ hang động ở Lascaux, Pháp, từ thời Paleolithic khoảng 17 ngàn năm trước. Sau đó nghĩ tới một bức ảnh của một con ngựa – hoặc tốt hơn là những phác họa của Pablo Picasso, trông không khác mấy các hình vẽ hang động. Thực tế, khi Picasso được cho xem các hình vẽ Lascaux, từ thời đó ông đã hài hước rằng: “Chúng ta đã không phát minh ra được thứ gì cả”.
Những lời của Picasso đúng ở một mức độ, nhưng không đúng ở một mức độ khác. Hãy nhớ lại bức ảnh chụp con ngựa. Trong khi phải mất nhiều thời gian để vẽ hình một con ngựa, bây giờ sự miêu tả một con ngựa có thể được thực hiện nhanh hơn nhiều với nhiếp ảnh. Đó là sự thay đổi, nhưng có thể đó không phải là thứ quan trọng nhất, bởi về cơ bản nó vẫn thế: hình ảnh của một con ngựa. Nhưng bây giờ, Norvig yêu cầu thu hình của một con ngựa và tăng tốc độ lên tới 24 khung hình mỗi giây. Sự thay đổi lượng đã tạo ra một thay đổi chất. Một bộ phim khác một cách cơ bản với một bức ảnh tĩnh. Với dữ liệu lớn cũng vậy: bằng cách thay đổi số lượng, chúng ta thay đổi bản chất.
Hãy xét một sự tương tự từ công nghệ nano – nơi mà mọi thứ trở nên nhỏ đi, chứ không lớn lên. Nguyên lý phía sau của công nghệ nano là khi đạt tới mức phân tử, các tính chất vật lý có thể thay đổi. Hiểu biết những đặc tính mới này có nghĩa là ta có thể sắp đặt để vật chất làm những thứ mà trước đây không thể làm được. Thí dụ, tại quy mô nano, kim loại có thể mềm dẻo hơn và gốm sứ có thể căng ra được. Ngược lại, khi tăng quy mô của dữ liệu, chúng ta có thể thực hiên được những thứ mới mà không thể nào thực hiện được khi chỉ làm việc với những số lượng nhỏ hơn.
Đôi khi những khó khăn mà chúng ta đang sống cùng thực ra chỉ là những chức năng của quy mô mà chúng ta hoạt động trong đó, và điều này cũng tương tự cho tất cả mọi thứ. Hãy xét một sự tương tự thứ ba, lại cũng từ các ngành khoa học. Đối với con người, định luật vật lý quan trọng nhất là lực hấp dẫn: nó ngự trị trên tất cả những gì chúng ta làm. Nhưng đối với những côn trùng nhỏ xíu, trọng lực hầu như vô nghĩa. Đối với một số loài như nhện nước, định luật vật lý có tác động với chúng chính là sức căng bề mặt, cho phép chúng đi qua một cái ao mà không chìm xuống.
Với thông tin, cũng như với vật lý, kích thước là quan trọng. Do đó, Google có thể xác định được sự lây lan của bệnh cúm chính xác như các dữ liệu chính thức dựa trên việc bệnh nhân thực sự tới gặp bác sĩ. Google có thể làm điều này bằng cách kết hợp hàng trăm tỷ từ khóa tìm kiếm – và nó có thể đưa ra một câu trả lời gần như trong thời gian thực, nhanh hơn nhiều các nguồn chính thức. Tương tự như vậy, Farecast của Etzioni có thể dự đoán sự biến động giá của một chiếc vé máy bay và do đó chuyển quyền lực kinh tế đáng kể vào tay người tiêu dùng. Nhưng cả hai chỉ có thể làm tốt như vậy bằng cách phân tích hàng trăm tỷ điểm dữ liệu.
Hai ví dụ trên cho thấy tầm quan trọng về khoa học và xã hội của dữ liệu lớn cũng như mức độ mà dữ liệu lớn có thể trở thành một nguồn giá trị kinh tế. Chúng đánh dấu hai cách thức mà thế giới dữ liệu lớn đã sẵn sàng để cải tổ tất cả mọi thứ, từ các doanh nghiệp và các ngành khoa học tới chăm sóc sức khỏe, chính phủ, giáo dục, kinh tế, nhân văn, và mọi khía cạnh khác của xã hội.
Mặc dù mới chỉ đang ở buổi bình minh của dữ liệu lớn, chúng ta dựa vào nó hàng ngày. Bộ lọc thu rác được thiết kế để tự động thích ứng khi các loại email rác thay đổi: phần mềm không thể được lập trình để biết ngăn chặn “via6ra” hoặc vô số các biến thể của nó. Các trang web hẹn hò ghép các cặp trên cơ sở các thuộc tính tương quan thế nào với những cặp đã được ghép thành công trước đó. Tính năng “tự động sửa lỗi” trong điện thoại thông minh theo dấu các thao tác của chúng ta và bổ sung thêm những từ mới vào từ điển chính tả của nó dựa trên những gì chúng ta nhập vào. Tuy nhiên, những ứng dụng này mới chỉ là sự bắt đầu. Từ những chiếc xe hơi có thể phát hiện khi nào cần đi hướng khác hoặc phanh, đến máy tính Watson của IBM đánh bại con người trong trò chơi truyền hình Jeopardy!, cách tiếp cận này sẽ cải tạo nhiều khía cạnh của thế giới chúng ta đang sống.
Tại cốt lõi của nó, dữ liệu lớn là về các dự đoán. Mặc dù nó được mô tả như một phần của ngành khoa học máy tính được gọi là trí tuệ nhân tạo, và cụ thể hơn, một lĩnh vực được gọi là học qua máy, việc đặc trưng hóa này gây nhầm lẫn. Dữ liệu lớn không phải là về việc cố gắng “dạy” một máy tính “nghĩ” giống như con người. Thay vào đó, nó là về việc áp dụng toán học với số lượng lớn dữ liệu để suy ra xác suất: khả năng một email là thư rác; các ký tự gõ “teh” đáng lẽ phải là “the”; quỹ đạo và vận tốc của một người lái xe cho phép anh ta qua được phố đúng thời gian. Điều quan trọng là các hệ thống này thao tác tốt bởi chúng được nạp với rất nhiều dữ liệu để làm cơ sở cho các dự đoán của chúng. Hơn nữa, hệ thống được thiết kế để tự cải thiện theo thời gian, bằng cách giữ một nhãn (tab) về các tín hiệu và mẫu tốt nhất để tìm kiếm khi có thêm dữ liệu được đua vào.
Trong tương lai – và có thể sớm hơn chúng ta nghĩ – nhiều khía cạnh của cuộc sống sẽ được tăng cường hoặc thay thế bằng những hệ thống máy tính, những khía cạnh mà hôm nay là phạm vi hoạt động duy nhất của sự phán xét con người. Không chỉ việc lái xe hoặc mai mối, mà cả những việc phức tạp hơn. Rốt cuộc, Amazon có thể giới thiệu được cuốn sách lý tưởng, Google có thể xếp hạng được trang web phù hợp nhất, Facebook biết được sở thích của chúng ta, và Linkedln tiên đoán được người mà chúng ta biết. Cũng những công nghệ này sẽ được áp dụng cho chẩn đoán bệnh, đề xuất phương pháp điều trị, thậm chí có thể xác định “tội phạm” trước khi hắn thực sự phạm tội. Cũng giống như Internet hoàn toàn thay đổi thế giới bằng cách thêm truyền thông vào máy tính, dữ liệu lớn sẽ thay đổi các khía cạnh cơ bản của cuộc sống bằng cách cho nó một kích thước định lượng chưa hề có trước đây.
Nhiều hơn, lộn xộn, đủ tốt
Dữ liệu lớn sẽ là một nguồn của giá trị kinh tế và cách tân mới. Thậm chí còn hơn nữa. Uy thế của dữ liệu lớn tượng trưng cho ba sự thay đổi trong cách chúng ta phân tích thông tin, làm biến đổi cách chúng ta hiểu và tổ chức xã hội.
Sự thay đổi thứ nhất được mô tả trong Chương Hai. Trong thế giới mới này, chúng ta có thể phân tích nhiều dữ liệu hơn hẳn. Trong một số trường hợp, chúng ta thậm chí có thể xử lý tất cả dữ liệu liên quan đến một hiện tượng đặc biệt. Từ thế kỷ thứ mười chín, xã hội đã phụ thuộc vào việc sử dụng các hình mẫu khi phải đối mặt với những số lượng lớn. Tuy nhiên, sự cần thiết phải lấy mẫu là một tạo tác của thời kỳ khan hiếm thông tin, một sản phẩm của những hạn chế tự nhiên khi tương tác với thông tin trong thời đại analog. Trước khi công nghệ kỹ thuật số có hiệu suất cao thịnh hành, chúng ta không hề nhận ra chọn mẫu là những xiềng xích nhân tạo – chúng ta thường hiển nhiên chấp nhận nó. Việc sử dụng tất cả các dữ liệu cho phép chúng ta xem xét những chi tiết chưa hề xem được khi bị giới hạn với những số lượng nhỏ hơn. Dữ liệu lớn cho chúng ta một cái nhìn đặc biệt rõ ràng về các tiểu phần: tiểu thể loại và tiểu thị trường mà mẫu không thể ước định được.
Việc xem xét dữ liệu rộng lớn hơn cũng cho phép chúng ta nới lỏng mong muốn hướng tới tính chính xác, là sự thay đổi thứ hai, được đề cập tới trong Chương Ba. Đó là một sự đánh đổi: với ít lỗi hơn từ chọn mẫu, chúng ta có thể chấp nhận nhiều lỗi đo lường hơn. Khi khả năng để đo lường là có hạn, chúng ta chỉ tính đến những thứ quan trọng nhất. Sự cố gắng để có được con số chính xác là hợp lý.
Ta không thể bán được gia súc nếu người mua không biết chắc liệu có 100 hay chỉ có 80 con trong đàn. Cho đến gần đây, tất cả các công cụ kỹ thuật số của chúng ta có tiền đề là sự chính xác: chúng ta giả định rằng công cụ cơ sở dữ liệu sẽ truy tìm được các bản ghi hoàn toàn phù hợp với câu hỏi của chúng ta, giống như các bảng tính điện tử lập biểu các con số trong một cột.
Loại tư duy này là một chức năng của môi trường “dữ liệu nhỏ”: với rất ít thứ để đo lường, chúng ta phải xem xét những gì quan tâm để định lượng một cách càng chính xác càng tốt.
Theo một số cách nào đó thì việc này là hiển nhiên: một cửa hàng nhỏ có thể đếm tiền trong quỹ cuối ngày tới tận đồng xu, nhưng chúng ta sẽ không – thực sự là không thể – làm tương tự cho tổng sản phẩm nội địa của một quốc gia. Khi quy mô tăng, số lượng của những sự không chính xác cũng tăng.
Tính chính xác đòi hỏi dữ liệu được giám tuyển một cách cẩn thận. Điều này có thể làm được cho những số lượng nhỏ, và tất nhiên một số trường hợp vẫn đòi hỏi như vậy: ta hoặc có hoặc không có đủ tiền trong ngân hàng để viết một chi phiếu. Nhưng đổi lại, khi sử dụng những bộ dữ liệu toàn diện hơn nhiều, chúng ta có thể bỏ đi tính chính xác cứng nhắc trong một thế giới dữ liệu lớn.
Thông thường, dữ liệu lớn là lộn xộn, khác nhau về chất lượng, và được phân bổ giữa vô số các máy chủ trên khắp thế giới. Với dữ liệu lớn, chúng ta sẽ thường hài lòng với khả năng định hướng chung chứ không phải là hiểu biết một hiện tượng chi tiết tới tận xăng-ti-mét, đồng xu, hay nguyên tử. Chúng ta không bỏ qua hoàn toàn sự chính xác; chúng ta chỉ bỏ qua sự sùng bái nó. Những gì chúng ta mất về độ chính xác ở cấp vi mô sẽ được bù đắp lại nhờ cái nhìn sâu sắc ở cấp vĩ mô.
Hai sự thay đổi này dẫn đến một sự thay đổi thứ ba, mà chúng ta giải thích trong Chương Bốn: sự chuyển hướng khỏi việc tìm kiếm lâu đời cho quan hệ nhân quả. Là con người, chúng ta đã được định vị để đi tìm kiếm các nguyên nhân, mặc dù việc tìm kiếm quan hệ nhân quả thường rất khó khăn và có thể dẫn chúng ta lạc đường. Trong một thế giới dữ liệu lớn, ngược lại, chúng ta sẽ không phải gắn chặt vào quan hệ nhân quả; thay vào đó chúng ta có thể khám phá các khuôn mẫu và mối tương quan trong các dữ liệu để thu được những hiểu biết mới lạ và vô giá. Các mối tương quan có thể không cho chúng ta biết chính xác tại sao một cái gì đó đang xảy ra, nhưng chúng cảnh báo chúng ta rằng cái đó đang xảy ra.
Và trong nhiều tình huống thì điều này là đủ tốt. Nếu hàng triệu hồ sơ y tế điện tử cho thấy những bệnh nhân ung thư nếu dùng một kết hợp nào đó của aspirin và nước cam thì thấy bệnh của họ thuyên giảm, thì nguyên nhân chính xác cho việc cải thiện sức khỏe có thể ít quan trọng hơn so với thực tế là họ sống. Tương tự như vậy, nếu chúng ta có thể tiết kiệm được tiền bằng cách biết thời gian tốt nhất để mua một vé máy bay mà không hiểu các phương pháp phía sau sự điên rồ của vé máy bay, như vậy cũng đủ tốt rồi. Dữ liệu lớn là về cái gì, chứ không về tại sao. Chúng ta không luôn luôn cần biết nguyên nhân của một hiện tượng, thay vào đó, chúng ta có thể để cho dữ liệu tự nói.
Trước thời dữ liệu lớn, phân tích của chúng ta thường được giới hạn vào việc thử nghiệm một số lượng nhỏ những giả thuyết được xác định rõ ràng trước khi thu thập dữ liệu. Khi để cho các dữ liệu lên tiếng, chúng ta có thể tạo nên những kết nối mà ta chưa bao giờ nghĩ là chúng tồn tại. Do đó, một số quỹ đầu tư phân tích Twitter để dự đoán hiệu suất của thị trường chứng khoán. Amazon và Netilix căn cứ đề xuất sản phẩm của họ trên vô số các tương tác của người dùng trên các trang này. Twitter, Linkedln và Facebook cũng đều quy chiếu “đồ thị xã hội” các mối quan hệ của người sử dụng để tìm hiểu các sở thích của họ.
Tất nhiên, con người đã phân tích dữ liệu hàng thiên niên kỷ nay. Chữ viết đã được phát triển ở vùng Lưỡng Hà cổ đại bởi các quan chức muốn có một công cụ hiệu quả để ghi lại và theo dõi thông tin. Từ thời Kinh Thánh, các chính phủ đã tổ chức các cuộc điều tra để thu thập các bộ dữ liệu lớn về công dân của họ, và tương tự đã hai trăm năm nay, các chuyên gia tính toán thu thập khối lượng lớn dữ liệu liên quan đến các rủi ro mà họ hy vọng sẽ hiểu được – hoặc ít nhất là tránh được.
Tuy nhiên, trong thời đại analog, việc thu thập và phân tích dữ liệu như vậy là vô cùng tốn kém và mất thời gian. Những câu hỏi mới thường có nghĩa là dữ liệu phải được thu thập lại và việc phân tích phải bắt đầu lại. Bước tiến lớn đối với việc quản lý dữ liệu hiệu quả hơn đã xuất hiện cùng với số hóa: giúp cho máy tính có thể đọc thông tin analog, mà cũng làm cho nó dễ dàng hơn và rẻ hơn để lưu trữ và xử lý.
Bước phát triển này đã cải thiện hiệu quả đáng kể. Việc thu thập và phân tích thông tin trước đây phải mất hàng năm, nay có thể được thực hiện trong vài ngày hoặc thậm chí ngắn hơn. Nhưng rất ít thứ khác thay đổi. Những người phân tích dữ liệu đã quá thường xuyên bị ngập trong thế giới analog, cho rằng các tập dữ liệu chỉ có những mục đích đơn lẻ mà giá trị của chúng đã được gắn liền. Các tiến trình của chúng ta đã duy trì định kiến này. Dù cũng quan trọng như số hóa đã tạo điều kiện cho việc chuyển sang dữ liệu lớn, nhưng chỉ sự tồn tại của máy tính đã không làm cho dữ liệu lớn xảy ra.
Tuy chưa có thuật ngữ thật tốt để mô tả những gì đang diễn ra hiện nay, nhưng một thuật ngữ giúp định hình được những thay đổi đó là dữ liệu hóa (datafication), một khái niệm mà chúng ta giới thiệu trong Chương Năm. Nó ám chỉ việc lấy thông tin về tất cả mọi thứ dưới ánh mặt trời – bao gồm cả những thứ chúng ta không bao giờ xem là thông tin, chẳng hạn như vị trí của một người, những rung động của một động cơ, hoặc sự căng trên một cây cầu – và biến nó thành một định dạng dữ liệu để thực hiện định lượng nó. Điều này cho phép chúng ta sử dụng thông tin theo những cách mới, chẳng hạn như trong phân tích tiên đoán: phát hiện một động cơ dễ bị sự cố dựa trên độ nóng hay những rung động mà nó tạo ra. Kết quả là chúng ta có thể mở khóa những giá trị tiềm ẩn, bên trong của thông tin.
Có một cuộc truy lùng kho báu đang xảy ra, được thúc đẩy bởi những hiểu biết sâu sắc từ các dữ liệu và giá trị tiềm tàng có thể được khai thông nhờ sự chuyển dịch từ quan hệ nhân quả sang tương liên. Nhưng nó không chỉ là một kho báu. Mỗi bộ dữ liệu riêng lẻ rất có thể có một số giá trị nào đó nội tại, ẩn, chưa được khai phá, và cuộc đua ở đây là để khám phá và nắm bắt tất cả những thứ đó.
Dữ liệu lớn thay đổi bản chất của kinh doanh, thị trường, và xã hội, như chúng ta mô tả trong Chương Sáu và Bảy. Trong thế kỷ XX, giá trị đã chuyển từ cơ sở hạ tầng vật lý như đất đai và nhà máy sang những thứ vô hình như thương hiệu và sở hữu trí tuệ. Điều này bây giờ mở rộng tới dữ liệu, cái đang trở thành một tài sản đáng kể của công ty, một đầu vào kinh tế quan trọng, và là nền tảng của các mô hình kinh doanh mới. Nó là dầu hỏa của nền kinh tế thông tin. Mặc dù dữ liệu hiếm khi được ghi nhận vào bảng cân đối của doanh nghiệp, nhưng điều này có lẽ chỉ là vấn đề thời gian.
Mặc dù một số kỹ thuật nghiền (crunching) dữ liệu đã xuất hiện được một thời gian, trong quá khứ chúng chỉ được dành cho cơ quan tình báo, các phòng nghiên cứu, và các công ty lớn nhất thế giới. Xét cho cùng, Walmart và Capital One đã đi tiên phong trong việc sử dụng dữ liệu lớn trong bán lẻ và ngân hàng, và qua đó làm thay đổi ngành công nghiệp của họ. Bây giờ nhiều trong số những công cụ này đã được dân chủ hóa (mặc dù dữ liệu thì không).
Ảnh hưởng lên các cá nhân có thể là cú sốc lớn nhất. Kinh nghiệm chuyên môn về lĩnh vực đặc thù trở thành ít quan trọng hơn trong một thế giới mà ở đó xác suất và mối tương quan là tối cao. Trong bộ phim Moneyball, các tuyển trạch viên bóng chày đã bị các nhà thống kê lấn lướt, khi bản năng nhường chỗ cho các phân tích tinh vi. Tương tự như vậy, các chuyên gia sẽ không biến mất, nhưng họ sẽ phải đối mặt với những điều mà các phân tích dữ liệu lớn thể hiện. Điều này sẽ bắt buộc có sự điều chỉnh những ý tưởng truyền thống của quản lý, ra quyết định, nguồn nhân lực và giáo dục.
Hầu hết các thể chế của chúng ta được thiết lập theo giả định rằng các quyết định của con người được dựa trên thông tin mang bản chất nhỏ lẻ, chính xác, và nhân quả. Nhưng tình hình thay đổi khi dữ liệu là rất lớn, có thể được xử lý một cách nhanh chóng, và chấp nhận sự không chính xác. Hơn nữa, do kích thước rất lớn của dữ liệu, các quyết định có thể thường được thực hiện không bởi con người mà bởi máy. Chúng ta sẽ xem xét những mặt tối của dữ liệu lớn trong Chương Tám. Xã hội đã có hàng thiên niên kỷ trải nghiệm trong việc tìm hiểu và giám sát hành vi của con người. Nhưng làm thế nào để bạn chỉnh đốn một thuật toán? Buổi đầu của tính toán, các nhà hoạch định chính sách công nhận công nghệ có thể được sử dụng để làm suy giảm sự riêng tư ra sao. Kể từ đó xã hội đã xây dựng nhiều quy tắc để bảo vệ thông tin cá nhân. Nhưng trong thời đại của dữ liệu lớn, những luật lệ này tạo thành một dạng Phòng tuyến Maginot gần như vô dụng. Người ta sẵn sàng chia sẻ thông tin trực tuyến – một tính năng trung tâm của các dịch vụ, không phải là một lỗ hổng để ngăn chặn.
Trong khi đó, mối nguy hiểm đối với những cá nhân như chúng ta chuyển từ yếu tố riêng tư sang xác suất: các thuật toán sẽ dự đoán khả năng một người bị nhồi máu cơ tim (và phải trả nhiều hơn cho bảo hiểm y tế), khả năng vỡ nợ của một khoản thế chấp (và bị từ chối một khoản vay), hoặc phạm tội (và có lẽ bị bắt trước). Nó dẫn đến một sự xem xét mang tính đạo đức về vai trò của tự do ý chí đối với sự độc tài của dữ liệu. Liệu có nên để ý chí cá nhân chiến thắng dữ liệu lớn, ngay cả khi số liệu thống kê lý giải khác? Cũng giống như việc in ấn đã chuẩn bị nền tảng cho các đạo luật đảm bảo tự do ngôn luận – điều không tồn tại trước đó bởi có rất ít việc biểu đạt bằng văn bản cần được bảo vệ – thời đại của dữ liệu lớn sẽ đòi hỏi những quy định mới để bảo vệ sự thiêng liêng của cá nhân.
Dù gì đi nữa, cách thức chúng ta kiểm soát và xử lý dữ liệu sẽ phải thay đổi. Chúng ta đang bước vào một thế giới của những dự đoán liên tục dựa trên dữ liệu, ở đó chúng ta có thể không giải thích được các nguyên nhân đằng sau những quyết định của chúng ta. Thử hỏi còn có ý nghĩa gì khi bác sĩ không thể biện minh cho biện pháp can thiệp y tế của mình nếu không yêu cầu bệnh nhân trông chờ vào một cái hộp đen, giống như bác sĩ phải làm khi dựa vào chẩn đoán được dẫn dắt bởi dữ liệu lớn? Liệu chuẩn mực “chứng cứ hợp lý” của hệ thống tư pháp có cần phải thay đổi thành “chứng cứ theo xác suất” – và nếu như vậy thì hệ quả của điều này là những gì đối với tự do và phẩm giá con người?
Những nguyên tắc mới là cần thiết cho thời đại của dữ liệu lớn, mà chúng ta đặt ra trong Chương Chín. Mặc dù chúng được xây dựng dựa trên các giá trị đã được phát triển và được ghi nhận đối với thế giới của dữ liệu nhỏ, điều đó không đơn giản là vấn đề làm mới lại những quy định cũ cho hoàn cảnh mới, mà là hoàn toàn công nhận sự cần thiết của những nguyên tắc mới.
Những lợi ích cho xã hội sẽ là vô kể, khi dữ liệu lớn trở thành bộ phận của giải pháp cho những vấn đề bức xúc toàn cầu, như giải quyết thay đổi khí hậu, xóa bỏ bệnh tật, thúc đẩy sự quản trị tốt và phát triển kinh tế. Nhưng thời đại dữ liệu lớn cũng thách thức chúng ta phải chuẩn bị tốt hơn về những cách thức trong đó việc khai thác công nghệ sẽ làm thay đổi các tổ chức của chúng ta và chính bản thân chúng ta.
Dữ liệu lớn đánh dấu một bước quan trọng trong việc tìm kiếm của con người để định lượng và hiểu thế giới; một ưu thế của những thứ chưa bao giờ được đo lường, lưu trữ, phân tích và chia sẻ trước khi được dữ liệu hóa. Việc khai thác lượng lớn dữ liệu thay vì chỉ một phần nhỏ, và việc có đặc quyền với nhiều dữ liệu có độ chính xác thấp hơn, sẽ mở ra cánh cửa tới những cách hiểu biết mới. Nó dẫn xã hội tới việc từ bỏ ưu tiên lâu đời cho nhân quả, và trong nhiều trường hợp thu được các lợi ích của mối tương liên.
Lý tưởng về việc xác định được những cơ chế nhân-quả chỉ là một kiểu ảo tưởng tự mãn; dữ liệu lớn đã làm đảo lộn điều này. Một lần nữa chúng ta đang lâm vào một sự bế tắc lịch sử nơi “thần thánh cũng chết”, nghĩa là những điều chắc chắn chúng ta đã từng tin vào, một lần nữa lại thay đổi. Nhưng lần này chúng được thay thế một cách thật trớ trêu bằng những chứng cứ tốt hơn. Vậy thì trực giác, niềm tin, và những điều mơ hồ sẽ còn lại vai trò gì, so với các chứng cứ và việc học tập bằng trải nghiệm? Khi thế giới chuyển từ quan hệ nhân quả sang tương liên, làm sao chúng ta có thể tiến một cách thực dụng về phía trước mà không làm suy yếu những nền tảng của xã hội, nhân loại, và tiến bộ dựa trên nhân-quả?
Cuốn sách này mong muốn giải thích chúng ta đang ở đâu, dõi theo dấu vết chúng ta đã tới đây như thế nào, và cung cấp một hướng dẫn hết sức cần thiết về những lợi ích và những nguy hiểm nằm ở phía trước.
Đọc truyện hay đừng quên like và chia sẻ truyện tới bạn bè, để lại bình luận là cách để ủng hộ webtruyenfree. Thỉnh thoảng ấn vào q uảng c áo ngày 1-2 lần để tụi mình có kinh phí duy trì web các bạn nhé!