Dữ Liệu Lớn - Big Data - Chương 3: Hỗn Độn
× Để đọc chương tiếp theo ấn vào nút (DS Chương) để chọn chương cần đọc hoặc ấn vào Chương Tiếp / Tiếp ở trên và phía dưới cùng trang.    

trước tiếp
155


Dữ Liệu Lớn - Big Data


Chương 3: Hỗn Độn


NGÀY CÀNG CÓ NHIỀU BỐI CẢNH, trong đó việc sử dụng tất cả các dữ liệu có sẵn là khả thi. Tuy nhiên nó đi kèm với chi phí. Tăng khối lượng sẽ mở cánh cửa cho sự thiếu chính xác. Điều chắc chắn là những số liệu sai sót và bị hỏng đã luôn luôn len lỏi vào các bộ dữ liệu. Chúng ta đã luôn luôn xem chúng như những rắc rối và cố gắng loại bỏ chúng, một phần vì chúng ta có thể làm được như vậy. Những gì chúng ta chưa bao giờ muốn làm là xem chúng như điều không thể tránh khỏi và học cách sống chung với chúng. Đây là một trong những thay đổi cơ bản khi chuyển từ dữ liệu nhỏ sang dữ liệu lớn.

Trong thế giới của dữ liệu nhỏ, giảm sai sót và đảm bảo chất lượng cao của dữ liệu là một động lực tự nhiên và cần thiết. Vì chỉ thu thập được một ít thông tin, chúng ta phải bảo đảm rằng những con số đã được cố gắng ghi lại là chính xác nhất có thể. Nhiều thế hệ các nhà khoa học đã tối ưu hóa các công cụ để các phép đo đạc của họ ngày càng chính xác hơn, dù là để xác định vị trí của các thiên thể hay kích thước của các đối tượng dưới kính hiển vi. Trong thế giới lấy mẫu, nỗi ám ảnh với sự chính xác thậm chí còn nặng nề hơn. Việc phân tích chỉ một số lượng hạn chế các điểm dữ liệu có nghĩa là lỗi có thể được khuếch đại, có khả năng làm giảm tính chính xác của kết quả tổng thể.

Trong phần lớn lịch sử, những thành quả cao nhất của loài người xuất hiện từ việc chinh phục thế giới bằng cách đo lường nó. Việc tìm kiếm sự chính xác bắt đầu tại châu Âu vào giữa thế kỷ thứ mười ba, khi các nhà thiên văn học và các học giả đã gánh vác việc định lượng thời gian và không gian một cách chính xác hơn bao giờ hết – đó là “đo lường hiện thực”, theo như lời của nhà sử học Alfred Crosby.

Nếu có thể đo lường một hiện tượng thì người ta tin rằng có thể hiểu được nó. Sau này, đo lường đã được gắn liền với phương pháp quan sát và giải thích khoa học: khả năng định lượng, ghi nhận, và trình bày các kết quả có thể tái lập được. “Đo lường là để hiểu biết”, Lord Kelvin đã phát biểu như vậy. Nó đã trở thành một cơ sở của quyền lực. “Hiểu biết là quyền lực”, Francis Bacon nhận định. Đồng thời, các nhà toán học và những người sau này được gọi là kế toán đã phát triển những phương pháp để có thể thực hiện việc thu thập, ghi nhận, và quản lý dữ liệu một cách chính xác.

Đến thế kỷ XIX, Pháp – lúc đó là quốc gia hàng đầu thế giới về khoa học – đã phát triển một hệ thống các đơn vị đo lường được xác định chính xác để nắm bắt không gian, thời gian, và nhiều thứ khác nữa, và bắt đầu đề nghị các quốc gia khác cũng áp dụng cùng một tiêu chuẩn. Thậm chí họ đã đưa ra những đơn vị mẫu được quốc tế công nhận dùng để đo lường trong các hiệp ước quốc tế. Đó là đỉnh điểm của thời đại về đo lường. Chỉ một nửa thế kỷ sau đó, vào những năm 1920, các khám phá của cơ học lượng tử đã làm tan vỡ mãi mãi ước mơ của đo lường toàn diện và hoàn hảo. Tuy nhiên, bên ngoài phạm vi tương đối nhỏ của các nhà vật lý, thì suy nghĩ hướng tới đo lường một cách hoàn hảo vẫn tiếp tục đối với các kỹ sư và các nhà khoa học. Trong thế giới kinh doanh nó thậm chí còn được mở rộng, khi các ngành toán học và thống kê bắt đầu gây ảnh hưởng đến tất cả các lĩnh vực thương mại.

Tuy nhiên, trong nhiều tình huống mới nảy sinh ngày hôm nay, việc cho phép sự không chính xác – sự hỗn độn – có thể là một tính năng tích cực, chứ không phải là một thiếu sót. Nó là một sự cân bằng. Để bù đắp cho sự nới lỏng về tiêu chuẩn với các lỗi cho phép, người ta có thể có được nhiều dữ liệu hơn. Nó không chỉ mang ý nghĩa “nhiều hơn thì tốt hơn”, mà thật ra đôi khi nó sẽ là “nhiều hơn thì tốt hơn cả tốt hơn”.

Chúng ta phải đối mặt với nhiều loại hỗn độn khác nhau. Hỗn độn có thể mang một ý nghĩa đơn giản là khả năng sai sót tăng lên khi bạn thêm điểm dữ liệu. Khi số lượng tăng lên gấp hàng ngàn lần thì khả năng một số trong đó có thể sai cũng tăng lên. Nhưng bạn cũng có thể làm tăng hỗn độn bằng cách kết hợp nhiều loại thông tin khác nhau từ các nguồn khác nhau, không luôn luôn tương thích với nhau một cách hoàn hảo. Ví dụ, nếu sử dụng phần mềm nhận dạng giọng nói để mô tả các khiếu nại đến một trung tâm tiếp nhận cuộc gọi, và so sánh dữ liệu này với khi dùng nhân viên để xử lý các cuộc gọi, người ta có thể có được một sự hình dung thực tế, tuy không hoàn hảo nhưng hữu ích. Hỗn độn cũng có thể tham chiếu tới sự không thống nhất định dạng, trong đó các dữ liệu cần được “làm sạch” trước khi được xử lý. Ví dụ chuyên gia dữ liệu lớn DJ Patil nhận xét từ viết tắt IBM có rất nhiều cách diễn đạt, như hoặc Phòng thí nghiệm T.J. Watson, hoặc International Business Machines. Và hỗn độn có thể phát sinh khi chúng ta trích xuất hoặc xử lý dữ liệu, vì khi làm như vậy, chúng ta đang chuyển đổi nó, biến nó thành một cái gì đó khác, chẳng hạn như khi chúng ta thực hiện phân tích cảm nghĩ các tin nhắn Twitter để dự đoán doanh thu phòng vé của Hollywood. Chính bản thân sự hỗn độn cũng mang tính hỗn độn.

Giả sử chúng ta cần đo nhiệt độ trong một vườn nho. Nếu chúng ta chỉ có một cảm biến nhiệt độ cho toàn bộ lô đất, chúng ta phải chắc chắn rằng nó chính xác và hoạt động được tại mọi thời điểm: sự hỗn độn không được tồn tại. Ngược lại, nếu chúng ta có một cảm biến cho mỗi cây trong vườn hàng trăm cây nho, chúng ta có thể sử dụng những cảm biến rẻ hơn, ít phức tạp hơn (miễn là chúng không phát sinh một sai số có hệ thống). Rất có thể là tại một số thời điểm, một vài cảm biến sẽ báo dữ liệu không chính xác, tạo ra một bộ dữ liệu ít chính xác, hoặc “hỗn độn” hơn so với bộ dữ liệu từ một cảm biến chính xác đơn nhất. Bất kỳ phép đọc cụ thể nào đó cũng đều có thể không chính xác, nhưng tổng hợp của nhiều phép đọc sẽ cung cấp một bức tranh toàn diện hơn. Bởi vì bộ dữ liệu này bao gồm nhiều điểm dữ liệu hơn, nó cung cấp giá trị lớn hơn nhiều và có thể bù đắp cho sự hỗn độn của nó.

Bây giờ giả sử chúng ta tăng tần số các lần đọc cảm biến. Nếu đo mỗi phút một lần, chúng ta có thể khá chắc chắn rằng trình tự mà các dữ liệu đến sẽ hoàn toàn theo thứ tự thời gian. Nhưng nếu chúng ta thay đổi, đọc đến mười hay một trăm lần trong một giây, thì độ chính xác của trình tự có thể trở nên không chắc chắn. Khi thông tin đi qua mạng, một bản ghi có thể bị trì hoãn và đến lệch trình tự, hoặc đơn giản là có thể bị mất. Thông tin sẽ ít chính xác đi một chút, nhưng khối lượng lớn sẽ khiến cho khả năng từ bỏ sự chính xác nghiêm ngặt trở nên thích đáng.

Trong ví dụ đầu tiên, chúng ta đã hy sinh tính chính xác của mỗi điểm dữ liệu cho chiều rộng, và ngược lại chúng ta nhận được tính chi tiết mà bình thường chúng ta có thể đã không nhìn thấy. Trong trường hợp thứ hai, chúng ta đã từ bỏ sự chính xác cho tần số, và ngược lại, chúng ta thấy sự thay đổi mà bình thường chúng ta đã phải bỏ qua. Mặc dù có thể khắc phục những sai sót nếu chúng ta đầu tư đủ nguồn lực vào đó – xét cho cùng, mỗi giây có tới 30.000 giao dịch xảy ra trên Thị trường Chứng khoán New York, nơi trình tự chính xác là vấn đề rất quan trọng – trong nhiều trường hợp, việc chấp nhận lỗi thay vì cố gắng ngăn chặn nó lại tỏ ra hiệu quả hơn.

Ví dụ, chúng ta có thể chấp nhận sự hỗn độn để đổi lấy quy mô. Như Forrester, một nhà tư vấn công nghệ, đã nói: “Đôi khi hai cộng với hai có thể bằng 3,9, và như vậy là đủ tốt”. Tất nhiên dữ liệu không được phép sai hoàn toàn, nhưng chúng ta sẵn sàng hy sinh một chút trong sự chính xác để đổi lại hiểu biết về xu hướng chung. Dữ liệu lớn biến đổi các con số thành một cái gì đó mang tính xác suất nhiều hơn là tính chính xác. Thay đổi này sẽ cần rất nhiều để làm quen, và nó cũng đi kèm với những vấn đề riêng của nó, mà chúng ta sẽ xem xét sau trong cuốn sách. Nhưng bây giờ, hãy đơn giản lưu ý rằng chúng ta thường sẽ cần đón nhận lấy sự hỗn độn khi chúng ta tăng quy mô.

Người ta thấy một sự thay đổi tương tự về tầm quan trọng của việc có nhiều dữ liệu hơn, liên quan tới những cải tiến khác trong điện toán. Mọi người đều biết sức mạnh xử lý đã tăng lên ra sao trong những năm qua như dự đoán của Định luật Moore, phát biểu rằng số lượng bán dẫn trên một chip tăng gấp đôi khoảng mỗi hai năm. Sự cải tiến liên tục này đã làm máy tính nhanh hơn và bộ nhớ phong phú hơn. Ít người trong chúng ta biết rằng hiệu suất của các thuật toán điều khiển nhiều hệ thống của chúng ta cũng đã tăng lên – trong nhiều lĩnh vực, với mức tăng còn hơn cả mức cải thiện của các bộ xử lý theo Định luật Moore. Tuy nhiên, nhiều lợi ích cho xã hội từ dữ liệu lớn lại xảy ra không phải vì các chip nhanh hơn hay vì các thuật toán tốt hơn, mà vì có nhiều dữ liệu hơn.

Ví dụ, các thuật toán chơi cờ chỉ thay đổi chút ít trong vài thập kỷ qua, bởi các quy tắc của cờ vua đã được biết đầy đủ và bị giới hạn một cách chặt chẽ. Lý do các chương trình cờ vua ngày nay chơi tốt hơn trước đây rất nhiều là một phần bởi chúng chơi cờ tàn tốt hơn. Và chúng làm được điều đó đơn giản chỉ vì các hệ thống được cung cấp nhiều dữ liệu hơn. Thực tế, cờ tàn với sáu hoặc ít quân hơn còn lại trên bàn cờ đã được phân tích một cách hoàn toàn đầy đủ và tất cả các bước đi có thể (N = tất cả) đã được thể hiện trong một bảng lớn, khi không nén sẽ lấp đầy hơn một tera byte dữ liệu. Điều này cho phép các máy tính có thể chơi cờ tàn một cách hoàn hảo. Không bao giờ con người có thể chơi thắng được hệ thống.

Ý nghĩa của lập luận rằng “có nhiều dữ liệu hơn sẽ hiệu quả hơn việc có các thuật toán tốt hơn” đã được thể hiện mạnh mẽ trong lĩnh vực xử lý ngôn ngữ tự nhiên: cách các máy tính học phân tích cú pháp các từ như chúng ta sử dụng chúng trong giao tiếp hàng ngày. Khoảng năm 2000, các nhà nghiên cứu Michele Banko và Eric Brill của Microsoft tìm kiếm một phương pháp để cải thiện bộ kiểm tra ngữ pháp, một thành phần của chương trình Microsoft Word. Họ không chắc liệu sẽ hữu ích hơn nếu dành nỗ lực của mình vào việc cải thiện các thuật toán sẵn có, hay tìm kiếm các kỹ thuật mới, hay bổ sung thêm những tính năng phức tạp hơn. Trước khi đi theo bất kỳ con đường nào, họ quyết định xem xét những gì sẽ xảy ra khi họ cung cấp thêm rất nhiều dữ liệu cho các phương pháp hiện có. Hầu hết các thuật toán học tập của máy dựa trên những tập sao lục văn bản đạt tới một triệu từ hoặc ít hơn. Banko và Brill lấy bốn thuật toán thông thường và cung cấp nhiều dữ liệu hơn ở ba cấp độ khác nhau: 10 triệu từ, sau đó 100 triệu, và cuối cùng là 1 tỷ từ.

Kết quả thật đáng kinh ngạc. Khi có nhiều dữ liệu đi vào, hiệu suất của tất cả bốn loại thuật toán đều được cải thiện một cách đáng kể. Trong thực tế, một thuật toán đơn giản hoạt động kém hiệu quả nhất với một nửa triệu từ lại hoạt động tốt hơn những thuật toán khác khi có một tỷ từ. Độ chính xác của nó đã tăng từ 75 phần trăm lên trên 95 phần trăm. Ngược lại, thuật toán làm việc tốt nhất với ít dữ liệu lại hoạt động kém nhất với lượng dữ liệu lớn hơn, mặc dù cũng giống như những thuật toán khác nó được cải thiện rất nhiều, tăng từ khoảng 86 phần trăm lên 94 phần trăm chính xác. “Những kết quả này cho thấy chúng ta có thể nên xem xét lại sự cân bằng giữa việc tiêu tốn thời gian và tiền bạc vào phát triển thuật toán so với việc chi tiêu vào phát triển ngữ liệu”, Banko và Brill đã viết trong một tài liệu nghiên cứu của họ về chủ đề này.

Vậy là nhiều hơn đã thắng ít hơn. Và đôi khi nhiều hơn còn thắng cả thông minh hơn. Còn sự hỗn độn thì sao? Một vài năm sau khi Banko và Brill đào bới tất cả những dữ liệu này, các nhà nghiên cứu đối thủ Google đã suy nghĩ dọc theo dòng tương tự – nhưng với quy mô lớn hơn. Thay vì thử các thuật toán với một tỷ từ, họ đã sử dụng một ngàn tỷ từ. Google làm điều này không phải để phát triển một bộ kiểm tra ngữ pháp, nhưng để giải quyết một trở ngại thậm chí còn phức tạp hơn: dịch thuật. Cái gọi là dịch máy đã ở trong tầm nhìn của những nhà tiên phong máy tính ngay từ buổi bình minh của tính toán trong những năm 1940, khi các thiết bị được làm bằng đèn chân không và chứa đầy cả một căn phòng. Ý tưởng được nâng lên thành cấp bách đặc biệt trong Chiến tranh Lạnh, khi Hoa Kỳ thu được một lượng lớn tư liệu viết và nói tiếng Nga nhưng thiếu nhân lực để dịch nó một cách nhanh chóng.

Lúc đầu, các nhà khoa học máy tính đã lựa chọn một sự kết hợp của các quy tắc ngữ pháp và một từ điển song ngữ. Một máy tính IBM đã dịch sáu mươi câu từ tiếng Nga sang tiếng Anh vào năm 1954, sử dụng 250 cặp từ trong từ vựng của máy tính và sáu quy tắc ngữ pháp. Kết quả rất hứa hẹn. “Mi pyeryedayem mislyỉ posryedstvom ryechyi”, được nhập vào máy IBM 701 qua bìa đục lỗ, và đầu ra có “Chúng tôi truyền suy nghĩ bằng lời nói”. Sáu mươi câu đã được “dịch trơn tru”, theo một thông cáo báo chí của IBM kỷ niệm sự kiện này. Giám đốc chương trình nghiên cứu, Leon Dostert của Đại học Georgetown, dự đoán rằng dịch máy sẽ trở thành “thực tế” trong “năm, hay có thể là ba năm nữa”. Nhưng thành công ban đầu hóa ra lại tạo một sự hiểu lầm khá sâu sắc. Đến năm 1966 một ủy ban của các đại thụ trong làng dịch máy đã phải thừa nhận thất bại. Vấn đề khó hơn họ tưởng. Dạy máy tính dịch là dạy chúng không chỉ các quy tắc, mà cả các trường hợp ngoại lệ nữa. Dịch không chỉ là ghi nhớ và nhớ lại, nó là về việc chọn những từ thích hợp từ nhiều lựa chọn thay thế. Liệu “bonjour” có thực sự là “chào buổi sáng”? Hay đó là “ngày tốt”, hay “xin chào”, hay “hi”? Câu trả lời là “còn tùy”.

Cuối những năm 1980, các nhà nghiên cứu tại IBM đã có một ý tưởng mới lạ. Thay vì cố gắng nạp những quy tắc ngôn ngữ rõ ràng vào máy tính cùng với một từ điển, họ đã quyết định để cho máy tính sử dụng xác suất thống kê để tính toán xem từ hoặc câu nào trong một ngôn ngữ là thích hợp nhất với từ hoặc câu trong một ngôn ngữ khác. Trong những năm 1990 dự án Candide của IBM đã sử dụng các văn bản quốc hội Canada công bố bằng tiếng Pháp và tiếng Anh trong vòng mười năm – khoảng ba triệu cặp câu. Do chúng là văn bản chính thức, nên các bản dịch đã được thực hiện với chất lượng đặc biệt cao. Và theo các tiêu chuẩn lúc đó, số lượng dữ liệu là rất lớn. Dịch máy thống kê, như kỹ thuật này được biết đến, đã khéo léo biến những thách thức của dịch thuật thành một bài toán lớn của toán học. Và nó dường như thành công. Đột nhiên, dịch máy trở thành tốt hơn rất nhiều. Tuy nhiên, sau thành công của bước nhảy vọt về khái niệm, IBM chỉ thu được những cải thiện nhỏ mặc dù phải ném ra rất nhiều tiền. Cuối cùng IBM đã dừng dự án.

Nhưng chưa đầy một thập kỷ sau đó, vào năm 2006, Google đã nhảy vào dịch thuật, như một phần của nhiệm vụ “tổ chức thông tin của thế giới và làm cho chúng trở thành có thể tiếp cận được và hữu ích một cách phổ dụng”. Thay vì dịch các trang văn bản thành hai ngôn ngữ, Google tự giúp mình với một bộ dữ liệu lớn hơn nhưng cũng hỗn độn hơn nhiều: toàn bộ mạng Internet toàn cầu và nhiều hơn nữa. Hệ thống của Google đã thu lượm bất kể bản dịch nào có thể tìm thấy, để huấn luyện máy tính. Chúng bao gồm các trang web của các công ty viết ở nhiều ngôn ngữ khác nhau, các bản dịch đồng nhất của các văn bản chính thức, và các báo cáo của các tổ chức liên chính phủ như Liên hợp quốc và Liên minh châu Âu. Thậm chí các bản dịch sách từ dự án sách của Google cũng được thu nhận. Trong khi Candide sử dụng ba triệu câu được dịch một cách cẩn thận, thì hệ thống của Google khai thác hàng tỷ trang các bản dịch rất khác nhau về chất lượng, theo người đứng đầu của Google Translate, Franz Josef Och, một trong những chuyên gia uy tín nhất trong lĩnh vực này. Hàng nghìn tỷ từ đã được chuyển thành 95 tỷ câu tiếng Anh, mặc dù chất lượng không rõ ràng.

Bất chấp sự hỗn độn của đầu vào, dịch vụ của Google hoạt động tốt nhất. Các bản dịch của nó là chính xác hơn so với của các hệ thống khác (mặc dù vẫn còn kém). Và nó phong phú hơn rất nhiều. Vào giữa năm 2012 bộ dữ liệu của nó bao gồm hơn 60 ngôn ngữ. Nó thậm chí có thể chấp nhận nhập văn bản vào bằng giọng nói trong 14 ngôn ngữ để dịch. Và vì nó xử lý ngôn ngữ đơn giản như là dữ liệu hỗn độn để đánh giá xác suất, nó thậm chí có thể dịch giữa các ngôn ngữ, chẳng hạn như giữa tiếng Hindi và Catalan, mà trong đó có rất ít bản dịch trực tiếp để phát triển hệ thống. Trong những trường hợp này, nó sử dụng tiếng Anh như một cầu nối. Và nó linh hoạt hơn nhiều so với những cách tiếp cận khác, vì nó có thể thêm và bớt các từ qua kinh nghiệm chúng được hay không được sử dụng.

Lý do hệ thống dịch thuật của Google hoạt động tốt không phải vì nó có một thuật toán thông minh hơn. Nó hoạt động tốt bởi vì tác giả của nó, như Banko và Brill tại Microsoft, nạp vào nhiều dữ liệu hơn – và không chỉ dữ liệu chất lượng cao. Google đã có thể sử dụng một bộ dữ liệu hàng chục ngàn lần lớn hơn hơn Candide của IBM vì nó chấp nhận sự hỗn độn. Cả nghìn tỷ ngữ liệu Google phát hành năm 2006 được biên soạn từ đủ thứ, kể cả đồ tạp nham và đồ bỏ đi của Internet – có thể nói là “dữ liệu thượng vàng hạ cám”. Đây là các “tập huấn luyện” để hệ thống có thể tính toán xác suất, ví dụ một từ trong tiếng Anh đi tiếp sau một từ khác. Đó là một mong ước xa vời của ông tổ trong lĩnh vực này, dự án Brown Corpus nổi tiếng vào những năm 1960, đã tập hợp được tổng cộng một triệu từ tiếng Anh. Việc sử dụng bộ dữ liệu lớn hơn cho phép những bước tiến lớn trong xử lý ngôn ngữ tự nhiên, mà các hệ thống nhận dạng tiếng nói và dịch máy dựa vào. “Mô hình đơn giản và rất nhiều dữ liệu thắng thế những mô hình phức tạp hơn nhưng dựa trên ít dữ liệu hơn”, chuyên gia trí tuệ nhân tạo của Google, Peter Norvig và các đồng nghiệp đã viết như vậy trong một bài báo có tựa đề “Hiệu quả phi lý của dữ liệu” (“The Unreasonable effectiveness of Data”): “Có thể nói ngữ liệu này là một bước lùi từ Brown Corpus: nó được lấy từ các trang web chưa được hiệu đính và do đó chứa những câu chưa đầy đủ, lỗi chính tả, lỗi ngữ pháp, và tất cả các loại lỗi khác. Nó không được chú thích cẩn thận với những thẻ bài được chỉnh sửa. Nhưng việc nó lớn hơn một triệu lần so với Brown Corpus đã đủ bù đắp cho những hạn chế này”.

Phim minh họa hệ thống GoogleTranslate

Nhiều hơn thắng thế tốt hơn

Hỗn độn rất khó được các nhà phân tích mẫu thông thường chấp nhận, vì họ là những người cả đời đã tập trung vào việc ngăn chặn và xóa bỏ sự hỗn độn. Họ làm việc chăm chỉ để giảm tỷ lệ lỗi khi thu thập mẫu, và để kiểm tra các mẫu nhằm loại bỏ các thành kiến tiềm ẩn trước khi công bố kết quả của mình. Họ sử dụng nhiều chiến lược giảm lỗi, trong đó có việc đảm bảo mẫu được thu thập theo một giao thức chính xác và bởi các chuyên gia được huấn luyện đặc biệt. Những chiến lược như vậy rất tốn kém khi thực hiện, ngay cả đối với số lượng hạn chế các điểm dữ liệu, và chúng hầu như không khả thi cho dữ liệu lớn. Không chỉ vì nó quá đắt, mà còn vì những tiêu chuẩn chính xác của việc tập hợp là khó có thể đạt được một cách nhất quán ở quy mô như vậy. Thậm chí loại bỏ sự tương tác của con người cũng sẽ không giải quyết được vấn đề.

Di chuyển vào một thế giới của dữ liệu lớn sẽ đòi hỏi chúng ta thay đổi tư duy về giá trị của sự chính xác. Việc áp dụng tư duy thông thường của đo lường vào thế giới kỹ thuật số được kết nối của thế kỷ XXI đồng nghĩa với bỏ lỡ một điểm quan trọng. Như đã đề cập trước đây, nỗi ám ảnh với tính chính xác là một tạo tác của thời đại analog. Khi dữ liệu thưa thớt, mỗi điểm dữ liệu đều quan trọng, và do đó người ta thận trọng tránh để bất kỳ điểm dữ liệu nào gây sai lệch cho việc phân tích. Ngày nay chúng ta không còn sống trong tình trạng bị đói thông tin. Trong khi làm việc với các bộ dữ liệu ngày càng toàn diện hơn, không chỉ thâu tóm một mảnh nhỏ của hiện tượng mà nhiều hơn hoặc tất cả, chúng ta không cần lo lắng quá nhiều về việc các điểm dữ liệu riêng lẻ gây ra sai lệch cho phân tích tổng thể. Thay vì nhắm tới sự chính xác từng tí một với chi phí ngày càng cao, chúng ta đang tính toán với sự hỗn độn trong tâm thức.

Hãy xem các cảm biến đã thâm nhập vào nhà máy như thế nào. Tại nhà máy lọc dầu Cherry Point ở Blaine, bang Washington, các bộ cảm biến không dây được cài đặt khắp nơi, tạo thành một lưới vô hình thu thập những lượng lớn dữ liệu trong thời gian thực. Môi trường nhiệt độ cao và máy móc điện tử có thể làm sai lệch các phép đọc, dẫn tới dữ liệu lộn xộn. Nhưng lượng thông tin khổng lồ được tạo ra từ các cảm biến, cả có dây và không dây, sẽ dung hòa cho những trục trặc này. Chỉ cần tăng tần số và số địa điểm đọc cảm biến là có thể thu được lợi thế lớn. Bằng cách đo sức căng trên đường ống ở tất cả các thời điểm chứ không phải chỉ tại những khoảng thời gian nhất định, BP biết được một số loại dầu thô ăn mòn nhiều hơn những loại khác – điều nó không thể phát hiện, và do đó không thể chống lại, khi bộ dữ liệu nhỏ hơn.

Khi số lượng dữ liệu lớn hơn nhiều và là một loại mới, độ chính xác trong một số trường hợp không còn là mục tiêu, miễn là chúng ta có thể thấy được xu hướng chung. Việc chuyển sang một quy mô lớn làm thay đổi không chỉ sự mong đợi về độ chính xác mà cả khả năng thực tế để đạt được sự chính xác. Dù nó có vẻ phản lại trực giác lúc đầu, việc xử lý dữ liệu như một cái gì đó không hoàn hảo và không chính xác cho phép chúng ta đưa ra dự báo tốt hơn, và do đó hiểu biết thế giới của chúng ta tốt hơn.

Nên lưu ý rằng hỗn độn không phải là đặc tính vốn có của dữ liệu lớn. Thay vào đó, nó là một chức năng của sự không hoàn hảo của các công cụ chúng ta sử dụng để đo lường, ghi nhận và phân tích thông tin. Nếu công nghệ bằng cách nào đó trở nên hoàn hảo, thì vấn đề của sự không chính xác sẽ biến mất. Nhưng một khi nó còn là không hoàn hảo, thì sự hỗn độn là một thực tế mà chúng ta phải đối mặt. Và nhiều khả năng nó sẽ còn tồn tại với chúng ta trong một thời gian dài. Nỗ lực để tăng độ chính xác thường sẽ không có ý nghĩa kinh tế, bởi giá trị của việc có những lượng dữ liệu lớn hơn sẽ hấp dẫn hơn. Giống như các nhà thống kê trong kỷ nguyên trước đây đã gạt sang một bên mối quan tâm của họ tới những kích thước mẫu lớn hơn, để ủng hộ sự ngẫu nhiên hơn, chúng ta có thể sống với một chút không chính xác để đổi lấy nhiều dữ liệu hơn.

Dự án Billion Prices cung cấp một trường hợp khá hấp dẫn. Mỗi tháng Cục Thống kê Lao động Mỹ công bố chỉ số giá tiêu dùng, hay CPI, được sử dụng để tính toán tỷ lệ lạm phát. Chỉ số liệu này là rất quan trọng cho các nhà đầu tư và doanh nghiệp. Cục Dự trữ Liên bang xem xét nó khi quyết định nên tăng hoặc giảm lãi suất. Lương cơ bản của các công ty tăng khi có lạm phát. Chính phủ liên bang sử dụng nó để điều chỉnh khoản thanh toán như trợ cấp an sinh xã hội và lãi suất trả cho những trái phiếu nhất định.

Để có được chỉ số này, Cục Thống kê Lao động sử dụng hàng trăm nhân viên để gọi điện, gửi fax, ghé thăm các cửa hàng và văn phòng tại 90 thành phố trên toàn quốc và báo cáo lại khoảng 80.000 mức giá về tất cả mọi thứ từ giá cà chua tới giá đi taxi. Để có nó, người ta phải chi ra khoảng 250 triệu USD một năm. Với số tiền này, dữ liệu được gọn gàng, sạch sẽ và trật tự. Nhưng tại thời điểm các con số được công bố, chúng đã chậm mất vài tuần. Như cuộc khủng hoảng tài chính năm 2008 cho thấy, một vài tuần có thể là một sự chậm trễ khủng khiếp. Những người ra quyết định cần truy cập nhanh hơn đến các số liệu lạm phát để ứng phó với nó tốt hơn, nhưng họ không thể nhận được chúng với những phương pháp thông thường tập trung vào lấy mẫu và coi trọng sự chính xác.

Để đáp lại, hai nhà kinh tế tại Viện Công nghệ Massachusetts, Alberto Cavallo và Roberto Rigobon, đã tạo ra một phương pháp thay thế liên quan đến dữ-liệu-lớn, bằng cách đi theo một con đường hỗn độn hơn nhiều. Sử dụng phần mềm để thu thập dữ liệu web, họ đã có được nửa triệu giá của các sản phẩm được bán ở Mỹ mỗi ngày. Các thông tin là lộn xộn, và không phải tất cả các điểm dữ liệu thu thập được đều có thể dễ dàng so sánh với nhau. Nhưng bằng cách kết hợp bộ sưu tập dữ-liệu-lớn với phân tích thông minh, dự án đã có thể phát hiện một dao động giảm phát trong giá ngay sau khi ngân hàng Lehman Brothers đệ đơn xin phá sản vào tháng 9 năm 2008, trong khi những nơi phụ thuộc vào số liệu CPI chính thức đã phải chờ tới tháng Mười Một để nhìn thấy nó.

Dự án của MIT sau này đã tách ra thành một công ty thương mại gọi là PriceStats được các ngân hàng và những công ty khác sử dụng để đưa ra những quyết định kinh tế. Nó xử lý hàng triệu sản phẩm bán ra của hàng trăm nhà bán lẻ trong hơn 70 quốc gia mỗi ngày. Tất nhiên, các con số đòi hỏi phải có sự giải thích cẩn thận, nhưng chúng tốt hơn so với số liệu thống kê chính thức trong việc chỉ ra xu hướng lạm phát. Bởi vì có nhiều giá và các con số có sẵn trong thời gian thực, chúng cung cấp cho người ra quyết định một lợi thế đáng kể. (Phương pháp này cũng đóng vai trò như một cách kiểm tra bên ngoài đáng tin cậy đối với các cơ quan thống kê quốc gia. Ví dụ, The Economist nghi ngờ phương pháp tính lạm phát của Argentina, vì vậy đã dùng các số liệu của PriceStats để thay thế.)

Áp dụng sự hỗn độn

Trong nhiều lĩnh vực công nghệ và xã hội, chúng ta đang nghiêng về ủng hộ sự nhiều hơn và sự hỗn độn chứ không phải sự ít hơn và sự chính xác. Hãy xem xét trường hợp của việc phân loại nội dung. Trong nhiều thế kỷ con người đã phát triển các nguyên tắc phân loại và chỉ số để lưu trữ và tìm kiếm tài liệu. Những hệ thống phân cấp này đã luôn luôn không hoàn hảo, như những ai từng quen thuộc với danh mục thẻ thư viện đều có thể đau đớn nhớ lại. Trong một thế giới dữ-liệu-nhỏ thì chúng hoạt động đủ tốt. Tuy nhiên khi tăng quy mô lên nhiều cấp độ, những hệ thống này, được cho là sắp xếp vị trí mọi thứ bên trong rất hoàn hảo, lại sụp đổ. Ví dụ, trong năm 2011 trang web chia sẻ hình ảnh Flickr có chứa hơn 6 tỷ hình ảnh từ hơn 75 triệu người sử dụng. Việc cố gắng gán nhãn cho từng bức ảnh theo những thể loại định trước đã tỏ ra vô ích. Liệu đã thực sự có một thể loại mang tên “Mèo trông giống như Hitler”?

Thay vào đó, nguyên tắc phân loại sạch được thay thế bằng cơ chế hỗn độn hơn nhưng linh hoạt hơn và dễ thích nghi hơn một cách xuất sắc với một thế giới luôn tiến hóa và thay đổi. Khi tải ảnh lên Flickr, chúng ta “gán thẻ (tag)” cho chúng. Có nghĩa là chúng ta gán một số bất kỳ các nhãn văn bản và sử dụng chúng để tổ chức và tìm kiếm các tư liệu. Thẻ được tạo ra và gán một cách đặc biệt: không có những danh mục tiêu chuẩn hóa, được định trước, không có phân loại sẵn để chúng ta phải tuân thủ. Thay vào đó, bất cứ ai cũng đều có thể thêm các thẻ mới bằng cách gõ chúng vào. Gắn thẻ đã nổi lên như tiêu chuẩn thực tế để phân loại nội dung trên Internet, được sử dụng trên các trang mạng xã hội như Twitter, các blog… Nó làm cho người sử dụng dễ dàng di chuyển hơn trong sự bao la của nội dung các trang web – đặc biệt là cho những thứ như hình ảnh, phim, và âm nhạc không dựa trên văn bản nên việc tìm kiếm bằng từ không thể hoạt động được.

Tất nhiên, một số thẻ có thể bị viết sai chính tả, và những lỗi như vậy sẽ tạo ra sự không chính xác – không chỉ đối với chính dữ liệu, mà còn đối với việc chúng được tổ chức ra sao. Điều đó làm tổn thương tư duy truyền thống được rèn luyện trong sự chính xác. Nhưng bù lại cho sự hỗn độn trong cách chúng ta tổ chức các bộ sưu tập ảnh, chúng ta có được một vũ trụ phong phú hơn nhiều của các nhãn mác, và mở rộng ra, là một sự truy cập sâu hơn, rộng hơn tới các ảnh của chúng ta. Chúng ta có thể phối hợp các thẻ tìm kiếm để lọc các bức ảnh theo những cách không thể làm được trước đây. Sự thiếu chính xác vốn có trong gắn thẻ liên quan tới việc chấp nhận sự hỗn độn tự nhiên của thế giới. Nó là món thuốc giải độc cho các hệ thống chính xác hơn, vốn cố áp đặt tính tinh khiết sai lầm lên sự náo nhiệt của thực tế, giả vờ rằng tất cả mọi thứ dưới ánh mặt trời đều có thể được xếp ngay ngắn theo hàng và cột. Có nhiều thứ trên thiên đường và mặt đất hơn là những gì được mơ ước trong triết lý đó.

Nhiều trong số các trang web phổ biến nhất đã thể hiện rõ sự ưa thích tính thiếu chính xác hơn là sự kỳ vọng vào tính nghiêm cẩn. Khi người ta thấy một biểu tượng Twitter hay một nút “like” Facebook trên một trang web, nó cho thấy số lượng người đã nhấp chuột vào đó. Khi số lượng là nhỏ, mỗi cú nhấp chuột đều được hiển thị, như “63”. Tuy nhiên, khi số lượng lớn lên, con số được hiển thị chỉ là một kiểu ước lượng, như “4K”. Nó không có nghĩa là hệ thống không biết tổng số thực tế, mà chỉ vì khi quy mô tăng, thì việc cho thấy con số chính xác là ít quan trọng hơn. Bên cạnh đó, số lượng có thể thay đổi nhanh đến mức một con số cụ thể sẽ trở thành lạc hậu ngay vào thời điểm nó xuất hiện. Tương tự như vậy, Gmail của Google hiển thị thời gian của các tin nhắn mới nhất với độ chính xác cao, chẳng hạn như “11 phút trước”, nhưng với những thời lượng dài hơn thì nó tỏ ra thờ ơ, chẳng hạn như “2 giờ trước”, cũng giống như Facebook và một số hệ thống khác.

Ngành công nghiệp tình báo kinh doanh và phần mềm phân tích từ lâu đã được xây dựng trên cơ sở hứa hẹn với khách hàng “một phiên bản duy nhất của sự thật” – lời đồn đại phổ biến của những năm 2000 từ các nhà cung cấp công nghệ trong lĩnh vực này. Các giám đốc điều hành đã sử dụng câu này không phải với sự mỉa mai. Và một số người vẫn còn làm như vậy. Bằng cách này, họ cho rằng tất cả những ai truy cập các hệ thống công nghệ thông tin của công ty đều có thể thâm nhập vào cùng một dữ liệu; như vậy nhóm tiếp thị và nhóm bán hàng không cần phải tranh cãi xem ai có số liệu chính xác về khách hàng hay doanh số trước khi cuộc họp thậm chí bắt đầu. Mối bận tâm của họ có thể trở nên hòa hợp hơn nếu các số liệu và sự kiện là nhất quán – kiểu tư duy này cứ tiếp diễn như vậy.

Nhưng ý tưởng về “một phiên bản duy nhất của sự thật” là một yếu tố dễ dàng trở mặt. Chúng ta đang bắt đầu nhận thấy một phiên bản duy nhất của sự thật chẳng những không thể tồn tại, mà việc theo đuổi nó là một sự điên rồ. Để gặt hái những lợi ích của việc khai thác dữ liệu với quy mô, chúng ta phải chấp nhận sự hỗn độn như một điều hiển nhiên, chứ không phải một cái gì đó chúng ta nên cố gắng loại bỏ.

Thậm chí chúng ta đang nhìn thấy những đặc tính của sự không chính xác xâm nhập vào một trong những lĩnh vực ít cỏi mở nhất đối với nó: thiết kế cơ sở dữ liệu. Các hệ thống cơ sở dữ liệu truyền thống đòi hỏi dữ liệu phải có cấu trúc và tính chính xác rất cao. Dữ liệu không chỉ đơn giản được lưu trữ, chúng được chia thành “bản ghi” có chứa các trường. Mỗi trường lưu trữ thông tin với một kiểu và một độ dài nhất định. Ví dụ nếu một trường có độ dài bảy chữ số, khi đó số lượng 10 triệu hoặc lớn hơn sẽ không thể ghi lại được. Hoặc nếu muốn nhập cụm từ “không xác định” vào một trường cho số điện thoại cũng không thể được. Cấu trúc của cơ sở dữ liệu phải được thay đổi để có thể chấp nhận những mục kiểu này. Chúng ta vẫn phải đánh vật với những hạn chế như vậy trên máy tính và điện thoại thông minh của mình, khi phần mềm không chấp nhận các dữ liệu chúng ta muốn nhập.

Các chỉ số truyền thống cũng được xác định trước, và như vậy hạn chế những gì người ta có thể tìm kiếm. Khi thêm một chỉ số mới thì phải tạo lập lại từ đầu, rất tốn thời gian. Những cơ sở dữ liệu thông thường, còn gọi là cơ sở dữ liệu quan hệ, được thiết kế cho một thế giới trong đó dữ liệu là thưa thót, và do đó có thể và sẽ được sửa chữa cẩn thận. Đó là một thế giới mà các câu hỏi người ta muốn trả lời bằng cách sử dụng dữ liệu phải rõ ràng ngay từ đầu, để cơ sở dữ liệu được thiết kế nhằm trả lời chúng – và chỉ có chúng – một cách hiệu quả.

Tuy nhiên, quan điểm này của lưu trữ và phân tích ngày càng mâu thuẫn với thực tế. Ngày nay chúng ta có những lượng lớn dữ liệu với các loại và chất lượng khác nhau. Hiếm khi nó phù hợp với những phân loại được xác định trước một cách quy củ. Và các câu hỏi chúng ta muốn hỏi thường chỉ xuất hiện khi chúng ta thu thập và làm việc với các dữ liệu mình có.

Những thực tế này đã dẫn đến những thiết kế cơ sở dữ liệu mới mẻ phá vỡ các nguyên tắc cũ – những nguyên tắc của bản ghi và các trường được thiết đặt trước, phản ánh những phân cấp được xác định một cách quy củ của thông tin. Ngôn ngữ phổ biến nhất để truy cập cơ sở dữ liệu từ lâu đã là SQL, hoặc “ngôn ngữ truy vấn có cấu trúc”. Cái tên gợi lên sự cứng nhắc của nó. Nhưng sự thay đổi lớn trong những năm gần đây là hướng tới một cái gì đó gọi là NoSQL, không đòi hỏi một cấu trúc bản ghi cài đặt sẵn để làm việc. Nó chấp nhận dữ liệu với kiểu và kích thước khác nhau và giúp tìm kiếm chúng thành công. Để đổi lại việc cho phép sự hỗn độn về cấu trúc, những thiết kế cơ sở dữ liệu này đòi hỏi nhiều tài nguyên xử lý và dung lượng lưu trữ hơn. Tuy nhiên, đó là một sự cân bằng mà chúng ta có thể kham nổi, trên cơ sở chi phí cho lưu trữ và xử lý đã giảm mạnh.

Pat Helland, một trong những chuyên gia hàng đầu thế giới về thiết kế cơ sở dữ liệu, mô tả sự thay đổi cơ bản này trong một bài báo có tựa đề “Nếu bạn có quá nhiều dữ liệu, thì ‘đủ tốt’ là đủ tốt” (“if You Have Too Much Data, Then ‘Good enough’ is Good enough.”). Sau khi xác định một số nguyên tắc cốt lõi của thiết kế truyền thống mà nay đã bị xói mòn bởi dữ liệu lộn xộn với nguồn gốc và độ chính xác khác nhau, ông đưa ra các hệ quả: “Chúng ta không còn có thể giả vờ rằng mình đang sống trong một thế giới sạch”. Việc xử lý dữ liệu lớn đòi hỏi một sự mất mát thông tin không thể tránh khỏi – Helland gọi đó là “tổn hao”. Nhưng bù lại, nó cho ra một kết quả nhanh chóng. “Nếu chúng ta bị tổn hao một số câu trả lời cũng không sao – đó vẫn luôn là những gì việc kinh doanh cần”, Helland kết luận.

Thiết kế cơ sở dữ liệu truyền thống hứa hẹn sẽ cung cấp những kết quả luôn luôn nhất quán. Ví dụ nếu yêu cầu số dư tài khoản ngân hàng, bạn trông đợi sẽ nhận được con số chính xác. Và nếu yêu cầu nó một vài giây sau đó, bạn muốn hệ thống đưa ra cùng kết quả, với giả thuyết là không có thay đổi gì. Tuy nhiên, khi lượng dữ liệu thu thập phát triển và lượng người truy cập hệ thống tăng lên thì việc duy trì sự nhất quán này trở nên khó khăn hơn.

Các bộ dữ liệu lớn không tồn tại ở một nơi, chúng có xu hướng được phân bổ trên nhiều ổ đĩa cứng và máy tính. Để đảm bảo độ tin cậy và tốc độ, một bản ghi có thể được lưu trữ ở hai hoặc ba địa điểm khác nhau. Nếu bạn cập nhật bản ghi tại một địa điểm, dữ liệu ở các địa điểm khác sẽ không còn đúng nữa cho đến khi bạn cũng cập nhật nó. Trong khi các hệ thống truyền thống có một độ trễ để thực hiện tất cả các cập nhật, thì điều này không thực tế với dữ liệu được phân bổ rộng rãi và máy chủ phải bận rộn với hàng chục ngàn truy vấn mỗi giây. Khi đó, việc chấp nhận tính hỗn độn chính là một dạng giải pháp.

Sự thay đổi này được đặc trưng bởi sự phổ biến của Hadoop, một đối thủ mã nguồn mở của hệ thống MapReduce của Google, rất tốt khi xử lý những lượng lớn dữ liệu. Nó thực hiện điều này bằng cách chia dữ liệu thành những phần nhỏ hơn và chia chúng ra cho các máy khác. Vì dự kiến phần cứng sẽ hỏng hóc, nên nó tạo ra sự dư thừa. Nó đặt giả thuyết dữ liệu không được sạch sẽ và trật tự – trong thực tế, nó cho rằng dữ liệu là quá lớn để được làm sạch trước khi xử lý. Mặc dù việc phân tích dữ liệu điển hình đòi hỏi một chuỗi thao tác được gọi là “trích xuất, chuyển giao, và tải”, hoặc ETL (extract, transfer, and load) để chuyển dữ liệu đến nơi nó sẽ được phân tích, Hadoop bỏ qua những chi tiết như vậy. Thay vào đó, nó nghiễm nhiên chấp nhận rằng lượng dữ liệu là quá lớn nên không thể di chuyển và phải được phân tích ngay tại chỗ.

Đầu ra của Hadoop không chính xác bằng của các cơ sở dữ liệu quan hệ: nó không đáng tin để có thể dùng cho việc khởi động một con tàu vũ trụ hoặc xác nhận các chi tiết tài khoản ngân hàng. Nhưng đối với nhiều công việc ít quan trọng hơn, khi một câu trả lời cực kỳ chính xác là không cần thiết, thì nó thực hiện thủ thuật nhanh hơn rất nhiều so với các hệ thống khác. Hãy nghĩ tới những công việc như phân chia một danh sách khách hàng để gửi tới một số người một chiến dịch tiếp thị đặc biệt. Sử dụng Hadoop, công ty thẻ tín dụng Visa đã có thể giảm thời gian xử lý hồ sơ kiểm tra của hai năm, khoảng 73 tỷ giao dịch, từ một tháng xuống chỉ còn 13 phút. Việc tăng tốc xử lý như vậy là mang tính đột phá đối với các doanh nghiệp.

Kinh nghiệm của ZestFinance, một công ty được thành lập bởi cựu giám đốc thông tin của Google, Douglas Merrill, nhấn mạnh điểm này. Công nghệ của nó giúp người cho vay quyết định có hay không cung cấp những khoản vay ngắn hạn tương đối nhỏ cho những người có vẻ như có điểm tín dụng kém. Tuy nhiên, trong khi điểm tín dụng truyền thống là chỉ dựa trên một số ít tín hiệu mạnh như các thanh toán chậm trước đây, thì ZestFinance phân tích một số lượng lớn các biến “yếu kém”. Trong năm 2012, nó đã tự hào đưa ra một tỷ giá mặc định cho các khoản vay, một phần ba ít hơn so với mức trung bình trong ngành. Nhưng cách duy nhất để làm cho hệ thống hoạt động là chấp nhận sự hỗn độn.

“Một trong những điều thú vị”, Merrill nói, “là không có ai mà tất cả các trường thông tin đều được điền đủ. Luôn luôn có một số lượng lớn dữ liệu bị thiếu”. Ma trận thông tin do ZestFinance tập hợp là vô cùng tản mạn, một tập tin cơ sở dữ liệu đầy ắp những trường bị thiếu. Vì vậy, công ty “quy trách nhiệm” cho các dữ liệu bị thiếu. Ví dụ khoảng 10 phần trăm khách hàng của ZestFinance được liệt kê là đã chết – nhưng hóa ra điều đó chẳng ảnh hưởng đến việc trả nợ. “Vì vậy, rõ ràng là khi chuẩn bị hủy diệt những thây ma, hầu hết mọi người cho rằng không có khoản nợ nào sẽ được hoàn trả. Nhưng từ dữ liệu của chúng tôi, có vẻ như các thây ma đều trả lại khoản vay của mình”, Merrill lém lỉnh kể tiếp.

Đổi lại việc sống chung với sự hỗn độn, chúng ta có được những dịch vụ rất có giá trị, những thứ lẽ ra không thể có ở phạm vi và quy mô của chúng với những phương pháp và công cụ truyền thống. Theo một số ước tính thì chỉ 5 phần trăm của tất cả dữ liệu kỹ thuật số là “có cấu trúc” – nghĩa là ở dạng thích hợp để đưa vào một cơ sở dữ liệu truyền thống. Nếu không chấp nhận sự hỗn độn thì 95 phần trăm còn lại của dữ liệu phi cấu trúc, chẳng hạn các trang web và phim, sẽ hoàn toàn ở trong bóng tối. Bằng cách cho phép sự không chính xác, chúng ta mở cửa vào một thế giới đầy những hiểu biết chưa được khai thác.

Xã hội đã thực hiện hai sự đánh đổi ngấm ngầm đã trở nên quen thuộc trong cách chúng ta ứng xử đến nỗi ta thậm chí không xem chúng như những sự đánh đổi, mà chỉ như trạng thái tự nhiên của sự vật. Thứ nhất, chúng ta cho rằng mình không thể sử dụng được thật nhiều dữ liệu, vì vậy chúng ta không sử dụng. Nhưng sự hạn chế đó ngày càng mất đi ý nghĩa, và có rất nhiều thứ có thể đạt được nếu sử dụng một cái gì đó tiệm cận N = tất cả.

Sự đánh đổi thứ hai là về chất lượng của thông tin. Trong kỷ nguyên của dữ liệu nhỏ, khi chúng ta chỉ thu thập được một ít thông tin thì tính chính xác của nó phải là cao nhất có thể. Điều đó hợp lý. Trong nhiều trường hợp, điều này vẫn còn cần thiết. Nhưng đối với nhiều thứ khác, sự chính xác nghiêm ngặt ít quan trọng hơn việc nắm bắt được nhanh chóng những nét đại cương hay bước tiến triển theo thời gian của chúng.

Cách chúng ta nghĩ về việc sử dụng toàn bộ các thông tin so với những mảnh nhỏ của nó, và cách chúng ta có thể đi đến đánh giá cao sự lỏng lẻo thay vì tính chính xác, sẽ có những ảnh hưởng sâu sắc lên tương tác của chúng ta với thế giới. Khi kỹ thuật dữ-liệu-lớn trở thành một phần thường lệ của cuộc sống hàng ngày, chúng ta với tư cách một xã hội có thể bắt đầu cố gắng hiểu thế giới từ một góc nhìn lớn hơn, toàn diện hơn nhiều so với trước đây, một kiểu N = tất cả. Chúng ta có thể chấp nhận vết mờ và sự không rõ ràng trong những lĩnh vực mà mình vẫn thường đòi hỏi sự rõ ràng và chắc chắn, ngay cả khi chúng chỉ là một sự rõ ràng giả tạo và một sự chắc chắn không hoàn hảo. Chúng ta có thể chấp nhận điều này với điều kiện đổi lại chúng ta có được một hiểu biết hoàn chỉnh hơn về thực tại – tương đương với một bức tranh trừu tượng, trong đó từng nét vẽ là lộn xộn nếu được xem xét thật gần, nhưng khi bước lùi lại, ta có thể thấy một bức tranh hùng vĩ.

Dữ liệu lớn, với sự nhấn mạnh vào các bộ dữ liệu toàn diện và sự hỗn độn, giúp chúng ta tiến gần hơn tới thực tế so với sự phụ thuộc vào dữ liệu nhỏ và độ chính xác. Sự hấp dẫn của “một số” và “chắc chắn” là điều dễ hiểu. Hiểu biết của chúng ta về thế giới có thể đã không đầy đủ và đôi khi sai lầm khi chúng ta bị hạn chế trong những gì chúng ta có thể phân tích, nhưng có một điều khá chắc chắn là nó mang lại một sự ổn định đáng yên tâm. Bên cạnh đó, vì bị kìm hãm trong dữ liệu có thể thu thập và khảo sát, chúng ta đã không phải đối mặt với sự cưỡng bách để có được tất cả mọi thứ, để xem tất cả mọi thứ từ mọi góc độ có thể. Và trong giới hạn hẹp của dữ liệu nhỏ, chúng ta vẫn không có được bức tranh lớn hơn dù có thể tự hào về độ chính xác của mình – thậm chí bằng cách đo các chi tiết vụn vặt đến một phần n độ.

Rốt cuộc, dữ liệu lớn có thể đòi hỏi chúng ta thay đổi, để trở nên thoải mái hơn với sự rối loạn và sự không chắc chắn. Các cấu trúc của sự chính xác, dù dường như cho chúng ta những ý nghĩa trong cuộc sống – kiểu như cái cọc tròn phải chui vào cái lỗ tròn; rằng chỉ có một câu trả lời cho một câu hỏi – lại dễ bị bóp méo hơn so với mức độ chúng ta có thể thừa nhận. Tuy nhiên sự thừa nhận, thậm chí đón nhận, tính linh hoạt này sẽ đưa chúng ta đến gần hơn với thực tế.

Những thay đổi trong tư duy này là những chuyển đổi căn bản, chúng dẫn tới một sự thay đổi thứ ba có khả năng phá hủy một tập quán còn cơ bản hơn của xã hội: ý tưởng về việc hiểu được các lý do đằng sau tất cả những gì xảy ra. Thay vào đó, như chương tiếp theo sẽ giải thích, việc tìm được các mối liên kết trong dữ liệu và hành động dựa trên chúng thường có thể là đủ tốt rồi.

NGÀY CÀNG CÓ NHIỀU BỐI CẢNH, trong đó việc sử dụng tất cả các dữ liệu có sẵn là khả thi. Tuy nhiên nó đi kèm với chi phí. Tăng khối lượng sẽ mở cánh cửa cho sự thiếu chính xác. Điều chắc chắn là những số liệu sai sót và bị hỏng đã luôn luôn len lỏi vào các bộ dữ liệu. Chúng ta đã luôn luôn xem chúng như những rắc rối và cố gắng loại bỏ chúng, một phần vì chúng ta có thể làm được như vậy. Những gì chúng ta chưa bao giờ muốn làm là xem chúng như điều không thể tránh khỏi và học cách sống chung với chúng. Đây là một trong những thay đổi cơ bản khi chuyển từ dữ liệu nhỏ sang dữ liệu lớn.

Trong thế giới của dữ liệu nhỏ, giảm sai sót và đảm bảo chất lượng cao của dữ liệu là một động lực tự nhiên và cần thiết. Vì chỉ thu thập được một ít thông tin, chúng ta phải bảo đảm rằng những con số đã được cố gắng ghi lại là chính xác nhất có thể. Nhiều thế hệ các nhà khoa học đã tối ưu hóa các công cụ để các phép đo đạc của họ ngày càng chính xác hơn, dù là để xác định vị trí của các thiên thể hay kích thước của các đối tượng dưới kính hiển vi. Trong thế giới lấy mẫu, nỗi ám ảnh với sự chính xác thậm chí còn nặng nề hơn. Việc phân tích chỉ một số lượng hạn chế các điểm dữ liệu có nghĩa là lỗi có thể được khuếch đại, có khả năng làm giảm tính chính xác của kết quả tổng thể.

Trong phần lớn lịch sử, những thành quả cao nhất của loài người xuất hiện từ việc chinh phục thế giới bằng cách đo lường nó. Việc tìm kiếm sự chính xác bắt đầu tại châu Âu vào giữa thế kỷ thứ mười ba, khi các nhà thiên văn học và các học giả đã gánh vác việc định lượng thời gian và không gian một cách chính xác hơn bao giờ hết – đó là “đo lường hiện thực”, theo như lời của nhà sử học Alfred Crosby.

Nếu có thể đo lường một hiện tượng thì người ta tin rằng có thể hiểu được nó. Sau này, đo lường đã được gắn liền với phương pháp quan sát và giải thích khoa học: khả năng định lượng, ghi nhận, và trình bày các kết quả có thể tái lập được. “Đo lường là để hiểu biết”, Lord Kelvin đã phát biểu như vậy. Nó đã trở thành một cơ sở của quyền lực. “Hiểu biết là quyền lực”, Francis Bacon nhận định. Đồng thời, các nhà toán học và những người sau này được gọi là kế toán đã phát triển những phương pháp để có thể thực hiện việc thu thập, ghi nhận, và quản lý dữ liệu một cách chính xác.

Đến thế kỷ XIX, Pháp – lúc đó là quốc gia hàng đầu thế giới về khoa học – đã phát triển một hệ thống các đơn vị đo lường được xác định chính xác để nắm bắt không gian, thời gian, và nhiều thứ khác nữa, và bắt đầu đề nghị các quốc gia khác cũng áp dụng cùng một tiêu chuẩn. Thậm chí họ đã đưa ra những đơn vị mẫu được quốc tế công nhận dùng để đo lường trong các hiệp ước quốc tế. Đó là đỉnh điểm của thời đại về đo lường. Chỉ một nửa thế kỷ sau đó, vào những năm 1920, các khám phá của cơ học lượng tử đã làm tan vỡ mãi mãi ước mơ của đo lường toàn diện và hoàn hảo. Tuy nhiên, bên ngoài phạm vi tương đối nhỏ của các nhà vật lý, thì suy nghĩ hướng tới đo lường một cách hoàn hảo vẫn tiếp tục đối với các kỹ sư và các nhà khoa học. Trong thế giới kinh doanh nó thậm chí còn được mở rộng, khi các ngành toán học và thống kê bắt đầu gây ảnh hưởng đến tất cả các lĩnh vực thương mại.

Tuy nhiên, trong nhiều tình huống mới nảy sinh ngày hôm nay, việc cho phép sự không chính xác – sự hỗn độn – có thể là một tính năng tích cực, chứ không phải là một thiếu sót. Nó là một sự cân bằng. Để bù đắp cho sự nới lỏng về tiêu chuẩn với các lỗi cho phép, người ta có thể có được nhiều dữ liệu hơn. Nó không chỉ mang ý nghĩa “nhiều hơn thì tốt hơn”, mà thật ra đôi khi nó sẽ là “nhiều hơn thì tốt hơn cả tốt hơn”.

Chúng ta phải đối mặt với nhiều loại hỗn độn khác nhau. Hỗn độn có thể mang một ý nghĩa đơn giản là khả năng sai sót tăng lên khi bạn thêm điểm dữ liệu. Khi số lượng tăng lên gấp hàng ngàn lần thì khả năng một số trong đó có thể sai cũng tăng lên. Nhưng bạn cũng có thể làm tăng hỗn độn bằng cách kết hợp nhiều loại thông tin khác nhau từ các nguồn khác nhau, không luôn luôn tương thích với nhau một cách hoàn hảo. Ví dụ, nếu sử dụng phần mềm nhận dạng giọng nói để mô tả các khiếu nại đến một trung tâm tiếp nhận cuộc gọi, và so sánh dữ liệu này với khi dùng nhân viên để xử lý các cuộc gọi, người ta có thể có được một sự hình dung thực tế, tuy không hoàn hảo nhưng hữu ích. Hỗn độn cũng có thể tham chiếu tới sự không thống nhất định dạng, trong đó các dữ liệu cần được “làm sạch” trước khi được xử lý. Ví dụ chuyên gia dữ liệu lớn DJ Patil nhận xét từ viết tắt IBM có rất nhiều cách diễn đạt, như hoặc Phòng thí nghiệm T.J. Watson, hoặc International Business Machines. Và hỗn độn có thể phát sinh khi chúng ta trích xuất hoặc xử lý dữ liệu, vì khi làm như vậy, chúng ta đang chuyển đổi nó, biến nó thành một cái gì đó khác, chẳng hạn như khi chúng ta thực hiện phân tích cảm nghĩ các tin nhắn Twitter để dự đoán doanh thu phòng vé của Hollywood. Chính bản thân sự hỗn độn cũng mang tính hỗn độn.

Giả sử chúng ta cần đo nhiệt độ trong một vườn nho. Nếu chúng ta chỉ có một cảm biến nhiệt độ cho toàn bộ lô đất, chúng ta phải chắc chắn rằng nó chính xác và hoạt động được tại mọi thời điểm: sự hỗn độn không được tồn tại. Ngược lại, nếu chúng ta có một cảm biến cho mỗi cây trong vườn hàng trăm cây nho, chúng ta có thể sử dụng những cảm biến rẻ hơn, ít phức tạp hơn (miễn là chúng không phát sinh một sai số có hệ thống). Rất có thể là tại một số thời điểm, một vài cảm biến sẽ báo dữ liệu không chính xác, tạo ra một bộ dữ liệu ít chính xác, hoặc “hỗn độn” hơn so với bộ dữ liệu từ một cảm biến chính xác đơn nhất. Bất kỳ phép đọc cụ thể nào đó cũng đều có thể không chính xác, nhưng tổng hợp của nhiều phép đọc sẽ cung cấp một bức tranh toàn diện hơn. Bởi vì bộ dữ liệu này bao gồm nhiều điểm dữ liệu hơn, nó cung cấp giá trị lớn hơn nhiều và có thể bù đắp cho sự hỗn độn của nó.

Bây giờ giả sử chúng ta tăng tần số các lần đọc cảm biến. Nếu đo mỗi phút một lần, chúng ta có thể khá chắc chắn rằng trình tự mà các dữ liệu đến sẽ hoàn toàn theo thứ tự thời gian. Nhưng nếu chúng ta thay đổi, đọc đến mười hay một trăm lần trong một giây, thì độ chính xác của trình tự có thể trở nên không chắc chắn. Khi thông tin đi qua mạng, một bản ghi có thể bị trì hoãn và đến lệch trình tự, hoặc đơn giản là có thể bị mất. Thông tin sẽ ít chính xác đi một chút, nhưng khối lượng lớn sẽ khiến cho khả năng từ bỏ sự chính xác nghiêm ngặt trở nên thích đáng.

Trong ví dụ đầu tiên, chúng ta đã hy sinh tính chính xác của mỗi điểm dữ liệu cho chiều rộng, và ngược lại chúng ta nhận được tính chi tiết mà bình thường chúng ta có thể đã không nhìn thấy. Trong trường hợp thứ hai, chúng ta đã từ bỏ sự chính xác cho tần số, và ngược lại, chúng ta thấy sự thay đổi mà bình thường chúng ta đã phải bỏ qua. Mặc dù có thể khắc phục những sai sót nếu chúng ta đầu tư đủ nguồn lực vào đó – xét cho cùng, mỗi giây có tới 30.000 giao dịch xảy ra trên Thị trường Chứng khoán New York, nơi trình tự chính xác là vấn đề rất quan trọng – trong nhiều trường hợp, việc chấp nhận lỗi thay vì cố gắng ngăn chặn nó lại tỏ ra hiệu quả hơn.

Ví dụ, chúng ta có thể chấp nhận sự hỗn độn để đổi lấy quy mô. Như Forrester, một nhà tư vấn công nghệ, đã nói: “Đôi khi hai cộng với hai có thể bằng 3,9, và như vậy là đủ tốt”. Tất nhiên dữ liệu không được phép sai hoàn toàn, nhưng chúng ta sẵn sàng hy sinh một chút trong sự chính xác để đổi lại hiểu biết về xu hướng chung. Dữ liệu lớn biến đổi các con số thành một cái gì đó mang tính xác suất nhiều hơn là tính chính xác. Thay đổi này sẽ cần rất nhiều để làm quen, và nó cũng đi kèm với những vấn đề riêng của nó, mà chúng ta sẽ xem xét sau trong cuốn sách. Nhưng bây giờ, hãy đơn giản lưu ý rằng chúng ta thường sẽ cần đón nhận lấy sự hỗn độn khi chúng ta tăng quy mô.

Người ta thấy một sự thay đổi tương tự về tầm quan trọng của việc có nhiều dữ liệu hơn, liên quan tới những cải tiến khác trong điện toán. Mọi người đều biết sức mạnh xử lý đã tăng lên ra sao trong những năm qua như dự đoán của Định luật Moore, phát biểu rằng số lượng bán dẫn trên một chip tăng gấp đôi khoảng mỗi hai năm. Sự cải tiến liên tục này đã làm máy tính nhanh hơn và bộ nhớ phong phú hơn. Ít người trong chúng ta biết rằng hiệu suất của các thuật toán điều khiển nhiều hệ thống của chúng ta cũng đã tăng lên – trong nhiều lĩnh vực, với mức tăng còn hơn cả mức cải thiện của các bộ xử lý theo Định luật Moore. Tuy nhiên, nhiều lợi ích cho xã hội từ dữ liệu lớn lại xảy ra không phải vì các chip nhanh hơn hay vì các thuật toán tốt hơn, mà vì có nhiều dữ liệu hơn.

Ví dụ, các thuật toán chơi cờ chỉ thay đổi chút ít trong vài thập kỷ qua, bởi các quy tắc của cờ vua đã được biết đầy đủ và bị giới hạn một cách chặt chẽ. Lý do các chương trình cờ vua ngày nay chơi tốt hơn trước đây rất nhiều là một phần bởi chúng chơi cờ tàn tốt hơn. Và chúng làm được điều đó đơn giản chỉ vì các hệ thống được cung cấp nhiều dữ liệu hơn. Thực tế, cờ tàn với sáu hoặc ít quân hơn còn lại trên bàn cờ đã được phân tích một cách hoàn toàn đầy đủ và tất cả các bước đi có thể (N = tất cả) đã được thể hiện trong một bảng lớn, khi không nén sẽ lấp đầy hơn một tera byte dữ liệu. Điều này cho phép các máy tính có thể chơi cờ tàn một cách hoàn hảo. Không bao giờ con người có thể chơi thắng được hệ thống.

Ý nghĩa của lập luận rằng “có nhiều dữ liệu hơn sẽ hiệu quả hơn việc có các thuật toán tốt hơn” đã được thể hiện mạnh mẽ trong lĩnh vực xử lý ngôn ngữ tự nhiên: cách các máy tính học phân tích cú pháp các từ như chúng ta sử dụng chúng trong giao tiếp hàng ngày. Khoảng năm 2000, các nhà nghiên cứu Michele Banko và Eric Brill của Microsoft tìm kiếm một phương pháp để cải thiện bộ kiểm tra ngữ pháp, một thành phần của chương trình Microsoft Word. Họ không chắc liệu sẽ hữu ích hơn nếu dành nỗ lực của mình vào việc cải thiện các thuật toán sẵn có, hay tìm kiếm các kỹ thuật mới, hay bổ sung thêm những tính năng phức tạp hơn. Trước khi đi theo bất kỳ con đường nào, họ quyết định xem xét những gì sẽ xảy ra khi họ cung cấp thêm rất nhiều dữ liệu cho các phương pháp hiện có. Hầu hết các thuật toán học tập của máy dựa trên những tập sao lục văn bản đạt tới một triệu từ hoặc ít hơn. Banko và Brill lấy bốn thuật toán thông thường và cung cấp nhiều dữ liệu hơn ở ba cấp độ khác nhau: 10 triệu từ, sau đó 100 triệu, và cuối cùng là 1 tỷ từ.

Kết quả thật đáng kinh ngạc. Khi có nhiều dữ liệu đi vào, hiệu suất của tất cả bốn loại thuật toán đều được cải thiện một cách đáng kể. Trong thực tế, một thuật toán đơn giản hoạt động kém hiệu quả nhất với một nửa triệu từ lại hoạt động tốt hơn những thuật toán khác khi có một tỷ từ. Độ chính xác của nó đã tăng từ 75 phần trăm lên trên 95 phần trăm. Ngược lại, thuật toán làm việc tốt nhất với ít dữ liệu lại hoạt động kém nhất với lượng dữ liệu lớn hơn, mặc dù cũng giống như những thuật toán khác nó được cải thiện rất nhiều, tăng từ khoảng 86 phần trăm lên 94 phần trăm chính xác. “Những kết quả này cho thấy chúng ta có thể nên xem xét lại sự cân bằng giữa việc tiêu tốn thời gian và tiền bạc vào phát triển thuật toán so với việc chi tiêu vào phát triển ngữ liệu”, Banko và Brill đã viết trong một tài liệu nghiên cứu của họ về chủ đề này.

Vậy là nhiều hơn đã thắng ít hơn. Và đôi khi nhiều hơn còn thắng cả thông minh hơn. Còn sự hỗn độn thì sao? Một vài năm sau khi Banko và Brill đào bới tất cả những dữ liệu này, các nhà nghiên cứu đối thủ Google đã suy nghĩ dọc theo dòng tương tự – nhưng với quy mô lớn hơn. Thay vì thử các thuật toán với một tỷ từ, họ đã sử dụng một ngàn tỷ từ. Google làm điều này không phải để phát triển một bộ kiểm tra ngữ pháp, nhưng để giải quyết một trở ngại thậm chí còn phức tạp hơn: dịch thuật. Cái gọi là dịch máy đã ở trong tầm nhìn của những nhà tiên phong máy tính ngay từ buổi bình minh của tính toán trong những năm 1940, khi các thiết bị được làm bằng đèn chân không và chứa đầy cả một căn phòng. Ý tưởng được nâng lên thành cấp bách đặc biệt trong Chiến tranh Lạnh, khi Hoa Kỳ thu được một lượng lớn tư liệu viết và nói tiếng Nga nhưng thiếu nhân lực để dịch nó một cách nhanh chóng.

Lúc đầu, các nhà khoa học máy tính đã lựa chọn một sự kết hợp của các quy tắc ngữ pháp và một từ điển song ngữ. Một máy tính IBM đã dịch sáu mươi câu từ tiếng Nga sang tiếng Anh vào năm 1954, sử dụng 250 cặp từ trong từ vựng của máy tính và sáu quy tắc ngữ pháp. Kết quả rất hứa hẹn. “Mi pyeryedayem mislyỉ posryedstvom ryechyi”, được nhập vào máy IBM 701 qua bìa đục lỗ, và đầu ra có “Chúng tôi truyền suy nghĩ bằng lời nói”. Sáu mươi câu đã được “dịch trơn tru”, theo một thông cáo báo chí của IBM kỷ niệm sự kiện này. Giám đốc chương trình nghiên cứu, Leon Dostert của Đại học Georgetown, dự đoán rằng dịch máy sẽ trở thành “thực tế” trong “năm, hay có thể là ba năm nữa”. Nhưng thành công ban đầu hóa ra lại tạo một sự hiểu lầm khá sâu sắc. Đến năm 1966 một ủy ban của các đại thụ trong làng dịch máy đã phải thừa nhận thất bại. Vấn đề khó hơn họ tưởng. Dạy máy tính dịch là dạy chúng không chỉ các quy tắc, mà cả các trường hợp ngoại lệ nữa. Dịch không chỉ là ghi nhớ và nhớ lại, nó là về việc chọn những từ thích hợp từ nhiều lựa chọn thay thế. Liệu “bonjour” có thực sự là “chào buổi sáng”? Hay đó là “ngày tốt”, hay “xin chào”, hay “hi”? Câu trả lời là “còn tùy”.

Cuối những năm 1980, các nhà nghiên cứu tại IBM đã có một ý tưởng mới lạ. Thay vì cố gắng nạp những quy tắc ngôn ngữ rõ ràng vào máy tính cùng với một từ điển, họ đã quyết định để cho máy tính sử dụng xác suất thống kê để tính toán xem từ hoặc câu nào trong một ngôn ngữ là thích hợp nhất với từ hoặc câu trong một ngôn ngữ khác. Trong những năm 1990 dự án Candide của IBM đã sử dụng các văn bản quốc hội Canada công bố bằng tiếng Pháp và tiếng Anh trong vòng mười năm – khoảng ba triệu cặp câu. Do chúng là văn bản chính thức, nên các bản dịch đã được thực hiện với chất lượng đặc biệt cao. Và theo các tiêu chuẩn lúc đó, số lượng dữ liệu là rất lớn. Dịch máy thống kê, như kỹ thuật này được biết đến, đã khéo léo biến những thách thức của dịch thuật thành một bài toán lớn của toán học. Và nó dường như thành công. Đột nhiên, dịch máy trở thành tốt hơn rất nhiều. Tuy nhiên, sau thành công của bước nhảy vọt về khái niệm, IBM chỉ thu được những cải thiện nhỏ mặc dù phải ném ra rất nhiều tiền. Cuối cùng IBM đã dừng dự án.

Nhưng chưa đầy một thập kỷ sau đó, vào năm 2006, Google đã nhảy vào dịch thuật, như một phần của nhiệm vụ “tổ chức thông tin của thế giới và làm cho chúng trở thành có thể tiếp cận được và hữu ích một cách phổ dụng”. Thay vì dịch các trang văn bản thành hai ngôn ngữ, Google tự giúp mình với một bộ dữ liệu lớn hơn nhưng cũng hỗn độn hơn nhiều: toàn bộ mạng Internet toàn cầu và nhiều hơn nữa. Hệ thống của Google đã thu lượm bất kể bản dịch nào có thể tìm thấy, để huấn luyện máy tính. Chúng bao gồm các trang web của các công ty viết ở nhiều ngôn ngữ khác nhau, các bản dịch đồng nhất của các văn bản chính thức, và các báo cáo của các tổ chức liên chính phủ như Liên hợp quốc và Liên minh châu Âu. Thậm chí các bản dịch sách từ dự án sách của Google cũng được thu nhận. Trong khi Candide sử dụng ba triệu câu được dịch một cách cẩn thận, thì hệ thống của Google khai thác hàng tỷ trang các bản dịch rất khác nhau về chất lượng, theo người đứng đầu của Google Translate, Franz Josef Och, một trong những chuyên gia uy tín nhất trong lĩnh vực này. Hàng nghìn tỷ từ đã được chuyển thành 95 tỷ câu tiếng Anh, mặc dù chất lượng không rõ ràng.

Bất chấp sự hỗn độn của đầu vào, dịch vụ của Google hoạt động tốt nhất. Các bản dịch của nó là chính xác hơn so với của các hệ thống khác (mặc dù vẫn còn kém). Và nó phong phú hơn rất nhiều. Vào giữa năm 2012 bộ dữ liệu của nó bao gồm hơn 60 ngôn ngữ. Nó thậm chí có thể chấp nhận nhập văn bản vào bằng giọng nói trong 14 ngôn ngữ để dịch. Và vì nó xử lý ngôn ngữ đơn giản như là dữ liệu hỗn độn để đánh giá xác suất, nó thậm chí có thể dịch giữa các ngôn ngữ, chẳng hạn như giữa tiếng Hindi và Catalan, mà trong đó có rất ít bản dịch trực tiếp để phát triển hệ thống. Trong những trường hợp này, nó sử dụng tiếng Anh như một cầu nối. Và nó linh hoạt hơn nhiều so với những cách tiếp cận khác, vì nó có thể thêm và bớt các từ qua kinh nghiệm chúng được hay không được sử dụng.

Lý do hệ thống dịch thuật của Google hoạt động tốt không phải vì nó có một thuật toán thông minh hơn. Nó hoạt động tốt bởi vì tác giả của nó, như Banko và Brill tại Microsoft, nạp vào nhiều dữ liệu hơn – và không chỉ dữ liệu chất lượng cao. Google đã có thể sử dụng một bộ dữ liệu hàng chục ngàn lần lớn hơn hơn Candide của IBM vì nó chấp nhận sự hỗn độn. Cả nghìn tỷ ngữ liệu Google phát hành năm 2006 được biên soạn từ đủ thứ, kể cả đồ tạp nham và đồ bỏ đi của Internet – có thể nói là “dữ liệu thượng vàng hạ cám”. Đây là các “tập huấn luyện” để hệ thống có thể tính toán xác suất, ví dụ một từ trong tiếng Anh đi tiếp sau một từ khác. Đó là một mong ước xa vời của ông tổ trong lĩnh vực này, dự án Brown Corpus nổi tiếng vào những năm 1960, đã tập hợp được tổng cộng một triệu từ tiếng Anh. Việc sử dụng bộ dữ liệu lớn hơn cho phép những bước tiến lớn trong xử lý ngôn ngữ tự nhiên, mà các hệ thống nhận dạng tiếng nói và dịch máy dựa vào. “Mô hình đơn giản và rất nhiều dữ liệu thắng thế những mô hình phức tạp hơn nhưng dựa trên ít dữ liệu hơn”, chuyên gia trí tuệ nhân tạo của Google, Peter Norvig và các đồng nghiệp đã viết như vậy trong một bài báo có tựa đề “Hiệu quả phi lý của dữ liệu” (“The Unreasonable effectiveness of Data”): “Có thể nói ngữ liệu này là một bước lùi từ Brown Corpus: nó được lấy từ các trang web chưa được hiệu đính và do đó chứa những câu chưa đầy đủ, lỗi chính tả, lỗi ngữ pháp, và tất cả các loại lỗi khác. Nó không được chú thích cẩn thận với những thẻ bài được chỉnh sửa. Nhưng việc nó lớn hơn một triệu lần so với Brown Corpus đã đủ bù đắp cho những hạn chế này”.

Phim minh họa hệ thống GoogleTranslate

Nhiều hơn thắng thế tốt hơn

Hỗn độn rất khó được các nhà phân tích mẫu thông thường chấp nhận, vì họ là những người cả đời đã tập trung vào việc ngăn chặn và xóa bỏ sự hỗn độn. Họ làm việc chăm chỉ để giảm tỷ lệ lỗi khi thu thập mẫu, và để kiểm tra các mẫu nhằm loại bỏ các thành kiến tiềm ẩn trước khi công bố kết quả của mình. Họ sử dụng nhiều chiến lược giảm lỗi, trong đó có việc đảm bảo mẫu được thu thập theo một giao thức chính xác và bởi các chuyên gia được huấn luyện đặc biệt. Những chiến lược như vậy rất tốn kém khi thực hiện, ngay cả đối với số lượng hạn chế các điểm dữ liệu, và chúng hầu như không khả thi cho dữ liệu lớn. Không chỉ vì nó quá đắt, mà còn vì những tiêu chuẩn chính xác của việc tập hợp là khó có thể đạt được một cách nhất quán ở quy mô như vậy. Thậm chí loại bỏ sự tương tác của con người cũng sẽ không giải quyết được vấn đề.

Di chuyển vào một thế giới của dữ liệu lớn sẽ đòi hỏi chúng ta thay đổi tư duy về giá trị của sự chính xác. Việc áp dụng tư duy thông thường của đo lường vào thế giới kỹ thuật số được kết nối của thế kỷ XXI đồng nghĩa với bỏ lỡ một điểm quan trọng. Như đã đề cập trước đây, nỗi ám ảnh với tính chính xác là một tạo tác của thời đại analog. Khi dữ liệu thưa thớt, mỗi điểm dữ liệu đều quan trọng, và do đó người ta thận trọng tránh để bất kỳ điểm dữ liệu nào gây sai lệch cho việc phân tích. Ngày nay chúng ta không còn sống trong tình trạng bị đói thông tin. Trong khi làm việc với các bộ dữ liệu ngày càng toàn diện hơn, không chỉ thâu tóm một mảnh nhỏ của hiện tượng mà nhiều hơn hoặc tất cả, chúng ta không cần lo lắng quá nhiều về việc các điểm dữ liệu riêng lẻ gây ra sai lệch cho phân tích tổng thể. Thay vì nhắm tới sự chính xác từng tí một với chi phí ngày càng cao, chúng ta đang tính toán với sự hỗn độn trong tâm thức.

Hãy xem các cảm biến đã thâm nhập vào nhà máy như thế nào. Tại nhà máy lọc dầu Cherry Point ở Blaine, bang Washington, các bộ cảm biến không dây được cài đặt khắp nơi, tạo thành một lưới vô hình thu thập những lượng lớn dữ liệu trong thời gian thực. Môi trường nhiệt độ cao và máy móc điện tử có thể làm sai lệch các phép đọc, dẫn tới dữ liệu lộn xộn. Nhưng lượng thông tin khổng lồ được tạo ra từ các cảm biến, cả có dây và không dây, sẽ dung hòa cho những trục trặc này. Chỉ cần tăng tần số và số địa điểm đọc cảm biến là có thể thu được lợi thế lớn. Bằng cách đo sức căng trên đường ống ở tất cả các thời điểm chứ không phải chỉ tại những khoảng thời gian nhất định, BP biết được một số loại dầu thô ăn mòn nhiều hơn những loại khác – điều nó không thể phát hiện, và do đó không thể chống lại, khi bộ dữ liệu nhỏ hơn.

Khi số lượng dữ liệu lớn hơn nhiều và là một loại mới, độ chính xác trong một số trường hợp không còn là mục tiêu, miễn là chúng ta có thể thấy được xu hướng chung. Việc chuyển sang một quy mô lớn làm thay đổi không chỉ sự mong đợi về độ chính xác mà cả khả năng thực tế để đạt được sự chính xác. Dù nó có vẻ phản lại trực giác lúc đầu, việc xử lý dữ liệu như một cái gì đó không hoàn hảo và không chính xác cho phép chúng ta đưa ra dự báo tốt hơn, và do đó hiểu biết thế giới của chúng ta tốt hơn.

Nên lưu ý rằng hỗn độn không phải là đặc tính vốn có của dữ liệu lớn. Thay vào đó, nó là một chức năng của sự không hoàn hảo của các công cụ chúng ta sử dụng để đo lường, ghi nhận và phân tích thông tin. Nếu công nghệ bằng cách nào đó trở nên hoàn hảo, thì vấn đề của sự không chính xác sẽ biến mất. Nhưng một khi nó còn là không hoàn hảo, thì sự hỗn độn là một thực tế mà chúng ta phải đối mặt. Và nhiều khả năng nó sẽ còn tồn tại với chúng ta trong một thời gian dài. Nỗ lực để tăng độ chính xác thường sẽ không có ý nghĩa kinh tế, bởi giá trị của việc có những lượng dữ liệu lớn hơn sẽ hấp dẫn hơn. Giống như các nhà thống kê trong kỷ nguyên trước đây đã gạt sang một bên mối quan tâm của họ tới những kích thước mẫu lớn hơn, để ủng hộ sự ngẫu nhiên hơn, chúng ta có thể sống với một chút không chính xác để đổi lấy nhiều dữ liệu hơn.

Dự án Billion Prices cung cấp một trường hợp khá hấp dẫn. Mỗi tháng Cục Thống kê Lao động Mỹ công bố chỉ số giá tiêu dùng, hay CPI, được sử dụng để tính toán tỷ lệ lạm phát. Chỉ số liệu này là rất quan trọng cho các nhà đầu tư và doanh nghiệp. Cục Dự trữ Liên bang xem xét nó khi quyết định nên tăng hoặc giảm lãi suất. Lương cơ bản của các công ty tăng khi có lạm phát. Chính phủ liên bang sử dụng nó để điều chỉnh khoản thanh toán như trợ cấp an sinh xã hội và lãi suất trả cho những trái phiếu nhất định.

Để có được chỉ số này, Cục Thống kê Lao động sử dụng hàng trăm nhân viên để gọi điện, gửi fax, ghé thăm các cửa hàng và văn phòng tại 90 thành phố trên toàn quốc và báo cáo lại khoảng 80.000 mức giá về tất cả mọi thứ từ giá cà chua tới giá đi taxi. Để có nó, người ta phải chi ra khoảng 250 triệu USD một năm. Với số tiền này, dữ liệu được gọn gàng, sạch sẽ và trật tự. Nhưng tại thời điểm các con số được công bố, chúng đã chậm mất vài tuần. Như cuộc khủng hoảng tài chính năm 2008 cho thấy, một vài tuần có thể là một sự chậm trễ khủng khiếp. Những người ra quyết định cần truy cập nhanh hơn đến các số liệu lạm phát để ứng phó với nó tốt hơn, nhưng họ không thể nhận được chúng với những phương pháp thông thường tập trung vào lấy mẫu và coi trọng sự chính xác.

Để đáp lại, hai nhà kinh tế tại Viện Công nghệ Massachusetts, Alberto Cavallo và Roberto Rigobon, đã tạo ra một phương pháp thay thế liên quan đến dữ-liệu-lớn, bằng cách đi theo một con đường hỗn độn hơn nhiều. Sử dụng phần mềm để thu thập dữ liệu web, họ đã có được nửa triệu giá của các sản phẩm được bán ở Mỹ mỗi ngày. Các thông tin là lộn xộn, và không phải tất cả các điểm dữ liệu thu thập được đều có thể dễ dàng so sánh với nhau. Nhưng bằng cách kết hợp bộ sưu tập dữ-liệu-lớn với phân tích thông minh, dự án đã có thể phát hiện một dao động giảm phát trong giá ngay sau khi ngân hàng Lehman Brothers đệ đơn xin phá sản vào tháng 9 năm 2008, trong khi những nơi phụ thuộc vào số liệu CPI chính thức đã phải chờ tới tháng Mười Một để nhìn thấy nó.

Dự án của MIT sau này đã tách ra thành một công ty thương mại gọi là PriceStats được các ngân hàng và những công ty khác sử dụng để đưa ra những quyết định kinh tế. Nó xử lý hàng triệu sản phẩm bán ra của hàng trăm nhà bán lẻ trong hơn 70 quốc gia mỗi ngày. Tất nhiên, các con số đòi hỏi phải có sự giải thích cẩn thận, nhưng chúng tốt hơn so với số liệu thống kê chính thức trong việc chỉ ra xu hướng lạm phát. Bởi vì có nhiều giá và các con số có sẵn trong thời gian thực, chúng cung cấp cho người ra quyết định một lợi thế đáng kể. (Phương pháp này cũng đóng vai trò như một cách kiểm tra bên ngoài đáng tin cậy đối với các cơ quan thống kê quốc gia. Ví dụ, The Economist nghi ngờ phương pháp tính lạm phát của Argentina, vì vậy đã dùng các số liệu của PriceStats để thay thế.)

Áp dụng sự hỗn độn

Trong nhiều lĩnh vực công nghệ và xã hội, chúng ta đang nghiêng về ủng hộ sự nhiều hơn và sự hỗn độn chứ không phải sự ít hơn và sự chính xác. Hãy xem xét trường hợp của việc phân loại nội dung. Trong nhiều thế kỷ con người đã phát triển các nguyên tắc phân loại và chỉ số để lưu trữ và tìm kiếm tài liệu. Những hệ thống phân cấp này đã luôn luôn không hoàn hảo, như những ai từng quen thuộc với danh mục thẻ thư viện đều có thể đau đớn nhớ lại. Trong một thế giới dữ-liệu-nhỏ thì chúng hoạt động đủ tốt. Tuy nhiên khi tăng quy mô lên nhiều cấp độ, những hệ thống này, được cho là sắp xếp vị trí mọi thứ bên trong rất hoàn hảo, lại sụp đổ. Ví dụ, trong năm 2011 trang web chia sẻ hình ảnh Flickr có chứa hơn 6 tỷ hình ảnh từ hơn 75 triệu người sử dụng. Việc cố gắng gán nhãn cho từng bức ảnh theo những thể loại định trước đã tỏ ra vô ích. Liệu đã thực sự có một thể loại mang tên “Mèo trông giống như Hitler”?

Thay vào đó, nguyên tắc phân loại sạch được thay thế bằng cơ chế hỗn độn hơn nhưng linh hoạt hơn và dễ thích nghi hơn một cách xuất sắc với một thế giới luôn tiến hóa và thay đổi. Khi tải ảnh lên Flickr, chúng ta “gán thẻ (tag)” cho chúng. Có nghĩa là chúng ta gán một số bất kỳ các nhãn văn bản và sử dụng chúng để tổ chức và tìm kiếm các tư liệu. Thẻ được tạo ra và gán một cách đặc biệt: không có những danh mục tiêu chuẩn hóa, được định trước, không có phân loại sẵn để chúng ta phải tuân thủ. Thay vào đó, bất cứ ai cũng đều có thể thêm các thẻ mới bằng cách gõ chúng vào. Gắn thẻ đã nổi lên như tiêu chuẩn thực tế để phân loại nội dung trên Internet, được sử dụng trên các trang mạng xã hội như Twitter, các blog… Nó làm cho người sử dụng dễ dàng di chuyển hơn trong sự bao la của nội dung các trang web – đặc biệt là cho những thứ như hình ảnh, phim, và âm nhạc không dựa trên văn bản nên việc tìm kiếm bằng từ không thể hoạt động được.

Tất nhiên, một số thẻ có thể bị viết sai chính tả, và những lỗi như vậy sẽ tạo ra sự không chính xác – không chỉ đối với chính dữ liệu, mà còn đối với việc chúng được tổ chức ra sao. Điều đó làm tổn thương tư duy truyền thống được rèn luyện trong sự chính xác. Nhưng bù lại cho sự hỗn độn trong cách chúng ta tổ chức các bộ sưu tập ảnh, chúng ta có được một vũ trụ phong phú hơn nhiều của các nhãn mác, và mở rộng ra, là một sự truy cập sâu hơn, rộng hơn tới các ảnh của chúng ta. Chúng ta có thể phối hợp các thẻ tìm kiếm để lọc các bức ảnh theo những cách không thể làm được trước đây. Sự thiếu chính xác vốn có trong gắn thẻ liên quan tới việc chấp nhận sự hỗn độn tự nhiên của thế giới. Nó là món thuốc giải độc cho các hệ thống chính xác hơn, vốn cố áp đặt tính tinh khiết sai lầm lên sự náo nhiệt của thực tế, giả vờ rằng tất cả mọi thứ dưới ánh mặt trời đều có thể được xếp ngay ngắn theo hàng và cột. Có nhiều thứ trên thiên đường và mặt đất hơn là những gì được mơ ước trong triết lý đó.

Nhiều trong số các trang web phổ biến nhất đã thể hiện rõ sự ưa thích tính thiếu chính xác hơn là sự kỳ vọng vào tính nghiêm cẩn. Khi người ta thấy một biểu tượng Twitter hay một nút “like” Facebook trên một trang web, nó cho thấy số lượng người đã nhấp chuột vào đó. Khi số lượng là nhỏ, mỗi cú nhấp chuột đều được hiển thị, như “63”. Tuy nhiên, khi số lượng lớn lên, con số được hiển thị chỉ là một kiểu ước lượng, như “4K”. Nó không có nghĩa là hệ thống không biết tổng số thực tế, mà chỉ vì khi quy mô tăng, thì việc cho thấy con số chính xác là ít quan trọng hơn. Bên cạnh đó, số lượng có thể thay đổi nhanh đến mức một con số cụ thể sẽ trở thành lạc hậu ngay vào thời điểm nó xuất hiện. Tương tự như vậy, Gmail của Google hiển thị thời gian của các tin nhắn mới nhất với độ chính xác cao, chẳng hạn như “11 phút trước”, nhưng với những thời lượng dài hơn thì nó tỏ ra thờ ơ, chẳng hạn như “2 giờ trước”, cũng giống như Facebook và một số hệ thống khác.

Ngành công nghiệp tình báo kinh doanh và phần mềm phân tích từ lâu đã được xây dựng trên cơ sở hứa hẹn với khách hàng “một phiên bản duy nhất của sự thật” – lời đồn đại phổ biến của những năm 2000 từ các nhà cung cấp công nghệ trong lĩnh vực này. Các giám đốc điều hành đã sử dụng câu này không phải với sự mỉa mai. Và một số người vẫn còn làm như vậy. Bằng cách này, họ cho rằng tất cả những ai truy cập các hệ thống công nghệ thông tin của công ty đều có thể thâm nhập vào cùng một dữ liệu; như vậy nhóm tiếp thị và nhóm bán hàng không cần phải tranh cãi xem ai có số liệu chính xác về khách hàng hay doanh số trước khi cuộc họp thậm chí bắt đầu. Mối bận tâm của họ có thể trở nên hòa hợp hơn nếu các số liệu và sự kiện là nhất quán – kiểu tư duy này cứ tiếp diễn như vậy.

Nhưng ý tưởng về “một phiên bản duy nhất của sự thật” là một yếu tố dễ dàng trở mặt. Chúng ta đang bắt đầu nhận thấy một phiên bản duy nhất của sự thật chẳng những không thể tồn tại, mà việc theo đuổi nó là một sự điên rồ. Để gặt hái những lợi ích của việc khai thác dữ liệu với quy mô, chúng ta phải chấp nhận sự hỗn độn như một điều hiển nhiên, chứ không phải một cái gì đó chúng ta nên cố gắng loại bỏ.

Thậm chí chúng ta đang nhìn thấy những đặc tính của sự không chính xác xâm nhập vào một trong những lĩnh vực ít cỏi mở nhất đối với nó: thiết kế cơ sở dữ liệu. Các hệ thống cơ sở dữ liệu truyền thống đòi hỏi dữ liệu phải có cấu trúc và tính chính xác rất cao. Dữ liệu không chỉ đơn giản được lưu trữ, chúng được chia thành “bản ghi” có chứa các trường. Mỗi trường lưu trữ thông tin với một kiểu và một độ dài nhất định. Ví dụ nếu một trường có độ dài bảy chữ số, khi đó số lượng 10 triệu hoặc lớn hơn sẽ không thể ghi lại được. Hoặc nếu muốn nhập cụm từ “không xác định” vào một trường cho số điện thoại cũng không thể được. Cấu trúc của cơ sở dữ liệu phải được thay đổi để có thể chấp nhận những mục kiểu này. Chúng ta vẫn phải đánh vật với những hạn chế như vậy trên máy tính và điện thoại thông minh của mình, khi phần mềm không chấp nhận các dữ liệu chúng ta muốn nhập.

Các chỉ số truyền thống cũng được xác định trước, và như vậy hạn chế những gì người ta có thể tìm kiếm. Khi thêm một chỉ số mới thì phải tạo lập lại từ đầu, rất tốn thời gian. Những cơ sở dữ liệu thông thường, còn gọi là cơ sở dữ liệu quan hệ, được thiết kế cho một thế giới trong đó dữ liệu là thưa thót, và do đó có thể và sẽ được sửa chữa cẩn thận. Đó là một thế giới mà các câu hỏi người ta muốn trả lời bằng cách sử dụng dữ liệu phải rõ ràng ngay từ đầu, để cơ sở dữ liệu được thiết kế nhằm trả lời chúng – và chỉ có chúng – một cách hiệu quả.

Tuy nhiên, quan điểm này của lưu trữ và phân tích ngày càng mâu thuẫn với thực tế. Ngày nay chúng ta có những lượng lớn dữ liệu với các loại và chất lượng khác nhau. Hiếm khi nó phù hợp với những phân loại được xác định trước một cách quy củ. Và các câu hỏi chúng ta muốn hỏi thường chỉ xuất hiện khi chúng ta thu thập và làm việc với các dữ liệu mình có.

Những thực tế này đã dẫn đến những thiết kế cơ sở dữ liệu mới mẻ phá vỡ các nguyên tắc cũ – những nguyên tắc của bản ghi và các trường được thiết đặt trước, phản ánh những phân cấp được xác định một cách quy củ của thông tin. Ngôn ngữ phổ biến nhất để truy cập cơ sở dữ liệu từ lâu đã là SQL, hoặc “ngôn ngữ truy vấn có cấu trúc”. Cái tên gợi lên sự cứng nhắc của nó. Nhưng sự thay đổi lớn trong những năm gần đây là hướng tới một cái gì đó gọi là NoSQL, không đòi hỏi một cấu trúc bản ghi cài đặt sẵn để làm việc. Nó chấp nhận dữ liệu với kiểu và kích thước khác nhau và giúp tìm kiếm chúng thành công. Để đổi lại việc cho phép sự hỗn độn về cấu trúc, những thiết kế cơ sở dữ liệu này đòi hỏi nhiều tài nguyên xử lý và dung lượng lưu trữ hơn. Tuy nhiên, đó là một sự cân bằng mà chúng ta có thể kham nổi, trên cơ sở chi phí cho lưu trữ và xử lý đã giảm mạnh.

Pat Helland, một trong những chuyên gia hàng đầu thế giới về thiết kế cơ sở dữ liệu, mô tả sự thay đổi cơ bản này trong một bài báo có tựa đề “Nếu bạn có quá nhiều dữ liệu, thì ‘đủ tốt’ là đủ tốt” (“if You Have Too Much Data, Then ‘Good enough’ is Good enough.”). Sau khi xác định một số nguyên tắc cốt lõi của thiết kế truyền thống mà nay đã bị xói mòn bởi dữ liệu lộn xộn với nguồn gốc và độ chính xác khác nhau, ông đưa ra các hệ quả: “Chúng ta không còn có thể giả vờ rằng mình đang sống trong một thế giới sạch”. Việc xử lý dữ liệu lớn đòi hỏi một sự mất mát thông tin không thể tránh khỏi – Helland gọi đó là “tổn hao”. Nhưng bù lại, nó cho ra một kết quả nhanh chóng. “Nếu chúng ta bị tổn hao một số câu trả lời cũng không sao – đó vẫn luôn là những gì việc kinh doanh cần”, Helland kết luận.

Thiết kế cơ sở dữ liệu truyền thống hứa hẹn sẽ cung cấp những kết quả luôn luôn nhất quán. Ví dụ nếu yêu cầu số dư tài khoản ngân hàng, bạn trông đợi sẽ nhận được con số chính xác. Và nếu yêu cầu nó một vài giây sau đó, bạn muốn hệ thống đưa ra cùng kết quả, với giả thuyết là không có thay đổi gì. Tuy nhiên, khi lượng dữ liệu thu thập phát triển và lượng người truy cập hệ thống tăng lên thì việc duy trì sự nhất quán này trở nên khó khăn hơn.

Các bộ dữ liệu lớn không tồn tại ở một nơi, chúng có xu hướng được phân bổ trên nhiều ổ đĩa cứng và máy tính. Để đảm bảo độ tin cậy và tốc độ, một bản ghi có thể được lưu trữ ở hai hoặc ba địa điểm khác nhau. Nếu bạn cập nhật bản ghi tại một địa điểm, dữ liệu ở các địa điểm khác sẽ không còn đúng nữa cho đến khi bạn cũng cập nhật nó. Trong khi các hệ thống truyền thống có một độ trễ để thực hiện tất cả các cập nhật, thì điều này không thực tế với dữ liệu được phân bổ rộng rãi và máy chủ phải bận rộn với hàng chục ngàn truy vấn mỗi giây. Khi đó, việc chấp nhận tính hỗn độn chính là một dạng giải pháp.

Sự thay đổi này được đặc trưng bởi sự phổ biến của Hadoop, một đối thủ mã nguồn mở của hệ thống MapReduce của Google, rất tốt khi xử lý những lượng lớn dữ liệu. Nó thực hiện điều này bằng cách chia dữ liệu thành những phần nhỏ hơn và chia chúng ra cho các máy khác. Vì dự kiến phần cứng sẽ hỏng hóc, nên nó tạo ra sự dư thừa. Nó đặt giả thuyết dữ liệu không được sạch sẽ và trật tự – trong thực tế, nó cho rằng dữ liệu là quá lớn để được làm sạch trước khi xử lý. Mặc dù việc phân tích dữ liệu điển hình đòi hỏi một chuỗi thao tác được gọi là “trích xuất, chuyển giao, và tải”, hoặc ETL (extract, transfer, and load) để chuyển dữ liệu đến nơi nó sẽ được phân tích, Hadoop bỏ qua những chi tiết như vậy. Thay vào đó, nó nghiễm nhiên chấp nhận rằng lượng dữ liệu là quá lớn nên không thể di chuyển và phải được phân tích ngay tại chỗ.

Đầu ra của Hadoop không chính xác bằng của các cơ sở dữ liệu quan hệ: nó không đáng tin để có thể dùng cho việc khởi động một con tàu vũ trụ hoặc xác nhận các chi tiết tài khoản ngân hàng. Nhưng đối với nhiều công việc ít quan trọng hơn, khi một câu trả lời cực kỳ chính xác là không cần thiết, thì nó thực hiện thủ thuật nhanh hơn rất nhiều so với các hệ thống khác. Hãy nghĩ tới những công việc như phân chia một danh sách khách hàng để gửi tới một số người một chiến dịch tiếp thị đặc biệt. Sử dụng Hadoop, công ty thẻ tín dụng Visa đã có thể giảm thời gian xử lý hồ sơ kiểm tra của hai năm, khoảng 73 tỷ giao dịch, từ một tháng xuống chỉ còn 13 phút. Việc tăng tốc xử lý như vậy là mang tính đột phá đối với các doanh nghiệp.

Kinh nghiệm của ZestFinance, một công ty được thành lập bởi cựu giám đốc thông tin của Google, Douglas Merrill, nhấn mạnh điểm này. Công nghệ của nó giúp người cho vay quyết định có hay không cung cấp những khoản vay ngắn hạn tương đối nhỏ cho những người có vẻ như có điểm tín dụng kém. Tuy nhiên, trong khi điểm tín dụng truyền thống là chỉ dựa trên một số ít tín hiệu mạnh như các thanh toán chậm trước đây, thì ZestFinance phân tích một số lượng lớn các biến “yếu kém”. Trong năm 2012, nó đã tự hào đưa ra một tỷ giá mặc định cho các khoản vay, một phần ba ít hơn so với mức trung bình trong ngành. Nhưng cách duy nhất để làm cho hệ thống hoạt động là chấp nhận sự hỗn độn.

“Một trong những điều thú vị”, Merrill nói, “là không có ai mà tất cả các trường thông tin đều được điền đủ. Luôn luôn có một số lượng lớn dữ liệu bị thiếu”. Ma trận thông tin do ZestFinance tập hợp là vô cùng tản mạn, một tập tin cơ sở dữ liệu đầy ắp những trường bị thiếu. Vì vậy, công ty “quy trách nhiệm” cho các dữ liệu bị thiếu. Ví dụ khoảng 10 phần trăm khách hàng của ZestFinance được liệt kê là đã chết – nhưng hóa ra điều đó chẳng ảnh hưởng đến việc trả nợ. “Vì vậy, rõ ràng là khi chuẩn bị hủy diệt những thây ma, hầu hết mọi người cho rằng không có khoản nợ nào sẽ được hoàn trả. Nhưng từ dữ liệu của chúng tôi, có vẻ như các thây ma đều trả lại khoản vay của mình”, Merrill lém lỉnh kể tiếp.

Đổi lại việc sống chung với sự hỗn độn, chúng ta có được những dịch vụ rất có giá trị, những thứ lẽ ra không thể có ở phạm vi và quy mô của chúng với những phương pháp và công cụ truyền thống. Theo một số ước tính thì chỉ 5 phần trăm của tất cả dữ liệu kỹ thuật số là “có cấu trúc” – nghĩa là ở dạng thích hợp để đưa vào một cơ sở dữ liệu truyền thống. Nếu không chấp nhận sự hỗn độn thì 95 phần trăm còn lại của dữ liệu phi cấu trúc, chẳng hạn các trang web và phim, sẽ hoàn toàn ở trong bóng tối. Bằng cách cho phép sự không chính xác, chúng ta mở cửa vào một thế giới đầy những hiểu biết chưa được khai thác.

Xã hội đã thực hiện hai sự đánh đổi ngấm ngầm đã trở nên quen thuộc trong cách chúng ta ứng xử đến nỗi ta thậm chí không xem chúng như những sự đánh đổi, mà chỉ như trạng thái tự nhiên của sự vật. Thứ nhất, chúng ta cho rằng mình không thể sử dụng được thật nhiều dữ liệu, vì vậy chúng ta không sử dụng. Nhưng sự hạn chế đó ngày càng mất đi ý nghĩa, và có rất nhiều thứ có thể đạt được nếu sử dụng một cái gì đó tiệm cận N = tất cả.

Sự đánh đổi thứ hai là về chất lượng của thông tin. Trong kỷ nguyên của dữ liệu nhỏ, khi chúng ta chỉ thu thập được một ít thông tin thì tính chính xác của nó phải là cao nhất có thể. Điều đó hợp lý. Trong nhiều trường hợp, điều này vẫn còn cần thiết. Nhưng đối với nhiều thứ khác, sự chính xác nghiêm ngặt ít quan trọng hơn việc nắm bắt được nhanh chóng những nét đại cương hay bước tiến triển theo thời gian của chúng.

Cách chúng ta nghĩ về việc sử dụng toàn bộ các thông tin so với những mảnh nhỏ của nó, và cách chúng ta có thể đi đến đánh giá cao sự lỏng lẻo thay vì tính chính xác, sẽ có những ảnh hưởng sâu sắc lên tương tác của chúng ta với thế giới. Khi kỹ thuật dữ-liệu-lớn trở thành một phần thường lệ của cuộc sống hàng ngày, chúng ta với tư cách một xã hội có thể bắt đầu cố gắng hiểu thế giới từ một góc nhìn lớn hơn, toàn diện hơn nhiều so với trước đây, một kiểu N = tất cả. Chúng ta có thể chấp nhận vết mờ và sự không rõ ràng trong những lĩnh vực mà mình vẫn thường đòi hỏi sự rõ ràng và chắc chắn, ngay cả khi chúng chỉ là một sự rõ ràng giả tạo và một sự chắc chắn không hoàn hảo. Chúng ta có thể chấp nhận điều này với điều kiện đổi lại chúng ta có được một hiểu biết hoàn chỉnh hơn về thực tại – tương đương với một bức tranh trừu tượng, trong đó từng nét vẽ là lộn xộn nếu được xem xét thật gần, nhưng khi bước lùi lại, ta có thể thấy một bức tranh hùng vĩ.

Dữ liệu lớn, với sự nhấn mạnh vào các bộ dữ liệu toàn diện và sự hỗn độn, giúp chúng ta tiến gần hơn tới thực tế so với sự phụ thuộc vào dữ liệu nhỏ và độ chính xác. Sự hấp dẫn của “một số” và “chắc chắn” là điều dễ hiểu. Hiểu biết của chúng ta về thế giới có thể đã không đầy đủ và đôi khi sai lầm khi chúng ta bị hạn chế trong những gì chúng ta có thể phân tích, nhưng có một điều khá chắc chắn là nó mang lại một sự ổn định đáng yên tâm. Bên cạnh đó, vì bị kìm hãm trong dữ liệu có thể thu thập và khảo sát, chúng ta đã không phải đối mặt với sự cưỡng bách để có được tất cả mọi thứ, để xem tất cả mọi thứ từ mọi góc độ có thể. Và trong giới hạn hẹp của dữ liệu nhỏ, chúng ta vẫn không có được bức tranh lớn hơn dù có thể tự hào về độ chính xác của mình – thậm chí bằng cách đo các chi tiết vụn vặt đến một phần n độ.

Rốt cuộc, dữ liệu lớn có thể đòi hỏi chúng ta thay đổi, để trở nên thoải mái hơn với sự rối loạn và sự không chắc chắn. Các cấu trúc của sự chính xác, dù dường như cho chúng ta những ý nghĩa trong cuộc sống – kiểu như cái cọc tròn phải chui vào cái lỗ tròn; rằng chỉ có một câu trả lời cho một câu hỏi – lại dễ bị bóp méo hơn so với mức độ chúng ta có thể thừa nhận. Tuy nhiên sự thừa nhận, thậm chí đón nhận, tính linh hoạt này sẽ đưa chúng ta đến gần hơn với thực tế.

Những thay đổi trong tư duy này là những chuyển đổi căn bản, chúng dẫn tới một sự thay đổi thứ ba có khả năng phá hủy một tập quán còn cơ bản hơn của xã hội: ý tưởng về việc hiểu được các lý do đằng sau tất cả những gì xảy ra. Thay vào đó, như chương tiếp theo sẽ giải thích, việc tìm được các mối liên kết trong dữ liệu và hành động dựa trên chúng thường có thể là đủ tốt rồi.

Chưa có ai yêu thích truyện này!
× Chú ý: Ấn vào MENU chọn D/S TRUYỆN ĐANG ĐỌC hoặc ấn vào biểu tượng CUỘN GIẤY ở trên cùng để xem lại các truyện bạn đang đọc dở nhé.    

Đọc truyện hay đừng quên like và chia sẻ truyện tới bạn bè, để lại bình luận là cách để ủng hộ webtruyenfree. Thỉnh thoảng ấn vào q uảng c áo ngày 1-2 lần để tụi mình có kinh phí duy trì web các bạn nhé!


 BÌNH LUẬN TRUYỆN