Dữ Liệu Lớn - Big Data
Chú Giải Thông Tin
Chương 1. HIỆN TẠI
Xu hướng Dịch cúm của Google – Jeremy Ginsburg et al., “Detecting Influenza Epidemics Using Search Engine Query Data”, Nature 457 (2009), pp. 1012-14 (https://www.nature.com/ nature/journal/v457/n7232/full/nature07634.html). Nghiên cứu tiếp theo về Xu hướng Dịch cúm của Google – A. F. Dugas et al., “Google Flu Trends: Correlation with Emergency Department Influenza Rates and Crowding Metrics”, CID Advanced Access (January 8, 2012); DOI 10.1093 /cid/cir883. Mua vé máy bay, Farecast – Các thông tin xuất phát từ Kenneth Cukier, “Data, Data Everywhere”, The Economist special report, February 27, 2010, pp. 1-14, và từ các cuộc phỏng vấn với Etzioni giữa năm 2010 và 2012.
Dự án Hamlet của Etzioni – Oren Etzioni, C.A. Knoblock, R. Tuchinda, and A. Yates, “To Buy or Not to Buy: Mining Airfare Data to Minimize Ticket Purchase Price”, SIGKDD ’03, August 24-27, 2003 (https://knight.cis.temple.edu/~yates//papers/ hamlet-kdd03.pdf).
Giá Microsoft trả cho Farecast – Từ báo cáo truyền thông, đặc biệt là “Secret Farecast Buyer Is Microsoft”, Seattlepi.com, April 17, 2008 (https://blog.seattlepi.com/venture/2008/04/17/secretfarecast-buyer-is-microsoft/?source=mypi).
Một cách nghĩ về dữ liệu lớn – Có một cuộc tranh luận ồn ào nhưng không hiệu quả về nguồn gốc của thuật ngữ “dữ liệu lớn” và làm sao để định nghĩa nó một cách hoàn hảo. Thuật ngữ này đã thỉnh thoảng xuất hiện từ nhiều thập kỷ nay. Một báo cáo nghiên cứu năm 2001 bởi Doug Laney của Gartner đưa ra công thức “ba V” của dữ liệu lớn (volume, velocity, variety – khối lượng, vận tốc, và tính đa dạng), tuy hữu ích vào lúc đó nhưng không hoàn hảo. Thiên văn học và xác định trình tự DNA – Cukier, “Data, Data Everywhere”. Hàng tỷ cổ phiếu được mua bán – R ita Nazareth and Julia Leite, “Stock Trading in U.S. Falls to Lowest Level Since 2008”, Bloomberg, August 13, 2012 (https://www.bloomberg.com/news/2012-08-13/stock-trading-in-u-s-hits-lowest-levelsince-2008-as-vix-falls.html).
24 petabyte mỗi ngày của Google – Thomas H. Davenport, Paul Barth, and Randy Bean, “How ‘Big Data’ Is Different”, Sloan Review, July 30, 2012, pp. 43-46 (https://sloanreview.mit.edu/ the- magazine/ 2012- fall/ 54104/how- big- data- is- different/). Số liệu thống kê Facebook – Facebook IPO prospectus, “Form S-1 Registration Statement”, U.S. Securities and Exchange Commission, February 1, 2012 (https://sec.gov/Archives/edgar/ data/1326801/000119312512034517/d287954ds1.htm). Số liệu thống kê YouTube – Larry Page, “Update from the CEO”, Google, April 2012 (https://investor.google.com/corporate/2012/ ceo-letter.html).
Số lượng tweet – Tomio Geron, “Twitter’s Dick Costolo: Twitter Mobile Ad Revenue Beats Desktop on Some Days”, Forbes, June 6, 2012 (https://www.forbes.com/sites/tomiogeron/2012/06/06/ twitters-dick-costolo-mobile-ad-revenue-beats-desktop-onsome-days/).
Thông tin về số lượng của dữ liệu – Martin Hilbert and Priscilla López, “The World’s Technological Capacity to Store, Communicate, and Compute Information” Science, April 1, 2011, pp. 60-65; Martin Hilbert and Priscilla López, “How to Measure the World’s Technological Capacity to Communicate, Store and Compute Information?” International Journal of Communication 2012, pp. 1042-55 (https://www.ijoc.org/ojs/ index.php/ijoc/article/viewFile/1562/742).
Ước tính lượng thông tin được lưu trữ vào năm 2013 – Cukier phỏng vấn Hilbert, 2012.
In ấn và tám triệu cuốn sách; xuất bản nhiều hơn kể từ khi thành lập Constantinople – E lizabeth L. Eisenstein, The Printing Revolution in Early Modern Europe (Canto/Cambridge University Press, 1993), pp. 13-14.
Phép tương tự của Peter Norvig – Từ các buổi nói chuyện của Norvig dựa vào bài: A. Halevy, P. Norvig, and F. Pereira, “The Unreasonable Effectiveness of Data”, IEEE Intelligent Systems, March/April 2009, pp. 8-12 (https://www.computer.org/portal/ cms_docs_intelligent/intelligent/homepage/2009/x2exp.pdf). (Lưu ý rằng tiêu đề là từ bài viết của Eugene Wigner “Tính Hiệu quả phi lý của Toán học trong Khoa học Tự nhiên”, trong đó ông xem xét tại sao vật lý có thể được thể hiện rất đẹp trong toán học cơ bản nhưng khoa học xã hội lại chống lại những công thức gọn gàng như vậy. Xem E. Wigner “The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Communications on Pure and Applied Mathematics 13, no. 1 (1960), pp. 1-14.) “Peter Norvig – The Unreasonable Effectiveness of Data”, lecture at University of British Columbia, YouTube, September 23, 2010 (https://www.youtube.com/watch?v=yvDCzhbjYWs). Về kích thước vật lý ảnh hưởng đến định luật vật lý thực hành (mặc dù không hoàn toàn chính xác), nguồn tham khảo thường được trích dẫn là J. B. S. Haldane, “On Being the Right Size”, Harper’s Magazine, March 1926 (https://harpers.org/archive/1926/03/onbeing-the-right-size/).
Picasso và những hình ảnh Lascaux – David Whitehouse, “UK Science Shows Cave Art Developed Early”, BBC News Online, October 3, 2001 (https://news.bbc.co.uk/1/hi/sci/ tech/1577421.stm).
Chương 2. NHIỀU HƠN
Trích dẫn Jeff Jonas – Conversation with Jonas, December 2010, Paris.
Lịch sử của điều tra dân số Mỹ – U.S. Census Bureau, “The Hollerith Machine” Online history. (https://www.census.gov/ history/www/innovations/technology/the_hollerith_tabulator. html.
Đóng góp của Neyman – William Kruskal and Frederick Mosteller, “Representative Sampling, IV: The History of the Concept in Statistics, 1895-1939”, International Statistical Review 48 (1980), pp. 169-195, pp. 187-188. Bài viết nổi tiếng của Neyman là “On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection”, Journal of the Royal Statistical Society 97, no. 4 (1934), pp. 558-625.
Một mẫu của 1.100 quan sát là đủ – Earl Babbie, Practice of Social Research (12th ed. 2010), pp. 204-207.
Tác dụng của điện thoại di động – “Estimating the Cellphone Effect”, September 20, 2008 (https://www.fivethirtyeight. com/2008/09/estimating-cellphone-effect-22-points.html); để biết thêm về những định kiến trong việc bỏ phiếu và những hiểu biết thống kê khác, xem Nate Silver, The Signal and the Noise: Why So Many Predictions
Trình tự gen của Steve Jobs – Walter Isaacson, Steve Jobs (Simon and Schuster, 2011), pp. 550-551.
Xu hướng Dịch cúm Google dự đoán đến cấp thành phố – Dugas et al., “Google Flu Trends”.
Etzioni về dữ liệu thời gian – Interview by Cukier, October 2011. Trích dẫn John Kunze – Jonathan Rosenthal, “Special Report: International Banking”, The Economist, May 19, 2012, pp. 7-8.
Gian lận các trận đấu sumo – Mark Duggan and Steven D. Levitt, “Winning Isn’t Everything: Corruption in Sumo Wrestling”, American Economic Review 92 (2002), pp. 1594-1605 (https://pricetheory.uchicago.edu/levitt/Papers/ DugganLevitt2002.pdf).
11 triệu tia ánh sáng của Lytro – từ trang web của công ty Lytro (https://www.lytro.com).
Thay thế lấy mẫu trong khoa học xã hội – Mike Savage and Roger Burrows, “The Coming Crisis of Empirical Sociology”, Sociology 41 (2007), pp. 885-899.
Về phân tích dữ liệu toàn diện từ một nhà điều hành điện thoại di động – J. P. Onnela et al., “Structure and Tie Strengths in Mobile Communication Networks”, Proceedings of the National Academy of Sciences of the United States of America (PNAS) 104 (May 2007), pp. 7332-36 (https://nd.edu/~dddas/Papers/ PNAS0610245104v1.pdf).
Chương 3. HỖN ĐỘN
Crosby – Alfred W. Crosby, The Measure of Reality: Quantification and Western Society, 1250-1600 (Cambridge University Press, 1997).
Về các trích dẫn của Kelvin và Bacon – Những câu cách ngôn này được nhiều người cho là của hai ông, mặc dù phát biểu thực tế trong tác phẩm viết của họ hơi khác. Với Kelvin, nó là một phần của một trích dẫn về đo lường, từ bài giảng của ông tên là “Electrical Units of Measurement” (1883). Với Bacon, nó được xem là một bản dịch chưa chặt chẽ từ tiếng Latin, trong Meditationes Sacrae (1597).
Nhiều cách để hiểu từ viết tắt IBM – DJ Patil, “Data Jujitsu: The Art of Turning Data into Product”, O’Reilly Media, July 2012 (https://oreillynet.com/oreilly/data/radarreports/data-jujitsu. csp?cmp=tw-strata-books-data-products).
30.000 giao dịch mỗi giây trên NYSE – Colin Clark, “Improving Speed and Transparency of Market Data”, NYSE EURONEX T blog post, January 9, 2011 (https://exchanges.nyx.com/cclark/ improving-speed-and-transparency-market-data).
Ý tưởng “2 + 2 = 3,9” – Brian Hopkins and Boris Evelson, “Expand Your Digital Horizon with Big Data”, Forrester, September 30, 2011.
Những cải thiện trong các thuật toán – President’s Council of Advisors on Science and Technology, “Report to the President and Congress, Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology”, December 2010, p. 71 (https://www.whitehouse. gov/sites/default/files/microsites/ostp/pcast-nitrdreport-010.pdf).
Các thế cờ tàn – Bảng thế cờ tàn toàn diện nhất được công bố, bảng Nalimov (đặt theo tên của một trong những người lập ra nó), bao gồm tất cả các ván cờ cho sáu quân cờ hoặc ít hơn. Dung lượng của nó là hơn 7 terabyte, và việc nén thông tin trong đó là một thách thức lớn. Xem E. V. Nalimov, G. McC. Haworth, and E. A. Heinz, “Space-efficient Indexing of Chess Endgame Tables”, ICGA Journal 23, no. 3 (2000), pp. 148-162.
Microsoft và hiệu suất thuật toán – Michele Banko and Eric Brill, “Scaling to Very Very Large Corpora for Natural Language Disambiguation”, Microsoft Research, 2001, p. 3 (https://acl.ldc. upenn.edu/P/P01/P01-1005.pdf).
Bản thử nghiệm, lời nói, và trích dẫn của IBM – IBM, “701 Translator”, press release, IBM archives, January 8, 1954 (https:// www-03.ibm.com/ibm/history/exhibits/701/701_translator. html). Xem thêm John Hutchins, “The First Public Demonstration of Machine Translation: The Georgetown-IBM System, 7th January 1954”, November 2005 (https://www.hutchinsweb. me.uk/GU-IBM-2005.pdf).
IBM Candide – Adam L. Berger et al., “The Candide System for Machine Translation”, Proceedings of the 1994 ARPA Workshop on Human Language Technology, 1994 (https://aclweb.org/ anthology-new/H/H94/H94-1100.pdf).
Lịch sử của dịch thuật máy – Yorick Wilks, Machine Translation: Its Scope and Limits (Springer, 2008), p. 107.
Hàng triệu văn bản của Candide so với hàng tỷ văn bản của Google – Och interview with Cukier, December 2009.
Tập sao lục 95 tỷ câu của Google – Alex Franz and Thorsten Brants, “All Our N-gram are Belong to You”, Google blog post, August 3, 2006 (https://googleresearch.blogspot.co.uk/2006/08/ all-our-n-gram-are-belong-to-you.html).
Tập sao lục Brown và 1 nghìn tỷ từ của Google – Halevy, Norvig, and Pereira, “The Unreasonable Effectiveness of Data”.
Trích dẫn từ bài viết của đồng tác giả Norvig – sđd.
Sự ăn mòn đường ống của BP và môi trường không dây gây hại – Jaclyn Clarabut, “Operations Making Sense of Corrosion”, BP Magazine, issue 2 (2011) (https://www.bp.com/liveassets/ bp_ internet/globalbp/globalbp_uk_english/reports_and_ publications/bp_magazine/STAGING/local_assets/pdf/BP_Magazine_2011_issue2_text.pdf). Khó khăn trong việc đọc dữ liệu không dây – Cukier, “Data, Data, Everywhere”. Hệ thống này rõ ràng không thể sai lầm: một đám cháy tại nhà máy lọc dầu BP Cherry Point vào tháng 2 năm 2012 được quy lỗi cho một đường ống bị ăn mòn.
Dự án với giá hàng tỷ – Từ cuộc phỏng vấn với người đồng sáng lập với Cukier, Tháng 10 năm 2012. James Surowiecki, “A Billion Prices Now”, The New Yorker, May 30, 2011; dữ liệu và các chi tiết có thể được tìm thấy trên trang web của dự án (https://bpp. mit.edu/); Annie Lowrey, “Economists’ Programs Are Beating U.S. at Tracking Inflation”, Washington Post, December 25, 2010 (https://www.washingtonpost.com/wp-dyn/content/ article/2010/12/25/AR2010122502600.html).
Price Stats với vai trò kiểm tra số liệu thống kê quốc gia – “Official Statistics: Don’t Lie to Me, Argentina”, The Economist, February 25, 2012 (https://www.economist.com/node/21548242). Số lượng hình ảnh trên Flickr – Từ trang web Flickr (https://www. flick.com).
Về thách thức đối với phân loại thông tin – David Weinberger, Everything Is Miscellaneous: The Power of the New Digital Disorder (Times, 2007).
Pat Helland – Pat Helland, “If You Have Too Much Data Then ‘Good Enough’ Is Good Enough”, Communications of the ACM, June 2011, pp. 40, 41. Có một cuộc tranh luận sôi nổi trong cộng đồng cơ sở dữ liệu về các mô hình và khái niệm tốt nhất có thể để đáp ứng các nhu cầu của dữ liệu lớn. Helland đại diện cho nhóm để nghị bỏ các công cụ đã được sử dụng trong quá khứ. Michael Rys, “Scalable SQL”, Communications of the ACM, June 2011, p. 48. Bài này cho rằng những phiên bản được áp dụng nhiều của các công cụ hiện có sẽ làm việc tốt.
Visa sử dụng Hadoop – Cukier, “Data, data everywhere”. Chỉ có 5 phần trăm thông tin là dữ liệu có cấu trúc – Abhishek Mehta, “Big Data: Powering the Next Industrial Revolution”, Tableau Software White Paper, 2011 (https://www. tableausoftware.com/learn/whitepapers/big-data-revolution).
Chương 4. TƯƠNG QUAN
Câu chuyện của Linden cũng như “tiếng nói của Amazon” – Linden interview with Cukier, March 2012.
WSJ trong các bài phê bình trên Amazon – Như trích dẫn trong James Marcus, Amazonia: Five Years at the Epicenter of the Dot. Com Juggernaut (New Press, 2004), p. 128.
Trích dẫn Marcus – Marcus, Amazonia, p. 199.
Các giới thiệu là một phần ba thu nhập của Amazon – Con số này chưa bao giờ được công ty chính thức xác nhận nhưng đã được xuất bản trong nhiều báo cáo phân tích và bài viết trên phương tiện truyền thông, bao gồm cả “Building with Big Data: The Data Revolution Is Changing the Landscape of Business”, The Economist, May 26, 2011 (https://www.economist.com/ node/18741392/).
Con số này cũng đã được tham chiếu bởi hai cựu giám đốc điều hành Amazon trong các cuộc phỏng vấn với Cukier.
Thông tin giá Netflix – Xavier Amatriain and Justin Basilico, “Netflix Recommendations: Beyond the 5 stars (Part 1)”, Netflix blog, April 6, 2012.
“Bị lừa bởi Ngẫu nhiên” – Nassim Nicholas Taleb, Fooled by Randomness (Random House, 2008); Nassim Nicholas Taleb, The Black Swan: The Impact of the Highly Improbable (2nd ed., Random House, 2010).
Walmart và Pop-Tarts – Constance L. Hays, “What Wal-Mart Knows About Customers’ Habits”, New York Times, November 14, 2004 (https://www.nytimes.com/2004/11/14/business/ yourmoney/14wal.html).
Ví dụ về các mô hình dự báo của FICO, Experian, và Equifax – Scott Thurm, “Next Frontier in Credit Scores: Predicting Personal Behavior”, Wall Street Journal, October 27, 2011 (https://online. wsj.com/article/SB10001424052970203687504576655182086300 912.html).
Các mô hình dự báo của Aviva – Leslie Scism and Mark Maremont, “Insurers Test Data Profiles to Identify Risky Clients”, Wall Street Journal, November 19, 2010 (https://online. wsj.com/article/SB10001424052748704648604575620750998072 986.html); Leslie Scism and Mark Maremont, “Inside Deloitte’s Life-Insurance Assessment Technology”, Wall Street Journal, November 19, 2010 (https://online.wsj.com/article/SB1000142 4052748704104104575622531084755588.html); Howard Mills, “Analytics: Turning Data into Dollars”, Forward Focus, December 2011 (https://www.deloitte.com/assets/Dcom-UnitedStates/ Local%20Assets/Documents/FSI/US_FSI_Forward%20Focus_ Analytics_ Turning%20data%20into%20dollars_120711.pdf). Ví dụ về Target và thiếu niên mang thai – Charles Duhigg, “How Companies Learn Your Secrets”, New York Times, February 16, 2012 (https://www.nytimes.com/2012/02/19/magazine/ shopping-habits.html). Bài viết được chuyển thể từ cuốn sách của Duhigg, The Power of Habit: Why We Do What We Do in Life and Business (Random House, 2012); Target đã tuyên bố có những sự thiếu chính xác trong báo cáo của phương tiện truyền thông về các hoạt động của mình nhưng từ chối cho biết chúng là những gì. Khi được hỏi về vấn đề với cuốn sách này, một phát ngôn viên của Target trả lời: “Mục đích là sử dụng dữ liệu khách hàng để tăng cường mối quan hệ của khách hàng với Target. Khách hàng của chúng tôi muốn nhận được giá trị cao, những lời chào hàng thích hợp, và một trải nghiệm vượt trội. Giống như nhiều công ty, chúng tôi sử dụng công cụ nghiên cứu giúp hiểu được xu hướng mua sắm và sở thích của khách hàng để có thể gửi lời chào hàng và chương trình khuyến mãi phù hợp với họ. Chúng tôi có trách nhiệm bảo vệ lòng tin của khách hàng một cách rất nghiêm túc. Một trong những cách chúng tôi áp dụng là có một chính sách bảo mật toàn diện mà chúng tôi chia sẻ công khai trên Target.com, và thường xuyên dạy các nhân viên của chúng tôi cách bảo vệ thông tin của khách hàng”.
Các phân tích của UPS tỏ ra hiệu quả – Cukier interviews with Jack Levis, 2012.
Trẻ sinh thiếu tháng – Dựa trên các cuộc phỏng vấn với McGregor trong năm 2010và năm 2012. Carolyn McGregor, Christina Catley, Andrew James, và James Padbury, “Next Generation Neonatal Health Informatics with Artemis”, in European Federation for Medical Informatics, User Centred Networked Health Care, ed. A. Moen et al. (IOS Press, 2011), p. 117. Một số tài liệu xuất phát từ Cukier, “Data, Data, Everywhere”.
Về tương quan giữa hạnh phúc và thu nhập – R. Inglehart and H.-D. Klingemann, Genes, Culture and Happiness (MIT Press, 2000).
Về bệnh sởi và các chi phí y tế, cùng các công cụ phi tuyến tính mới cho phân tích tương quan – David Reshef et al., “Detecting Novel Associations in Large Data Sets”, Science 334 (2011), pp. 1518-24.
Kahneman – Daniel Kahneman, Thinking, Fast and Slow (Farrar, Straus and Giroux, 2011), pp. 74-75.
Pasteur – Đối với độc giả quan tâm đến ảnh hưởng lớn của Pasteur về cách chúng ta nhận thức sự vật, mời xem Bruno Latour, The Pasteurization of France (Harvard University Press, 1993). Nguy cơ mắc bệnh dại – Melanie Di Quinzio and Anne McCarthy, “Rabies Risk Among Travellers”, CMAJ 178, no. 5 (2008), p. 567. Nhân quả hiếm khi có thể được chứng minh – Nhà khoa học máy tính đoạt giải thưởng Turing, Judea Pearl, đã phát triển một cách để chính thức thể hiện động lực quan hệ nhân quả; dù không có bằng chứng chính thức, điều này cung cấp một cách tiếp cận thực tế để phân tích các quan hệ nhân quả. Judea Pearl, Causality: Models, Reasoning and Inference (Cambridge University Press, 2009).
Ví dụ xe Orange – Quentin Hardy. “Bizarre Insights from Big Data”, nytimes.com, March 28, 2012 (https://bits.blogs.nytimes. com/2012/03/28/bizarre-insights-from-big-data/); and Kaggle, “Momchil Georgiev Shares His Chromatic Insight from Don’t Get Kicked”, blog posting, February 2, 2012 (https://blog.kaggle. com/2012/02/02/momchil-georgiev-shares-his-chromaticinsight-from-dont-get-kicked/).
Sức nặng của nắp cống, số lượng các vụ nổ, và chiều cao của các vụ nổ – R achel Ehrenberg, “Predicting the Next Deadly Manhole Explosion”, Wired, July 7, 2010 (https://www.wired. com/wiredscience/2010/07/manhole-explosions).
Con Edison làm việc với các nhà thống kê thuộc Đại học Columbia – trường hợp này được mô tả cho độc giả trong Cynthia Rudin et al., “21st-Century Data Miners Meet 19th-Century Electrical Cables”, Computer, June 2011, pp. 103-105. Các mô tả kỹ thuật của công trình có trong những bài báo chuyên ngành của Rudin và cộng sự trên các trang web của họ, đặc biệt là Cynthia Rudin et al., “Machine Learning for the New York City Power Grid”, IEEE Transactions on Pattern Analysis and Machine Intelligence 34, no. 2 (2012), pp. 328-345 (https://hdl.handle.net/1721.1/68634).
Sự hỗn độn của thuật ngữ “tủ điện” – Rudin et al., “21st-Century Data Miners Meet 19th-Century Electrical Cables”.
Trích dẫn của Rudin từ cuộc phỏng vấn với Cukier, tháng 3 năm 2012.
Các lượt xem của Anderson – Chris Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, Wired, June 2008 (https://www.wired.com/science/discoveries/ magazine/16-07/pb_theory/).
Anderson rút lại tuyên bố – National Public Radio, “Search and Destroy”, July 18, 2008 (https://www.onthemedia.org/2008/ jul/18/search-and-destroy/transcript/).
Về các lựa chọn ảnh hưởng đến phân tích của chúng ta – danah boyd and Kate Crawford. “Six Provocations for Big Data”, paper presented at Oxford Internet Institute’s “A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society”, September 21, 2011 (https://ssrn.com/abstract=1926431).
Chương 5. DỮ LIỆU HÓA
Các chi tiết về cuộc sống của Maury được biên soạn từ nhiều tác phẩm của ông và về ông: Chester G. Hearn, Tracks in the Sea: Matthew Fontaine Maury and the Mapping of the Oceans (International Marine/McGraw-Hill, 2002); Janice Beaty, Seeker of Seaways: A Life of Matthew Fontaine Maury, Pioneer Oceanographer (Pantheon Books, 1966); Charles Lee Lewis, Matthew Fontaine Maury: The Pathfinder of the Seas (U.S. Naval Institute, 1927) (https://archive.org/details/ matthewfontainem00lewi); Matthew Fontaine Maury, The Physical Geography of the Sea (Harper, 1855).
Trích dẫn của Maury – Maury, Physical Geography of the Sea, “Introduction”, pp. xii, vi.
Dữ liệu về ghế xe hơi – Nikkei, “Car Seat of Near Future IDs Driver’s Backside”, December 14, 2011.
Đinh lượng thế giới – Phần lớn suy nghĩ của tác giả về lịch sử dữ liệu hóa đã được lấy cảm hứng từ Crosby, The Measure of Reality. Người châu Âu chưa bao giờ được tiếp xúc với bàn tính – Sđd, 112. Calculating faster using Arabic numerals – Alexander Murray, Reason and Society in the Middle Ages (Oxford University Press, 1978), p. 166.
Tổng số sách được xuất bản và nghiên cứu của Harvard về dự án sao chụp sách của Google – Jean-Baptiste Michel et al., “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science 331 (January 14, 2011), pp. 176-182 (https://www. sciencemag.org/content/331/6014/176.abstract). Về bài giảng video – Erez Lieberman Aiden and Jean-Baptiste Michel, “What We Learned from 5 Million Books”, TEDx, Cambridge, MA, 2011 (https://www.ted.com/talks/what_we_learned_from_5_million_ books.html).
Về các mô-đun vô tuyến trong xe hơi và bảo hiểm – Cukier, “Data, Data Everywhere”.
Jack Levis của UPS – Interview with Cukier, April 2012.
Số liệu về khoản tiết kiệm được của UPS – Institute for Operations Research and the Management Sciences (INFORMS), “UPS Wins Gartner BI Excellence Award”, 2011 (https://www.informs.org/ Announcements/UPS-wins-Gartner-BI-Excellence-Award). Nghiên cứu Pentland – Robert Lee Hotz, “The Really Smart Phone”, Wall Street Journal, April 22, 2011 (https://online.wsj. com/article/SB1000142405274870454760457626326167984881 4.html).
Nghiên cứu các khu ổ chuột của Eagle – Nathan Eagle, “Big Data, Global Development, and Complex Systems”, Santa Fe Institute, May 5, 2010 (https://www.youtube.com/watch?v=yaivtqlu7iM); Interview with Cukier, October 2012.
Dữ liệu Facebook – Facebook IPO Prospectus, 2012.
Dữ liệu Twitter – Alexia Tsotsis, “Twitter Is at 250 Million Tweets per Day, iOS 5 Integration Made Signups Increase 3x”, TechCrunch, October 17, 2011, https://techcrunch. com/2011/10/17/twitter-is-at-250-million-tweets-per-day/. Quỹ phòng hộ sử dụng Twitter – Kenneth Cukier, “Tracking Social Media: The Mood of the Market”, Economist.com, June 28, 2012 (https://www.economist.com/blogs/graphicdetail/2012/06/ tracking-social-media).
Twitter và dự báo doanh thu phòng vé của Hollywood – Sitaram Asur and Bernardo A. Huberman, “Predicting the Future with Social Media”, Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, pp. 492-499; online at https://www.hpl. hp.com/research/scl/papers/socialmedia/socialmedia.pdf. Twitter và cảm xúc trên toàn cầu – Scott A. Golder and Michael W. Macy, “Diurnal and Seasonal Mood Vary with Work, Sleep, and Daylength Across Diverse Cultures”, Science 333 (September 30, 2011), pp. 1878-81.
Twitter và tiêm phòng cúm – Marcel Salathé and Shashank Khandelwal, “Assessing Vaccination Sentiments with Online Social Media: Implications for Infectious Disease Dynamics and Control”, PLoS Computational Biology, October 2011.
Bằng sáng chế “Sàn thông minh” của IBM – Lydia Mai Do, Travis M. Grigsby, Pamela Ann Nesbitt, and Lisa Anne Seacat. “Securing premises using surfaced-based computing technology”, U.S. Patent number: 8138882. Issue date: March 20, 2012. Phong trào tự định lượng – “Counting Every Moment”, The Economist, March 3, 2012.
Tai nghe của Apple cho các phép đo sinh học – Jesse Lee Dorogusker, Anthony Fadell, Donald J. Novotney, and Nicholas R Kalayjian, “Integrated Sensors for Tracking Performance Metrics”, U.S. Patent Application 20090287067. Assignee: Apple. Application Date: 2009-07-23. Publication Date: 2009-11-19. Sinh trắc học Derawi – “Your Walk Is Your PIN-Code”, press release, February 21, 2011 (https://biometrics.derawi. com/?p=175).
Thông tin iTrem – The Landmarc Research Center at Georgia Tech (https://eosl.gtri.gatech.edu/Capabilities/LandmarcResearchCenter/LandmarcProjects/iTrem/ tabid/798/Default.aspx).
Các nhà nghiên cứu Kyoto về gia tốc ba trục – iMedicalApps Team, “Gait Analysis Accuracy: Android App Comparable to Standard Accelerometer Methodology”, mHealth, March 23, 2012. Báo chí đã thúc đẩy nhà nước độc lập – Benedict Anderson, Imagined Communities: Reflections on the Origin and Spread of Nationalism (Verso, 2006).
Các nhà vật lý cho thấy thông tin là cơ sở của tất cả mọi thứ – Hans Christian von Baeyer, Information: The New Language of Science (Harvard University Press, 2005).
Chương 6. GIÁ TRỊ
Câu chuyện của Luis von Ahn được dựa trên các cuộc phỏng vấn của Cukier với von Ahn từ năm 2010. Xem thêm Clive Thompson, “For Certain Tasks, the Cortex Still Beats the CPU”, Wired, June 25, 2007 (https://www.wired.com/techbiz/ it/magazine/15-07/ff_humancomp?currentPage=all); Jessie Scanlon, “Luis von Ahn: The Pioneer of ‘Human Computation,’ “ Businessweek, November 3, 2008 (https://www.businessweek. com/stories/2008-11-03/luis-von-ahn-the-pioneer-of-humancomputation-businessweek-business-news-stock-market-andfinancial-advice). Mô tả kỹ thuật về reCaptchas – Luis von Ahn et al., “reCAPTCHA: Human-Based Character Recognition via Web Security Measures”, Science 321 (September 12, 2008), pp. 1465-68 (https://www.sciencemag.org/content/321/5895/1465. abstract).
Nhà máy sản xuất pin của Smith – Adam Smith, The Wealth of Nations (reprint, Bantam Classics, 2003), book I, chapter one. (Phiên bản điện tử miễn phí tại https://www2.hn.psu.edu/ faculty/jmanis/adam-smith/Wealth-Nations.pdf).
Lưu trữ – Viktor Mayer-Schönberger, Delete: The Virtue of Forgetting in the Digital Age (Princeton University Press, 2011), p. 63.
Về sử dụng năng lượng của xe hơi điện – IBM, “IBM, Honda, and PG&E Enable Smarter Charging for Electric Vehicles”, press release, April 12, 2012 (https://www-03.ibm.com/press/ us/en/pressrelease/37398.wss). Xem thêm Clay Luthy, “Guest Perspective: IBM Working with PG&E to Maximize the EV Potential” PGE Currents Magazine, April 13, 2012 (https://www. pgecurrents.com/2012/04/13/ibm-working-with-pge-tomaximize-the-ev-potential).
Amazon và dữ liệu của AOL – Cukier interviews with Andreas Weigend, 2010 and 2012.
Phần mềm Nuance và Google – Cukier, “Data, Data Everywhere”. Công ty Logistics – Brad Brown, Michael Chui, and James Manyika, “Are You Ready for the Era of ‘Big Data’?” McKinsey Quarterly, October 2011, p. 10.
Telefonica kiếm tiền với thông tin điện thoại di động – “Telefonica Hopes ‘Big Data’ Arm Will Revive Fortunes”, BBC Online, October 9, 2012. (https://www.bbc.co.uk/news/ technology-19882647).
Nghiên cứu của Hiệp hội Ung thư Đan Mạch – Patrizia Frei et al., “Use of Mobile Phones and Risk of Brain Tumours: Update of Danish Cohort Study”, BMJ 343 (2011) (https://www.bmj.com/ content/343/bmj.d6387), and interview with Cukier, October 2012. Dữ liệu GPS và xe tự hành Street View của Google – Peter Kirwan, “This Car Drives Itself”, Wired UK, January 2012 (https:// www.wired.co.uk/magazine/archive/2012/01/features/thiscar-drives-itself?page=all).
Về chương trình kiểm tra chính tả của Google và các trích dẫn – Interview with Cukier at the Googleplex in Mountain View, California, December 2009; Cukier, “Data, Data Everywhere”. Sự sáng suốt của Hammerbacher – Interview with Cukier, October 2012.
Dữ liệu e-book của Barnes & Noble – Alexandra Alter, “Your E-Book Is Reading You”, Wall Street Journal, June 29, 2012 (https://online.wsj.com/article/SB1000142405270230487030457 7490950051438304.html).
Lớp học và dữ liệu Coursera của Andrew Ng – Interview with Cukier, June 2012.
Chính sách chính phủ mở của Obama – Barack Obama, “Presidential memorandum”, White House, January 21, 2009. Về giá trị dữ liệu của Facebook – Doug Laney, “To Facebook You’re Worth $80.95”, Wall Street Journal, May 3, 2012 (https://blogs.wsj.com/cio/2012/05/03/to-facebook-youreworth-80-95/).
Để định giá các mục tin rời rạc của Facebook, Laney ngoại suy từ tốc độ tăng trưởng của Facebook để ước tính 2,1 nghìn tỷ mẩu nội dung. Trong bài viết trên WSJ của mình, ông định giá mỗi mục tin là 3 cent vì ông sử dụng ước tính giá trị thị trường trước đó của Facebook là 75 tỷ USD. Cuối cùng, nó là hơn 100 tỷ USD, hay 5 cent, như chúng ta ngoại suy dựa trên tính toán của ông. Khoảng cách giá trị của tài sản hữu hình và vô hình – Steve M. Samek, “Prepared Testimony: Hearing on Adapting a 1930’s Financial Reporting Model to the 21st Century”, U.S. Senate Committee on Banking, Housing and Urban Affairs, Subcommittee on Securities, July 19, 2000.
Giá trị của tài sản vô hình – Robert S. Kaplan and David P. Norton, Strategy Maps: Converting Intangible Assets into Tangible Outcomes (Harvard Business Review Press, 2004), pp. 4-5. Trích dẫn của Tim O’Reilly – Interview with Cukier, February 2011.
Chương 7. NHỮNG TÁC ĐỘNG
Thông tin về Decide.com được lấy từ các trao đổi email của Cukier với Etzioni vào tháng 5 năm 2012.
Báo cáo McKinsey – James Manyika et al., “Big Data: The Next Frontier forInnovation, Competition, and Productivity”, McKinsey Global Institute,May 2011 (https://www.mckinsey. com/insights/mgi/research/technology_and_innovation/big_ data_the_next_frontier_for_innovation), p. 10.
Trich dẫn của Hal Varian – Interview with Cukier, December 2009.
Trich dẫn của Carl de Marcken được lấy từ các trao đổi email với Cukier vào tháng 5 năm 2012.
Về MasterCard Advisors – Cukier interviews with Gary Kearns, The Economist’s “The Ideas Economy: Information” conference, Santa Clara, California, June 8, 2011.
Thông tin về Accenture và thành phố St Louis, Missouri được lấy từ bài phỏng vấn của Cukier với nhân viên thành phố vào tháng 2 năm 2007.
Hệ thống tình báo thống nhất Amalga của Microsoft – “Microsoft Expands Presence in Healthcare IT Industry with Acquisition of Health Intelligence Software Azyxxi”, Microsoft press release, July 26, 2006 (https://www.microsoft.com/en-us/ news/press/2006/jul06/07-26azyxxiacquisitionpr.aspx). Dịch vụ Amalga bây giờ là một phần trong liên doanh của Microsoft với General Electric, gọi là Caradigm.
Amazon và “hợp tác lọc” – IPO Prospectus, May 1997 (https:// Amazon và “hợp tác lọc” – IPO Prospectus, May 1997 (https:// 000868.txt).
Các bộ vi xử lý của xe hơi – Nick Valery, “Tech.View: Cars and Software Bugs”, Economist.com, May 16, 2010 (https://www. economist.com/blogs/babbage/2010/05/techview_cars_and_ software_bugs).
Maury gọi các tàu là “đài quan sát nổi” – Maury, The Physical Geography of the Sea.
Về Viện Chi phí chăm sóc sức khỏe – Sarah Kliff, “A Database That Could Revolutionize Health Care”, Washington Post, May 21, 2012.
Google và thỏa thuận ITA – Claire Cain Miller, “U.S. Clears Google Acquisition of Travel Software”, New York Times, April 8, 2011 (https://www.nytimes.com/2011/04/09/technology/09google. html?_r=0).
Đối thoại từ bộ phim Moneyball, đạo diễn Bennett Miller, Columbia Pictures, 2011.
Về phòng vé Hollywood so với doanh số bán trò chơi điện tử – Đối với phim, xem Brooks Barnes, “A Year of Disappointment at the Movie Box Office”, New York Times, December 25, 2011 (https:// www.nytimes.com/2011/12/26/business/media/a-year-ofdisappointment-for-hollywood.html). Đối với trò chơi điện tử, xem “Factbox: A Look at the $65 billion Video Games Industry”, Reuters, June 6, 2011 (https://uk.reuters.com/article/2011/06/06/ us-videogames-factbox-idUKTRE75552I20110606).
Phân tích dữ liệu Zynga Nick Wingfield, “Virtual Products, Real Profits: Players Spend on Zynga’s Games, but Quality Turns Some Off”, Wall Street Journal, September 9, 2011 (https://online. wsj.com/article/SB10001424053111904823804576502442835413 446.html).
Trích dẫn của Ken Rudin – Erik Schlie, Jörg Rheinboldt, and Niko Waesche, Simply Seven: Seven Ways to Create a Sustainable Internet Business (Palgrave Macmillan, 2011). p. 7.
Trích dẫn của Auden – W. H. Auden, “For the Time Being”, 1944.
Nghiên cứu Brynjolfsson – Erik Brynjolfsson, Lorin Hitt, and Heekyung Kim, “Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance?” working paper, April 2011 (https://papers.ssrn.com/sol3/papers.cfm?abstract_ id=1819486).
Về Rolls-Royce – “Rolls-Royce: Britain’s Lonely High-Flier”, The Economist, January 8, 2009 (https://www.economist. com/node/12887368). Figures updated from press office, November 2012.
Erik Brynjolfsson, Andrew McAfee, Michael Sorell, and Feng Zhu, “Scale Without Mass: Business Process Replication and Industry Dynamics”, Harvard Business School working paper, September 2006 (https://www.hbs.edu/research/pdf/07-016.pdf also https:// hbswk.hbs.edu/item/5532.html).
Về chuyển biến hướng sang các chủ sở hữu dữ liệu ngày càng lớn – Yannis Bakos and Erik Brynjolfsson, “Bundling Information Goods: Pricing, Profits, and Efficiency”, Management Science 45 (December 1999), pp. 1613-30.
Chương 8. NHỮNG RỦI RO
Về Stasi – Rất tiếc là phần lớn các tài liệu đều bằng tiếng Đức, ngoại trừ một nghiên cứu rất hay là Kristie Macrakis, Seduced by Secrets: Inside the Stasi’s Spy-Tech World (Cambridge University Press, 2008). Chúng tôi cũng giới thiệu bộ phim đoạt giải Oscar The Lives of Others, do Florian Henckel von Donnersmark đạo diễn, Buena Vista / Sony Pictures năm 2006.
Camera giám sát gần nhà của Orwell – “George Orwell, Big Brother Is Watching Your House”, The Evening Standard, March 31, 2007 (https://www.thisislondon.co.uk/news/george-orwellbig-brother-is-watching-your-house-7086271.html).
Về Equifax và Experian – Daniel J. Solove, The Digital Person: Technology and Privacy in the Information Age (NYU Press, 2004), pp. 20-21.
Về địa chỉ khu phố của người Nhật Bản tại Washington được trao cho nhà chức trách Mỹ – J. R. Minkel, “The U.S. Census Bureau Gave Up Names of Japanese-Americans in WW II”, Scientific American, March 30, 2007 (https://www.scientificamerican.com/ article.cfm?id=confirmed-the-us-census-b).
Về dữ liệu được sử dụng bởi Đức quốc xã ở Hà Lan – William Seltzer and Margo Anderson, “The Dark Side of Numbers: The Role of Population Data Systems in Human Rights Abuses”, Social Research 68 (2001), pp. 481-513.
Về IBM và Holocaust – Edwin Black, IBM and the Holocaust (Crown, 2003).
Về số lượng dữ liệu do các đồng hồ thông minh thu thập – Elias Leake Quinn, “Smart Metering and Privacy: Existing Law and Competing Policies; A Report for the Colorado Public Utility Commission”, Spring 2009 (https://www.w4ar.com/Danger_of_ Smart_Meters_Colorado_Report.pdf); Joel M. Margolis, “When Smart Grids Grow Smart Enough to Solve Crimes”, Neustar, March 18, 2010 (https://energy.gov/sites/prod/files/gcprod/ documents/Neustar_Comments_DataExhibitA.pdf)
Tài liệu của Fred Cate về xin phép và cho phép – Fred H. Cate, “The Failure of Fair Information Practice Principles”, in Jane K. Winn, ed., Consumer Protection in the Age of the “Information Economy” (Ashgate, 2006), p. 341 et seq.
Về phát hành dữ liệu AOL – Michael Barbaro and Tom Zeller Jr., “A Face Is Exposed for AOL Searcher No. 4417749”, New York Times, August 9, 2006; Matthew Karnitschnig and Mylene Mangalindan, “AOL Fires Technology Chief After Web-Search Data Scandal”, Wall Street Journal, August 21, 2006.
Netflix xác định cá nhân – Ryan Singel, “Netflix Spilled Your Brokeback Mountain Secret, Lawsuit Claims”, Wired, December 17, 2009 (https://www.wired.com/threatlevel/2009/12/netflixprivacy-lawsuit/).
Về việc phát hành dữ liệu Netflix – Arvind Narayanan and Vitaly Shmatikov, “Robust De-Anonymization of Large Sparse Datasets”, Proceedings of the 2008 IEEE Symposium on Security and Privacy, p. 111 et seq. (https://www.cs.utexas.edu/~shmat/ shmat_oak08netflix.pdf); Arvind Narayanan and Vitaly Shmatikov, “How to Break the Anonymity of the Netflix Prize Dataset”, October 18, 2006, arXiv:cs/0610105 [cs.CR] (https:// arxiv.org/abs/cs/0610105).
Về việc xác định cá nhân từ ba đặc tính – Philippe Golle, “Revisiting the Uniqueness of Simple Demographics in the US Population”, Association for Computing Machinery Workshop on Privacy in Electronic Society 5 (2006), p. 77.
Về sự suy yếu cấu trúc của ẩn danh hóa – Paul Ohm, “Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization”, 57 UCLA Law Review 1701 (2010).
Về sự ẩn danh của đồ thị xã hội – Lars Backstrom, Cynthia Dwork, and Jon Kleinberg, “Wherefore Art Thou R3579X? Anonymized Social Networks, Hidden Patterns, and Structural Steganography”, Communications of the Association of Computing Machinery, December 2011, p. 133.
Các “hộp đen” của xe hơi – “Vehicle Data Recorders: Watching Your Driving”, The Economist, June 23, 2012 (https://www. economist.com/node/21557309).
Thu thập dữ liệu NSA – Dana Priest and William Arkin, “A Hidden World, Growing Beyond Control”, Washington Post, July 19, 2010 (https://projects.washingtonpost.com/top-secretamerica/articles/a-hidden-world-growing-beyond-control/ print/). Juan Gonzalez, “Whistleblower: The NSA Is Lying – U.S. Government Has Copies of Most of Your Emails”, Democracy Now, April 20, 2012 (https://www.democracynow.org/2012/4/20/ whistleblower_the_nsa_is_ lying_us). William Binney, “Sworn Declaration in the Case of Jewel v. NSA”, filed July 2, 2012 (https:// publicintelligence.net/binney-nsa-declaration/).
Việc giám sát đã thay đổi thế nào với dữ liệu lớn – Patrick Radden Keefe, “Can Network Theory Thwart Terrorists?” New York Times, March 12, 2006 (https://www.nytimes.com/2006/03/12/ magazine/312wwln_essay.html).
Đối thoại trong phim Minority Report của đạo diễn Steven Spielberg, DreamWorks / 20th Century Fox, 2002. Cuộc đối thoại chúng tôi trích dẫn là tóm tắt rất gọn. Bộ phim dựa trên một truyện ngắn năm 1958 của Philip K. Dick, nhưng có những sự khác biệt đáng kể giữa hai phiên bản. Cụ thể, cảnh mở đầu về người chồng bị cắm sừng không xuất hiện trong cuốn sách, và câu hỏi triết lý hóc búa về tiền tội phạm được trình bày trong phim của Spielberg đầy đủ hơn trong truyện. Do đó, chúng tôi đã chọn mô tả sự tương đồng so với bộ phim.
Câc thí dụ về giám sát tiên đoán – James Vlahos, “The Department Of Pre-Crime”, Scientific American 306 (January 2012), pp. 62-67.
Về Future Attribute Screening Technology (FAST) – Sharon Weinberger, “Terrorist ‘Pre-crime’ Detector Field Tested in United States”, Nature, May 27, 2011 (https://www.nature. com/news/2011/110527/full/news.2011.323.html); Sharon Weinberger, “Intentto Deceive”, Nature 465 (May 2010), pp. 412- 415. Về vấn đề dương tính giả – Alexander Furnas, “Homeland Security’s ‘Pre-Crime’ Screening Will Never Work”, The Atlantic Online, April 17, 2012 (https://www.theatlantic.com/technology/ archive/2012/04/homeland-securitys-pre-crime-screeningwill-never-work/255971/).
Về điểm của học sinh và phí bảo hiểm – Tim Query, “Grade Inflation and the Good-Student Discount, Contingencies Magazine, American Academy of Actuaries, May-June 2007 (https://www.contingencies.org/mayjun07/tradecraft.pdf). Về những nguy hiểm của lập hồ sơ – Bernard E. Harcourt, Against Prediction: Profiling, Policing, and Punishing in an Actuarial Age (University of Chicago Press, 2006).
Về công trình của Richard Berk – Richard Berk, “The Role of Race in Forecasts of Violent Crime”, Race and Social Problems 1 (2009), pp. 231-242.
Về sự say mê dữ liệu của McNamara – Phil Rosenzweig, “Robert S. McNamara and the Evolution of Modern Management”, Harvard Business Review, December 2010 (https://hbr. org/2010/12/robert-s-mcnamara-and-the-evolution-ofmodern-management/ar/pr).
Về thành công của “Những đứa trẻ thần đồng” trong Thế chiến II – John Byrne, The Whiz Kids (Doubleday, 1993).
Về McNamara tại Ford – David Halberstam, The Reckoning (William Morrow, 1986), pp. 222-245.
Cuốn sách của Kinnard – Douglas Kinnard, The War Managers (University Press of New England, 1977), pp. 71-25.
Về câu trích dẫn “Chúng ta tin ở Chúa – còn tất cả những thứ khác thì mang đến dữ liệu” – Câu trích này thường được gán cho W. Edwards Deming.
Về Ted Kennedy và danh sách cấm bay – Sara Kehaulani Goo, “Sen. Kennedy Flagged by No-Fly List”, Washington Post, August 20, 2004, p. A01 (https://www.washingtonpost.com/wp-dyn/ articles/A17073-2004Aug19.html).
Biện pháp tuyển dụng của Google – Xem Douglas Edwards, I’m Feeling Lucky: The Confessions of Google Employee Number 59 (Houghton Mifflin Harcourt, 2011), p. 9; Steven Levy, In the Plex (Simon and Schuster, 2011), pp. 140-141. Trớ trêu thay, người đồng sáng lập của Google từng muốn thuê Steve Jobs làm CEO (mặc dù ông không có bằng đại học); Levy, p. 80.
Thử nghiệm 41 tỷ lệ chiết giảm của màu xanh lam – Laura M. Holson, “Putting a Bolder Face on Google”, New York Times, March 1, 2009 (https://www.nytimes.com/2009/03/01/ business/01marissa.html).
Giám đốc thiết kế của Google từ chức – Doug Bowman, “Goodbye, Google”, blog post, March 20, 2009 (https://stopdesign. com/archive/2009/03/20/goodbye-google.html).
Trích dẫn của Jobs – Steve Lohr, “Can Apple Find More Hits Without Its Tastemaker?” New York Times, January 18, 2011, p. B1 (https://www.nytimes.com/2011/01/19/technology/ companies/19innovate.html).
Cuốn sách của Scott – James Scott, Seeing Like a State: How Certain Schemes to Improve the Human Condition Have Failed (Yale University Press, 1998).
Trích dẫn của McNamara từ năm 1967 – Từ bài nói chuyện tại Millsaps College ở Jackson, Mississippi, được trích dẫn trong Harvard Business Review, tháng 12 năm 2010.
Về lời biện hộ của McNamara – Robert S. McNamara with Brian VanDeMark, In Retrospect: The Tragedy and Lessons of Vietnam (Random House, 1995), pp. 48, 270.
Chương 9. KIỂM SOÁT
Về việc sưu tập sách thư viện của Đại học Cambridge – Marc Drogin, Anathema! Medieval Scribes and the History of Book Curses (Allanheld and Schram, 1983), p. 37.
Về trách nhiệm giải trình và sự riêng tư – Trung tâm Quản lý chính sách thông tin đã tham gia trong một dự án kéo dài nhiều năm về những nét chung trong trách nhiệm giải trình và sự riêng tư, xem https://www.informationpolicycentre.com/ accountability-based_privacy_governance/.
Về ngày hết hạn của dữ liệu – Mayer-Schönberger, Delete. “Differential privacy” – Cynthia Dwork, “A Firm Foundation for Private Data Analysis”, Communications of the ACM, January 2011, pp. 86-95.
Facebookvà quyền riêng tư khác biệt – A. Chin and A. Klinefelter, “Differential Privacy as a Response to the Reidentification Threat: The Facebook Advertiser Case Study”, 90 North Carolina Law Review 1417 (2012); A. Haeberlen et al., “Differential Privacy Under Fire”, https://www.cis.upenn.edu/~ahae/papers/fuzzsec2011.pdf.
Các công ty bị nghi ngờ thông đồng – Đã có nghiên cứu trong lĩnh vực này, xem Pim Heijnen, Marco A. Haan, and Adriaan R. Soetevent, “Screening for Collusion: A Spatial Statistics Approach”, Discussion Paper TI 2012-058/1, Tinbergen Institute, The Netherlands, 2012 (https://www.tinbergen.nl/ discussionpapers/12058.pdf).
Về các đại diện bảo vệ dữ liệu của công ty Đức – Viktor MayerSchönberger, “Beyond Privacy, Beyond Rights: Towards a ‘Systems’ Theory of Information Governance”, 98 California Law Review 1853 (2010).
Về khả năng tương tác – John Palfrey and Urs Gasser, Interop: The Promise and Perils of Highly Interconnected Systems (Basic Books, 2012).
Chương 10. TIẾP THEO
Thông tin về Mike Flowers và các phân tích của thành phố New York được dựa trên cuộc phỏng vấn với Cukier vào tháng 7 năm 2012; xem Alex Howard, “Predictive data analytics is saving lives and taxpayer dollars in New York City”, O’Reilly Media, June 26, 2012 (https://strata.oreilly.com/2012/06/predictive-dataanalytics-big-data-nyc.html).
Về Walmart và Pop-Tarts – Hays, “What Wal-Mart Knows About Customers’ Habits”.
Ứng dụng của dữ liệu lớn trong các khu ổ chuột và trong mô hình hóa những phong trào tị nạn – Nathan Eagle, “Big Data, Global Development, and Complex Systems”, https://www.youtube. com/watch?v=yaivtqlu7iM.
Nhận thức về thời gian – Benedict Anderson, Imagined Communities (Verso, 2006).
“Quá khứ là khúc dạo đầu” – William Shakespeare, “The Tempest”, Act 2, Scene I.
Hệ thống máy tính của Apollo 11 – David A. Mindell, Digital Apollo: Human and Machine in Spaceflight (MIT Press, 2008).
Chương 1. HIỆN TẠI
Xu hướng Dịch cúm của Google – Jeremy Ginsburg et al., “Detecting Influenza Epidemics Using Search Engine Query Data”, Nature 457 (2009), pp. 1012-14 (https://www.nature.com/ nature/journal/v457/n7232/full/nature07634.html). Nghiên cứu tiếp theo về Xu hướng Dịch cúm của Google – A. F. Dugas et al., “Google Flu Trends: Correlation with Emergency Department Influenza Rates and Crowding Metrics”, CID Advanced Access (January 8, 2012); DOI 10.1093 /cid/cir883. Mua vé máy bay, Farecast – Các thông tin xuất phát từ Kenneth Cukier, “Data, Data Everywhere”, The Economist special report, February 27, 2010, pp. 1-14, và từ các cuộc phỏng vấn với Etzioni giữa năm 2010 và 2012.
Dự án Hamlet của Etzioni – Oren Etzioni, C.A. Knoblock, R. Tuchinda, and A. Yates, “To Buy or Not to Buy: Mining Airfare Data to Minimize Ticket Purchase Price”, SIGKDD ’03, August 24-27, 2003 (https://knight.cis.temple.edu/~yates//papers/ hamlet-kdd03.pdf).
Giá Microsoft trả cho Farecast – Từ báo cáo truyền thông, đặc biệt là “Secret Farecast Buyer Is Microsoft”, Seattlepi.com, April 17, 2008 (https://blog.seattlepi.com/venture/2008/04/17/secretfarecast-buyer-is-microsoft/?source=mypi).
Một cách nghĩ về dữ liệu lớn – Có một cuộc tranh luận ồn ào nhưng không hiệu quả về nguồn gốc của thuật ngữ “dữ liệu lớn” và làm sao để định nghĩa nó một cách hoàn hảo. Thuật ngữ này đã thỉnh thoảng xuất hiện từ nhiều thập kỷ nay. Một báo cáo nghiên cứu năm 2001 bởi Doug Laney của Gartner đưa ra công thức “ba V” của dữ liệu lớn (volume, velocity, variety – khối lượng, vận tốc, và tính đa dạng), tuy hữu ích vào lúc đó nhưng không hoàn hảo. Thiên văn học và xác định trình tự DNA – Cukier, “Data, Data Everywhere”. Hàng tỷ cổ phiếu được mua bán – R ita Nazareth and Julia Leite, “Stock Trading in U.S. Falls to Lowest Level Since 2008”, Bloomberg, August 13, 2012 (https://www.bloomberg.com/news/2012-08-13/stock-trading-in-u-s-hits-lowest-levelsince-2008-as-vix-falls.html).
24 petabyte mỗi ngày của Google – Thomas H. Davenport, Paul Barth, and Randy Bean, “How ‘Big Data’ Is Different”, Sloan Review, July 30, 2012, pp. 43-46 (https://sloanreview.mit.edu/ the- magazine/ 2012- fall/ 54104/how- big- data- is- different/). Số liệu thống kê Facebook – Facebook IPO prospectus, “Form S-1 Registration Statement”, U.S. Securities and Exchange Commission, February 1, 2012 (https://sec.gov/Archives/edgar/ data/1326801/000119312512034517/d287954ds1.htm). Số liệu thống kê YouTube – Larry Page, “Update from the CEO”, Google, April 2012 (https://investor.google.com/corporate/2012/ ceo-letter.html).
Số lượng tweet – Tomio Geron, “Twitter’s Dick Costolo: Twitter Mobile Ad Revenue Beats Desktop on Some Days”, Forbes, June 6, 2012 (https://www.forbes.com/sites/tomiogeron/2012/06/06/ twitters-dick-costolo-mobile-ad-revenue-beats-desktop-onsome-days/).
Thông tin về số lượng của dữ liệu – Martin Hilbert and Priscilla López, “The World’s Technological Capacity to Store, Communicate, and Compute Information” Science, April 1, 2011, pp. 60-65; Martin Hilbert and Priscilla López, “How to Measure the World’s Technological Capacity to Communicate, Store and Compute Information?” International Journal of Communication 2012, pp. 1042-55 (https://www.ijoc.org/ojs/ index.php/ijoc/article/viewFile/1562/742).
Ước tính lượng thông tin được lưu trữ vào năm 2013 – Cukier phỏng vấn Hilbert, 2012.
In ấn và tám triệu cuốn sách; xuất bản nhiều hơn kể từ khi thành lập Constantinople – E lizabeth L. Eisenstein, The Printing Revolution in Early Modern Europe (Canto/Cambridge University Press, 1993), pp. 13-14.
Phép tương tự của Peter Norvig – Từ các buổi nói chuyện của Norvig dựa vào bài: A. Halevy, P. Norvig, and F. Pereira, “The Unreasonable Effectiveness of Data”, IEEE Intelligent Systems, March/April 2009, pp. 8-12 (https://www.computer.org/portal/ cms_docs_intelligent/intelligent/homepage/2009/x2exp.pdf). (Lưu ý rằng tiêu đề là từ bài viết của Eugene Wigner “Tính Hiệu quả phi lý của Toán học trong Khoa học Tự nhiên”, trong đó ông xem xét tại sao vật lý có thể được thể hiện rất đẹp trong toán học cơ bản nhưng khoa học xã hội lại chống lại những công thức gọn gàng như vậy. Xem E. Wigner “The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Communications on Pure and Applied Mathematics 13, no. 1 (1960), pp. 1-14.) “Peter Norvig – The Unreasonable Effectiveness of Data”, lecture at University of British Columbia, YouTube, September 23, 2010 (https://www.youtube.com/watch?v=yvDCzhbjYWs). Về kích thước vật lý ảnh hưởng đến định luật vật lý thực hành (mặc dù không hoàn toàn chính xác), nguồn tham khảo thường được trích dẫn là J. B. S. Haldane, “On Being the Right Size”, Harper’s Magazine, March 1926 (https://harpers.org/archive/1926/03/onbeing-the-right-size/).
Picasso và những hình ảnh Lascaux – David Whitehouse, “UK Science Shows Cave Art Developed Early”, BBC News Online, October 3, 2001 (https://news.bbc.co.uk/1/hi/sci/ tech/1577421.stm).
Chương 2. NHIỀU HƠN
Trích dẫn Jeff Jonas – Conversation with Jonas, December 2010, Paris.
Lịch sử của điều tra dân số Mỹ – U.S. Census Bureau, “The Hollerith Machine” Online history. (https://www.census.gov/ history/www/innovations/technology/the_hollerith_tabulator. html.
Đóng góp của Neyman – William Kruskal and Frederick Mosteller, “Representative Sampling, IV: The History of the Concept in Statistics, 1895-1939”, International Statistical Review 48 (1980), pp. 169-195, pp. 187-188. Bài viết nổi tiếng của Neyman là “On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection”, Journal of the Royal Statistical Society 97, no. 4 (1934), pp. 558-625.
Một mẫu của 1.100 quan sát là đủ – Earl Babbie, Practice of Social Research (12th ed. 2010), pp. 204-207.
Tác dụng của điện thoại di động – “Estimating the Cellphone Effect”, September 20, 2008 (https://www.fivethirtyeight. com/2008/09/estimating-cellphone-effect-22-points.html); để biết thêm về những định kiến trong việc bỏ phiếu và những hiểu biết thống kê khác, xem Nate Silver, The Signal and the Noise: Why So Many Predictions
Trình tự gen của Steve Jobs – Walter Isaacson, Steve Jobs (Simon and Schuster, 2011), pp. 550-551.
Xu hướng Dịch cúm Google dự đoán đến cấp thành phố – Dugas et al., “Google Flu Trends”.
Etzioni về dữ liệu thời gian – Interview by Cukier, October 2011. Trích dẫn John Kunze – Jonathan Rosenthal, “Special Report: International Banking”, The Economist, May 19, 2012, pp. 7-8.
Gian lận các trận đấu sumo – Mark Duggan and Steven D. Levitt, “Winning Isn’t Everything: Corruption in Sumo Wrestling”, American Economic Review 92 (2002), pp. 1594-1605 (https://pricetheory.uchicago.edu/levitt/Papers/ DugganLevitt2002.pdf).
11 triệu tia ánh sáng của Lytro – từ trang web của công ty Lytro (https://www.lytro.com).
Thay thế lấy mẫu trong khoa học xã hội – Mike Savage and Roger Burrows, “The Coming Crisis of Empirical Sociology”, Sociology 41 (2007), pp. 885-899.
Về phân tích dữ liệu toàn diện từ một nhà điều hành điện thoại di động – J. P. Onnela et al., “Structure and Tie Strengths in Mobile Communication Networks”, Proceedings of the National Academy of Sciences of the United States of America (PNAS) 104 (May 2007), pp. 7332-36 (https://nd.edu/~dddas/Papers/ PNAS0610245104v1.pdf).
Chương 3. HỖN ĐỘN
Crosby – Alfred W. Crosby, The Measure of Reality: Quantification and Western Society, 1250-1600 (Cambridge University Press, 1997).
Về các trích dẫn của Kelvin và Bacon – Những câu cách ngôn này được nhiều người cho là của hai ông, mặc dù phát biểu thực tế trong tác phẩm viết của họ hơi khác. Với Kelvin, nó là một phần của một trích dẫn về đo lường, từ bài giảng của ông tên là “Electrical Units of Measurement” (1883). Với Bacon, nó được xem là một bản dịch chưa chặt chẽ từ tiếng Latin, trong Meditationes Sacrae (1597).
Nhiều cách để hiểu từ viết tắt IBM – DJ Patil, “Data Jujitsu: The Art of Turning Data into Product”, O’Reilly Media, July 2012 (https://oreillynet.com/oreilly/data/radarreports/data-jujitsu. csp?cmp=tw-strata-books-data-products).
30.000 giao dịch mỗi giây trên NYSE – Colin Clark, “Improving Speed and Transparency of Market Data”, NYSE EURONEX T blog post, January 9, 2011 (https://exchanges.nyx.com/cclark/ improving-speed-and-transparency-market-data).
Ý tưởng “2 + 2 = 3,9” – Brian Hopkins and Boris Evelson, “Expand Your Digital Horizon with Big Data”, Forrester, September 30, 2011.
Những cải thiện trong các thuật toán – President’s Council of Advisors on Science and Technology, “Report to the President and Congress, Designing a Digital Future: Federally Funded Research and Development in Networking and Information Technology”, December 2010, p. 71 (https://www.whitehouse. gov/sites/default/files/microsites/ostp/pcast-nitrdreport-010.pdf).
Các thế cờ tàn – Bảng thế cờ tàn toàn diện nhất được công bố, bảng Nalimov (đặt theo tên của một trong những người lập ra nó), bao gồm tất cả các ván cờ cho sáu quân cờ hoặc ít hơn. Dung lượng của nó là hơn 7 terabyte, và việc nén thông tin trong đó là một thách thức lớn. Xem E. V. Nalimov, G. McC. Haworth, and E. A. Heinz, “Space-efficient Indexing of Chess Endgame Tables”, ICGA Journal 23, no. 3 (2000), pp. 148-162.
Microsoft và hiệu suất thuật toán – Michele Banko and Eric Brill, “Scaling to Very Very Large Corpora for Natural Language Disambiguation”, Microsoft Research, 2001, p. 3 (https://acl.ldc. upenn.edu/P/P01/P01-1005.pdf).
Bản thử nghiệm, lời nói, và trích dẫn của IBM – IBM, “701 Translator”, press release, IBM archives, January 8, 1954 (https:// www-03.ibm.com/ibm/history/exhibits/701/701_translator. html). Xem thêm John Hutchins, “The First Public Demonstration of Machine Translation: The Georgetown-IBM System, 7th January 1954”, November 2005 (https://www.hutchinsweb. me.uk/GU-IBM-2005.pdf).
IBM Candide – Adam L. Berger et al., “The Candide System for Machine Translation”, Proceedings of the 1994 ARPA Workshop on Human Language Technology, 1994 (https://aclweb.org/ anthology-new/H/H94/H94-1100.pdf).
Lịch sử của dịch thuật máy – Yorick Wilks, Machine Translation: Its Scope and Limits (Springer, 2008), p. 107.
Hàng triệu văn bản của Candide so với hàng tỷ văn bản của Google – Och interview with Cukier, December 2009.
Tập sao lục 95 tỷ câu của Google – Alex Franz and Thorsten Brants, “All Our N-gram are Belong to You”, Google blog post, August 3, 2006 (https://googleresearch.blogspot.co.uk/2006/08/ all-our-n-gram-are-belong-to-you.html).
Tập sao lục Brown và 1 nghìn tỷ từ của Google – Halevy, Norvig, and Pereira, “The Unreasonable Effectiveness of Data”.
Trích dẫn từ bài viết của đồng tác giả Norvig – sđd.
Sự ăn mòn đường ống của BP và môi trường không dây gây hại – Jaclyn Clarabut, “Operations Making Sense of Corrosion”, BP Magazine, issue 2 (2011) (https://www.bp.com/liveassets/ bp_ internet/globalbp/globalbp_uk_english/reports_and_ publications/bp_magazine/STAGING/local_assets/pdf/BP_Magazine_2011_issue2_text.pdf). Khó khăn trong việc đọc dữ liệu không dây – Cukier, “Data, Data, Everywhere”. Hệ thống này rõ ràng không thể sai lầm: một đám cháy tại nhà máy lọc dầu BP Cherry Point vào tháng 2 năm 2012 được quy lỗi cho một đường ống bị ăn mòn.
Dự án với giá hàng tỷ – Từ cuộc phỏng vấn với người đồng sáng lập với Cukier, Tháng 10 năm 2012. James Surowiecki, “A Billion Prices Now”, The New Yorker, May 30, 2011; dữ liệu và các chi tiết có thể được tìm thấy trên trang web của dự án (https://bpp. mit.edu/); Annie Lowrey, “Economists’ Programs Are Beating U.S. at Tracking Inflation”, Washington Post, December 25, 2010 (https://www.washingtonpost.com/wp-dyn/content/ article/2010/12/25/AR2010122502600.html).
Price Stats với vai trò kiểm tra số liệu thống kê quốc gia – “Official Statistics: Don’t Lie to Me, Argentina”, The Economist, February 25, 2012 (https://www.economist.com/node/21548242). Số lượng hình ảnh trên Flickr – Từ trang web Flickr (https://www. flick.com).
Về thách thức đối với phân loại thông tin – David Weinberger, Everything Is Miscellaneous: The Power of the New Digital Disorder (Times, 2007).
Pat Helland – Pat Helland, “If You Have Too Much Data Then ‘Good Enough’ Is Good Enough”, Communications of the ACM, June 2011, pp. 40, 41. Có một cuộc tranh luận sôi nổi trong cộng đồng cơ sở dữ liệu về các mô hình và khái niệm tốt nhất có thể để đáp ứng các nhu cầu của dữ liệu lớn. Helland đại diện cho nhóm để nghị bỏ các công cụ đã được sử dụng trong quá khứ. Michael Rys, “Scalable SQL”, Communications of the ACM, June 2011, p. 48. Bài này cho rằng những phiên bản được áp dụng nhiều của các công cụ hiện có sẽ làm việc tốt.
Visa sử dụng Hadoop – Cukier, “Data, data everywhere”. Chỉ có 5 phần trăm thông tin là dữ liệu có cấu trúc – Abhishek Mehta, “Big Data: Powering the Next Industrial Revolution”, Tableau Software White Paper, 2011 (https://www. tableausoftware.com/learn/whitepapers/big-data-revolution).
Chương 4. TƯƠNG QUAN
Câu chuyện của Linden cũng như “tiếng nói của Amazon” – Linden interview with Cukier, March 2012.
WSJ trong các bài phê bình trên Amazon – Như trích dẫn trong James Marcus, Amazonia: Five Years at the Epicenter of the Dot. Com Juggernaut (New Press, 2004), p. 128.
Trích dẫn Marcus – Marcus, Amazonia, p. 199.
Các giới thiệu là một phần ba thu nhập của Amazon – Con số này chưa bao giờ được công ty chính thức xác nhận nhưng đã được xuất bản trong nhiều báo cáo phân tích và bài viết trên phương tiện truyền thông, bao gồm cả “Building with Big Data: The Data Revolution Is Changing the Landscape of Business”, The Economist, May 26, 2011 (https://www.economist.com/ node/18741392/).
Con số này cũng đã được tham chiếu bởi hai cựu giám đốc điều hành Amazon trong các cuộc phỏng vấn với Cukier.
Thông tin giá Netflix – Xavier Amatriain and Justin Basilico, “Netflix Recommendations: Beyond the 5 stars (Part 1)”, Netflix blog, April 6, 2012.
“Bị lừa bởi Ngẫu nhiên” – Nassim Nicholas Taleb, Fooled by Randomness (Random House, 2008); Nassim Nicholas Taleb, The Black Swan: The Impact of the Highly Improbable (2nd ed., Random House, 2010).
Walmart và Pop-Tarts – Constance L. Hays, “What Wal-Mart Knows About Customers’ Habits”, New York Times, November 14, 2004 (https://www.nytimes.com/2004/11/14/business/ yourmoney/14wal.html).
Ví dụ về các mô hình dự báo của FICO, Experian, và Equifax – Scott Thurm, “Next Frontier in Credit Scores: Predicting Personal Behavior”, Wall Street Journal, October 27, 2011 (https://online. wsj.com/article/SB10001424052970203687504576655182086300 912.html).
Các mô hình dự báo của Aviva – Leslie Scism and Mark Maremont, “Insurers Test Data Profiles to Identify Risky Clients”, Wall Street Journal, November 19, 2010 (https://online. wsj.com/article/SB10001424052748704648604575620750998072 986.html); Leslie Scism and Mark Maremont, “Inside Deloitte’s Life-Insurance Assessment Technology”, Wall Street Journal, November 19, 2010 (https://online.wsj.com/article/SB1000142 4052748704104104575622531084755588.html); Howard Mills, “Analytics: Turning Data into Dollars”, Forward Focus, December 2011 (https://www.deloitte.com/assets/Dcom-UnitedStates/ Local%20Assets/Documents/FSI/US_FSI_Forward%20Focus_ Analytics_ Turning%20data%20into%20dollars_120711.pdf). Ví dụ về Target và thiếu niên mang thai – Charles Duhigg, “How Companies Learn Your Secrets”, New York Times, February 16, 2012 (https://www.nytimes.com/2012/02/19/magazine/ shopping-habits.html). Bài viết được chuyển thể từ cuốn sách của Duhigg, The Power of Habit: Why We Do What We Do in Life and Business (Random House, 2012); Target đã tuyên bố có những sự thiếu chính xác trong báo cáo của phương tiện truyền thông về các hoạt động của mình nhưng từ chối cho biết chúng là những gì. Khi được hỏi về vấn đề với cuốn sách này, một phát ngôn viên của Target trả lời: “Mục đích là sử dụng dữ liệu khách hàng để tăng cường mối quan hệ của khách hàng với Target. Khách hàng của chúng tôi muốn nhận được giá trị cao, những lời chào hàng thích hợp, và một trải nghiệm vượt trội. Giống như nhiều công ty, chúng tôi sử dụng công cụ nghiên cứu giúp hiểu được xu hướng mua sắm và sở thích của khách hàng để có thể gửi lời chào hàng và chương trình khuyến mãi phù hợp với họ. Chúng tôi có trách nhiệm bảo vệ lòng tin của khách hàng một cách rất nghiêm túc. Một trong những cách chúng tôi áp dụng là có một chính sách bảo mật toàn diện mà chúng tôi chia sẻ công khai trên Target.com, và thường xuyên dạy các nhân viên của chúng tôi cách bảo vệ thông tin của khách hàng”.
Các phân tích của UPS tỏ ra hiệu quả – Cukier interviews with Jack Levis, 2012.
Trẻ sinh thiếu tháng – Dựa trên các cuộc phỏng vấn với McGregor trong năm 2010và năm 2012. Carolyn McGregor, Christina Catley, Andrew James, và James Padbury, “Next Generation Neonatal Health Informatics with Artemis”, in European Federation for Medical Informatics, User Centred Networked Health Care, ed. A. Moen et al. (IOS Press, 2011), p. 117. Một số tài liệu xuất phát từ Cukier, “Data, Data, Everywhere”.
Về tương quan giữa hạnh phúc và thu nhập – R. Inglehart and H.-D. Klingemann, Genes, Culture and Happiness (MIT Press, 2000).
Về bệnh sởi và các chi phí y tế, cùng các công cụ phi tuyến tính mới cho phân tích tương quan – David Reshef et al., “Detecting Novel Associations in Large Data Sets”, Science 334 (2011), pp. 1518-24.
Kahneman – Daniel Kahneman, Thinking, Fast and Slow (Farrar, Straus and Giroux, 2011), pp. 74-75.
Pasteur – Đối với độc giả quan tâm đến ảnh hưởng lớn của Pasteur về cách chúng ta nhận thức sự vật, mời xem Bruno Latour, The Pasteurization of France (Harvard University Press, 1993). Nguy cơ mắc bệnh dại – Melanie Di Quinzio and Anne McCarthy, “Rabies Risk Among Travellers”, CMAJ 178, no. 5 (2008), p. 567. Nhân quả hiếm khi có thể được chứng minh – Nhà khoa học máy tính đoạt giải thưởng Turing, Judea Pearl, đã phát triển một cách để chính thức thể hiện động lực quan hệ nhân quả; dù không có bằng chứng chính thức, điều này cung cấp một cách tiếp cận thực tế để phân tích các quan hệ nhân quả. Judea Pearl, Causality: Models, Reasoning and Inference (Cambridge University Press, 2009).
Ví dụ xe Orange – Quentin Hardy. “Bizarre Insights from Big Data”, nytimes.com, March 28, 2012 (https://bits.blogs.nytimes. com/2012/03/28/bizarre-insights-from-big-data/); and Kaggle, “Momchil Georgiev Shares His Chromatic Insight from Don’t Get Kicked”, blog posting, February 2, 2012 (https://blog.kaggle. com/2012/02/02/momchil-georgiev-shares-his-chromaticinsight-from-dont-get-kicked/).
Sức nặng của nắp cống, số lượng các vụ nổ, và chiều cao của các vụ nổ – R achel Ehrenberg, “Predicting the Next Deadly Manhole Explosion”, Wired, July 7, 2010 (https://www.wired. com/wiredscience/2010/07/manhole-explosions).
Con Edison làm việc với các nhà thống kê thuộc Đại học Columbia – trường hợp này được mô tả cho độc giả trong Cynthia Rudin et al., “21st-Century Data Miners Meet 19th-Century Electrical Cables”, Computer, June 2011, pp. 103-105. Các mô tả kỹ thuật của công trình có trong những bài báo chuyên ngành của Rudin và cộng sự trên các trang web của họ, đặc biệt là Cynthia Rudin et al., “Machine Learning for the New York City Power Grid”, IEEE Transactions on Pattern Analysis and Machine Intelligence 34, no. 2 (2012), pp. 328-345 (https://hdl.handle.net/1721.1/68634).
Sự hỗn độn của thuật ngữ “tủ điện” – Rudin et al., “21st-Century Data Miners Meet 19th-Century Electrical Cables”.
Trích dẫn của Rudin từ cuộc phỏng vấn với Cukier, tháng 3 năm 2012.
Các lượt xem của Anderson – Chris Anderson, “The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”, Wired, June 2008 (https://www.wired.com/science/discoveries/ magazine/16-07/pb_theory/).
Anderson rút lại tuyên bố – National Public Radio, “Search and Destroy”, July 18, 2008 (https://www.onthemedia.org/2008/ jul/18/search-and-destroy/transcript/).
Về các lựa chọn ảnh hưởng đến phân tích của chúng ta – danah boyd and Kate Crawford. “Six Provocations for Big Data”, paper presented at Oxford Internet Institute’s “A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society”, September 21, 2011 (https://ssrn.com/abstract=1926431).
Chương 5. DỮ LIỆU HÓA
Các chi tiết về cuộc sống của Maury được biên soạn từ nhiều tác phẩm của ông và về ông: Chester G. Hearn, Tracks in the Sea: Matthew Fontaine Maury and the Mapping of the Oceans (International Marine/McGraw-Hill, 2002); Janice Beaty, Seeker of Seaways: A Life of Matthew Fontaine Maury, Pioneer Oceanographer (Pantheon Books, 1966); Charles Lee Lewis, Matthew Fontaine Maury: The Pathfinder of the Seas (U.S. Naval Institute, 1927) (https://archive.org/details/ matthewfontainem00lewi); Matthew Fontaine Maury, The Physical Geography of the Sea (Harper, 1855).
Trích dẫn của Maury – Maury, Physical Geography of the Sea, “Introduction”, pp. xii, vi.
Dữ liệu về ghế xe hơi – Nikkei, “Car Seat of Near Future IDs Driver’s Backside”, December 14, 2011.
Đinh lượng thế giới – Phần lớn suy nghĩ của tác giả về lịch sử dữ liệu hóa đã được lấy cảm hứng từ Crosby, The Measure of Reality. Người châu Âu chưa bao giờ được tiếp xúc với bàn tính – Sđd, 112. Calculating faster using Arabic numerals – Alexander Murray, Reason and Society in the Middle Ages (Oxford University Press, 1978), p. 166.
Tổng số sách được xuất bản và nghiên cứu của Harvard về dự án sao chụp sách của Google – Jean-Baptiste Michel et al., “Quantitative Analysis of Culture Using Millions of Digitized Books”, Science 331 (January 14, 2011), pp. 176-182 (https://www. sciencemag.org/content/331/6014/176.abstract). Về bài giảng video – Erez Lieberman Aiden and Jean-Baptiste Michel, “What We Learned from 5 Million Books”, TEDx, Cambridge, MA, 2011 (https://www.ted.com/talks/what_we_learned_from_5_million_ books.html).
Về các mô-đun vô tuyến trong xe hơi và bảo hiểm – Cukier, “Data, Data Everywhere”.
Jack Levis của UPS – Interview with Cukier, April 2012.
Số liệu về khoản tiết kiệm được của UPS – Institute for Operations Research and the Management Sciences (INFORMS), “UPS Wins Gartner BI Excellence Award”, 2011 (https://www.informs.org/ Announcements/UPS-wins-Gartner-BI-Excellence-Award). Nghiên cứu Pentland – Robert Lee Hotz, “The Really Smart Phone”, Wall Street Journal, April 22, 2011 (https://online.wsj. com/article/SB1000142405274870454760457626326167984881 4.html).
Nghiên cứu các khu ổ chuột của Eagle – Nathan Eagle, “Big Data, Global Development, and Complex Systems”, Santa Fe Institute, May 5, 2010 (https://www.youtube.com/watch?v=yaivtqlu7iM); Interview with Cukier, October 2012.
Dữ liệu Facebook – Facebook IPO Prospectus, 2012.
Dữ liệu Twitter – Alexia Tsotsis, “Twitter Is at 250 Million Tweets per Day, iOS 5 Integration Made Signups Increase 3x”, TechCrunch, October 17, 2011, https://techcrunch. com/2011/10/17/twitter-is-at-250-million-tweets-per-day/. Quỹ phòng hộ sử dụng Twitter – Kenneth Cukier, “Tracking Social Media: The Mood of the Market”, Economist.com, June 28, 2012 (https://www.economist.com/blogs/graphicdetail/2012/06/ tracking-social-media).
Twitter và dự báo doanh thu phòng vé của Hollywood – Sitaram Asur and Bernardo A. Huberman, “Predicting the Future with Social Media”, Proceedings of the 2010 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, pp. 492-499; online at https://www.hpl. hp.com/research/scl/papers/socialmedia/socialmedia.pdf. Twitter và cảm xúc trên toàn cầu – Scott A. Golder and Michael W. Macy, “Diurnal and Seasonal Mood Vary with Work, Sleep, and Daylength Across Diverse Cultures”, Science 333 (September 30, 2011), pp. 1878-81.
Twitter và tiêm phòng cúm – Marcel Salathé and Shashank Khandelwal, “Assessing Vaccination Sentiments with Online Social Media: Implications for Infectious Disease Dynamics and Control”, PLoS Computational Biology, October 2011.
Bằng sáng chế “Sàn thông minh” của IBM – Lydia Mai Do, Travis M. Grigsby, Pamela Ann Nesbitt, and Lisa Anne Seacat. “Securing premises using surfaced-based computing technology”, U.S. Patent number: 8138882. Issue date: March 20, 2012. Phong trào tự định lượng – “Counting Every Moment”, The Economist, March 3, 2012.
Tai nghe của Apple cho các phép đo sinh học – Jesse Lee Dorogusker, Anthony Fadell, Donald J. Novotney, and Nicholas R Kalayjian, “Integrated Sensors for Tracking Performance Metrics”, U.S. Patent Application 20090287067. Assignee: Apple. Application Date: 2009-07-23. Publication Date: 2009-11-19. Sinh trắc học Derawi – “Your Walk Is Your PIN-Code”, press release, February 21, 2011 (https://biometrics.derawi. com/?p=175).
Thông tin iTrem – The Landmarc Research Center at Georgia Tech (https://eosl.gtri.gatech.edu/Capabilities/LandmarcResearchCenter/LandmarcProjects/iTrem/ tabid/798/Default.aspx).
Các nhà nghiên cứu Kyoto về gia tốc ba trục – iMedicalApps Team, “Gait Analysis Accuracy: Android App Comparable to Standard Accelerometer Methodology”, mHealth, March 23, 2012. Báo chí đã thúc đẩy nhà nước độc lập – Benedict Anderson, Imagined Communities: Reflections on the Origin and Spread of Nationalism (Verso, 2006).
Các nhà vật lý cho thấy thông tin là cơ sở của tất cả mọi thứ – Hans Christian von Baeyer, Information: The New Language of Science (Harvard University Press, 2005).
Chương 6. GIÁ TRỊ
Câu chuyện của Luis von Ahn được dựa trên các cuộc phỏng vấn của Cukier với von Ahn từ năm 2010. Xem thêm Clive Thompson, “For Certain Tasks, the Cortex Still Beats the CPU”, Wired, June 25, 2007 (https://www.wired.com/techbiz/ it/magazine/15-07/ff_humancomp?currentPage=all); Jessie Scanlon, “Luis von Ahn: The Pioneer of ‘Human Computation,’ “ Businessweek, November 3, 2008 (https://www.businessweek. com/stories/2008-11-03/luis-von-ahn-the-pioneer-of-humancomputation-businessweek-business-news-stock-market-andfinancial-advice). Mô tả kỹ thuật về reCaptchas – Luis von Ahn et al., “reCAPTCHA: Human-Based Character Recognition via Web Security Measures”, Science 321 (September 12, 2008), pp. 1465-68 (https://www.sciencemag.org/content/321/5895/1465. abstract).
Nhà máy sản xuất pin của Smith – Adam Smith, The Wealth of Nations (reprint, Bantam Classics, 2003), book I, chapter one. (Phiên bản điện tử miễn phí tại https://www2.hn.psu.edu/ faculty/jmanis/adam-smith/Wealth-Nations.pdf).
Lưu trữ – Viktor Mayer-Schönberger, Delete: The Virtue of Forgetting in the Digital Age (Princeton University Press, 2011), p. 63.
Về sử dụng năng lượng của xe hơi điện – IBM, “IBM, Honda, and PG&E Enable Smarter Charging for Electric Vehicles”, press release, April 12, 2012 (https://www-03.ibm.com/press/ us/en/pressrelease/37398.wss). Xem thêm Clay Luthy, “Guest Perspective: IBM Working with PG&E to Maximize the EV Potential” PGE Currents Magazine, April 13, 2012 (https://www. pgecurrents.com/2012/04/13/ibm-working-with-pge-tomaximize-the-ev-potential).
Amazon và dữ liệu của AOL – Cukier interviews with Andreas Weigend, 2010 and 2012.
Phần mềm Nuance và Google – Cukier, “Data, Data Everywhere”. Công ty Logistics – Brad Brown, Michael Chui, and James Manyika, “Are You Ready for the Era of ‘Big Data’?” McKinsey Quarterly, October 2011, p. 10.
Telefonica kiếm tiền với thông tin điện thoại di động – “Telefonica Hopes ‘Big Data’ Arm Will Revive Fortunes”, BBC Online, October 9, 2012. (https://www.bbc.co.uk/news/ technology-19882647).
Nghiên cứu của Hiệp hội Ung thư Đan Mạch – Patrizia Frei et al., “Use of Mobile Phones and Risk of Brain Tumours: Update of Danish Cohort Study”, BMJ 343 (2011) (https://www.bmj.com/ content/343/bmj.d6387), and interview with Cukier, October 2012. Dữ liệu GPS và xe tự hành Street View của Google – Peter Kirwan, “This Car Drives Itself”, Wired UK, January 2012 (https:// www.wired.co.uk/magazine/archive/2012/01/features/thiscar-drives-itself?page=all).
Về chương trình kiểm tra chính tả của Google và các trích dẫn – Interview with Cukier at the Googleplex in Mountain View, California, December 2009; Cukier, “Data, Data Everywhere”. Sự sáng suốt của Hammerbacher – Interview with Cukier, October 2012.
Dữ liệu e-book của Barnes & Noble – Alexandra Alter, “Your E-Book Is Reading You”, Wall Street Journal, June 29, 2012 (https://online.wsj.com/article/SB1000142405270230487030457 7490950051438304.html).
Lớp học và dữ liệu Coursera của Andrew Ng – Interview with Cukier, June 2012.
Chính sách chính phủ mở của Obama – Barack Obama, “Presidential memorandum”, White House, January 21, 2009. Về giá trị dữ liệu của Facebook – Doug Laney, “To Facebook You’re Worth $80.95”, Wall Street Journal, May 3, 2012 (https://blogs.wsj.com/cio/2012/05/03/to-facebook-youreworth-80-95/).
Để định giá các mục tin rời rạc của Facebook, Laney ngoại suy từ tốc độ tăng trưởng của Facebook để ước tính 2,1 nghìn tỷ mẩu nội dung. Trong bài viết trên WSJ của mình, ông định giá mỗi mục tin là 3 cent vì ông sử dụng ước tính giá trị thị trường trước đó của Facebook là 75 tỷ USD. Cuối cùng, nó là hơn 100 tỷ USD, hay 5 cent, như chúng ta ngoại suy dựa trên tính toán của ông. Khoảng cách giá trị của tài sản hữu hình và vô hình – Steve M. Samek, “Prepared Testimony: Hearing on Adapting a 1930’s Financial Reporting Model to the 21st Century”, U.S. Senate Committee on Banking, Housing and Urban Affairs, Subcommittee on Securities, July 19, 2000.
Giá trị của tài sản vô hình – Robert S. Kaplan and David P. Norton, Strategy Maps: Converting Intangible Assets into Tangible Outcomes (Harvard Business Review Press, 2004), pp. 4-5. Trích dẫn của Tim O’Reilly – Interview with Cukier, February 2011.
Chương 7. NHỮNG TÁC ĐỘNG
Thông tin về Decide.com được lấy từ các trao đổi email của Cukier với Etzioni vào tháng 5 năm 2012.
Báo cáo McKinsey – James Manyika et al., “Big Data: The Next Frontier forInnovation, Competition, and Productivity”, McKinsey Global Institute,May 2011 (https://www.mckinsey. com/insights/mgi/research/technology_and_innovation/big_ data_the_next_frontier_for_innovation), p. 10.
Trich dẫn của Hal Varian – Interview with Cukier, December 2009.
Trich dẫn của Carl de Marcken được lấy từ các trao đổi email với Cukier vào tháng 5 năm 2012.
Về MasterCard Advisors – Cukier interviews with Gary Kearns, The Economist’s “The Ideas Economy: Information” conference, Santa Clara, California, June 8, 2011.
Thông tin về Accenture và thành phố St Louis, Missouri được lấy từ bài phỏng vấn của Cukier với nhân viên thành phố vào tháng 2 năm 2007.
Hệ thống tình báo thống nhất Amalga của Microsoft – “Microsoft Expands Presence in Healthcare IT Industry with Acquisition of Health Intelligence Software Azyxxi”, Microsoft press release, July 26, 2006 (https://www.microsoft.com/en-us/ news/press/2006/jul06/07-26azyxxiacquisitionpr.aspx). Dịch vụ Amalga bây giờ là một phần trong liên doanh của Microsoft với General Electric, gọi là Caradigm.
Amazon và “hợp tác lọc” – IPO Prospectus, May 1997 (https:// Amazon và “hợp tác lọc” – IPO Prospectus, May 1997 (https:// 000868.txt).
Các bộ vi xử lý của xe hơi – Nick Valery, “Tech.View: Cars and Software Bugs”, Economist.com, May 16, 2010 (https://www. economist.com/blogs/babbage/2010/05/techview_cars_and_ software_bugs).
Maury gọi các tàu là “đài quan sát nổi” – Maury, The Physical Geography of the Sea.
Về Viện Chi phí chăm sóc sức khỏe – Sarah Kliff, “A Database That Could Revolutionize Health Care”, Washington Post, May 21, 2012.
Google và thỏa thuận ITA – Claire Cain Miller, “U.S. Clears Google Acquisition of Travel Software”, New York Times, April 8, 2011 (https://www.nytimes.com/2011/04/09/technology/09google. html?_r=0).
Đối thoại từ bộ phim Moneyball, đạo diễn Bennett Miller, Columbia Pictures, 2011.
Về phòng vé Hollywood so với doanh số bán trò chơi điện tử – Đối với phim, xem Brooks Barnes, “A Year of Disappointment at the Movie Box Office”, New York Times, December 25, 2011 (https:// www.nytimes.com/2011/12/26/business/media/a-year-ofdisappointment-for-hollywood.html). Đối với trò chơi điện tử, xem “Factbox: A Look at the $65 billion Video Games Industry”, Reuters, June 6, 2011 (https://uk.reuters.com/article/2011/06/06/ us-videogames-factbox-idUKTRE75552I20110606).
Phân tích dữ liệu Zynga Nick Wingfield, “Virtual Products, Real Profits: Players Spend on Zynga’s Games, but Quality Turns Some Off”, Wall Street Journal, September 9, 2011 (https://online. wsj.com/article/SB10001424053111904823804576502442835413 446.html).
Trích dẫn của Ken Rudin – Erik Schlie, Jörg Rheinboldt, and Niko Waesche, Simply Seven: Seven Ways to Create a Sustainable Internet Business (Palgrave Macmillan, 2011). p. 7.
Trích dẫn của Auden – W. H. Auden, “For the Time Being”, 1944.
Nghiên cứu Brynjolfsson – Erik Brynjolfsson, Lorin Hitt, and Heekyung Kim, “Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance?” working paper, April 2011 (https://papers.ssrn.com/sol3/papers.cfm?abstract_ id=1819486).
Về Rolls-Royce – “Rolls-Royce: Britain’s Lonely High-Flier”, The Economist, January 8, 2009 (https://www.economist. com/node/12887368). Figures updated from press office, November 2012.
Erik Brynjolfsson, Andrew McAfee, Michael Sorell, and Feng Zhu, “Scale Without Mass: Business Process Replication and Industry Dynamics”, Harvard Business School working paper, September 2006 (https://www.hbs.edu/research/pdf/07-016.pdf also https:// hbswk.hbs.edu/item/5532.html).
Về chuyển biến hướng sang các chủ sở hữu dữ liệu ngày càng lớn – Yannis Bakos and Erik Brynjolfsson, “Bundling Information Goods: Pricing, Profits, and Efficiency”, Management Science 45 (December 1999), pp. 1613-30.
Chương 8. NHỮNG RỦI RO
Về Stasi – Rất tiếc là phần lớn các tài liệu đều bằng tiếng Đức, ngoại trừ một nghiên cứu rất hay là Kristie Macrakis, Seduced by Secrets: Inside the Stasi’s Spy-Tech World (Cambridge University Press, 2008). Chúng tôi cũng giới thiệu bộ phim đoạt giải Oscar The Lives of Others, do Florian Henckel von Donnersmark đạo diễn, Buena Vista / Sony Pictures năm 2006.
Camera giám sát gần nhà của Orwell – “George Orwell, Big Brother Is Watching Your House”, The Evening Standard, March 31, 2007 (https://www.thisislondon.co.uk/news/george-orwellbig-brother-is-watching-your-house-7086271.html).
Về Equifax và Experian – Daniel J. Solove, The Digital Person: Technology and Privacy in the Information Age (NYU Press, 2004), pp. 20-21.
Về địa chỉ khu phố của người Nhật Bản tại Washington được trao cho nhà chức trách Mỹ – J. R. Minkel, “The U.S. Census Bureau Gave Up Names of Japanese-Americans in WW II”, Scientific American, March 30, 2007 (https://www.scientificamerican.com/ article.cfm?id=confirmed-the-us-census-b).
Về dữ liệu được sử dụng bởi Đức quốc xã ở Hà Lan – William Seltzer and Margo Anderson, “The Dark Side of Numbers: The Role of Population Data Systems in Human Rights Abuses”, Social Research 68 (2001), pp. 481-513.
Về IBM và Holocaust – Edwin Black, IBM and the Holocaust (Crown, 2003).
Về số lượng dữ liệu do các đồng hồ thông minh thu thập – Elias Leake Quinn, “Smart Metering and Privacy: Existing Law and Competing Policies; A Report for the Colorado Public Utility Commission”, Spring 2009 (https://www.w4ar.com/Danger_of_ Smart_Meters_Colorado_Report.pdf); Joel M. Margolis, “When Smart Grids Grow Smart Enough to Solve Crimes”, Neustar, March 18, 2010 (https://energy.gov/sites/prod/files/gcprod/ documents/Neustar_Comments_DataExhibitA.pdf)
Tài liệu của Fred Cate về xin phép và cho phép – Fred H. Cate, “The Failure of Fair Information Practice Principles”, in Jane K. Winn, ed., Consumer Protection in the Age of the “Information Economy” (Ashgate, 2006), p. 341 et seq.
Về phát hành dữ liệu AOL – Michael Barbaro and Tom Zeller Jr., “A Face Is Exposed for AOL Searcher No. 4417749”, New York Times, August 9, 2006; Matthew Karnitschnig and Mylene Mangalindan, “AOL Fires Technology Chief After Web-Search Data Scandal”, Wall Street Journal, August 21, 2006.
Netflix xác định cá nhân – Ryan Singel, “Netflix Spilled Your Brokeback Mountain Secret, Lawsuit Claims”, Wired, December 17, 2009 (https://www.wired.com/threatlevel/2009/12/netflixprivacy-lawsuit/).
Về việc phát hành dữ liệu Netflix – Arvind Narayanan and Vitaly Shmatikov, “Robust De-Anonymization of Large Sparse Datasets”, Proceedings of the 2008 IEEE Symposium on Security and Privacy, p. 111 et seq. (https://www.cs.utexas.edu/~shmat/ shmat_oak08netflix.pdf); Arvind Narayanan and Vitaly Shmatikov, “How to Break the Anonymity of the Netflix Prize Dataset”, October 18, 2006, arXiv:cs/0610105 [cs.CR] (https:// arxiv.org/abs/cs/0610105).
Về việc xác định cá nhân từ ba đặc tính – Philippe Golle, “Revisiting the Uniqueness of Simple Demographics in the US Population”, Association for Computing Machinery Workshop on Privacy in Electronic Society 5 (2006), p. 77.
Về sự suy yếu cấu trúc của ẩn danh hóa – Paul Ohm, “Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization”, 57 UCLA Law Review 1701 (2010).
Về sự ẩn danh của đồ thị xã hội – Lars Backstrom, Cynthia Dwork, and Jon Kleinberg, “Wherefore Art Thou R3579X? Anonymized Social Networks, Hidden Patterns, and Structural Steganography”, Communications of the Association of Computing Machinery, December 2011, p. 133.
Các “hộp đen” của xe hơi – “Vehicle Data Recorders: Watching Your Driving”, The Economist, June 23, 2012 (https://www. economist.com/node/21557309).
Thu thập dữ liệu NSA – Dana Priest and William Arkin, “A Hidden World, Growing Beyond Control”, Washington Post, July 19, 2010 (https://projects.washingtonpost.com/top-secretamerica/articles/a-hidden-world-growing-beyond-control/ print/). Juan Gonzalez, “Whistleblower: The NSA Is Lying – U.S. Government Has Copies of Most of Your Emails”, Democracy Now, April 20, 2012 (https://www.democracynow.org/2012/4/20/ whistleblower_the_nsa_is_ lying_us). William Binney, “Sworn Declaration in the Case of Jewel v. NSA”, filed July 2, 2012 (https:// publicintelligence.net/binney-nsa-declaration/).
Việc giám sát đã thay đổi thế nào với dữ liệu lớn – Patrick Radden Keefe, “Can Network Theory Thwart Terrorists?” New York Times, March 12, 2006 (https://www.nytimes.com/2006/03/12/ magazine/312wwln_essay.html).
Đối thoại trong phim Minority Report của đạo diễn Steven Spielberg, DreamWorks / 20th Century Fox, 2002. Cuộc đối thoại chúng tôi trích dẫn là tóm tắt rất gọn. Bộ phim dựa trên một truyện ngắn năm 1958 của Philip K. Dick, nhưng có những sự khác biệt đáng kể giữa hai phiên bản. Cụ thể, cảnh mở đầu về người chồng bị cắm sừng không xuất hiện trong cuốn sách, và câu hỏi triết lý hóc búa về tiền tội phạm được trình bày trong phim của Spielberg đầy đủ hơn trong truyện. Do đó, chúng tôi đã chọn mô tả sự tương đồng so với bộ phim.
Câc thí dụ về giám sát tiên đoán – James Vlahos, “The Department Of Pre-Crime”, Scientific American 306 (January 2012), pp. 62-67.
Về Future Attribute Screening Technology (FAST) – Sharon Weinberger, “Terrorist ‘Pre-crime’ Detector Field Tested in United States”, Nature, May 27, 2011 (https://www.nature. com/news/2011/110527/full/news.2011.323.html); Sharon Weinberger, “Intentto Deceive”, Nature 465 (May 2010), pp. 412- 415. Về vấn đề dương tính giả – Alexander Furnas, “Homeland Security’s ‘Pre-Crime’ Screening Will Never Work”, The Atlantic Online, April 17, 2012 (https://www.theatlantic.com/technology/ archive/2012/04/homeland-securitys-pre-crime-screeningwill-never-work/255971/).
Về điểm của học sinh và phí bảo hiểm – Tim Query, “Grade Inflation and the Good-Student Discount, Contingencies Magazine, American Academy of Actuaries, May-June 2007 (https://www.contingencies.org/mayjun07/tradecraft.pdf). Về những nguy hiểm của lập hồ sơ – Bernard E. Harcourt, Against Prediction: Profiling, Policing, and Punishing in an Actuarial Age (University of Chicago Press, 2006).
Về công trình của Richard Berk – Richard Berk, “The Role of Race in Forecasts of Violent Crime”, Race and Social Problems 1 (2009), pp. 231-242.
Về sự say mê dữ liệu của McNamara – Phil Rosenzweig, “Robert S. McNamara and the Evolution of Modern Management”, Harvard Business Review, December 2010 (https://hbr. org/2010/12/robert-s-mcnamara-and-the-evolution-ofmodern-management/ar/pr).
Về thành công của “Những đứa trẻ thần đồng” trong Thế chiến II – John Byrne, The Whiz Kids (Doubleday, 1993).
Về McNamara tại Ford – David Halberstam, The Reckoning (William Morrow, 1986), pp. 222-245.
Cuốn sách của Kinnard – Douglas Kinnard, The War Managers (University Press of New England, 1977), pp. 71-25.
Về câu trích dẫn “Chúng ta tin ở Chúa – còn tất cả những thứ khác thì mang đến dữ liệu” – Câu trích này thường được gán cho W. Edwards Deming.
Về Ted Kennedy và danh sách cấm bay – Sara Kehaulani Goo, “Sen. Kennedy Flagged by No-Fly List”, Washington Post, August 20, 2004, p. A01 (https://www.washingtonpost.com/wp-dyn/ articles/A17073-2004Aug19.html).
Biện pháp tuyển dụng của Google – Xem Douglas Edwards, I’m Feeling Lucky: The Confessions of Google Employee Number 59 (Houghton Mifflin Harcourt, 2011), p. 9; Steven Levy, In the Plex (Simon and Schuster, 2011), pp. 140-141. Trớ trêu thay, người đồng sáng lập của Google từng muốn thuê Steve Jobs làm CEO (mặc dù ông không có bằng đại học); Levy, p. 80.
Thử nghiệm 41 tỷ lệ chiết giảm của màu xanh lam – Laura M. Holson, “Putting a Bolder Face on Google”, New York Times, March 1, 2009 (https://www.nytimes.com/2009/03/01/ business/01marissa.html).
Giám đốc thiết kế của Google từ chức – Doug Bowman, “Goodbye, Google”, blog post, March 20, 2009 (https://stopdesign. com/archive/2009/03/20/goodbye-google.html).
Trích dẫn của Jobs – Steve Lohr, “Can Apple Find More Hits Without Its Tastemaker?” New York Times, January 18, 2011, p. B1 (https://www.nytimes.com/2011/01/19/technology/ companies/19innovate.html).
Cuốn sách của Scott – James Scott, Seeing Like a State: How Certain Schemes to Improve the Human Condition Have Failed (Yale University Press, 1998).
Trích dẫn của McNamara từ năm 1967 – Từ bài nói chuyện tại Millsaps College ở Jackson, Mississippi, được trích dẫn trong Harvard Business Review, tháng 12 năm 2010.
Về lời biện hộ của McNamara – Robert S. McNamara with Brian VanDeMark, In Retrospect: The Tragedy and Lessons of Vietnam (Random House, 1995), pp. 48, 270.
Chương 9. KIỂM SOÁT
Về việc sưu tập sách thư viện của Đại học Cambridge – Marc Drogin, Anathema! Medieval Scribes and the History of Book Curses (Allanheld and Schram, 1983), p. 37.
Về trách nhiệm giải trình và sự riêng tư – Trung tâm Quản lý chính sách thông tin đã tham gia trong một dự án kéo dài nhiều năm về những nét chung trong trách nhiệm giải trình và sự riêng tư, xem https://www.informationpolicycentre.com/ accountability-based_privacy_governance/.
Về ngày hết hạn của dữ liệu – Mayer-Schönberger, Delete. “Differential privacy” – Cynthia Dwork, “A Firm Foundation for Private Data Analysis”, Communications of the ACM, January 2011, pp. 86-95.
Facebookvà quyền riêng tư khác biệt – A. Chin and A. Klinefelter, “Differential Privacy as a Response to the Reidentification Threat: The Facebook Advertiser Case Study”, 90 North Carolina Law Review 1417 (2012); A. Haeberlen et al., “Differential Privacy Under Fire”, https://www.cis.upenn.edu/~ahae/papers/fuzzsec2011.pdf.
Các công ty bị nghi ngờ thông đồng – Đã có nghiên cứu trong lĩnh vực này, xem Pim Heijnen, Marco A. Haan, and Adriaan R. Soetevent, “Screening for Collusion: A Spatial Statistics Approach”, Discussion Paper TI 2012-058/1, Tinbergen Institute, The Netherlands, 2012 (https://www.tinbergen.nl/ discussionpapers/12058.pdf).
Về các đại diện bảo vệ dữ liệu của công ty Đức – Viktor MayerSchönberger, “Beyond Privacy, Beyond Rights: Towards a ‘Systems’ Theory of Information Governance”, 98 California Law Review 1853 (2010).
Về khả năng tương tác – John Palfrey and Urs Gasser, Interop: The Promise and Perils of Highly Interconnected Systems (Basic Books, 2012).
Chương 10. TIẾP THEO
Thông tin về Mike Flowers và các phân tích của thành phố New York được dựa trên cuộc phỏng vấn với Cukier vào tháng 7 năm 2012; xem Alex Howard, “Predictive data analytics is saving lives and taxpayer dollars in New York City”, O’Reilly Media, June 26, 2012 (https://strata.oreilly.com/2012/06/predictive-dataanalytics-big-data-nyc.html).
Về Walmart và Pop-Tarts – Hays, “What Wal-Mart Knows About Customers’ Habits”.
Ứng dụng của dữ liệu lớn trong các khu ổ chuột và trong mô hình hóa những phong trào tị nạn – Nathan Eagle, “Big Data, Global Development, and Complex Systems”, https://www.youtube. com/watch?v=yaivtqlu7iM.
Nhận thức về thời gian – Benedict Anderson, Imagined Communities (Verso, 2006).
“Quá khứ là khúc dạo đầu” – William Shakespeare, “The Tempest”, Act 2, Scene I.
Hệ thống máy tính của Apollo 11 – David A. Mindell, Digital Apollo: Human and Machine in Spaceflight (MIT Press, 2008).
Đọc truyện hay đừng quên like và chia sẻ truyện tới bạn bè, để lại bình luận là cách để ủng hộ webtruyenfree. Thỉnh thoảng ấn vào q uảng c áo ngày 1-2 lần để tụi mình có kinh phí duy trì web các bạn nhé!