Với việc mở rộng phạm vi người dùng Internet, khái niệm Web 2.0 bắt đầu xuất hiện vào giữa những năm 2000. Nó có hai tính năng chính: cung cấp nền tảng để người dùng tham gia, chẳng hạn như blog và SNS (Dịch vụ mạng xã hội – Social Networking Service), và tính minh bạch của các nhà cung cấp dịch vụ, những người tiết lộ rộng rãi thông tin của họ.
Kể từ khi xuất hiện Web2.0, những người không có kiến thức về HTML hoặc tương tự đã có thể dễ dàng truyền tải thông tin trên mạng. Do đó, thông tin, chẳng hạn như nhật ký cá nhân, ảnh, dữ liệu thoại, video trên blog và SNS, và tweet trên Twitter đã được tích lũy trên mạng. Hơn nữa, do sự ra đời của IoT, mạng kết nối vạn vật thông qua Internet, dữ liệu có sẵn trên mạng được lưu trữ với dung lượng lớn hơn bao giờ hết, điều này tạo nên dạng dữ liệu lớn (big data). Dữ liệu được tạo trên mạng không chỉ bao gồm các thông tin như e-mail và thông tin tìm kiếm trên web được truyền trên Internet từ máy tính, điện thoại thông minh và điện thoại di động, mà còn là những dạng thông tin về vị trí được ghi lại bởi hệ thống định vị toàn cầu (GPS), lịch sử chuyến đi được ghi trên thẻ lên máy bay (IC), lịch sử mua hàng được ghi trên thẻ thành viên, các đại lượng vật lý như nhiệt độ và áp suất thu được từ các cảm biến khác nhau và bất kỳ sự kiện nào được chuyển đổi thành dữ liệu.
Việc sử dụng dữ liệu lớn có thể mang lại nhiều giá trị khác nhau và có thể dùng để thu được kiến thức mới. Một ví dụ ở Nhật Bản là hệ thống thẻ thành viên “T Point” của Công ty Culture Convenience Club Co., Ltd, được liên kết với 131 doanh nghiệp và khoảng 450.000 cửa hàng, hệ thống này có thể cung cấp bốn loại dữ liệu lớn bao gồm: vị trí của các thành viên, tỷ lệ mua lặp lại và đơn giá mua, cho 55,56 triệu thẻ thành viên. Dữ liệu lớn đã được sử dụng trong chiến lược bán hàng của các đối tác liên minh. Một ví dụ khác là dự án Dữ liệu lớn về thiên tai động đất của Công ty phát thanh truyền hình Nhật Bản (NHK). Dự án đã phân tích dân số và sự di chuyển của người dân trong khu vực bị ngập lụt trong trận động đất năm 2011 dựa trên thông tin vị trí từ điện thoại di động, dữ liệu bản đồ và thông tin thời gian. Kết quả là, những người trong vùng bị ngập lụt bởi sóng thần có xu hướng trở về nhà để giúp đỡ gia đình của họ, và một số phát hiện khác đã được thu thập. Những phát hiện này đã được sử dụng trong việc lập kế hoạch và xây dựng các biện pháp phòng chống thiên tai của các đô thị.
Các yếu tố góp phần vào việc hiện thực hóa kỷ nguyên dữ liệu lớn bao gồm máy tính tốc độ cao, bộ nhớ dung lượng lớn và phần mềm tinh vi. Ngoài ra, phải kể đến một trong những công nghệ chủ chốt là tính toán phân tán (hoặc tính toán lưới). Để xử lý một lượng lớn dữ liệu dưới dạng dữ liệu lớn, cần có tài nguyên tính toán rất lớn. Tính toán phân tán cho phép phân tích dữ liệu lớn bằng cách sử dụng vô số máy tính có mục đích chung trên mạng làm tài nguyên tính toán lớn. Hơn nữa, với sự tinh vi của tính toán phân tán, tài nguyên máy tính có thể được cung cấp như các dịch vụ bên ngoài. Kết quả là, nó cho phép người dùng có được các tài nguyên tính toán cần thiết mà không cần thiết lập một môi trường máy chủ của mình (điện toán đám mây).
NASATI (CRDS. Future Services & Societal Systems in Society 5.0. 2016 (Center for Research and Development Strategy- Japan Science and Technology Agency)