Phân tích dữ liệu lớn đòi hỏi không chỉ các thuật toán và dữ liệu, mà còn cả các cơ sở vật chất, nơi lưu trữ và phân tích dữ liệu. Các dịch vụ an ninh liên quan được sử dụng đối với dữ liệu cá nhân cũng là một thành phần thiết yếu trong cơ sở hạ tầng. Trước đây loại cơ sở hạ tầng này thường chỉ thuộc về các tổ chức lớn, giờ đây nó có thể phổ biến đến các doanh nghiệp nhỏ và các cá nhân thông qua “đám mây”. Khi mà phạm vi chia sẻ cơ sở hạ tầng phần mềm được mở rộng, thì các dịch vụ cơ sở hạ tầng bảo mật thông tin cá nhân cũng có thể được sử dụng dễ dàng hơn.
Các trung tâm dữ liệu
Một cách để nghĩ tới nền tảng dữ liệu lớn đó là cơ sở vật chất của các “trung tâm dữ liệu“. Trong những năm gần đây, các trung tâm dữ liệu đã trở thành một loại hàng hóa gần như đạt chuẩn. Một trung tâm dữ liệu điển hình là một tòa nhà lớn, giống như kho chứa trên một nền bê tông kích thước bằng vài sân bóng đá. Nó được đặt ở vị trí có thể tiếp cận nguồn điện giá rẻ với kết nối cáp quang và kết nối trực tiếp với mạng xương sống Internet, thường là ở một vùng nông thôn hoặc biệt lập. Các trung tâm dữ liệu điển hình tiêu thụ 20-40 megawatt điện (tương đương với một thành phố 20.000-40.000 dân) và chứa đến hàng chục ngàn máy chủ và ổ đĩa cứng, với tổng số lên đến hàng chục petabytes. Trên thế giới, có khoảng 6000 trung tâm dữ liệu đạt quy mô này, Hoa Kỳ chiếm khoảng một nửa số này. Các trung tâm dữ liệu là vị trí cụ thể của dữ liệu lớn với mọi hình thức của nó. Các tập hợp dữ liệu lớn thường được sao chép tại nhiều trung tâm dữ liệu để nâng cao tính cả hiệu suất và độ chắc chắn. Hiện nay thị trường dịch vụ trung tâm dữ liệu đang phát triển nhanh.
Công nghệ phần mềm chuyên dụng cho phép các dữ liệu tại nhiều trung tâm dữ liệu (và phân tán qua hàng chục ngàn bộ vi xử lý và ổ đĩa cứng) có thể tác hợp để thực hiện các nhiệm vụ phân tích dữ liệu, qua đó cho phép mở rộng quy mô và hiệu suất tốt hơn. Ví dụ, MapReduce (vốn là một công nghệ độc quyền của Google, nhưng giờ đây là một thuật ngữ được sử dụng tổng quát) là một mô hình lập trình về các hoạt động thực thi song song trên các bộ vi xử lý với số lượng gần như không giới hạn; Hadoop là một nền tảng lập trình mã nguồn mở phổ biến và là thư viện lập trình dựa trên những ý tưởng tương tự; NoSQL (Not Structured Query Language) là một tập hợp các công nghệ cơ sở dữ liệu, tháo gỡ nhiều giới hạn của các cơ sở dữ liệu truyền thống và “quan hệ”, cho phép mở rộng tốt hơn trên nhiều bộ xử lý trong một hoặc nhiều trung tâm dữ liệu.
Nghiên cứu đương đại đang được nhằm vào thế hệ tiếp theo của Hadoop. Đại diện một nhánh là Accumulo, do Cơ quan An ninh Quốc gia Hoa Kỳ khởi xướng và chuyển tiếp thành cộng đồng mã nguồn mở Apache . Một ví dụ khác là Berkeley Data Analytics Stack, một nền tảng mã nguồn mở vượt trội Hadoop về phân tích dữ liệu từ nhiều bộ nhớ (memory-intensive) và được sử dụng bởi các công ty như Foursquare, Conviva, Klout, Quantifind, Yahoo, và Amazon Web Services. Đôi khi được gọi là “NoHadoop” (dịch chuyển từ SQL sang NoSQL), các công nghệ phù hợp với xu hướng này bao gồm Dremel của Google, MPI (thường được sử dụng trong siêu máy tính), Pregel (sử dụng cho đồ họa), và Cloudscale (phân tích thời gian thực).
Đám mây
Có thể hiểu “đám mây” như là một tập hợp các nền tảng và dịch vụ có thể thực hiện được nhờ vào việc thông dụng hóa vật chất các trung tâm dữ liệu. Khi nói rằng dữ liệu nằm “trong đám mây”, không chỉ đề cập đến các ổ đĩa cứng cụ thể tồn tại (ở một nơi nào đó) với các dữ liệu, mà đó là cả một cơ sở hạ tầng phức tạp gồm các chương trình ứng dụng, phần mềm lớp trung gian (middleware), các giao thức mạng, và các mô hình kinh doanh cho phép dữ liệu được đăng nhập, truy cập, và sử dụng, tất cả với chi phí phân phối cạnh tranh. Các tổ chức thương mại cung cấp đám mây tồn tại trong một hệ sinh thái có nhiều cấp thứ bậc và nhiều mô hình giá trị gia tăng khác nhau cùng tồn tại. Ở đây có nhiều cách chuyển giao trách nhiệm giữa người dùng cuối và các trung tâm dữ liệu cụ thể.
Các nhà cung cấp đám mây hiện nay mang lại một số lợi ích an ninh (và thông qua đó, lợi ích bảo mật) so với các trung tâm dữ liệu thông thường của các doanh nghiệp trước đây hay các máy tính của các doanh nghiệp nhỏ. Các dịch vụ có thể bao gồm bảo vệ và giám sát tốt hơn, cũng như hỗ trợ tập trung hóa nhân lực, đào tạo, và giám sát. Các dịch vụ đám mây cũng đặt ra nhiều thách thức mới về an ninh, một đối tượng nghiên cứu hiện nay. Cả lợi ích và rủi ro đều xuất phát từ sự tập trung hóa các nguồn lực: Thêm nhiều dữ liệu được một tổ chức cụ thể nắm giữ (mặc dù phân bố trên nhiều máy chủ hoặc các trang web), và một nhà cung cấp đám mây có thể thực hiện tốt hơn so với các trung tâm dữ liệu được tổ chức riêng biệt bằng cách áp dụng các tiêu chuẩn cao về tuyển dụng và quản lý con người và hệ thống.
Việc sử dụng đám mây và các tương tác cá nhân cùng với nó (bất kể cố ý hay không) được dự báo sẽ tăng mạnh trong những năm tới. Sự gia tăng của cả hai ứng dụng di động, tăng cường sử dụng điện thoại di động và máy tính bảng như là nền tảng, và các bộ cảm biến phân bổ rộng có liên quan với việc sử dụng ngày càng tăng của các hệ thống đám mây để lưu trữ, xử lý, và các tác nghiệp dựa trên thông tin khác đóng góp bởi các thiết bị phân tán. Mặc dù sự tiến bộ về môi trường di động cải thiện khả năng sử dụng các ứng dụng đám mây di động, tuy nhiên nó có thể gây phương hại đến tính riêng tư đến mức nó có thể che giấu hiệu quả hơn sự trao đổi thông tin từ người sử dụng. Khi có thêm tính năng di động lõi được chuyển sang đám mây, một lượng lớn thông tin sẽ được trao đổi, và người dùng có thể ngạc nhiên bởi bản chất của thông tin không còn cục bộ hóa trong điện thoại di động của mình. Ví dụ, màn hình hiển thị (screen rendering) dựa trên đám mây (hoặc “màn hình ảo hóa”) cho điện thoại di động sẽ có nghĩa là hình ảnh hiển thị trên màn hình điện thoại di động trên thực tế sẽ được tính toán trên đám mây và truyền đến thiết bị di động. Điều đó có nghĩa là tất cả các hình ảnh trên màn hình của thiết bị di động đều có thể truy cập và thao tác từ đám mây.
Kiến trúc đám mây cũng đang được sử dụng ngày càng tăng để hỗ trợ phân tích dữ liệu lớn, cả các doanh nghiệp lớn (như Google, Amazon, eBay) và các doanh nghiệp nhỏ hay cá nhân, những người sử dụng đột xuất hay thường xuyên các nền tảng đám mây công cộng (như Amazon Web Services, Google Cloud Platform, Microsoft Azure) thay cho việc mua sắm cơ sở hạ tầng riêng. Các dịch vụ truyền thông xã hội như Facebook và Twitter đang được triển khai và phân tích bởi các nhà cung cấp thông qua sử dụng các hệ thống đám mây. Các dịch vụ này đại diện cho một dạng dân chủ hóa phân tích, có tiềm năng tạo điều kiện thuận lợi cho các doanh nghiệp mới và nhiều hơn. Triển vọng tương lai bao gồm khám phá các phương án hợp nhất hoặc kết nối các ứng dụng đám mây và làm giảm một số không đồng nhất trong các giao diện lập trình ứng dụng cho các ứng dụng đám mây.
NASATI (Big Data technology and services Forecast. www.idc.com)