Công cụ và kỹ thuật phân tích là cần thiết để thu được những triển vọng của dữ liệu lớn. Những tác động kinh tế xã hội là rất lớn, tuy nhiên một thách thức chính sách lớn đó là làm cân bằng giữa sự cần thiết phải mở cửa với những mối đe dọa mà việc “dữ liệu hóa” quá mức đời sống xã hội có thể gây ra cho bảo mật, an ninh, công bằng và toàn vẹn.
Tạo ý nghĩa và giá trị của dữ liệu lớn
Phân tích dữ liệu lớn được định nghĩa là một tập hợp các kỹ thuật và công cụ dùng để xử lý và diễn giải số lượng lớn dữ liệu được tạo ra từ sự gia tăng số hóa nội dung, giám sát các hoạt động của con người và sự phổ biến của IoT. Nó có thể được sử dụng để suy luận các mối quan hệ, thiết lập phần phụ thuộc và thực hiện dự đoán về kết quả và hành vi. Một số loại phân tích dữ liệu cho phép trích xuất thông tin từ dữ liệu bằng cách phân tích ngữ cảnh và kiểm tra cách tổ chức và cấu trúc. Khai phá dữ liệu bao gồm một tập hợp các công nghệ quản lý dữ liệu, các kỹ thuật tiền xử lý (làm sạch dữ liệu) và các phương pháp phân tích nhằm phát hiện các hình thức thông tin từ các bộ dữ liệu. Kỹ thuật định hình (profiling) tìm cách xác định các mô hình trong các thuộc tính của một thực thể cụ thể (ví dụ như khách hàng hoặc đơn đặt hàng sản phẩm) và phân loại chúng. Các công cụ kinh doanh thông minh nhằm giám sát các chỉ số hoạt động quan trọng và lập các báo cáo chuẩn một cách đều đặn phục vụ cho các quyết định quản lý. Học máy bao gồm thiết kế, phát triển và sử dụng các thuật toán vừa thực hiện một nhiệm vụ nhất định đồng thời có thể “học” cách để nâng cao hiệu năng. Phân tích trực quan là các công cụ và kỹ thuật cho phép quan trắc, diễn giải và truyền đạt thông qua các biểu đồ và hình ảnh tương tác.
Phân tích dữ liệu lớn mở ra các cơ hội tăng năng suất, thúc đẩy tăng trưởng toàn diện hơn và đóng góp vào phúc lợi của người dân. Các công ty, chính phủ và cá nhân ngày càng có thể tiếp cận những khối lượng dữ liệu lớn chưa từng có trước đây, giúp cho việc ra quyết định trong thời gian thực bằng cách kết hợp một phạm vi rộng thông tin từ nhiều nguồn khác nhau. IoT và sự gia tăng liên tục về số lượng lưu trữ và tốc độ xử lý các dữ liệu có thể truy cập và khai thác sẽ thúc đẩy nhanh hơn sự phát triển phân tích dữ liệu lớn.
Dữ liệu lớn sẽ mang lại cơ hội lớn cho các doanh nghiệp và người tiêu dùng
Khai thác dữ liệu lớn sẽ trở thành một yếu tố quyết định đối với đổi mới sáng tạo và khả năng cạnh tranh của các doanh nghiệp. Một mặt, nó cho phép các công ty theo dõi chặt chẽ và tối ưu hóa các hoạt động, không chỉ bằng cách tập hợp khối lượng dữ liệu lớn về quá trình sản xuất hoặc cung cấp dịch vụ, mà còn về những cách khách hàng tiếp cận họ và đặt các đơn hàng. Mặt khác, nó cung cấp cho người tiêu dùng nhiều sản phẩm và dịch vụ cá nhân hóa, được thiết kế phù hợp với nhu cầu của họ. Sự phong phú của các ứng dụng thị trường tiềm năng được phản ánh qua số đầu tư ngày càng tăng vào phân tích dữ liệu lớn và các công nghệ liên quan (IoT, máy tính lượng tử và viễn thông). Số lượng hồ sơ đăng ký sáng chế về các công nghệ này đã tăng với tốc độ hai con số trong những năm gần đây.
Dữ liệu lớn tạo ra nhiều cơ hội cho khu vực công
Phân tích dữ liệu lớn có khả năng đưa đến sự cải thiện đáng kể hiệu quả hành chính công. Việc thu thập và phân tích những khối lượng dữ liệu lớn của khu vực công có thể dẫn đến các chính sách và dịch vụ công tốt hơn của chính phủ, góp phần nâng cao hiệu suất và năng suất của khu vực công. Ví dụ, phân tích dự báo có thể tạo điều kiện cho việc xác định các nhu cầu mới nổi của chính phủ và xã hội. Dữ liệu mở từ khu vực công cũng có thể được các công ty tư nhân khai thác thương mại. Nó đại diện cho một nguồn lực quan trọng để xây dựng lòng tin của công chúng bằng cách tăng cường tính công khai, minh bạch, sẵn sàng đáp ứng và trách nhiệm giải trình của khu vực công. Thông qua phân tích dữ liệu lớn, các công dân có thể đưa ra các quyết định có hiểu biết hơn và tham gia tích cực hơn vào các vấn đề công cộng.
Hệ thống nghiên cứu và lĩnh vực y tế đặc biệt được hưởng lợi
Sự gia tăng cơ hội tiếp cận với khoa học công có tiềm năng làm cho toàn bộ hệ thống nghiên cứu có hiệu quả hơn và có khả năng sinh lợi hơn do có thể giảm được sự trùng lặp và các chi phí tạo lập, chuyển giao và sử dụng lại dữ liệu; cho phép cùng một nguồn dữ liệu có thể tạo ra nhiều nghiên cứu hơn, bao gồm cả trong khu vực doanh nghiệp; và nhân rộng các cơ hội tham gia vào quá trình nghiên cứu ở trong nước và trên toàn cầu. Sự gia tăng dữ liệu mở và các chính sách cũng như các cơ sở hạ tầng truy cập mở đã làm cho các bộ dữ liệu và kết quả khoa học đơn lẻ trở thành một bộ phận của dữ liệu lớn. Số các bên tham gia công tác nghiên cứu và thiết kế chính sách sẽ tiếp tục gia tăng, làm cho khoa học trở thành một nỗ lực của công dân, củng cố cách tiếp cận kinh doanh hơn trong nghiên cứu và khuyến khích các chính sách nghiên cứu có trách nhiệm hơn.
Phân tích dữ liệu lớn có tiềm năng mang đến những cải tiến đáng kể trong lĩnh vực chăm sóc sức khoẻ, bao gồm chăm sóc bệnh nhân, quản lý hệ thống y tế, nghiên cứu y học và giám sát sức khoẻ cộng đồng. Chia sẻ dữ liệu y tế qua các hệ thống hồ sơ y tế điện tử có thể làm tăng khả năng tiếp cận dịch vụ chăm sóc sức khoẻ và cung cấp những hiểu biết mới về các sản phẩm và dịch vụ y tế tiên tiến. Chẩn đoán, điều trị và theo dõi bệnh nhân có thể trở thành một liên kết giữa phần mềm phân tích và các bác sĩ. Có thể giảm được yêu cầu chăm sóc bệnh nhân tại buồng bệnh, bởi việc giám sát và phân tích dự báo giúp phát hiện bệnh lý sớm hơn. Trên cơ sở dữ liệu nghiên cứu mở, IoT sẽ có thể mang lại số lượng lớn dữ liệu liên quan đến sức khoẻ của cả người bệnh lẫn người khỏe, điều đó có thể đóng vai trò là đầu vào nghiên cứu có giá trị và dẫn đến tiến bộ cho y học. Dữ liệu phổ biến về sử dụng chăm sóc sức khoẻ có thể kết hợp với các dữ liệu sâu về lâm sàng và sinh học để mở ra các hướng mới nâng cao kiến thức phổ thông, như các bệnh liên quan đến lão hoá, hoặc để hỗ trợ nghiên cứu liên ngành, ví dụ như kết hợp các tác dụng của chữa bệnh và chăm sóc.
Cần khắc phục khoảng cách về công nghệ thông tin, kỹ năng và hạ tầng pháp lý
Sự phát triển phân tích dữ liệu lớn đặt ra những thách thức lớn đối với kỹ năng và chính sách việc làm. Nhu cầu về kỹ năng chuyên gia dữ liệu sẽ vượt quá nguồn cung hiện tại trên thị trường lao động và cả năng lực hiện tại của hệ thống giáo dục và đào tạo, điều đó đòi hỏi phải có sự điều chỉnh nhanh chóng trong chương trình giảng dạy và các tập hợp kỹ năng của giảng viên và nhân công. Dữ liệu lớn cũng được dự báo sẽ làm tăng nhu cầu về năng lực siêu tính toán mới, các cơ sở lưu trữ lớn và mạng Internet nhanh, rộng khắp và mở (bao gồm cả IoT) trong khi cơ sở hạ tầng công nghệ thông tin hiện tại không thể hỗ trợ đầy đủ. Các thể chế pháp lý cũng cấn phát triển để thúc đẩy tốt hơn luồng dữ liệu liên tục giữa các quốc gia, các ngành và tổ chức. Các mối quan tâm ngày càng tăng về cách làm thế nào để xác định và sử dụng quyền truy cập mở, đồng thời duy trì các động cơ khuyến khích các tác giả và nhà nghiên cứu tiếp tục công bố và thực hiện nghiên cứu. Hợp tác quốc tế sẽ rất cần thiết về khía cạnh này.
Bất bình đẳng xã hội có nguy cơ gia tăng
Bất bình đẳng xã hội gia tăng không chỉ là kết quả của sự triệt tiêu việc làm và phân cực lao động sẽ xảy ra cùng với sự chuyển đổi cơ cấu về kỹ năng, mà còn do tính lưu động xã hội yếu hơn và cả sự tồn tại phân hóa kỹ thuật số. Khả năng suy xét nhờ vào phân tích số liệu có thể mang lại hiệu quả cao hơn, nhưng cũng có thể hạn chế khả năng của các cá nhân trong việc thay đổi cách giáo dục phụ thuộc lối mòn và con đường nghề nghiệp và tránh những bế tắc kinh tế xã hội. Ngoài ra, sự phân hóa kỹ thuật số mới phát sinh từ thông tin bất cân xứng ngày càng tăng và sự chuyển đổi quyền lực liên quan từ các cá nhân sang các tổ chức, từ các doanh nghiệp truyền thống sang các doanh nghiệp dựa vào dữ liệu và từ chính phủ sang các doanh nghiệp dựa vào dữ liệu. Sự gắn kết xã hội và khả năng phục hồi kinh tế có thể bị ảnh hưởng, đặc biệt là ở các nền kinh tế đang phát triển. Để ngăn ngừa sự gia tăng bất bình đẳng thu nhập, các chính phủ cần phải giúp người lao động điều chỉnh phù hợp với sự thay đổi nhu cầu về kỹ năng bằng cách thúc đẩy học tập suốt đời và nâng cao khả năng tiếp cận với giáo dục chất lượng cao.
Bảo mật, an ninh và tính nhất quán cũng bị đe dọa
Phân tích dữ liệu lớn có thể khuyến khích thu thập dữ liệu cá nhân quy mô lớn và trở nên có thể truy cập theo những cách vi phạm tính riêng tư của cá nhân. Ví dụ, khi bệnh nhân chia sẻ dữ liệu nhạy cảm về sức khoẻ có thể hỗ trợ nghiên cứu y học và cho phép họ được hưởng điều trị ưu tiên. Tuy nhiên, việc dữ liệu y tế trở nên có thể tiếp cận mang lại lợi ích cho doanh nghiệp (ví dụ: công ty bảo hiểm và người sử dụng lao động) làm phát sinh các vấn đề về tính riêng tư và công bằng. Sự bảo mật có thể bị nguy hại nếu những dữ liệu này không được bảo vệ tốt và nếu việc đánh cắp hay sử dụng sai mục đích do vi phạm an ninh.
Phân tích dữ liệu lớn mở ra khả năng kết hợp dữ liệu cá nhân với các chương trình nhận dạng mẫu, cho phép tạo ra thông tin và tri thức mới về con người. Tuy nhiên, cũng những dữ liệu và các chương trình đó có thể được dùng để thao túng mọi người, bóp méo nhận thức của họ về thực tế và tác động đến lựa chọn của họ. Sự tự chủ, tự do tư duy và tự do ý chí cá nhân sẽ bị thách thức, có thể làm suy yếu nền tảng của các xã hội dân chủ hiện đại. Các nhà hoạch định chính sách sẽ cần phải thúc đẩy việc sử dụng có trách nhiệm các dữ liệu cá nhân để ngăn chặn vi phạm quyền riêng tư, đặc biệt bằng cách xác định rõ tập hợp các chính sách bảo vệ người tiêu dùng và cạnh tranh, tăng cường khả năng giám sát của các cơ quan thực hiện quyền riêng tư.
NASATI (Theo OECD Science, Technology and Innovation Outlook)