Nhóm nghiên cứu tại trường Đại học Ohio đã xây dựng được một hệ thống quản lý dữ liệu nguồn mở mới cho các nhà khoa học với hy vọng hệ thống này sẽ tạo thuận lợi cho việc hợp tác chia sẻ dữ liệu.
Đơn giản hóa cách các nhà khoa học chia sẻ dữ liệu
Dữ liệu thường là trung tâm của khoa học – các nhà nghiên cứu theo dõi vận tốc, đo ánh sáng đến từ các ngôi sao, phân tích nhịp tim và mức cholesterol và quét não người để xác định xung điện.
Nhưng thông thường, việc chia sẻ dữ liệu đó với các nhà khoa học khác hoặc với các biên tập viên tạp chí uy tín hoặc nhà tài trợ rất khó. Phần mềm ở dạng độc quyền và có giá thành cao. Ngoài ra, có thể mất nhiều năm đào tạo để một người có thể quản lý và hiểu phần mềm. Bên cạnh đó, khả năng có thể xảy ra là công ty xây dựng phần mềm đã ngừng hoạt động.
Nhóm nghiên cứu đã phát triển một hệ thống quản lý dữ liệu nguồn mở mà các nhà khoa học hy vọng sẽ giải quyết tất cả những vấn đề đó. Các nhà nghiên cứu đã phác thảo hệ thống của họ trên tạp chí PLOS ONE.
“Chúng tôi muốn tạo ra định dạng tệp và mô hình bộ dữ liệu sẽ gói gọn phần lớn các bộ dữ liệu mà chúng tôi nghiên cứu, trên tất cả các công cụ trong phòng thí nghiệm”, GS. Philip Grandinetti và là tác giả chính của bài báo nghiên cứu cho biết. “Vấn đề tồn tại từ lâu và phổ biến trong các nhà khoa học là bạn mua một công cụ trị giá hàng triệu đô la và các công ty sản xuất công cụ đó có định dạng độc quyền của riêng họ và khó chia sẻ với bất kỳ ai khác”. Các bộ dữ liệu lớn phức tạp khi chia sẻ, một phần vì phần mềm thường là độc quyền, nhưng cũng một phần vì các tệp thường lớn đến mức khó chia sẻ trong email hoặc qua máy chủ dựa vào đám mây. Ngay cả khi các tệp được xuất dưới dạng loại tệp có thể chia sẻ, thì siêu dữ liệu quan trọng thường bị mất.
Hệ thống mà Grandinetti và các đồng nghiệp đặt tên là Mô hình dữ liệu khoa học cốt lõi, được thiết kế để chia sẻ các bộ dữ liệu phức tạp một cách dễ dàng, không có các tệp lớn chiếm nhiều băng thông và dung lượng ổ cứng và không mất siêu dữ liệu. Khi xem xét bộ dữ liệu bao gồm nhiệt độ không khí, áp suất không khí, tốc độ gió và thông lượng mặt trời, hệ thống này có thể xử lý nó. Ngoài ra, hệ thống này cũng có thể xử lý
khi xem xét các phép đo và màu sắc của ánh sáng đến từ một ngôi sao trong một thiên hà xa xôi.
Grandinetti cho rằng: “Bạn cần một bộ dữ liệu cực kỳ linh hoạt trong khả năng chứa tất cả những thứ đó trong một định dạng tệp mà không làm mất thông tin. Vì vậy, ý tưởng là chúng tôi đã tạo ra một mô hình mà chúng tôi nghĩ là đủ linh hoạt để làm điều đó”.
Các nhà nghiên cứu hy vọng hệ thống này sẽ là phương pháp đơn giản và miễn phí để kết hợp nhiều loại dữ liệu vào một nơi.
N.P.D (NASATI), theo https://scitechdaily.com/new-open-source-system-developed-to-
manage-and-share-complex-datasets/