1 triệu tỷ byte dữ liệu người dùng Facebook sắp được đem ra 'mổ xẻ'

Gốc

1 petabyte dữ liệu người dùng Facebook sẽ được cung cấp cho các dự án nghiên cứu khoa học. Ảnh: TechCrunch

Tổ chức nghiên cứu có tên Social Science One là đơn vị đầu tiên thực hiện một dự án phân tích giá trị của khoảng 1 petabyte (tương tự 1 triệu tỷ byte) dữ liệu mà chúng ta chia sẻ trên mạng xã hội lớn nhất thế giới.

Social Science One là một nhóm các chuyên gia được cấp quyền truy cập đầy đủ vào quy trình và toàn bộ dữ liệu trong khả năng cung cấp của Facebook. Các nhà nghiên cứu giúp xác định và giúp đỡ Facebook cải thiện các nền tảng mạng xã hội dựa trên trải nghiệm của họ, sau đó kết quả nghiên cứu sẽ được chia sẻ công khai trước công chúng.

Tài liệu vừa được công bố cũng mô tả đề mục “yêu cầu đề xuất” từ cộng đồng nghiên cứu. Các nhà nghiên cứu khác quan tâm tới siêu dữ liệu người dùng có thể đề xuất dự án phân tích và thử nghiệm. Những dự án đó sẽ được xét duyệt một cách công bằng bởi ủy ban chuyên gia từ Hội đồng Nghiên cứu Khoa học Xã hội Mỹ (SSRC). Nếu hội đồng nhận thấy dự án có giá trị, các nhà nghiên cứu có thể được cấp kinh phí, quyền truy cập kho dữ liệu khổng lồ và hưởng nhiều lợi ích khác. Kết quả của cuộc nghiên cứu có thể được công bố mà không cần sự chấp thuận trước của Facebook hay ủy ban Social Science One.

Đồng sáng lập của Social Science One, nhà khoa học chính trị và giảng viên của đại học Havard, ông Gary King phát biểu trên blog: “Dữ liệu được thu thập bởi các công ty tư nhân có tiềm năng to lớn để giúp các nhà khoa học xã hội hiểu và giải quyết nhiều thách thức trong xã hội. Nhưng cho tới nay, những dữ liệu đó thường không có sẵn cho nghiên cứu có tính học thuật”. Ông King cho biết: “Social Science One đã thiết lập một tiêu chuẩn đạo đức nhằm tăng cường tính bảo mật của dữ liệu riêng tư của xã hội, trong khi vẫn đảm bảo quyền tự do xuất bản các tài liệu nghiên cứu”.

Nếu bạn tò mò về những đối tác trong dự án nghiên cứu này của Facebook. Đồng chủ tịch khác của Social Science One, Nate Persily và ông King đã được Facebook chọn để quản lý quỹ tài trợ của dự án nghiên cứu khoa học xã hội này.

Tập dữ liệu đầu tiên được đem ra “mổ xẻ” bao gồm “gần như tất cả” địa chỉ liên kết URL công khai được người dùng Facbeook chia sẻ và nhấp vào trên toàn cầu, kèm theo vô số siêu dữ liệu quý giá khác.

Ảnh: TechCrunch

Tài liệu này cho biết tập dữ liệu chứa “2 triệu URL độc nhất được chia sẻ trong 300 triệu bài post trên Facebook hằng tuần”. Social Science One ước tính tập sẽ chứa “khoảng 300 tỷ dòng lệnh theo thứ tự đã được phiên dịch, có kích thước thôi khoảng 1 petabyte”.

Những siêu dữ liệu này được tổng hợp từ nhiều quốc gia, đội tuổi người dùng, các thiết bị khác nhau... Nó cũng có rất nhiều đề mục khác như tỷ lệ bạn bè và người không phải bạn bè đã xem bài đăng, vị trí các nguồn cấp dữ liệu, tổng số lượt chia sẻ, nhấp chuột, thích, “thả tim” hoặc bị báo cáo vi phạm... Đương nghiên, những dữ liệu này đã được tinh chỉnh để đảm bảo quyển riêng tư của người dùng. Social Science One cho biết những đây là những dữ liệu nghiên cứu thích hợp, chứ không phải dữ liệu thu thập theo kiểu của Cambridge Analytica.

Ông Gary King còn cho biết ủy ban Social Science One được cung cấp một lượng dữ liệu vô cùng lớn liên quan đến những thông tin giả mạo, phân cực, tính toàn vẹn của các cuộc bầu cử, quảng cáo chính trị và sự can thiệp dân sự. Trả lời trên TechCrunch, ông King nói: “Tập siêu dữ liệu đã nhận được sự quan tâm chủ yếu của các phương tiện truyền thông và tổ chức dân chủ”.

Một số phần khác của tập siêu dữ liệu này đang trong gia đoạn hoàn chỉnh hoặc và chỉ cho phép truy cập giới hạn như: Kết quả khảo sát sau cuộc bầu cử ở Mexico và nhiều nơi khác trên thế giới (không rõ có được liên kết với hồ sơ người dùng Facebook hay không), kho lưu trữ hình ảnh quảng cáo chính trị... Tổ chức cũng đang làm việc với CrowdTangle cũng như nhiều nhà nghiên cứu và tổ chức khác nhau trên thế giới.

Tất nhiên, các nghiên cứu chất lượng sẽ được trả tiền, khoản thưởng này được trích từ quỹ của Social Science One, trong đó Facebook không phải là nhà tài trợ duy nhất. Quỹ Laura và John Arnold, Quỹ Dân chủ, William và Flora Hewlett Foundation, Tổ chức John S. và James L. Knight, Quỹ Charles Koch, Phòng thí nghiệm Giải pháp Công nghệ và Xã hội của Omidyar Network và Quỹ Alfred P. Sloan là các đơn vị sẽ hỗ trợ ngân sách trong suốt quá trình nghiên cứu. Toàn bộ khoản đóng góp đã được trao cho Social Science One trong hội nghị Sáng kiến dữ liệu xã hội của Hội đồng Nghiên cứu Khoa học Xã hội Mỹ.

Bạn có thể theo dõi hoạt động của tổ chức Science Social One tại đây. Dự án nói trên của Facebook và Science Social One hứa hẹn sẽ mở ra những nghiên cứu khoa học xã hội vô cùng thú vị.

Việt Anh /