Các nhà phát triển AI chuyển sang dữ liệu tổng hợp khi nội dung gốc cạn kiệt

cryptonews.net 06/03/2025 - 11:48 AM

Cuộc Khủng Hoảng Dữ Liệu AI

Khi các mô hình AI tiêu thụ nội dung miễn phí trên internet, một cuộc khủng hoảng đang nổi lên: Chuyện gì sẽ xảy ra khi không còn gì để đào tạo?

Một báo cáo gần đây của Copyleaks tiết lộ rằng DeepSeek, một mô hình AI của Trung Quốc, thường sản xuất các phản hồi gần như giống hệt với ChatGPT, khiến mọi người lo ngại rằng nó đã được đào tạo dựa trên đầu ra của OpenAI. Điều này đã dẫn đến một số nghi ngờ rằng kỷ nguyên “trái cây dễ hái” trong phát triển AI có thể đã kết thúc.

Vào tháng 12, CEO Google Sundar Pichai đã thừa nhận thực tế này, cảnh báo rằng các nhà phát triển AI đang nhanh chóng cạn kiệt nguồn cung dữ liệu đào tạo chất lượng cao miễn phí. “Trong thế hệ các mô hình LLM hiện tại, khoảng vài công ty đã hội tụ ở vị trí hàng đầu, nhưng tôi nghĩ chúng ta đều đang làm việc trên các phiên bản tiếp theo của mình,” Pichai nói tại Hội nghị Dealbook hàng năm của New York Times vào tháng 12. “Tôi nghĩ rằng sự tiến bộ sẽ trở nên khó khăn hơn.”

Khi nguồn cung dữ liệu đào tạo chất lượng cao đang suy giảm, nhiều nhà nghiên cứu AI đang chuyển sang dữ liệu tổng hợp được tạo ra bởi các…
r AI. Dữ liệu tổng hợp không phải là mới—nó đã tồn tại từ cuối những năm 1960—và đã được sử dụng trong thống kê và học máy, dựa vào các thuật toán và mô phỏng để tạo ra các bộ dữ liệu nhân tạo giống như thông tin từ thế giới thực. Tuy nhiên, vai trò ngày càng tăng của nó trong phát triển AI dấy lên những lo ngại mới, đặc biệt khi các hệ thống AI tích hợp vào các công nghệ phi tập trung.

Khởi động AI

“Dữ liệu tổng hợp đã có từ lâu trong thống kê—nó được gọi là khởi động,” Giáo sư Kỹ thuật Phần mềm tại MIT Muriel Médard nói với Decrypt trong một cuộc phỏng vấn tại ETH Denver 2025. “Bạn bắt đầu với dữ liệu thực và nghĩ, ‘Tôi muốn nhiều hơn nhưng không muốn trả tiền cho nó. Tôi sẽ tạo ra nó dựa trên những gì tôi có.’”

Médard, đồng sáng lập nền tảng hạ tầng bộ nhớ phi tập trung Optimum, cho biết thách thức chính trong việc đào tạo các mô hình AI không phải là thiếu dữ liệu mà là khả năng truy cập dữ liệu. “Bạn hoặc là tìm kiếm thêm hoặc là giả mạo nó bằng những gì bạn có,” bà nói. “Quyền truy cập dữ liệu—đặc biệt là trên chuỗi, nơi việc lấy và cập nhật…”
Các nhà phát triển AI đang đối mặt với những hạn chế về quyền riêng tư ngày càng gia tăng và khả năng tiếp cận hạn chế với các tập dữ liệu thực tế, khiến dữ liệu tổng hợp trở thành một sự thay thế quan trọng cho việc đào tạo mô hình. “Khi các hạn chế về quyền riêng tư và các chính sách nội dung chung được tăng cường với nhiều bảo vệ hơn, việc sử dụng dữ liệu tổng hợp sẽ trở thành một yêu cầu, không chỉ vì sự dễ dàng tiếp cận mà còn vì nỗi sợ về hậu quả pháp lý,” Kỹ sư Giải pháp Cao cấp tại Druid AI Nick Sanchez cho biết với Decrypt.

“Hiện tại, đây không phải là một giải pháp hoàn hảo, vì dữ liệu tổng hợp có thể chứa những thiên lệch mà bạn sẽ tìm thấy trong dữ liệu thực tế, nhưng vai trò của nó trong việc xử lý các vấn đề liên quan đến sự đồng ý, bản quyền và quyền riêng tư chỉ sẽ ngày càng lớn theo thời gian,” ông thêm vào.

Rủi ro và Phần thưởng

Khi việc sử dụng dữ liệu tổng hợp gia tăng, những mối lo ngại về khả năng bị thao túng và lạm dụng cũng gia tăng. “Dữ liệu tổng hợp tự nó có thể được sử dụng để chèn thông tin sai lệch vào tập dữ liệu huấn luyện, dẫn đến việc làm sai lệch các mô hình AI,” Sanchez cho biết. “Điều này đặc biệt gây lo ngại
khi áp dụng nó vào các ứng dụng nhạy cảm như phát hiện gian lận, nơi những kẻ xấu có thể sử dụng dữ liệu tổng hợp để đào tạo các mô hình bỏ qua một số mẫu gian lận nhất định.”

Công nghệ blockchain có thể giúp giảm thiểu rủi ro của dữ liệu tổng hợp, Méard giải thích, nhấn mạnh rằng mục tiêu là làm cho dữ liệu không thể bị giả mạo chứ không phải là không thể thay đổi. “Khi cập nhật dữ liệu, bạn không làm điều đó một cách bừa bãi – bạn thay đổi một chút và quan sát,” cô nói. “Khi mọi người nói về tính không thay đổi, họ thực sự có nghĩa là độ bền, nhưng toàn bộ khung khổ đều quan trọng.”

Được biên tập bởi Sebastian Sinclair




Bình luận (0)

    Chỉ số tham lam và sợ hãi

    Lưu ý: Dữ liệu chỉ mang tính tham khảo.

    hình minh họa chỉ số

    Sợ hãi cực độ

    34