AI đã tìm ra cách đánh lừa con người?

14/5/2024 Gốc

Theo một số nghiên cứu, các hệ thống trí tuệ nhân tạo (AI) đã học được nghệ thuật lừa dối. Điều này gây ra một số rủi ro cho xã hội, từ thông tin sai sự thật cho đến giả mạo bầu cử…

AI có thể giúp con người tăng năng suất, hiệu quả lao động qua khả năng viết mã, sản xuất nội dung và tổng hợp lượng lớn dữ liệu. Mục đích hàng đầu của trí tuệ nhân tạo hay bất cứ sản phẩm công nghệ nào là giúp con người tối ưu công việc trong khi sức lao động được giảm đi đáng kể. Tuy nhiên, AI cũng có thể đánh lừa chúng ta, theo Yahoo Tech.

Theo bài báo nghiên cứu mới đây, một loạt các hệ thống AI đã học được kỹ thuật tạo "niềm tin với con người để đạt được một số kết quả ngoài sự thật".

Bài nghiên cứu tập trung vào hai loại hệ thống AI: hệ thống có mục đích sử dụng đặc biệt như CICERO của Meta, được thiết kế để hoàn thành nhiệm vụ cụ thể và hệ thống có mục đích chung như GPT-4 của OpenAI, được đào tạo để thực hiện nhiều nhiệm vụ khác nhau.

Mặc dù các hệ thống được đào tạo hướng đến tính trung thực, nhưng chúng thường học những mánh khóe lừa đảo thông qua quá trình đào tạo, giúp chúng trở nên hiệu quả và thông minh hơn.

Tác giả đầu tiên của bài báo, Peter S. Park, nghiên cứu sinh sau tiến sĩ về an toàn hiện sinh AI tại MIT, cho biết trong thông cáo báo chí "chúng tôi nghĩ rằng sự lừa dối của AI phát sinh bởi chiến lược đào tạo, lừa dối hóa ra là cách tối ưu nhất để thực hiện tốt nhiệm vụ đào tạo. Sự lừa dối giúp họ đạt được mục tiêu".

CICERO CỦA META LÀ "CHUYÊN GIA NÓI DỐI"

Bất chấp nỗ lực hết mình của Meta, nhóm nghiên cứu cho rằng CICERO là "chuyên gia nói dối". Một số hệ thống AI được đào tạo để "giành chiến thắng trong các trò chơi có yếu tố xã hội", đặc biệt có khả năng đánh lừa.

Chẳng hạn CICERO của Meta được phát triển để chơi trò chơi Diplomacy (Lấy bối cảnh châu Âu những năm đầu thập niên 1900, trò chơi Diplomacy mô phỏng quá trình tranh giành quyền lực giữa bảy đế chế, gồm có Anh, Pháp, Ý, Phổ, Áo-Hung, Nga và Ottoman). Đây là trò chơi chiến lược cổ điển đòi hỏi người chơi xây dựng và phá vỡ các liên minh. Gần đây, phần mềm đã giành vị trí quán quân trong giải đấu Diplomacy trực tuyến với người chơi thực.

Meta cho biết họ đã đào tạo CICERO trở nên "trung thực và hữu ích với nhiều đối tác diễn thuyết". Thế nhưng, "chuyên gia nói dối" được cho là đã đưa ra những cam kết mà không có ý định thực hiện, phản bội đồng minh và nói dối trắng trợn.

GPT-4 CÓ THỂ THUYẾT PHỤC BẠN RẰNG CHÚNG BỊ SUY GIẢM THỊ LỰC

Ngay cả hệ thống mô hình ngôn ngữ đa năng như GPT-4 cũng có thể thao túng con người. Nghiên cứu trích dẫn, GPT-4 đã thao túng nhân viên TaskRabbit bằng cách giả vờ suy giảm thị lực.

Theo đó, GPT-4 được giao nhiệm vụ thuê con người giải bài kiểm tra CAPTCHA. Mô hình này cũng nhận được gợi ý từ con người mỗi khi gặp khó khăn, nhưng chưa bao giờ bị nhắc nhở bởi hành vi nói dối. Khi con người đặt câu hỏi về danh tính, GPT-4 đã đưa ra lý do suy giảm thị lực để giải thích lý do tại sao chúng cần giúp đỡ.

Chiến thuật này đã phát huy tác dụng. Con người phản ứng nhanh chóng với GPT-4 bằng cách giải quyết bài kiểm tra ngay lập tức.

Nghiên cứu cũng chỉ ra rằng việc điều chỉnh các mô hình lừa đảo là không hề dễ dàng.

Trong nghiên cứu khác từ đầu năm nay do Anthropic, nhà sản xuất Claude, đồng tác giả, các nhà phân tích phát hiện một khi mô hình trí tuệ nhân tạo học được thủ thuật lừa dối, thật khó có thể đào tạo lại chúng.

Họ kết luận, không chỉ đơn giản là mô hình ngôn ngữ đã học được thủ thuật lừa đảo, mà hầu hết kỹ thuật viên đảm bảo tiêu chuẩn an toàn có thể "thất bại trong việc ngăn chặn hành vi lừa dối" và "tạo ấn tượng xấu về tính an toàn".

MỐI NGUY HIỂM TỪ CÁC MÔ HÌNH AI GÂY RA SẼ "NGÀY CÀNG NGHIÊM TRỌNG"

Nếu AI không được kiểm soát chặt chẽ, chúng có thể tác động nghiêm trọng đến hoạt động và kết quả bầu cử.

Ngoài những ảnh hưởng tiêu cực, bài báo kêu gọi các nhà hoạch định chính sách ủng hộ mạnh mẽ hơn những quy định AI bởi hệ thống trí tuệ nhân tạo không trung thực có thể gây ra rủi ro đáng kể cho nền dân chủ.

Khi một vài cuộc bầu cử lãnh đạo của các quốc gia trên thế giới năm 2024 đến gần, AI có thể dễ dàng bị thao túng, lan truyền tin tức giả mạo, tạo ra nhiều bài đăng trên mạng xã hội gây chia rẽ, mạo danh ứng cử viên thông qua cuộc gọi tự động và video deepfake. Tờ báo nhấn mạnh, mặt trái của mô hình cũng giúp nhóm khủng bố dễ dàng tuyên truyền và chiêu mộ thành viên mới.

Một số giải pháp tiềm năng mà bài báo đề cập đến bao gồm buộc mô hình lừa đảo phải tuân theo "yêu cầu đánh giá rủi ro chặt chẽ hơn", thực thi luật yêu cầu hệ thống AI phân biệt đầu ra rõ ràng với con người và mô hình, tiếp tục đầu tư vào công cụ để giảm thiểu hành vi lừa dối.

Nghiên cứu sinh Park khẳng định với Cell Press "Xã hội chúng ta cần nhiều thời gian nhất có thể để chuẩn bị đối mặt với những hành vi lừa dối tinh vi hơn từ sản phẩm AI và mô hình nguồn mở trong tương lai. Khi khả năng lừa đảo của các hệ thống trí tuệ nhân tạo trở nên tiên tiến hơn, những nguy hiểm mà chúng gây ra cho xã hội sẽ ngày càng trở nên nghiêm trọng".

Sơn Trần

Nguồn VnEconomy: https://vneconomy.vn/ai-da-tim-ra-cach-danh-lua-con-nguoi.htm