SAFE: Công cụ AI của Google DeepMind kiểm tra sự thật, tính chính xác kết quả câu trả lời đầu ra của LLM như ChatGPT

DeepMind của Google đã tiết lộ SAFE, một hệ thống dựa trên AI được thiết kế để kiểm tra tính xác thực của các kết quả đầu ra của Mô hình ngôn ngữ lớn (LLM) như ChatGPT.

Sự phát triển của hệ thống mới này nhằm giải quyết vấn đề dai dẳng về độ chính xác mà nội dung do LLM tạo thường gặp phải.

Công cụ đánh giá thực tế tăng cường tìm kiếm của Google DeepMind (có tên SAFE)

LLM, được ca ngợi vì khả năng tạo văn bản, trả lời câu hỏi và giải quyết các vấn đề toán học, từ lâu đã bị chỉ trích vì thiếu độ chính xác. 

Theo nhóm nghiên cứu, việc xác minh nội dung do LLM tạo thường đòi hỏi sự giám sát thủ công, làm giảm đáng kể độ tin cậy và tiện ích của nó.

SAFE là gì?

SAFE là viết tắt của Search-Augmented Factuality Evaluator: Công cụ đánh giá thực tế tăng cường tìm kiếm, tiến hành kiểm tra thực tế bằng cách tận dụng LLM để xem xét kỹ lưỡng các phản hồi và tham chiếu chéo chúng với kết quả của công cụ tìm kiếm để xác minh. 

Phương pháp này phản ánh quy trình xác minh tính xác thực được áp dụng bởi người dùng sử dụng công cụ tìm kiếm để chứng thực thông tin.

Để đánh giá tính hiệu quả của nó, nhóm DeepMind đã tiến hành thử nghiệm nghiêm ngặt SAFE, xác minh tính xác thực của khoảng 16.000 xác nhận có nguồn gốc từ nhiều LLM. Phân tích so sánh với những người xác minh thông tin do con người thực hiện cho thấy rằng SAFE phù hợp với đánh giá của con người trong 72% thời gian.

Đáng chú ý, khi nảy sinh sự khác biệt giữa người đánh giá SAFE và con người, SAFE nổi lên là người đánh giá chính xác hơn trong 76% trường hợp.

DeepMind đã làm cho mã nguồn của SAFE có thể được truy cập công khai trên GitHub: https://github.com/google-deepmind/long-form-factuality/, khuyến khích việc sử dụng rộng rãi hơn các khả năng xác minh tính xác thực của nó trong cộng đồng AI.

What is Google DeepMind? All you need to know about the AI research lab

“SAFE sử dụng LLM để chia nhỏ phản hồi dạng dài thành một tập hợp các dữ kiện riêng lẻ và đánh giá độ chính xác của từng dữ kiện bằng quy trình lý luận gồm nhiều bước, bao gồm gửi truy vấn tìm kiếm tới Google Tìm kiếm và xác định xem một dữ kiện có được hỗ trợ bởi kết quả tìm kiếm”, các nhà nghiên cứu viết.

Sử dụng SAFE

Quy trình của DeepMind bao gồm việc sử dụng LLM, chẳng hạn như GPT-4, để phân tách các phản hồi dạng dài thành các dữ kiện riêng lẻ. Sau đó, những dữ kiện này phải trải qua quy trình đánh giá gồm nhiều bước, trong đó các truy vấn tìm kiếm được gửi tới Google Tìm kiếm để xác định độ chính xác thực tế dựa trên kết quả tìm kiếm.

Hơn nữa, DeepMind ủng hộ việc mở rộng điểm F1 như một thước đo tổng hợp để đánh giá tính thực tế trong thời gian dài. Số liệu này cân bằng độ chính xác, được đo bằng tỷ lệ phần trăm các dữ kiện được hỗ trợ trong phản hồi, cùng với khả năng thu hồi, liên quan đến siêu tham số biểu thị độ dài phản hồi mong muốn.

Thử nghiệm thực nghiệm cho thấy tiềm năng của tác nhân LLM trong việc đạt được hiệu suất siêu phàm trong các nhiệm vụ xác minh thực tế. Trên một tập dữ liệu bao gồm khoảng 16.000 sự kiện riêng lẻ, sự liên kết của SAFE với người chú thích con người đạt mức ấn tượng 72%. 

Hơn nữa, trong một tập hợp con gồm 100 trường hợp gây tranh cãi, SAFE đã chứng minh tỷ lệ chính xác vượt trội là 76% so với những người đánh giá bằng con người.

Nhóm nghiên cứu cũng lưu ý rằng SAFE đưa ra giải pháp thay thế hiệu quả về mặt chi phí cho công cụ chú thích của con người, mang lại hiệu quả tăng hơn 20 lần trong khi vẫn duy trì hiệu suất mạnh mẽ.

Ngoài ra, điểm chuẩn trên 13 mô hình ngôn ngữ đã nhấn mạnh mối tương quan giữa kích thước mô hình và hiệu suất thực tế, trong đó các mô hình lớn hơn thường hoạt động tốt hơn các mô hình tương ứng. 

Những phát hiện của nhóm DeepMind đã được trình bày chi tiết hơn tại link sau: https://arxiv.org/abs/2403.18802

Rate this post

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *