Liệu các LLM có thật sự thông minh hay chỉ đang “nhớ bài” từ dữ liệu huấn luyện?

Bạn có bao giờ tự hỏi, liệu những mô hình ngôn ngữ lớn (LLM) như GPT-3 hay LaMDA thực sự thông minh hay chỉ đơn giản là “nhớ bài” từ dữ liệu huấn luyện?

Câu hỏi này ngày càng được đặt ra khi các mô hình ngôn ngữ lớn ngày càng trở nên phổ biến và được ứng dụng vào nhiều lĩnh vực khác nhau.

Theo Click Digital, việc xem xét các LLM thật sự thông minh hay chỉ đang “nhớ bài” bằng cách đánh giá hiệu quả của LLM bằng các điểm số trong các bài kiểm tra thường không đúng bởi vì không thể kiểm soát được sự chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra. (giải thích ở bên dưới)

Thêm vào đó, các nhà phát triển LLM thường không công khai thông tin về mức độ chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra.

Cho nên, người dùng khó có thể đánh giá chính xác khả năng thực sự của LLM.

Sự chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra là gì?

Sự chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra là một vấn đề nghiêm trọng trong việc đánh giá hiệu quả của các mô hình ngôn ngữ lớn (LLM).

Nó xảy ra khi dữ liệu kiểm tra (dùng để đánh giá hiệu quả của mô hình) có sự trùng lặp với dữ liệu huấn luyện (dùng để “dạy” mô hình).

Vấn đề chồng chéo này có thể dẫn đến việc LLM “nhớ” câu trả lời từ dữ liệu huấn luyện, thay vì thực sự hiểu và xử lý thông tin mới.

Vì sao sự chồng chéo lại là vấn đề?

Hãy tưởng tượng bạn đang học một bài kiểm tra. Nếu bạn đã được học trước toàn bộ nội dung trong đề kiểm tra, liệu điểm số của bạn có phản ánh đúng khả năng của bạn?

Chắc chắn là không! Bạn chỉ đơn giản là đang “nhớ bài” mà thôi.

Cũng giống như vậy, nếu dữ liệu kiểm tra của LLM có sự chồng chéo với dữ liệu huấn luyện, điểm số của LLM sẽ không phản ánh đúng khả năng thực sự của LLM.

Các nhà phát triển LLM thường không công khai thông tin về sự chồng chéo

Điều này khiến cho việc đánh giá hiệu quả của LLM trở nên khó khăn.

Mọi người thường chỉ biết đến kết quả kiểm tra, mà không biết được rằng kết quả đó có thể đã bị ảnh hưởng bởi sự chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra.

Bảng so sánh mức độ chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra của một số mô hình ngôn ngữ lớn

Mô hình ngôn ngữNhà phát triểnĐiểmGiải thíchChồng chéo
PythiaEleutherAI1Open training data (Biderman et al., 2023)
OLMoAI21Open training data (Groeneveld et al., 2024)
RedPajama-INCITE 7BTogether AI1Open training data (Computer, 2024)
StarCoder 2BigCode1Open training data (Lozhkov et al., 2024)
Palmryra X V3Writer1Published analysis and code (Writer, 2024)
GPT-4OpenAI1Published analysis (OpenAI et al., 2024)Không rõ ràng
Llama 3.1Meta1Published analysis (Dubey et al., 2024)Không rõ ràng
Qwen2Alibaba1Published analysis (Yang et al., 2024)Không rõ ràng
Apple IntelligenceApple1Published prefiltering (Gunter et al., 2024)Không rõ ràng
Gemini 1.5 ProGoogle0Insufficient methodological details (Team et al., 2024a)Không rõ ràng
ArcticSnowflake0No analysis (Snowflake, 2024)Không rõ ràng
Claude 3.5 SonnetAnthropic0No analysis (Anthropic, 2024)Không rõ ràng
Command RCohere0No analysis (Cohere, 2024)Không rõ ràng
CoreReka AI0No analysis (Team et al., 2024b)Không rõ ràng
DBRXDatabricks0No analysis (Databricks, 2024)Không rõ ràng
DeepSeekDeepSeek0No analysis (DeepSeek-AI et al., 2024)Không rõ ràng
FalconTII0No analysis (Almazrouei et al., 2023)Không rõ ràng
Fuyu-HeavyAdept0No analysis (Adept, 2024)Không rõ ràng
GraniteIBM0No analysis (Mishra et al., 2024)Không rõ ràng
Grok-2xAI0No analysis (x.ai, 2024)Không rõ ràng
Imbue 70BImbue0No analysis (Imbue, 2024)Không rõ ràng
Inlfection-2.5Inlfection0No analysis (AI, 2024a)Không rõ ràng
Jambo-1.5AI21 Labs0No analysis (AI21, 2024)Không rõ ràng
Luminous SupremeAleph Alpha0No analysis (Alpha, 2024)Không rõ ràng
Mistral Large 2Mistral0No analysis (AI, 2024b)Không rõ ràng
Nemotron-4-340B-InstructNVIDIA0No analysis (NVIDIA, 2024)Không rõ ràng
Phi 3Microsoft0No analysis (Abdin et al., 2024)Không rõ ràng
Stable LM 2Stability AI0No analysis (AI, 2024c)Không rõ ràng
Titan Text ExpressAmazon0No analysis (Amazon, 2024)Không rõ ràng
Yi-34B01.ai0No analysis (AI et al., 2024)Không rõ ràng

Ví dụ về sự chồng chéo

GPT-4 được đánh giá là có hiệu suất rất tốt trong các bài kiểm tra về lập trình trên Codeforces. Tuy nhiên, theo một số chuyên gia, có thể GPT-4 đã “nhớ” các bài toán được sử dụng trong quá trình huấn luyện.

Chẳng hạn, GPT-4 có thể giải quyết 10/10 bài toán được đặt ra trước năm 2021, nhưng lại không thể giải quyết bất kỳ bài toán nào được đặt ra sau năm 2021.

Thông tin này khiến nhiều người nghi ngờ về khả năng thực sự của GPT-4.

Làm sao để giải quyết vấn đề này?

Có thể thấy rằng, việc minh bạch về dữ liệu huấn luyện là vô cùng quan trọng để đánh giá chính xác khả năng của LLM.

Mọi người có thể yêu cầu các nhà phát triển LLM công khai thông tin về mức độ chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra khi họ công bố kết quả của LLM.

Lợi ích của sự minh bạch, chống chồng chéo trong huấn luyện data

  • Tính minh bạch này sẽ giúp người dùng có cái nhìn khách quan hơn về khả năng của LLM và đưa ra quyết định sáng suốt hơn khi sử dụng LLM.
  • Tính minh bạch trong báo cáo chồng chéo giữa đào tạo và thử nghiệm là chìa khóa để cải thiện việc đánh giá mô hình và tính công bằng.

Kết luận

Việc đánh giá hiệu quả của LLM cần phải được thực hiện một cách toàn diện và khách quan.

Bên cạnh việc xem xét điểm số trong các bài kiểm tra, chúng ta cần phải xem xét các yếu tố khác như mức độ chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra, tính minh bạch của các nhà phát triển LLM.

Chỉ khi đó, chúng ta mới có thể đánh giá một cách chính xác khả năng thực sự của LLM.

[++++]

Rate this post

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *