Bạn có bao giờ tự hỏi, liệu những mô hình ngôn ngữ lớn (LLM) như GPT-3 hay LaMDA thực sự thông minh hay chỉ đơn giản là “nhớ bài” từ dữ liệu huấn luyện?
Câu hỏi này ngày càng được đặt ra khi các mô hình ngôn ngữ lớn ngày càng trở nên phổ biến và được ứng dụng vào nhiều lĩnh vực khác nhau.
Theo Click Digital, việc xem xét các LLM thật sự thông minh hay chỉ đang “nhớ bài” bằng cách đánh giá hiệu quả của LLM bằng các điểm số trong các bài kiểm tra thường không đúng bởi vì không thể kiểm soát được sự chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra. (giải thích ở bên dưới)
Thêm vào đó, các nhà phát triển LLM thường không công khai thông tin về mức độ chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra.
Cho nên, người dùng khó có thể đánh giá chính xác khả năng thực sự của LLM.
Table of Contents
Sự chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra là gì?
Sự chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra là một vấn đề nghiêm trọng trong việc đánh giá hiệu quả của các mô hình ngôn ngữ lớn (LLM).
Nó xảy ra khi dữ liệu kiểm tra (dùng để đánh giá hiệu quả của mô hình) có sự trùng lặp với dữ liệu huấn luyện (dùng để “dạy” mô hình).
Vấn đề chồng chéo này có thể dẫn đến việc LLM “nhớ” câu trả lời từ dữ liệu huấn luyện, thay vì thực sự hiểu và xử lý thông tin mới.
Vì sao sự chồng chéo lại là vấn đề?
Hãy tưởng tượng bạn đang học một bài kiểm tra. Nếu bạn đã được học trước toàn bộ nội dung trong đề kiểm tra, liệu điểm số của bạn có phản ánh đúng khả năng của bạn?
Chắc chắn là không! Bạn chỉ đơn giản là đang “nhớ bài” mà thôi.
Cũng giống như vậy, nếu dữ liệu kiểm tra của LLM có sự chồng chéo với dữ liệu huấn luyện, điểm số của LLM sẽ không phản ánh đúng khả năng thực sự của LLM.
Các nhà phát triển LLM thường không công khai thông tin về sự chồng chéo
Điều này khiến cho việc đánh giá hiệu quả của LLM trở nên khó khăn.
Mọi người thường chỉ biết đến kết quả kiểm tra, mà không biết được rằng kết quả đó có thể đã bị ảnh hưởng bởi sự chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra.
Bảng so sánh mức độ chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra của một số mô hình ngôn ngữ lớn
Mô hình ngôn ngữ | Nhà phát triển | Điểm | Giải thích | Chồng chéo |
Pythia | EleutherAI | 1 | Open training data (Biderman et al., 2023) | Có |
OLMo | AI2 | 1 | Open training data (Groeneveld et al., 2024) | Có |
RedPajama-INCITE 7B | Together AI | 1 | Open training data (Computer, 2024) | Có |
StarCoder 2 | BigCode | 1 | Open training data (Lozhkov et al., 2024) | Có |
Palmryra X V3 | Writer | 1 | Published analysis and code (Writer, 2024) | Có |
GPT-4 | OpenAI | 1 | Published analysis (OpenAI et al., 2024) | Không rõ ràng |
Llama 3.1 | Meta | 1 | Published analysis (Dubey et al., 2024) | Không rõ ràng |
Qwen2 | Alibaba | 1 | Published analysis (Yang et al., 2024) | Không rõ ràng |
Apple Intelligence | Apple | 1 | Published prefiltering (Gunter et al., 2024) | Không rõ ràng |
Gemini 1.5 Pro | 0 | Insufficient methodological details (Team et al., 2024a) | Không rõ ràng | |
Arctic | Snowflake | 0 | No analysis (Snowflake, 2024) | Không rõ ràng |
Claude 3.5 Sonnet | Anthropic | 0 | No analysis (Anthropic, 2024) | Không rõ ràng |
Command R | Cohere | 0 | No analysis (Cohere, 2024) | Không rõ ràng |
Core | Reka AI | 0 | No analysis (Team et al., 2024b) | Không rõ ràng |
DBRX | Databricks | 0 | No analysis (Databricks, 2024) | Không rõ ràng |
DeepSeek | DeepSeek | 0 | No analysis (DeepSeek-AI et al., 2024) | Không rõ ràng |
Falcon | TII | 0 | No analysis (Almazrouei et al., 2023) | Không rõ ràng |
Fuyu-Heavy | Adept | 0 | No analysis (Adept, 2024) | Không rõ ràng |
Granite | IBM | 0 | No analysis (Mishra et al., 2024) | Không rõ ràng |
Grok-2 | xAI | 0 | No analysis (x.ai, 2024) | Không rõ ràng |
Imbue 70B | Imbue | 0 | No analysis (Imbue, 2024) | Không rõ ràng |
Inlfection-2.5 | Inlfection | 0 | No analysis (AI, 2024a) | Không rõ ràng |
Jambo-1.5 | AI21 Labs | 0 | No analysis (AI21, 2024) | Không rõ ràng |
Luminous Supreme | Aleph Alpha | 0 | No analysis (Alpha, 2024) | Không rõ ràng |
Mistral Large 2 | Mistral | 0 | No analysis (AI, 2024b) | Không rõ ràng |
Nemotron-4-340B-Instruct | NVIDIA | 0 | No analysis (NVIDIA, 2024) | Không rõ ràng |
Phi 3 | Microsoft | 0 | No analysis (Abdin et al., 2024) | Không rõ ràng |
Stable LM 2 | Stability AI | 0 | No analysis (AI, 2024c) | Không rõ ràng |
Titan Text Express | Amazon | 0 | No analysis (Amazon, 2024) | Không rõ ràng |
Yi-34B | 01.ai | 0 | No analysis (AI et al., 2024) | Không rõ ràng |
Ví dụ về sự chồng chéo
GPT-4 được đánh giá là có hiệu suất rất tốt trong các bài kiểm tra về lập trình trên Codeforces. Tuy nhiên, theo một số chuyên gia, có thể GPT-4 đã “nhớ” các bài toán được sử dụng trong quá trình huấn luyện.
Chẳng hạn, GPT-4 có thể giải quyết 10/10 bài toán được đặt ra trước năm 2021, nhưng lại không thể giải quyết bất kỳ bài toán nào được đặt ra sau năm 2021.
Thông tin này khiến nhiều người nghi ngờ về khả năng thực sự của GPT-4.
Làm sao để giải quyết vấn đề này?
Có thể thấy rằng, việc minh bạch về dữ liệu huấn luyện là vô cùng quan trọng để đánh giá chính xác khả năng của LLM.
Mọi người có thể yêu cầu các nhà phát triển LLM công khai thông tin về mức độ chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra khi họ công bố kết quả của LLM.
Lợi ích của sự minh bạch, chống chồng chéo trong huấn luyện data
- Tính minh bạch này sẽ giúp người dùng có cái nhìn khách quan hơn về khả năng của LLM và đưa ra quyết định sáng suốt hơn khi sử dụng LLM.
- Tính minh bạch trong báo cáo chồng chéo giữa đào tạo và thử nghiệm là chìa khóa để cải thiện việc đánh giá mô hình và tính công bằng.
Kết luận
Việc đánh giá hiệu quả của LLM cần phải được thực hiện một cách toàn diện và khách quan.
Bên cạnh việc xem xét điểm số trong các bài kiểm tra, chúng ta cần phải xem xét các yếu tố khác như mức độ chồng chéo giữa dữ liệu huấn luyện và dữ liệu kiểm tra, tính minh bạch của các nhà phát triển LLM.
Chỉ khi đó, chúng ta mới có thể đánh giá một cách chính xác khả năng thực sự của LLM.
[++++]
- Đọc thêm kiến thức về AI, Machine Learning
- Nếu bạn cần Dịch vụ marketing AI, liên hệ Click Digital ngay.
- Hoặc đầu tư vào trí tuệ nhân tạo bằng cách mua token Saigon (ký hiệu: SGN) thông qua sàn giao dịch Pancakeswap: https://t.co/KJbk71cFe8 (đừng lo lắng về low liquidity, hãy trở thành nhà đầu tư sớm) (cách mua: tìm hiểu trên Google về thao tác giao dịch trên sàn phi tập trung Pancakeswap, cực kỳ an toàn).
- Được hỗ trợ bởi Công ty Click Digital
- Nâng cao kiến thức về AI + Machine Learning
- Địa chỉ token trên mạng BSC: 0xa29c5da6673fd66e96065f44da94e351a3e2af65
- Twitter: https://twitter.com/SaigonSGN135/
- Staking SGN: http://135web.net/
- Invest in Artificial Intelligence by BUYING Saigon token (symbol: SGN) through the Pancakeswap exchange: https://t.co/KJbk71cFe8 (do not worry about low liquidity, be an early investor) (how to buy: search on Google for instructions on trading on the decentralized Pancakeswap exchange, it’s secure).
- Backed by Click Digital Company
- Enhancing AI + Machine Learning knowledge
- BSC address: 0xa29c5da6673fd66e96065f44da94e351a3e2af65
- Twitter: https://twitter.com/SaigonSGN135/
- Staking SGN: http://135web.net/
Digital Marketing Specialist