IsoBench là gì: Bộ câu hỏi đánh giá các mô hình NLP cho 4 lĩnh vực: Toán, Khoa học, Thuật toán, Game

Các lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) và Tạo ngôn ngữ tự nhiên (NLG) đã trải qua những biến đổi đáng kinh ngạc kể từ khi ra đời Mô hình ngôn ngữ lớn (LLM) và các mô hình nền tảng đa phương thức. Các mô hình này, bao gồm GPT4V, Claude và Gemini, kết hợp bộ mã hóa hình ảnh và LLM. 

Các mô hình nền tảng ngày nay đã cho thấy hiệu suất vượt trội khi được trình bày với các đầu vào văn bản và hình ảnh chỉ có văn bản hoặc kết hợp. Tuy nhiên, một câu hỏi quan trọng được đặt ra: Năng lực của họ có thay đổi tùy theo loại đầu vào mà họ được phục vụ không?

Để trả lời câu hỏi này, một nhóm các nhà nghiên cứu đã trình bày IsoBench, một bộ dữ liệu chuẩn bao gồm các thách thức từ bốn lĩnh vực quan trọng: game, khoa học, toán học và thuật toán. Có một số cách biểu diễn đẳng hình cho mọi vấn đề trong IsoBench, bao gồm các định dạng văn bản, toán học và đồ họa. Do tính đa dạng này, sự chênh lệch về hiệu suất do các hình thức trình bày khác nhau có thể được kiểm tra kỹ lưỡng.

Nhóm đã chia sẻ rằng IsoBench có thể được sử dụng như một công cụ để chẩn đoán sự khác biệt về hiệu suất mô hình do cách trình bày đầu vào gây ra bằng cách đưa ra phản hồi chi tiết. Một mô hình định kỳ được nhìn thấy trong nhiều mô hình nền tảng khác nhau khi các mô hình thể hiện sự ưa thích đối với các cách trình bày bằng văn bản về cùng một chủ đề. Ví dụ: Claude-3 Opus đạt điểm thấp hơn 28,7 điểm khi được cung cấp ảnh thay vì văn bản khi đánh giá về tất cả các vấn đề trong IsoBench. Khi được hiển thị với đầu vào hình ảnh thay vì văn bản, GPT-4 Turbo và Gemini Pro đều thể hiện hiệu suất giảm lần lượt là 18,7 và 14,9 điểm.

Hai chiến lược thúc đẩy, IsoCombination và IsoScratchPad, đã được đề xuất để giảm thiểu sai lệch được báo cáo này và nâng cao hiệu suất mô hình. IsoScratchPad tập trung vào việc cho phép dịch giữa nhiều dạng đầu vào, trong khi IsoCombination xem xét sự kết hợp của các cách trình bày đầu vào đa dạng. 

Bằng cách tận dụng lợi thế của các phương thức đầu vào khác nhau, các chiến lược này có thể giảm bớt sự chênh lệch về hiệu suất giữa các mô hình nền tảng. Nhóm nghiên cứu đã chứng minh qua các thử nghiệm rằng IsoCombination và IsoScratchPad đều cải thiện hiệu suất của mô hình, đưa ra những hướng đi hấp dẫn để nghiên cứu sâu hơn và cải tiến các hệ thống AI đa phương thức.

Nhóm đã tóm tắt những đóng góp chính của họ như sau:

  1. IsoBench, một tập dữ liệu thử nghiệm mở rộng với 1.630 mẫu đã được giới thiệu, trải rộng trên một số chủ đề, bao gồm cờ vua, vật lý, hóa học, toán rời rạc và toán ứng dụng. Việc đánh giá hiệu suất đa phương thức toàn diện được thực hiện nhờ nhiều biểu diễn đầu vào đẳng cấu mà mỗi mẫu có, bao gồm các định dạng văn bản cụ thể cho miền và định dạng hình ảnh. 
  2. Bằng cách sử dụng IsoBench, nhóm đã đánh giá tám mô hình nền tảng nổi tiếng và tìm thấy một mô hình định kỳ, đó là các mô hình đa phương thức hoạt động tốt hơn các lời nhắc dựa trên hình ảnh khi chỉ có lời nhắc bằng văn bản. 
  3. Nhóm cũng đã đề xuất hai phương pháp để thu hẹp khoảng cách hiệu suất giữa các phương thức đầu vào khác nhau. Trong khi IsoScratchPad (IsoSP) chuyển dữ liệu đầu vào trực quan thành dạng văn bản trong quá trình suy luận thì IsoCombination (IsoCB) kết hợp các phương thức đầu vào.
  4. Dựa trên nghiên cứu của mình, nhóm nghiên cứu đã phát hiện ra rằng trong một số trường hợp, IsoCB và IsoSP có thể cải thiện hiệu suất của các mô hình nền móng đa phương thức gần 10 điểm phần trăm. Bằng cách sử dụng các chiến lược này, xu hướng quan sát được đối với cách biểu diễn văn bản sẽ giảm đi và mô hình hoạt động tốt hơn với nhiều phương thức đầu vào khác nhau.
Rate this post

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *