PDFTriage: Mô hình LLM đọc hiểu cả file PDF thay vì chỉ file text

Việc tìm kiếm thông tin từ các tệp PDF (hoặc trang web, tài liệu có structure (cấu trúc), tài liệu có nhiều trang) tưởng chừng đơn giản nhưng khó khăn cho các LLM hơn nhiều so với văn bản thông thường. Do đó, các nhà nghiên cứu tại Adobe Research đã phát triển một mô hình có thể xem xét văn bản và cả cấu trúc của tài liệu.

Tuyệt chiêu trích xuất hình ảnh từ file PDF - Download.vn

Mô hình ngôn ngữ lớn (LLM) gặp vấn đề với việc trả lời câu hỏi tài liệu (QA) trong trường hợp tài liệu không thể vừa với độ dài ngữ cảnh nhỏ của LLM. Để khắc phục vấn đề này, hầu hết các công việc hiện có đều tập trung vào việc truy xuất ngữ cảnh có liên quan từ tài liệu, thể hiện chúng dưới dạng văn bản thuần túy. Tuy nhiên, các tài liệu như PDF, trang web và bản trình bày có cấu trúc khác, bao gồm các trang, bảng, các thành phần khác nhau, v.v.. Việc thể hiện các tài liệu có cấu trúc như vậy dưới dạng văn bản thuần túy là không phù hợp với mô hình.

Mẹo sửa lỗi khi không đọc được file PDF đơn giản

Khi một hệ thống phải truy vấn tài liệu để tìm ngữ cảnh, sự không nhất quán này sẽ xuất hiện và các câu hỏi tưởng chừng như tầm thường có thể gây khó khăn cho hệ thống QA. Để có thể xử lý các tài liệu có cấu trúc, Adobe Research đề xuất một phương pháp tiếp cận được gọi là PDFTriage cho phép các mô hình truy xuất ngữ cảnh dựa trên cấu trúc hoặc nội dung . phát hành tập dữ liệu điểm chuẩn bao gồm hơn 900 câu hỏi do con người tạo ra trên 80 tài liệu có cấu trúc từ 10 danh mục loại câu hỏi khác nhau dành cho QA tài liệu.

5/5 - (1 bình chọn)

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *