NASA hợp tác IBM xây mô hình ngôn ngữ IBM-NASA giúp kiến thức khoa học dễ tiếp cận hơn, dựa trên Transfomer

NASA hợp tác IMB tạo ra một bộ mô hình ngôn ngữ hiệu quả bằng cách đào tạo về tài liệu khoa học. Dựa trên cấu trúc Transformer, các mô hình này có thể được sử dụng trong nhiều ứng dụng khác nhau, từ phân loại và trích xuất thực thể đến trả lời câu hỏi và truy xuất thông tin. Những mô hình này đạt được hiệu suất cao trên nhiều lĩnh vực khác nhau và có thể đáp ứng kịp thời. IBM đã cung cấp nguồn mở cho các mô hình Hugging Face vì lợi ích của cộng đồng khoa học và học thuật.

Các mô hình ngôn ngữ dựa trên Transformer – bao gồm BERT, RoBERTa và dòng mô hình Slate và Granite của IBM, là vô giá đối với một loạt các nhiệm vụ hiểu ngôn ngữ tự nhiên. Sức mạnh của các mô hình này là sự hiểu biết thống kê về cách hoạt động của ngôn ngữ. Họ được đào tạo về các nhiệm vụ mô hình hóa ngôn ngữ đeo mặt nạ, học bằng cách xây dựng lại các câu có từ bị che khuất. Tokenizers, chia các từ thành các đơn vị cho mô hình, đóng một vai trò quan trọng trong việc học từ vựng rộng lớn. Mặc dù việc đào tạo văn bản có mục đích chung có hiệu quả với các trình mã thông báo phổ biến được đào tạo trên các tập dữ liệu như Wikipedia hoặc BooksCorpus, nhưng các lĩnh vực khoa học lại yêu cầu các trình mã thông báo chuyên dụng cho các thuật ngữ như “phosphatidylcholine”.

IBM đã đào tạo các mô hình của mình trên 60 tỷ mã thông báo trên kho dữ liệu vật lý thiên văn, khoa học hành tinh, khoa học trái đất, vật lý học mặt trời cũng như dữ liệu khoa học vật lý và sinh học. Không giống như công cụ mã thông báo chung, công cụ mà IBM phát triển có khả năng nhận dạng các thuật ngữ khoa học như “trục” và “đa tinh thể”. Hơn một nửa trong số 50.000 mã thông báo mà mô hình của IBM đã xử lý là duy nhất so với mô hình RoBERTa nguồn mở trên Hugging Face.

Các mô hình IBM-NASA, được đào tạo về từ vựng dành riêng cho từng miền, đã vượt trội hơn 5% so với mô hình RoBERTa mở trên điểm chuẩn BLURB phổ biến , vốn đánh giá hiệu suất của các nhiệm vụ y sinh. Nó cũng cho thấy sự cải thiện 2,4% điểm F1 trong tiêu chuẩn trả lời câu hỏi khoa học nội bộ và cải thiện 5,5% trong các bài kiểm tra nhận dạng thực thể khoa học Trái đất nội bộ.

Mô hình bộ mã hóa được đào tạo của IBM có thể được tinh chỉnh cho nhiều tác vụ ngôn ngữ không tạo sinh và có thể tạo ra các phần nhúng giàu thông tin để truy xuất tài liệu thông qua retrieval augmented generation (RAG) (thế hệ tăng cường truy xuất). RAG thường tuân theo khung hai bước: trước tiên, mô hình truy xuất sẽ mã hóa câu hỏi và truy xuất các tài liệu liên quan từ cơ sở dữ liệu vectơ. Những tài liệu này sau đó được chuyển đến một mô hình tổng quát để trả lời câu hỏi trong khi vẫn đảm bảo tính trung thực của tài liệu được truy xuất.

IBM đã xây dựng mô hình công cụ truy xuất dựa trên mô hình bộ mã hóa của mình để tạo ra các phần nhúng giàu thông tin giúp ánh xạ sự giống nhau giữa các cặp văn bản. Cụ thể, IBM tối ưu hóa chức năng mất tương phản, đẩy phần nhúng của văn bản liên kết đến gần hơn với phần nhúng của tài liệu (“tích cực”) có liên quan và cách xa tài liệu ngẫu nhiên (“tiêu cực”).

Những mô hình này sử dụng khoảng 268 triệu cặp văn bản, bao gồm tiêu đề và tóm tắt cũng như câu hỏi và câu trả lời. Kết quả là, họ xuất sắc trong việc truy xuất các đoạn văn có liên quan trong bộ bài kiểm tra gồm khoảng 400 câu hỏi do NASA tuyển chọn. Điều này được chứng minh bằng sự cải thiện 6,5% so với mô hình RoBERTa được tinh chỉnh tương tự và cải thiện 5% so với BGE-base, một mô hình nguồn mở phổ biến khác để nhúng.

Những cải tiến đáng kể mà các mô hình của IBM đạt được có thể là do dữ liệu đào tạo chuyên biệt, mã thông báo tùy chỉnh và phương pháp đào tạo. Phù hợp với cam kết của IBM và NASA về AI mở và minh bạch, cả hai mô hình đều có sẵn trên Hugging Face: mô hình bộ mã hóa có thể được tinh chỉnh thêm cho các ứng dụng trong miền không gian, trong khi mô hình truy xuất có thể được sử dụng cho các ứng dụng truy xuất thông tin cho RAG. IBM cũng đang hợp tác với NASA để nâng cao công cụ tìm kiếm khoa học sử dụng các mô hình này.

5/5 - (1 bình chọn)

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *