Các nhà nghiên cứu của Apple giới thiệu RealM: Một AI có thể ‘nhìn’ và hiểu bối cảnh màn hình của người dùng.
Trong Xử lý ngôn ngữ tự nhiên (NLP), độ phân giải tham chiếu (reference resolution) là một thách thức quan trọng vì nó liên quan đến việc xác định tiền đề hoặc tham chiếu của một từ hoặc cụm từ trong văn bản, điều này cần thiết để hiểu và xử lý thành công các loại ngữ cảnh khác nhau. Những bối cảnh như vậy có thể bao gồm từ các lượt đối thoại trước đó trong cuộc trò chuyện đến các yếu tố không mang tính hội thoại, như các thực thể trên màn hình của người dùng hoặc các quy trình nền.
Các nhà nghiên cứu nhằm mục đích giải quyết vấn đề cốt lõi là làm thế nào để nâng cao khả năng của các mô hình ngôn ngữ lớn (LLM) trong việc giải quyết các tài liệu tham khảo, đặc biệt là đối với các thực thể không hội thoại. Nghiên cứu hiện tại bao gồm các mô hình như MARRS, tập trung vào độ phân giải tham chiếu đa phương thức, đặc biệt là đối với nội dung trên màn hình. Bộ chuyển đổi tầm nhìn và mô hình tầm nhìn+văn bản cũng góp phần vào sự tiến bộ này, mặc dù các yêu cầu tính toán nặng nề đã hạn chế ứng dụng của chúng.
Các nhà nghiên cứu của Apple đề xuất Độ phân giải tham chiếu dưới dạng mô hình ngôn ngữ (ReALM: Reference Resolution As Language Modeling) bằng cách xây dựng lại màn hình, bằng cách sử dụng các thực thể được phân tích cú pháp và vị trí của chúng để tạo ra bản trình bày thuần văn bản của màn hình, thể hiện trực quan nội dung màn hình. Sau đó, các phần của màn hình là các thực thể sẽ được gắn thẻ để LM có ngữ cảnh xung quanh nơi các thực thể xuất hiện và văn bản xung quanh chúng là gì (Ví dụ: gọi số doanh nghiệp). Họ cũng khẳng định rằng đây là tác phẩm đầu tiên sử dụng LLM nhằm mục đích mã hóa bối cảnh từ màn hình theo hiểu biết tốt nhất của họ.
Để tinh chỉnh LLM, họ đã sử dụng mẫu FLAN-T5. Đầu tiên, họ cung cấp đầu vào được phân tích cú pháp cho mô hình và tinh chỉnh nó, chỉ tuân theo các tham số tinh chỉnh mặc định. Đối với mỗi điểm dữ liệu bao gồm một truy vấn của người dùng và các thực thể tương ứng, họ chuyển đổi nó sang định dạng phù hợp với câu có thể được cung cấp cho LLM để đào tạo. Các thực thể được xáo trộn trước khi được gửi đến mô hình để mô hình không phù hợp quá mức với các vị trí thực thể cụ thể.
ReALM vượt trội hơn mô hình MARRS trong tất cả các loại bộ dữ liệu. Nó cũng có thể hoạt động tốt hơn GPT-3.5, vốn có số lượng tham số lớn hơn đáng kể so với mô hình ReALM theo nhiều bậc độ lớn. ReALM hoạt động trong cùng một sân bóng với GPT-4 mới nhất mặc dù là mẫu nhẹ hơn (và nhanh hơn) nhiều. Các nhà nghiên cứu đã nêu bật những lợi ích trên các tập dữ liệu trên màn hình và nhận thấy rằng mô hình ReALM với phương pháp mã hóa văn bản có thể hoạt động gần như tốt như GPT-4 mặc dù GPT-4 được cung cấp ảnh chụp màn hình.
Tóm lại, nghiên cứu này giới thiệu ReALM, sử dụng LLM để thực hiện phân giải tham chiếu bằng cách mã hóa các ứng cử viên thực thể dưới dạng văn bản tự nhiên. Họ đã chứng minh cách các thực thể trên màn hình có thể được chuyển vào LLM bằng cách sử dụng cách trình bày văn bản duy nhất để tóm tắt một cách hiệu quả màn hình của người dùng trong khi vẫn giữ được vị trí không gian tương đối của các thực thể này. RealLM vượt trội hơn các phương pháp trước đây và hoạt động gần giống như LLM hiện đại nhất hiện nay, GPT-4, mặc dù có ít tham số hơn, ngay cả đối với các tham chiếu trên màn hình, mặc dù hoàn toàn nằm trong miền văn bản. Nó cũng hoạt động tốt hơn GPT-4 đối với cách phát biểu của người dùng theo miền cụ thể, do đó khiến RealLM trở thành lựa chọn lý tưởng cho hệ thống phân giải tham chiếu thực tế.
- Đọc thêm kiến thức về NLP, AI, Machine Learning
- Nếu bạn cần Dịch vụ marketing AI, liên hệ Click Digital ngay.
- Hoặc đầu tư vào trí tuệ nhân tạo bằng cách mua token Saigon (ký hiệu: SGN) thông qua sàn giao dịch Pancakeswap: https://t.co/KJbk71cFe8 (đừng lo lắng về low liquidity, hãy trở thành nhà đầu tư sớm) (cách mua: tìm hiểu trên Google về thao tác giao dịch trên sàn phi tập trung Pancakeswap, cực kỳ an toàn).
- Được hỗ trợ bởi Công ty Click Digital
- Nâng cao kiến thức về AI + Machine Learning
- Địa chỉ token trên mạng BSC: 0xa29c5da6673fd66e96065f44da94e351a3e2af65
- Twitter: https://twitter.com/SaigonSGN135/
- Staking SGN: http://135web.net/
- Invest in Artificial Intelligence by BUYING Saigon token (symbol: SGN) through the Pancakeswap exchange: https://t.co/KJbk71cFe8 (do not worry about low liquidity, be an early investor) (how to buy: search on Google for instructions on trading on the decentralized Pancakeswap exchange, it’s secure).
- Backed by Click Digital Company
- Enhancing AI + Machine Learning knowledge
- BSC address: 0xa29c5da6673fd66e96065f44da94e351a3e2af65
- Twitter: https://twitter.com/SaigonSGN135/
- Staking SGN: http://135web.net/
Digital Marketing Specialist