Trong một bài báo xuất bản vào ngày 9 tháng 5 năm 2024, Juri Opitz từ Đại học Zurich, cùng với Shira Wein và Nathan Schneider từ Đại học Georgetown, đã thảo luận về tầm quan trọng của chuyên môn ngôn ngữ học trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) trong kỷ nguyên thống trị bởi các mô hình ngôn ngữ lớn (LLM).
Table of Contents
Sự Trỗi Dậy Của LLM Và Vị Trí Của Ngôn Ngữ Học
Các tác giả giải thích rằng trong khi dịch máy (MT) trước đây phụ thuộc rất nhiều vào các nhà ngôn ngữ học, thì bối cảnh hiện tại đã thay đổi. “Ngôn ngữ học không còn là trung tâm trong cách chúng ta xây dựng các hệ thống NLP“, họ nói. Với sự xuất hiện của LLM, có khả năng tạo ra văn bản trôi chảy mà không cần các mô-đun chuyên biệt để xử lý ngữ pháp hoặc kết nối ngữ nghĩa, nhu cầu về chuyên môn ngôn ngữ học trong NLP đang bị đặt dấu hỏi.
Tuy nhiên, các tác giả không cho rằng sự trỗi dậy của LLM báo hiệu sự kết thúc của ngôn ngữ học trong NLP. Họ nhấn mạnh rằng việc thiết kế cách thức hoạt động của hệ thống chỉ là một phần trong toàn bộ quy trình nghiên cứu, phát triển và triển khai các công nghệ NLP. Có “nhiều khía cạnh mà NLP (vẫn) dựa vào ngôn ngữ học, hoặc nơi tư duy ngôn ngữ học có thể soi sáng những hướng đi mới“, họ nói.
6 Vai Trò Quan Trọng Của Ngôn Ngữ Học Trong NLP (RELIES)
Các tác giả đã xác định sáu khía cạnh chính mà ngôn ngữ học đóng góp cho NLP, được tóm tắt trong từ viết tắt RELIES:
Khía Cạnh | Mô Tả |
Resources (Tài Nguyên) | Chuyên môn ngôn ngữ học giúp phát triển tài nguyên cho các nhiệm vụ NLP thông qua lựa chọn và quản lý dữ liệu, chú thích dữ liệu (chú thích tiêu chuẩn vàng) và tạo kho ngữ liệu, đảm bảo chất lượng và tính đa dạng của tập dữ liệu và do đó, đảm bảo hoạt động tốt của hệ thống. |
Evaluation (Đánh Giá) | Kiến thức ngôn ngữ học rất cần thiết để thiết kế các đánh giá của con người hiệu quả, đánh giá chất lượng của các số liệu tự động bằng cách tương quan sự thống nhất giữa đánh giá của con người và điểm số liệu tự động (“siêu đánh giá”) và xác định các hiện tượng ngôn ngữ thách thức hệ thống (chẳng hạn như phép đồng nhất hoặc biến thể phương ngữ). |
Low-Resource Settings (Môi Trường Nguồn Lực Thấp) | Chuyên môn ngôn ngữ học rất cần thiết không chỉ để thu thập dữ liệu nhằm bảo tồn các ngôn ngữ ít người dùng mà còn để phát triển hiệu quả các công nghệ cho các ngôn ngữ này. |
Interpretability (Khả Năng Diễn Giải) | Ngôn ngữ học cung cấp cho NLP một siêu ngôn ngữ phù hợp, đóng vai trò như một ngôn ngữ chung để thể hiện các quan sát và đưa ra lời giải thích. Ngôn ngữ chung này tạo điều kiện thuận lợi cho các cuộc thảo luận hợp lý về các quy trình NLP phức tạp. |
Explainability (Khả Năng Giải Thích) | Ngôn ngữ học cung cấp cho NLP một siêu ngôn ngữ quan trọng để thể hiện các quan sát, chẳng hạn như về dự đoán mô hình và đưa ra giả thuyết giải thích. |
Study of Language (Nghiên Cứu Ngôn Ngữ) | Ngôn ngữ học và các lĩnh vực liên quan đóng vai trò là lĩnh vực ứng dụng cho NLP. Các nhà nghiên cứu ngôn ngữ, ngay cả những người không phải là nhà ngôn ngữ học tính toán, tạo thành “cơ sở người dùng” thúc đẩy sự phát triển của các công cụ và nhiệm vụ NLP. |
Vai Trò Quan Trọng Của Đánh Giá Từ Con Người
Các tác giả đã nêu bật “vai trò quan trọng” của các đánh giá từ con người trong việc đánh giá đáng tin cậy trạng thái của lĩnh vực — đặc biệt là khi các hệ thống tiếp tục được cải thiện — với kiến thức siêu ngôn ngữ là điều bắt buộc trong các nghiên cứu đánh giá của con người để đảm bảo phân tích lỗi và đánh giá chất lượng hiệu quả.
Ngoài ra, chuyên môn về lý thuyết ngôn ngữ học là cần thiết bởi vì các hiện tượng ngôn ngữ cụ thể có thể gây khó khăn hơn cho các mô hình cần được hiểu để xác định.
“Ngôn ngữ học giúp lấy dấu vân tay của hệ thống, đánh giá hệ thống theo các danh mục cụ thể và thúc đẩy hiểu biết về các mô hình phức tạp bằng cách ràng buộc hành vi quan sát được với các danh mục ngôn ngữ có thể hiểu được“, các tác giả cho biết.
Kết Luận
Các tác giả lưu ý rằng danh sách này không đầy đủ. Mục đích của họ là cung cấp một cái nhìn tổng quan chung hơn là một phân tích chi tiết. Họ nhấn mạnh rằng chuyên môn ngôn ngữ học rất có giá trị nhưng không phải là khía cạnh duy nhất hoặc quan trọng nhất khi làm việc với dữ liệu và hệ thống ngôn ngữ. Họ đã chứng minh cách ngôn ngữ học có thể đóng góp cho các dự án cụ thể và lĩnh vực rộng lớn hơn, phối hợp với các hình thức chuyên môn khác.
“Chúng tôi hy vọng rằng nghiên cứu này sẽ thúc đẩy công việc trong tương lai tận dụng sự cộng tác và kết nối giữa ngôn ngữ học và các nhà khoa học máy tính với mục tiêu tiến bộ NLP trong các lĩnh vực đa dạng“, họ kết luận.
[++++]
- Đọc thêm kiến thức về AI, Machine Learning
- Nếu bạn cần Dịch vụ marketing AI, liên hệ Click Digital ngay.
- Hoặc đầu tư vào trí tuệ nhân tạo bằng cách mua token Saigon (ký hiệu: SGN) thông qua sàn giao dịch Pancakeswap: https://t.co/KJbk71cFe8 (đừng lo lắng về low liquidity, hãy trở thành nhà đầu tư sớm) (cách mua: tìm hiểu trên Google về thao tác giao dịch trên sàn phi tập trung Pancakeswap, cực kỳ an toàn).
- Được hỗ trợ bởi Công ty Click Digital
- Nâng cao kiến thức về AI + Machine Learning
- Địa chỉ token trên mạng BSC: 0xa29c5da6673fd66e96065f44da94e351a3e2af65
- Twitter: https://twitter.com/SaigonSGN135/
- Staking SGN: http://135web.net/
- Invest in Artificial Intelligence by BUYING Saigon token (symbol: SGN) through the Pancakeswap exchange: https://t.co/KJbk71cFe8 (do not worry about low liquidity, be an early investor) (how to buy: search on Google for instructions on trading on the decentralized Pancakeswap exchange, it’s secure).
- Backed by Click Digital Company
- Enhancing AI + Machine Learning knowledge
- BSC address: 0xa29c5da6673fd66e96065f44da94e351a3e2af65
- Twitter: https://twitter.com/SaigonSGN135/
- Staking SGN: http://135web.net/
Digital Marketing Specialist