Copilot4D: Mô hình hỗ trợ nền tảng cho xe tự lái của Waabi

Copilot4D của Waabi là mô hình nền tảng mang tính đột phá nhằm nâng cao khả năng của máy tự động bằng cách sử dụng dữ liệu LiDAR để hiểu và dự báo động lực học 3D của môi trường theo thời gian.

Chúng ta sống trong một thế giới 3D năng động, phát triển theo thời gian và khi chúng ta tương tác với thế giới này, bộ não của chúng ta liên tục đưa ra hàng trăm quyết định chỉ trong tích tắc. Từ việc chúng ta có nên băng qua đường cho đến khi chúng ta đang lái xe và quyết định chuyển sang làn đường khác hay không, bộ não của chúng ta có khả năng vượt trội để hiểu được không gian 3D xuyên suốt thời gian (chiều thứ tư) để xác định hành động tốt nhất cho chúng ta. Mặc dù điều này có vẻ giống như bản chất thứ hai đối với nhiều người trong chúng ta, nhưng nó thực sự liên quan đến các kỹ năng suy luận cực kỳ phức tạp và không đơn giản như vậy đối với bộ não nhân tạo.

Lấy ví dụ về cách chúng ta hiểu và tương tác với thế giới xung quanh. Chúng ta dựa vào các giác quan như thị giác và thính giác để nhận thức thế giới, trong khi máy móc thông minh dựa vào cảm biến để làm điều đó. Trong vài năm qua, LiDAR đã trở thành cảm biến chiếm ưu thế cho các máy thông minh để nhận biết thế giới vật lý vì nó cung cấp thông tin 3D chính xác, rất quan trọng cho việc điều hướng và tương tác. LiDAR đo khoảng cách từ một bề mặt đến cảm biến bằng cách phát ra các tia sáng từ xung laser. Ở mức cơ bản, một điểm LiDAR được ghi lại cho mỗi tia sáng chiếu vào vật thể và quay trở lại cảm biến. Chức năng này cho phép máy “nhìn thấy” điểm chính xác trong không gian 3D nơi có bề mặt của vật thể. 

Nhìn ở trên, hình ảnh tương tự qua camera (trái) và LiDAR (phải). Trong khi hình ảnh camera trông giống nhất với cách con người nhìn thế giới, LiDAR cung cấp thông tin cực kỳ có giá trị về hình học 3D của khung cảnh. Trong biểu đồ này, LiDAR được tô màu bằng các phép đo độ sâu của nó, tức là khoảng cách giữa bề mặt mà tia LiDAR đó chiếu tới người quan sát.

Tuy nhiên, thách thức vẫn còn đó: làm thế nào chúng ta có thể cho phép những cỗ máy thông minh này trích xuất thông tin từ các cảm biến này một cách đáng tin cậy và hiệu quả để tìm hiểu và tương tác với thế giới trong thời gian thực?

Waabi tin rằng câu trả lời nằm ở AI sáng tạo. Những đột phá gần đây trong lĩnh vực này đã thay đổi hoàn toàn thế giới kỹ thuật số. Mô hình ngôn ngữ lớn (LLM) đã chứng minh khả năng vô tận được kích hoạt khi AI được mở rộng quy mô để học từ lượng dữ liệu khổng lồ từ Internet. Ngày nay, những mô hình này thường được gọi là mô hình nền tảng do tính linh hoạt và khả năng tinh chỉnh để thực hiện nhiều ứng dụng đa dạng, từ toán học và mã hóa đến tóm tắt văn bản và chatbot.

Tại Waabi, Waabi đang tạo ra một cuộc cách mạng tương tự trong thế giới thực bằng cách xây dựng các mô hình nền tảng mới được thiết kế có chủ đích cho thế giới vật chất. Để đạt được mục tiêu đó, Waabi rất vui mừng được ra mắt Copilot4D , mô hình nền tảng đầu tiên suy luận rõ ràng về không gian 3D và chiều thứ tư, thời gian, học hỏi những khả năng vượt trội để tương tác và hoạt động trong một thế giới năng động, cho dù là trong mô phỏng, như Waabi World hay trong thế giới vật chất mà chúng ta đang sống. Nó mở đường cho những cỗ máy thông minh hơn, từ phương tiện tự hành đến robot, v.v.

Tương tự như cách LLM học bằng cách dự đoán từ tiếp theo trong câu, Copilot4D học bằng cách dự đoán cách một cỗ máy sẽ quan sát thế giới trong tương lai. Tuy nhiên, trong khi LLM học từ các token rời rạc đại diện cho các từ thì dữ liệu LiDAR về bản chất là liên tục. Để thu hẹp khoảng cách giữa ngôn ngữ và thế giới vật chất, Copilot4D có kiến ​​trúc 3 giai đoạn.

  • Đầu tiên, bộ token LiDAR trừu tượng hóa dữ liệu cảm biến liên tục thành một tập hợp các token riêng biệt, tương tự như các từ trong ngôn ngữ.
  • Sau đó, mô hình nền tảng của Waabi dự đoán thế giới sẽ phát triển như thế nào dưới dạng một tập hợp các token, tận dụng những đột phá gần đây trong LLM. Điều quan trọng là nó tính đến các hành động trong tương lai của tác nhân AI hiện thân sẽ ảnh hưởng đến thế giới như thế nào.
  • Cuối cùng, trình kết xuất LiDAR đưa các token này trở lại đám mây điểm LiDAR, thứ mà robot có thể quan sát giống như con người nhìn qua mắt chúng, cho phép chúng ta học hỏi từ các bản ghi cảm biến thô mà không cần sự giám sát của con người.

Copilot4D dự đoán các đám mây điểm LiDAR trong tương lai từ lịch sử quan sát LiDAR trong quá khứ, giống như cách LLM dự đoán từ tiếp theo cho văn bản trước đó. Waabi thiết kế kiến ​​trúc 3 giai đoạn có khả năng khai thác mọi đột phá trong LLM để mang đến mô hình nền tảng 4D đầu tiên.

Bây giờ Waabi đã giải thích cách Copilot4D hoạt động ở cấp độ cao, hãy tìm hiểu sâu hơn về ba thành phần của nó, bắt đầu với trình token. Công cụ token của Waabi, UltraLiDAR , có thể trừu tượng hóa dữ liệu cảm biến liên tục thành một mạng lưới các token rời rạc trong Bird’s-Eye-View, hay nói cách khác, như thể cảnh được nhìn thấy từ một con chim đang nhìn xuống. Mỗi token trong lưới về cơ bản mô tả một vùng lân cận 3D cục bộ của cảnh và là nền tảng mà tác nhân được thể hiện sử dụng để hiểu chi tiết về môi trường của nó.

Theo cách tương tự như cách LLM ánh xạ các từ thành chuỗi các token rời rạc, UltraLiDAR ánh xạ các đám mây điểm LiDAR vào lưới các token rời rạc. 

Được trang bị một bộ token riêng biệt đại diện cho thế giới vật chất, mô hình nền tảng sau đó có thể dự đoán bộ token tiếp theo để dự đoán trong tương lai khung cảnh sẽ phát triển như thế nào, chẳng hạn như các phương tiện và người đi bộ khác nhau sẽ làm gì. Đây là một quá trình tương tự như một LLM điển hình dự đoán từ tiếp theo trong câu, nhưng thay vì các từ, Copilot4D dự đoán phiên bản tiếp theo của thế giới xung quanh nó. Điều quan trọng cần lưu ý là đám mây điểm LiDAR phức tạp và có chiều cao hơn nhiều so với một từ và do đó, việc dự đoán từng token tại một thời điểm giống như được thực hiện trong LLM là rất khó khăn về mặt tính toán. Để vượt qua thách thức này, Waabi tận dụng sự khuếch tán rời rạc để dự đoán song song nhiều token, giúp mô hình của Waabi hiệu quả hơn nhiều.

Để đưa niềm tin của chúng ta về tương lai trở lại dạng đại diện mà máy móc và con người có thể hiểu được, Waabi sử dụng trình kết xuất LiDAR về cơ bản có vai trò nghịch đảo của trình tạo token: ánh xạ các token rời rạc trở lại các đám mây điểm LiDAR liên tục. Để làm như vậy, Waabi khai thác các kỹ thuật tiên tiến trong kết xuất độ sâu thần kinh khác biệt lấy cảm hứng từ vật lý để dự đoán độ sâu chính xác cho từng tia LiDAR.

Để chứng minh tính hiệu quả của Copilot4D, Waabi so sánh hiệu suất của nó với các mô hình tiên tiến nhất trong nhiều bảng xếp hạng công khai cho nhiệm vụ dự báo đám mây điểm. Các mô hình được cung cấp một loạt các đám mây điểm LiDAR trong quá khứ và được đánh giá ở khả năng dự báo các đám mây điểm LiDAR trong tương lai mà tác nhân được thể hiện sẽ quan sát trong một khoảng thời gian cụ thể (ví dụ: 3 giây trong tương lai). Trong đánh giá này, Copilot4D vượt trội hơn hẳn các phương pháp hiện có.

KITTI và nuScenes là các bộ dữ liệu về xe tự hành công cộng phổ biến, nơi các phương pháp cạnh tranh nhau để đạt được hiệu suất tốt nhất. Trong trường hợp này, điểm chuẩn sẽ đánh giá chất lượng của các đám mây điểm được dự báo ở thời điểm 3 giây trong tương lai. Khoảng cách Chamfer đánh giá mức độ tương tự giữa các đám mây điểm thực và dự đoán (càng thấp càng tốt), được định nghĩa là khoảng cách trung bình giữa các cặp điểm lân cận gần nhất.

Copilot4D có nhiều khả năng thú vị, cho phép sử dụng rất nhiều ứng dụng. Nó có thể tạo ra các cảnh từ đầu, nó có thể hoàn thành một phần cảnh, nó có thể dự đoán tương lai dựa trên quá khứ và nó có thể làm như vậy đối với các quỹ đạo phản thực tế khác nhau của tác nhân được thể hiện. Điều quan trọng là nó có thể tìm hiểu về thế giới từ các tác nhân hiện thân khác nhau (ô tô, xe tải, robot, v.v.) có thể được trang bị các loại, số lượng và vị trí khác nhau của cảm biến LiDAR. Điều này cung cấp cho Copilot4D khả năng khái quát hóa các ứng dụng và tình huống mà nó chưa được đào tạo.

Được trình bày ở trên, ba kịch bản riêng biệt được Copilot4D tạo ra từ đầu. Đây là những điều khó có thể phân biệt được với bất kỳ kịch bản thực tế nào.


Các thế hệ có điều kiện từ Copilot4D. Khi mô hình được hiển thị các token tương ứng với đám mây điểm (bên trái), nó có khả năng hoàn thành những gì ở phía trước (hiển thị bên phải)


Dự báo phản thực tế: Khi mô hình nền tảng của Waabi được nhắc nhở với các hành động khác nhau trong tương lai từ tác nhân được thể hiện trong cùng bối cảnh trong quá khứ. Ở bên trái, Waabi nhắc mô hình bằng một hành động trong đó xe tự lái tăng tốc và tiến gần hơn đến tác nhân phía trước, trong khi ở bên phải, Waabi nhắc mô hình bằng hành động phanh, do đó sẽ cách xa xe phía trước hơn.

Copilot4D đánh dấu bước đột phá trong cách máy móc thông minh có thể tận dụng dữ liệu cảm biến thô để không chỉ hiểu thế giới mà chúng đang vận hành mà còn hiểu được thế giới đó sẽ phát triển như thế nào trong tương lai. Nó trao quyền cho các máy móc thông minh, như xe tự lái, đưa ra các quyết định an toàn hơn mà không phản ứng mà chủ động. Ví dụ: khi xe tự lái đang chuẩn bị chuyển làn để đi theo một tuyến đường cụ thể, nó có thể nhắc nhở Copilot4D bằng hành động chuyển làn để hiểu các phương tiện khác ở làn bên cạnh sẽ phản ứng như thế nào, đảm bảo an toàn trước khi bắt đầu di chuyển. điều động. Copilot4D cũng hoạt động hiệu quả – công việc tính toán cần thiết được thực hiện trên chính tác nhân thông minh và nó có thể học hỏi bằng cách quan sát thế giới và tương tác mà không cần sự giám sát của con người. Waabi tin rằng đây là yếu tố quan trọng giúp tạo ra các máy tự động thông minh hơn, an toàn hơn và hiệu quả hơn trong thế giới thực, từ phương tiện tự lái đến robot kho hàng, máy bay không người lái, v.v.

5/5 - (1 bình chọn)

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *