Meta FAIR thúc đẩy AI giống con người với năm dự án lớn


Meta vừa thông báo về năm dự án quan trọng trong nghiên cứu AI nhằm tăng cường khả năng nhận thức của máy móc, với mục tiêu xây dựng trí tuệ nhân tạo có khả năng xử lý và tương tác với môi trường vật lý giống như con người. Những dự án này là một phần trong nỗ lực của Meta nhằm đạt được mục tiêu phát triển trí tuệ máy móc tiên tiến (AMI), với các ứng dụng tiềm năng trong lĩnh vực robot và tác nhân hợp tác.

Dưới đây là các dự án nổi bật mà Meta vừa công bố, giúp công ty tiến gần hơn đến việc tạo ra những hệ thống AI có khả năng nhận thức, hiểu biết và hành động như con người.

Perception Encoder nâng cao khả năng nhìn của AI

Một trong những dự án quan trọng nhất trong lần ra mắt này là Perception Encoder, được Meta mô tả là bộ mã hóa thị giác quy mô lớn dành cho các tác vụ hình ảnh và video. Bộ mã hóa này sẽ giúp các hệ thống AI hiểu và xử lý thông tin thị giác từ hình ảnh và video.

Meta cho biết việc phát triển bộ mã hóa thị giác cho các hệ thống AI là một thách thức lớn. Các bộ mã hóa này cần phải xử lý cả hình ảnh và video, đồng thời duy trì khả năng hoạt động mạnh mẽ trong các điều kiện khó khăn, bao gồm cả các cuộc tấn công từ các đối tượng có ý đồ xấu. Perception Encoder được kỳ vọng sẽ vượt qua các bộ mã hóa hiện tại trong các nhiệm vụ như phân loại và truy vấn hình ảnh/video, đồng thời cải thiện hiệu suất trong các tác vụ ngôn ngữ, chẳng hạn như trả lời câu hỏi hình ảnh và mô tả hình ảnh.

Perception Language Model (PLM) mở rộng nghiên cứu về ngôn ngữ và thị giác

Cùng với Perception Encoder, Meta ra mắt Perception Language Model (PLM), một mô hình ngôn ngữ thị giác mở, được thiết kế để giải quyết các bài toán nhận dạng hình ảnh phức tạp. PLM sử dụng dữ liệu tổng hợp quy mô lớn kết hợp với bộ dữ liệu ngôn ngữ-thị giác công khai, giúp cải thiện khả năng nhận diện và phân tích hình ảnh trong ngữ cảnh ngôn ngữ.

Meta cũng giới thiệu PLM-VideoBench, một công cụ benchmark mới giúp đánh giá khả năng của PLM trong việc nhận diện các hoạt động phức tạp và lý luận không gian-thời gian. PLM và bộ benchmark này sẽ giúp cộng đồng mã nguồn mở nghiên cứu và phát triển các mô hình AI mạnh mẽ hơn trong tương lai.

Meta Locate 3D tạo ra nhận thức không gian cho robot

Meta Locate 3D là một mô hình AI giúp robot nhận thức không gian và xác định vị trí các đối tượng trong môi trường 3D bằng cách sử dụng các lệnh ngôn ngữ tự nhiên. Mô hình này giúp robot xác định chính xác vị trí của các đối tượng trong không gian 3D, chẳng hạn như “bình hoa gần bàn TV,” và giúp cải thiện khả năng tương tác giữa con người và robot trong môi trường làm việc.

Dynamic Byte Latent Transformer mô hình ngôn ngữ mạnh mẽ và hiệu quả

Dynamic Byte Latent Transformer là một kiến trúc ngôn ngữ mới của Meta, chuyển từ mô hình ngôn ngữ truyền thống dựa trên phân tách từ (tokenization) sang xử lý dữ liệu ở cấp độ byte. Điều này giúp cải thiện hiệu suất và độ bền của mô hình, đặc biệt khi đối mặt với các dữ liệu bị lỗi hoặc các từ ngữ mới. Meta cho biết mô hình này vượt trội so với các mô hình ngôn ngữ truyền thống trong các tác vụ như hiểu biết về ngữ nghĩa và xử lý các đầu vào không chuẩn.

Collaborative Reasoner AI hợp tác với con người

Dự án cuối cùng, Collaborative Reasoner, là một nỗ lực của Meta trong việc phát triển các tác nhân AI có thể hợp tác hiệu quả với con người. Mô hình này không chỉ giải quyết vấn đề mà còn có khả năng giao tiếp, thấu hiểu cảm xúc, và đưa ra phản hồi xây dựng. Mục tiêu của Collaborative Reasoner là tạo ra một hệ thống AI có thể hợp tác lâu dài, cải thiện sự tương tác giữa con người và máy móc trong nhiều tình huống khác nhau.

Meta cho biết các mô hình này sẽ được sử dụng trong nhiều lĩnh vực, từ chăm sóc sức khỏe đến robot công nghiệp, nhằm tạo ra các hệ thống AI có khả năng tương tác tự nhiên, thấu hiểu và giúp đỡ con người trong công việc hàng ngày.

Những tiến bộ trong nghiên cứu AI của Meta thể hiện tầm nhìn dài hạn của công ty trong việc phát triển các hệ thống trí tuệ nhân tạo có khả năng nhận thức và tương tác như con người. Các dự án mới này không chỉ giúp nâng cao khả năng nhận thức và tương tác của AI mà còn mở ra cơ hội cho việc áp dụng công nghệ AI trong nhiều lĩnh vực khác nhau. Meta đang tiến gần hơn đến việc xây dựng một tương lai nơi AI có thể giúp con người làm việc hiệu quả và an toàn hơn, đồng thời thúc đẩy sự sáng tạo và hợp tác giữa con người và máy móc.