
Модели, способные ориентироваться в устройстве мира, играют ключевую роль в создании полезного ИИ для самых разных сфер — от робототехники до видеоигр. Несмотря на всю свою начитанность, языковые модели в настоящее время плохо понимают, как устроен реальный мир.
Модели мира учатся на видео и других пространственных данных, создавая представления об объектах, сценах и физической динамике. В отличие от языковых моделей, которые предсказывают следующее слово в тексте, модели мира предсказывают последствия событий в физическом мире. Они моделируют, «как вещи движутся, сталкиваются, падают, взаимодействуют и сохраняются с течением времени», поясняет Axios. Цель состоит в том, чтобы создать модели, которые понимают физику и причинно-следственные связи без прямого программирования.
«В течение трех-пяти лет это станет доминирующей моделью для архитектур ИИ, и никто в здравом уме не будет использовать языковые модели того типа, который у нас есть сегодня», — предрекает Лекун, готовящийся к запуску стартапа после ухода из Meta (признана экстремистской организацией, ее деятельность в России запрещена).
Уже сейчас компания Фэй-Фэй Ли представила первую коммерческую модель Marble, а Google и OpenAI тестируют аналоги для реалистичных видео и робототехники. Активно развиваются проекты и в других странах, включая китайский Tencent и университет искусственного интеллекта в ОАЭ.
Главным вызовом остается нехватка данных. Если для языковых моделей хватило текстов из интернета, то моделям мира требуются огромные объемы видеоданных, текста, аудио и информации с датчиков, которые сложнее собрать и структурировать. Как отмечают эксперты, даже крупнейшие открытые наборы данных пока служат базой для старта, а рабочим системам потребуется значительно больше информации.
По материалам: Axios.