Rusbase 23 июня

ИИ Google LaMDA прошёл тест Тьюринга — и доказал, что он не работает

Тест Тьюринга давно считался ориентиром для сложных моделей искусственного интеллекта. Но даже сам автор считал: вопрос о том, могут ли машины на самом деле мыслить, был "слишком бессмысленным, чтобы заслуживать обсуждения". Автор New York Times Уилл Оремус проанализировал, почему главная проблема — не потенциальное восстание машин, а способность алгоритмов вводить человека в заблуждение. Приводим перевод его статьи.

Программы с искусственным интеллектом, такие как Xiaoice, популярный в Китае чат-бот-компаньон, похожий на человека, могут обмануть людей, заставив их думать, что у них есть собственный разум и чувства.

В 1950 году ученый Алан Тьюринг предложил мысленный эксперимент, который он назвал имитационной игрой. Интервьюер общается с двумя испытуемыми через послания, набранные на печатной машинке. При этом ему известно, что один из них — человек, а другой — машина.

Если бы машина могла последовательно обманывать интервьюера, заставляя его поверить, что это человек, предположил Тьюринг, мы могли бы говорить о ней как о способной к чему-то вроде мышления.

Тьюринг считал, что вопрос о том, могут ли машины на самом деле мыслить, был «слишком бессмысленным, чтобы заслуживать обсуждения». Тем не менее, тест Тьюринга стал эталоном для машинного интеллекта. На протяжении десятилетий различные компьютерные программы пытались пройти его, используя примитивные разговорные трюки, и у некоторых это даже получалось.

В последние годы богатые технологические компании, включая Google, Facebook и OpenAI, разработали новый класс компьютерных программ, известных как «большие языковые модели». Их способности к общению значительно превосходили рудиментарных чат-ботов прошлого. Одна из таких моделей — LaMDA от Google — убедила инженера Google Блейка Лемуана в том, что она не только разумна, но и способна осознавать и чувствовать.

Если реалистичные ответы LaMDA убедили даже Лемуана, легко поверить, что это сработало бы и со многими другими людьми, которые гораздо меньше разбираются в ИИ. Это демонстрирует, насколько велик потенциал алгоритма как инструмента обмана и манипулирования в чужих руках.

Таким образом, для многих специалистов в этой области выдающиеся способности LaMDA в имитационной игре Тьюринга не являются значимым достижением. В любом случае, это показывает, что авторитетный тест уже не является ориентиром для ИИ.

Читайте по теме: Инженер Google обнаружил сознание у нейросети LaMDA

«Эти тесты на самом деле не касаются интеллекта», — сказал Гэри Маркус, ученый-когнитивист и соавтор книги «Искусственный интеллект: перезагрузка». То, что он выявляет, — это способность программы выдавать себя за человека, по крайней мере, при определенных условиях. Что, если задуматься, может быть не так уж хорошо для общества.

«Я не думаю, что это движение в сторону интеллекта. Это движение в сторону того, чтобы обмануть, убедив в наличии интеллекта», — сказал Маркус, имея в виду программы вроде LaMDA, которые создают тексты или разговоры, напоминающие человеческие.

Лемуан, возможно, выделяется среди своих коллег по отрасли. И его коллеги из Google, и сторонние эксперты по ИИ говорят, что программа не обладает и не может обладать ничем подобным внутренней жизни, которую он себе представляет. Нам не нужно беспокоиться о том, что LaMDA в ближайшее время превратится в Скайнет, злобный машинный разум из фильмов о Терминаторе.

Но теперь есть иной повод для беспокойства: мы живем в мире, предсказанном Тьюрингом, где некоторые компьютерные программы настолько продвинуты, что людям может казаться, что они обладают собственной волей, даже если на самом деле это не так.

робот общается по телефону, искусственный интеллект

Фото в тексте: Bas Nastassia / Shutterstock

Передовые программы ИИ, такие как генератор текста GPT-3 от OpenAI и генератор изображений DALL-E 2, предназначены для создания творений, фантастически напоминающих человеческие. Для этого используются огромные массивы данных и огромные вычислительные мощности.

Такие алгоритмы представляют собой гораздо более мощный и сложный подход к разработке программного обеспечения, чем было возможно в 1960-х годах, когда программисты давали чат-боту ELIZA заготовленные ответы на различные вербальные сигналы, чтобы обмануть собеседников-людей.

И у них могут быть коммерческие применения в повседневных инструментах — поисковые системы, предложения автозаполнения и голосовые помощники, такие как Siri от Apple и Alexa от Amazon.

Также стоит отметить, что сектор ИИ в значительной степени отошел от использования теста Тьюринга в качестве эталона. Разработчики больших языковых моделей теперь стремятся получить высокие баллы по таким тестам, как GLUE (General Language Understanding Evaluation, оценка общего понимания языка) и SQuAD (Stanford Question Answering Dataset, набор данных для ответов на вопросы Стэнфорда).

И в отличие от ELIZA, LaMDA не создавалась, чтобы выдавать программу за человека. У нее просто очень хорошо получается собирать и выдавать правдоподобно звучащие ответы на самые разные вопросы.

Тем не менее, несмотря на всю эту сложность, у теста Тьюринга и современных моделей и тестов есть общая основная цель — получить результаты, максимально похожие на человеческие.

Эта «гонка вооружений», как назвала ее специалист по этике ИИ Маргарет Митчелл в беседе в Twitter с журналистами Washington Post в среду, произошла за счет разнообразных целей языковых моделей. Среди них — сделать так, чтобы их работа была понятна, и они не вводили людей в заблуждение или непреднамеренно усиливали вредные предубеждения.

Митчелл и ее бывший коллега Тимнит Гебру были уволены Google в 2021 и 2020 годах соответственно после того, как они стали соавторами статьи, посвященной этим и другим рискам больших языковых моделей.

В то время как Google дистанцировалась от заявлений Лемуана, ИТ-специалисты и другие лидеры отрасли иногда отмечали способность своих систем обманывать людей, отметил Джереми Кан, автор рассылки Fortune о проблемах ИИ.

Например, на публичном мероприятии в 2018 году компания с гордостью воспроизвела записи голосового помощника Duplex, добавляя звуки вроде «м-м-м» и «хм-м-м», которые вводили администраторов в заблуждение, заставляя их думать, что звонит настоящий человек, чтобы записаться на прием. После негативной реакции в Google пообещали, что система идентифицирует себя как автоматизированную.

«Самое тревожное наследие теста Тьюринга — этическое: в основе теста лежит обман. И здесь влияние теста на сферу было очень реальным и тревожным», — писал Кан.

Как и прочие критики и комментаторы ИИ, Кан призвал отказаться от теста Тьюринга и двигаться дальше. Конечно, индустрия уже сделала это в том смысле, что она заменила имитационную игру более научными ориентирами.

Но история с Лемуаном наводит на мысль, что, возможно, тест Тьюринга мог бы послужить другой цели в эпоху, когда машины все больше и больше умеют звучать по-человечески. Вместо того, чтобы быть желательным стандартом, тест Тьюринга должен служить этическим красным флагом: любая система, способная пройти его, несет в себе опасность обмана людей.

Источник.

Фото на обложке: Zapp2Photo / Shutterstock

Технологии

Источник новости