Тест пройдёт: GPT-4 успешно сымитировала человека

Каждый второй участник эксперимента не понял, что общается с ИИ, а не с человеком.

Тест Тьюринга — специальный метод проверки, позволяющий отличить компьютер от человека. Или, проще говоря, способность машины имитировать человеческое общение. Этот научный инструмент имени себя предложил в 1950 году математик и криптограф Алан Тьюринг, задумавшись, а может ли вообще компьютер мыслить. Кстати, придумал он тест за несколько лет до того, как вообще было сформулировано определение искусственного интеллекта. Прошло уже больше полувека, а созданием Тьюринга до сих пор пользуются.

На этот раз разработку компании OpenAI изучили ученые из Института инженеров электротехники и электроники (IEEE) в США. Они собрали 500 респондентов и предложили им пообщаться с человеком и моделями ИИ ELIZA, GPT-3.5 и GPT-4. Кстати, виртуальный собеседник ELIZA уже ни раз сдавал тест Тьюринга: алгоритм был разработан еще в 1966 году и первоначально имитировал общение с психотерапевтом. Ее создатель Джозеф Вайценбаум, правда, весьма снисходительно называл свое детище «пародией» на диалог психотерапевта с клиентом, а имя Элиза заимствовал из пьесы Бернарда Шоу «Пигмалион» — той самой, по которой поставили мюзикл «Моя прекрасная леди». Некоторые математики утверждают, что ELIZA, возможно, первый алгоритм, успешно прошедший тест Тьюринга. Актуальные разработки компании OpenAI соревновались с одним из пионеров мира ИИ.


Тест Тьюринга считается пройденным, если более 30% респондентов, задававшие вопросы машине, спутают ее с человеком. Разговоры в рамках эксперимента длились по пять минут, после чего участники должны были ответить, отвечал им человек или ИИ. Реального человека смогли распознали 67% респондентов, что на самом деле очень хороший результат. Ожидаемо продукты OpenAI обогнали полувековую ELIZA: 54% участников приняли за человека GPT-4 и 50% — GPT-3.5. А вот поверили ELIZA только 22% испытуемых — алгоритм не смог пройти тест Тьюринга. Получается, что каждый второй человек, задававший вопросы и получавший ответы, не смог понять, что общается с ИИ.

Кстати, это не первый раз, когда ученые задаются вопросом, может ли алгоритм имитировать общение настолько искусно, чтобы запутать людей. В прошлом году исследователи из Университета Калифорнии в Сан-Диего опубликовали научную статью на 28 страниц, в которой описывают результаты похожего эксперимента. Они тоже взяли ELIZA, GPT-3.5 и GPT-4 и прогнали их через общедоступный онлайн-тест Тьюринга. Результаты практически такие же, как на выборке Института инженеров электротехники и электроники: GPT-4 прошел тест, а ELIZA и GPT-3.5 не набрали нужного количества процентов. Компания OpenAI не прокомментировала ни один из опубликованных экспериментов.

Нейросоветы – канал с советами от искусственного интеллекта!