Искусственный интеллект за последние пару лет добился действительно впечатляющих успехов. Сегодня, где машины могут не только решать сложные задачи, но и разрабатывать собственные уникальные стратегии доказательств. Но так ли они умны на самом деле? В новом исследовании передовым ИИ-системам бросают вызов ведущие математики. Пока нерецензированная научная статья вышла на сервере препринтов ArXiv.
Хотя способность ИИ решать задачи, как из набора GSM8K (8,5 тысяч математических задач для средней школы, для решения которых требуется несколько шагов) или Международной математической олимпиады, впечатляет. Но это все-таки не самые передовые области математики, а скорее уровень продвинутой школы, нежели границы человеческого познания в этой области.
Кроме того, есть проблема нехватки новых задач для различных ИИ-программ.
«Оценка крупных языковых моделей [LLMs] сталкивается со значительной проблемой загрязнения данных. Другими словами, это непреднамеренное включение контрольных задач в обучающие данные», — объясняют авторы.
В результате, как у ученика, знающего ответы теста заранее, показатели успешности моделей завышены, что скрывает истинные способности моделей к обоснованиям.
Решением проблемы стала система FrontierMath, представленная как «набор оригинальных, исключительно сложных математических задач, созданных в сотрудничестве с более чем 60 математиками из ведущих учреждений». Это не пустые слова: в проекте участвовали лауреаты премии Филдса, в том числе те, кто предложил задачи для набора данны, математики уровня аспирантуры и выше из университетов всего мира.
Предложенные задачи должны были удовлетворять четырем критериям: быть оригинальными — чтобы их решение требовало истинного математического проникновения, а не подгонки к известным задачам; быть проверяемыми без догадок; быть вычислительно решаемыми; и быть быстро и автоматически проверяемыми. После проверки задач на соответствие всем этим критериям, они прошли рецензирование, получили оценки сложности и были предложены ИИ.
Смогли ли современные программы справиться с ней? Увы, нет.
«Текущие передовые модели ИИ решили менее 2% задач, что показывает огромный разрыв между возможностями ИИ и умениями математического сообщества», — говорится в статье.
Решения же настолько сложны, что требуют больших объемов обучающих данных, которые отсутствуют в реальности, отмечает лауреат премии Филдса Терри Тао. Однако это временное ограничение, ведь по мере улучшения ИИ-систем, ситуация должна измениться, как отмечают авторы.