Успех мощной модели искусственного интеллекта R1 от DeepSeek, выход которой в январе обвалил фондовый рынок США, не был обусловлен обучением на результатах работы моделей-конкурентов, заявила компания в журнале Nature.
R1 разработана для решения задач, требующих рассуждений, таких как математика и программирование, и позиционируется как более дешевый аналог американских ИИ-инструментов. Модель с открытыми весами, R1 доступна для скачивания любым желающим, и в этом качестве заняла заслуженное первое место по популярности на платформе Hugging Face с 10,9 миллионами загрузок.
В статье описаны усовершенствования стандартной большой языковой модели для решения задач, требующих рассуждений. В дополнительных материалах впервые раскрыта стоимость обучения R1 — всего 294 000 долларов США. Это дополнительные расходы к шести миллионам, потраченным на разработку базовой LLM, но они не идут ни в какое сравнение с астрономическими суммами, которые вкладывают конкуренты. DeepSeek сообщила также, что обучала R1 в основном на чипах Nvidia H800, продажа которых в Китай ограничена с 2023 года.
Строгое рецензирование
Статья DeepSeek стала, по всей видимости, первым отчетом о разработке и обучении LLM, прошедшим процедуру независимого рецензирования.
«Это очень важный прецедент. Если у нас не будет этой нормы — публично делиться большой частью этого процесса, — станет очень сложно оценивать, представляют ли эти системы риски или нет», — заметил инженер по машинному обучению Льюис Танстолл из Hugging Face, рецензировавший публикацию.
В ответ на замечания рецензентов DeepSeek уменьшила антропоморфизацию в описаниях и добавила пояснения технических деталей, включая типы данных, на которых обучалась модель, и вопросы ее безопасности.
«Прохождение строгого процесса рецензирования, безусловно, помогает проверить обоснованность и полезность модели. Другим компаниям следует поступить так же», — убежден Хуань Сунь, исследователь ИИ из Университета штата Огайо.
Главным нововведением DeepSeek стало использование автоматизированного вида подхода «проб и ошибок», известного как чистое обучение с подкреплением, для создания R1. Этот процесс вознаграждал модель за правильные ответы, а не за следование выбранным человеком примерам рассуждений. По утверждению разработчиков, именно так их LLM научилась своим «стратегиям рассуждения» — например, проверять собственные вычисления без заранее заданных инструкций. Для повышения эффективности модель сама оценивала свои ответы с помощью приближенных оценок, вместо того чтобы использовать отдельный алгоритм. Такой прием называется оптимизацией политики на основе относительных групповых оценок.
DeepSeek R1 стала настоящим прорывом в отрасли, оценил Сунь: «Почти все работы по обучению с подкреплением в LLM, вышедшие в 2025 году, могли быть так или иначе вдохновлены R1».
Методика обучения
СМИ сообщали, что OpenAI подозревает DeepSeek в использовании выходных данных моделей GPT в качестве примеров для обучения R1. Такой подход мог бы ускорить развитие модели с использованием меньшего объема ресурсов.
DeepSeek не обнародовала в статье свои обучающие данные. Однако в переписке с рецензентами разработчики заверили, что R1 не копировала примеры рассуждений, сгенерированных моделями OpenAI. Однако они признали, что, как и большинство других LLM, базовая модель R1 обучалась на данных из интернета, поэтому впитала в себя любой сгенерированный искусственным интеллектом контент.
По словам Танстолла, хотя он не может быть полностью уверен, что R1 обошлась без примеров от OpenAI, попытки воспроизвести обучение в лабораториях показывают, что в этом не было необходимости.
«Думаю, теперь совершенно очевидно, что можно достичь очень высокой производительности, используя только чистое обучение с подкреплением», — подчеркнул исследователь.
R1 незаменима в науке, добавил Сунь. В тестах ScienceAgentBench на выполнение таких задач, как анализ и визуализация данных, модель от DeepSeek хоть и не стала первой по точности, но оказалась одной из лучших с точки зрения баланса между способностями и стоимостью.
Другие исследователи теперь пытаются применить методы, использованные для создания R1, чтобы улучшить способности к рассуждению у существующих LLM, а также расширить их применение на новые области за пределами математики и программирования. Таким образом, R1 фактически «запустила революцию», заключил Танстолл.