Видео и подкасты для разработчиков

Как AI научился рассуждать — Reinforcement learning, reasoning models

Один из главных вау-эффектов текущего поколения LLM – когда ты впервые видишь, как AI рассуждает перед тем, как выдать ответ на сложный вопрос.

Опубликовано

6 месяцев назад

29.08.2025

Автор:

AppTractor

Один из главных вау-эффектов текущего поколения LLM – когда ты впервые видишь, как AI рассуждает перед тем, как выдать ответ на сложный вопрос. Чтобы разобраться с тем, что происходит у таких моделей под капотом, как их обучают и верифицируют результаты работы, мы пригласили Евгения Никишина, исследователя из OpenAI, работающего над масштабированием reasoning моделей и test-time compute.

Содержание:

00:00 О чем выпуск
04:46 Что такое reasoning models
19:07 Подход к обучению модели GPT-3
22:21 Модель DeepSeek
25:50 Reinforcement learning и его отличия
32:50 Как reinforcement learning связан с ризонинг-моделями
36:54 Примеры применения reinforcement learning
40:50 Границы применимости reinforcement learning
47:26 Чему учат RL-модели?
53:36 Важность правильной награды
01:03:50 Пайплайн обучения reasoning models
01:08:20 Эффективность обучения модели с нуля
01:14:25 Процесс рассуждения модели
01:20:55 Проблема окна контекста
01:28:32 Прайсинг reasoning models
01:33:17 Параметры моделей и их влияние
01:41:40 Перенос навыков моделей
01:45:20 Тренды
01:54:18 Заключение

Видео посвящено тому, как современные языковые модели научились рассуждать с помощью методов машинного обучения и reinforcement learning. В разговоре с Евгением Никишиным из OpenAI подробно раскрывается, что reasoning-модели способны «думать» шаг за шагом, прежде чем выдать осмысленный ответ, и это качество особенно важно при решении сложных задач. Ключевой прорыв произошёл после внедрения концепции test-time compute scaling — чем больше вычислительных ресурсов и времени модель выделяет на рассуждение, тем выше точность результата, то есть теперь есть возможность явно управлять качеством ответа.

Эксперт объясняет, что обучение reasoning-моделей отличается от традиционных подходов прежде всего использованием reinforcement learning, при котором модель получает награду за успешное решение, и может искать инновационные стратегии, недоступные человеку. Такой подход позволяет уйти от полной зависимости от ручной разметки и открывает больше возможностей для самостоятельного поиска новых решений. Причём в некоторых современных интеграциях применяется и принцип дистилляции: одна модель учится рассуждать, а вторая перенимает цепочку размышлений первой, обеспечивая точность и воспроизводимость.

Особого внимания заслуживает метод chain-of-thought prompting: сегодня продвинутые модели способны рассуждать пошагово без специальных инструкций, что существенно повышает их успешность в математических, логических или креативных задачах. Это не только улучшило объективные метрики качества, но и облегчило практическое использование моделей для решения реальных задач.

В разговоре разбираются фундаментальные различия между supervised, unsupervised и reinforcement learning, а также описывается, как модели с усиленным рассуждением могут находить оптимальные решения для игр, написания кода, управления или трейдинга. Как итог, появление reasoning-моделей с гибкой системой наград стало новым технологическим этапом, продвинув искусственный интеллект к большей самостоятельности, адаптивности и точности в принятии решений.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.