Видео и подкасты для разработчиков
Как AI научился рассуждать — Reinforcement learning, reasoning models
Один из главных вау-эффектов текущего поколения LLM – когда ты впервые видишь, как AI рассуждает перед тем, как выдать ответ на сложный вопрос.
Один из главных вау-эффектов текущего поколения LLM – когда ты впервые видишь, как AI рассуждает перед тем, как выдать ответ на сложный вопрос. Чтобы разобраться с тем, что происходит у таких моделей под капотом, как их обучают и верифицируют результаты работы, мы пригласили Евгения Никишина, исследователя из OpenAI, работающего над масштабированием reasoning моделей и test-time compute.
Содержание:
- 00:00 О чем выпуск
- 04:46 Что такое reasoning models
- 19:07 Подход к обучению модели GPT-3
- 22:21 Модель DeepSeek
- 25:50 Reinforcement learning и его отличия
- 32:50 Как reinforcement learning связан с ризонинг-моделями
- 36:54 Примеры применения reinforcement learning
- 40:50 Границы применимости reinforcement learning
- 47:26 Чему учат RL-модели?
- 53:36 Важность правильной награды
- 01:03:50 Пайплайн обучения reasoning models
- 01:08:20 Эффективность обучения модели с нуля
- 01:14:25 Процесс рассуждения модели
- 01:20:55 Проблема окна контекста
- 01:28:32 Прайсинг reasoning models
- 01:33:17 Параметры моделей и их влияние
- 01:41:40 Перенос навыков моделей
- 01:45:20 Тренды
- 01:54:18 Заключение
Видео посвящено тому, как современные языковые модели научились рассуждать с помощью методов машинного обучения и reinforcement learning. В разговоре с Евгением Никишиным из OpenAI подробно раскрывается, что reasoning-модели способны «думать» шаг за шагом, прежде чем выдать осмысленный ответ, и это качество особенно важно при решении сложных задач. Ключевой прорыв произошёл после внедрения концепции test-time compute scaling — чем больше вычислительных ресурсов и времени модель выделяет на рассуждение, тем выше точность результата, то есть теперь есть возможность явно управлять качеством ответа.
Эксперт объясняет, что обучение reasoning-моделей отличается от традиционных подходов прежде всего использованием reinforcement learning, при котором модель получает награду за успешное решение, и может искать инновационные стратегии, недоступные человеку. Такой подход позволяет уйти от полной зависимости от ручной разметки и открывает больше возможностей для самостоятельного поиска новых решений. Причём в некоторых современных интеграциях применяется и принцип дистилляции: одна модель учится рассуждать, а вторая перенимает цепочку размышлений первой, обеспечивая точность и воспроизводимость.
Особого внимания заслуживает метод chain-of-thought prompting: сегодня продвинутые модели способны рассуждать пошагово без специальных инструкций, что существенно повышает их успешность в математических, логических или креативных задачах. Это не только улучшило объективные метрики качества, но и облегчило практическое использование моделей для решения реальных задач.
В разговоре разбираются фундаментальные различия между supervised, unsupervised и reinforcement learning, а также описывается, как модели с усиленным рассуждением могут находить оптимальные решения для игр, написания кода, управления или трейдинга. Как итог, появление reasoning-моделей с гибкой системой наград стало новым технологическим этапом, продвинув искусственный интеллект к большей самостоятельности, адаптивности и точности в принятии решений.
-
Аналитика магазинов2 недели назад
Мобильный рынок Ближнего Востока: исследование Bidease и Sensor Tower выявляет драйверы роста
-
Интегрированные среды разработки3 недели назад
Chad: The Brainrot IDE — дикая среда разработки с играми и развлечениями
-
Новости4 недели назад
Видео и подкасты о мобильной разработке 2025.45
-
Новости3 недели назад
Видео и подкасты о мобильной разработке 2025.46

