Connect with us

Видео и подкасты для разработчиков

Как AI научился рассуждать — Reinforcement learning, reasoning models

Один из главных вау-эффектов текущего поколения LLM – когда ты впервые видишь, как AI рассуждает перед тем, как выдать ответ на сложный вопрос.

Опубликовано

/

     
     

Один из главных вау-эффектов текущего поколения LLM – когда ты впервые видишь, как AI рассуждает перед тем, как выдать ответ на сложный вопрос. Чтобы разобраться с тем, что происходит у таких моделей под капотом, как их обучают и верифицируют результаты работы, мы пригласили Евгения Никишина, исследователя из OpenAI, работающего над масштабированием reasoning моделей и test-time compute.

Содержание:

  • 00:00 О чем выпуск
  • 04:46 Что такое reasoning models
  • 19:07 Подход к обучению модели GPT-3
  • 22:21 Модель DeepSeek
  • 25:50 Reinforcement learning и его отличия
  • 32:50 Как reinforcement learning связан с ризонинг-моделями
  • 36:54 Примеры применения reinforcement learning
  • 40:50 Границы применимости reinforcement learning
  • 47:26 Чему учат RL-модели?
  • 53:36 Важность правильной награды
  • 01:03:50 Пайплайн обучения reasoning models
  • 01:08:20 Эффективность обучения модели с нуля
  • 01:14:25 Процесс рассуждения модели
  • 01:20:55 Проблема окна контекста
  • 01:28:32 Прайсинг reasoning models
  • 01:33:17 Параметры моделей и их влияние
  • 01:41:40 Перенос навыков моделей
  • 01:45:20 Тренды
  • 01:54:18 Заключение

Видео посвящено тому, как современные языковые модели научились рассуждать с помощью методов машинного обучения и reinforcement learning. В разговоре с Евгением Никишиным из OpenAI подробно раскрывается, что reasoning-модели способны «думать» шаг за шагом, прежде чем выдать осмысленный ответ, и это качество особенно важно при решении сложных задач. Ключевой прорыв произошёл после внедрения концепции test-time compute scaling — чем больше вычислительных ресурсов и времени модель выделяет на рассуждение, тем выше точность результата, то есть теперь есть возможность явно управлять качеством ответа.

Эксперт объясняет, что обучение reasoning-моделей отличается от традиционных подходов прежде всего использованием reinforcement learning, при котором модель получает награду за успешное решение, и может искать инновационные стратегии, недоступные человеку. Такой подход позволяет уйти от полной зависимости от ручной разметки и открывает больше возможностей для самостоятельного поиска новых решений. Причём в некоторых современных интеграциях применяется и принцип дистилляции: одна модель учится рассуждать, а вторая перенимает цепочку размышлений первой, обеспечивая точность и воспроизводимость.

Особого внимания заслуживает метод chain-of-thought prompting: сегодня продвинутые модели способны рассуждать пошагово без специальных инструкций, что существенно повышает их успешность в математических, логических или креативных задачах. Это не только улучшило объективные метрики качества, но и облегчило практическое использование моделей для решения реальных задач.

В разговоре разбираются фундаментальные различия между supervised, unsupervised и reinforcement learning, а также описывается, как модели с усиленным рассуждением могут находить оптимальные решения для игр, написания кода, управления или трейдинга. Как итог, появление reasoning-моделей с гибкой системой наград стало новым технологическим этапом, продвинув искусственный интеллект к большей самостоятельности, адаптивности и точности в принятии решений.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.
Telegram

Популярное

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: