Connect with us

Видео и подкасты для разработчиков

Как измерить AI — Бенчмарки, тестирование и обучение LLM

Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача

Опубликовано

/

     
     

Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт.

Содержание:

  • 00:00 О чем выпуск
  • 05:15 Зачем и кому нужны бенчмарки
  • 11:48 Подходы к оценке качества моделей
  • 16:53 Популярные бенчмарки
  • 19:24 Оценка бенчмарков
  • 27:12 Оценка моделей
  • 35:34 Открытость задач в бенчмарках
  • 39:09 Проблема доступности данных в интернете
  • 58:12 Безопасность моделей
  • 01:03:00 Актуальность теста Тьюринга
  • 01:05:30 Технические аспекты оценки моделей
  • 01:10:56 Проблемы при оценке моделей
  • 01:15:55 В чём суть арен
  • 01:24:10 Реальные результаты моделей
  • 01:27:20 Создание собственного бенчмарка
  • 01:31:35 Критерии хорошего бенчмарка
  • 01:38:30 Будущее LLM
  • 01:43:40 Заключение

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.
Telegram

Популярное

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: