Видео и подкасты для разработчиков
Как измерить AI — Бенчмарки, тестирование и обучение LLM
Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача
Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт.
Содержание:
- 00:00 О чем выпуск
- 05:15 Зачем и кому нужны бенчмарки
- 11:48 Подходы к оценке качества моделей
- 16:53 Популярные бенчмарки
- 19:24 Оценка бенчмарков
- 27:12 Оценка моделей
- 35:34 Открытость задач в бенчмарках
- 39:09 Проблема доступности данных в интернете
- 58:12 Безопасность моделей
- 01:03:00 Актуальность теста Тьюринга
- 01:05:30 Технические аспекты оценки моделей
- 01:10:56 Проблемы при оценке моделей
- 01:15:55 В чём суть арен
- 01:24:10 Реальные результаты моделей
- 01:27:20 Создание собственного бенчмарка
- 01:31:35 Критерии хорошего бенчмарка
- 01:38:30 Будущее LLM
- 01:43:40 Заключение
-
Аналитика магазинов2 недели назад
Мобильный рынок Ближнего Востока: исследование Bidease и Sensor Tower выявляет драйверы роста
-
Интегрированные среды разработки3 недели назад
Chad: The Brainrot IDE — дикая среда разработки с играми и развлечениями
-
Новости4 недели назад
Видео и подкасты о мобильной разработке 2025.45
-
Новости3 недели назад
Видео и подкасты о мобильной разработке 2025.46

