Android Bench — бенчмарк языковых моделей в решении задач Android-разработки

AppTractor

2 месяца назад

Android Bench — это специализированная платформа от Google, разработанная для оценки производительности больших языковых моделей в практических задачах мобильной разработки.

Используя тщательно подобранный набор данных из 100 задач из реальных проектов с открытым исходным кодом, бенчмарк измеряет способность ИИ генерировать точный код и работать со сложными архитектурами, специфичными для Android. Это делается в два отдельных этапа: оценка и ранжирование.

Оценка

Бенчмарк основан на специально разработанной тестовой среде, которая работает в два основных этапа: агент инференса и верификатор патчей. Агенту предоставляется описание реальной проблемы, взятое из популярных проектов Android с открытым исходным кодом, и, используя пользовательский образ Docker и базовый промпт, модель пытается решить проблему и сгенерировать код. Затем верификатор патчей берет сгенерированный код, применяет его к кодовой базе и выполняет в проекте набор тестов, чтобы проверить, успешно ли патч решает проблему.

Ранжирование моделей

Модели ранжируются в таблице лидеров Android LLM на основе двух основных показателей: оценки и доверительного интервала. Оценка является основным показателем ранжирования, поскольку она представляет собой средний процент из 100 тестовых случаев, которые модель успешно решила, в то время как доверительный интервал, поскольку результаты LLM могут различаться, оценивает каждую модель по 10 отдельным запускам. ДИ представляет собой ожидаемый диапазон производительности и обеспечивает статистическую надежность результатов.

Как уже говорилось, модели тестируются на специально подобранном наборе данных из 100 задач. Эти задачи отфильтрованы из реальных запросов на слияние, чтобы отразить высокие стандарты разработки Android и охватить основные концепции платформы, такие как Jetpack Compose, корутины, Room, системный интерфейс и специфические для платформы функции.

По состоянию на последнее обновление таблицы лидеров в марте, лучшие модели в Android Bench:

GPT-5.4: делит первое место с результатом 72,4%
Gemini 3.1 Pro Preview: также делит первое место с результатом 72,4%
GPT-5.3-Codex: занимает третье место с результатом 67,7%
Claude Opus 4.6: занимает четвертое место с результатом 66,6%
GPT-5.2-Codex: занимает пятое место с результатом 62,5%

Эти результаты представляют собой средний процент успешно решенных тестовых случаев за 10 запусков оценки для каждой модели.

В итоге, хотя существуют общие бенчмарки LLM, которые ранжируют модели по задачам программирования, такие как, например, JetBrains Developer Productivity AI Arena, Android Bench специализируется на задачах Android и, следовательно, лучше применим для разработчиков Android.