В последние годы рабочие процессы программистов сильно изменились в связи с появлением ИИ-инструментов для кодирования, таких как Cursor и GitHub Copilot, которые обещают повысить производительность за счет автоматического написания кода, исправления ошибок и тестирования изменений. Эти инструменты основаны на моделях от OpenAI, Google DeepMind, Anthropic и xAI, которые за последние годы быстро повысили свое качество в ряде тестов на разработку программного обеспечения.
Однако новое исследование, опубликованное в четверг некоммерческой исследовательской группой METR, ставит под сомнение степень, в которой современные инструменты ИИ-программирования повышают производительность опытных разработчиков.
Для этого исследования METR провела рандомизированное контролируемое исследование, набрав 16 опытных программистов, занимающихся open source разработкой, и поручив им выполнить 246 реальных задач в больших репозиториях кода, в которые они регулярно вносят свой вклад. Исследователи случайным образом распределили примерно половину этих задач как “разрешенные для ИИ”, что дало разработчикам разрешение использовать самые современные инструменты для ИИ-программирования, такие как Cursor Pro, в то время как другая половина задач запрещала использование инструментов ИИ.
Перед выполнением поставленных задач разработчики прогнозировали, что использование ИИ-инструментов сократит время их выполнения на 24%. Но этого не произошло.
“Удивительно, но мы обнаружили, что использование ИИ на самом деле увеличивает время выполнения на 19% — разработчики работают медленнее, когда используют инструменты ИИ”, — говорят исследователи.
Примечательно, что только 56% разработчиков, участвовавших в исследовании, имели опыт использования Cursor, основного ИИ-инструмента, предложенного в исследовании. Несмотря на то, что почти все разработчики (94%) имели опыт использования некоторых веб-приложений LLM в своих рабочих процессах по написанию кода, в этом исследовании некоторые из них впервые использовали Cursor. Исследователи отмечают, что разработчики прошли обучение использованию Cursor при подготовке к исследованию.
Тем не менее, выводы METR ставят под сомнение предполагаемый всеобщий рост производительности, обещанный инструментами ИИ-кодирования в 2025 году. Основываясь на результатах исследования, разработчикам не следует предполагать, что инструменты для программирования с помощью искусственного интеллекта — в частности, то, что стало известно как «вайб кодинг» — немедленно ускорят их рабочие процессы.
Исследователи METR указывают на несколько потенциальных причин, по которым искусственный интеллект замедляет работу разработчиков, а не ускоряет ее — чрезмерный оптимизм разработчиков относительно полезности ИИ, их высокая осведомленность о репозиториях, сложность самих репозиториев, низкая надежность ИИ и отсутствие у ИИ неявного контекста проекта.
Авторы исследования стараются не делать каких-либо серьезных выводов из этих результатов, прямо отмечая, что они полагают, что системы искусственного интеллекта в настоящее время все таки в состоянии ускорить работу многих или большинства разработчиков. Другие крупномасштабные исследования показали, что инструменты ИИ-кодирования действительно ускоряют рабочие процессы инженеров-программистов.
Авторы также отмечают, что за последние годы ИИ значительно продвинулся вперед, и что результаты могут улучшиться даже через три месяца. В METR также обнаружили, что инструменты ИИ-кодирования за последние годы значительно улучшили способность выполнять сложные долгосрочные задачи.
Однако исследование дает еще одну причину скептически относиться к обещанным преимуществам инструментов ИИ-кодирования. Другие исследования показали, что современные инструменты ИИ-кодирования могут содержать ошибки и, в некоторых случаях, уязвимости в системе безопасности.

