Разработка

Эксперимент: насколько сложно обмануть на технических собеседованиях с помощью ChatGPT?

В этой статье мы расскажем обо всем, что мы обнаружили, и объясним, что это значит для вас.

Опубликовано

1 год назад

06.02.2024

Автор:

AppTractor

ChatGPT произвел революцию в работе, какой мы ее знаем. Его полезность трудно переоценить: от помощи малому бизнесу в автоматизации административных задач до создания целых React-компонентов для веб-разработчиков.

На сайте Interviewing.io мы много думали о том, как ChatGPT изменит проведение технических собеседований. Один из главных вопросов — позволит ли ChatGPT легко обманывать на собеседованиях? Чтобы решить этот вопрос, посмотрите это 45-секундное видео. В нем инженер использует ChatGPT, который выдает ему подсказки для вопросов интервьюера.

Безумие, правда? Первые отклики на подобное мошенническое с использованием ИИ вполне соответствуют ожиданиям:

На Реддит заявляют, что «ChatGPT — это конец программирования в том виде, в котором мы его знаем».
Ютуберы говорят, что «программная инженерия мертва. ChatGPT убил ее».
В X задаются вопросом: «ChatGPT — это конец кодинг-интервью?».

Кажется очевидным, что ChatGPT может помочь людям во время собеседований, но мы хотели бы знать:

Насколько сильно он может помочь?
Насколько легко с ним обмануть (и остаться безнаказанным)?
Придется ли компаниям, задающим вопросы с LeetCode, вносить существенные изменения в процесс собеседования?

Чтобы ответить на эти вопросы, мы привлекли нескольких наших профессиональных интервьюеров и пользователей к участию в эксперименте с ИИ-обманом! В этой статье мы расскажем обо всем, что мы обнаружили, и объясним, что это значит для вас. В качестве небольшого предисловия просто знайте: компаниям необходимо немедленно изменить типы вопросов, которые они задают на собеседовании.

Содержание

Эксперимент

Interviewing.io — это платформа для проведения собеседований и рынок рекрутинга для инженеров. Инженеры используют нас для имитации собеседований. Компании используют нас для найма лучших работников. В нашей экосистеме работают тысячи профессиональных интервьюеров, и сотни тысяч инженеров использовали нашу платформу для подготовки к собеседованиям.

Интервьюеры

Интервьюеры были набраны из нашего пула профессиональных интервьюеров. Их разбили на три группы, каждой из которых задавали вопросы разного типа. Интервьюеры не знали, что эксперимент посвящен ChatGPT или мошенничеству; мы сказали им, что «цель этого исследования — понять тенденции предсказуемости решений интервьюера с течением времени, особенно при задавании стандартных и нестандартных вопросов на собеседовании».

Это были три типа вопросов:

1. Дословные вопросы LeetCode: вопросы, взятые непосредственно из LeetCode по усмотрению интервьюера без каких-либо изменений в вопросе.

Пример: Задача из LeetCode по сортировке цветов задавалась именно так, как она написана.

2. Модифицированные вопросы с LeetCode: вопросы, взятые из LeetCode, а затем измененные таким образом, чтобы быть похожими на оригинал, но при этом заметно отличаться от него.

Пример: вопрос с сортировкой цветов, приведенный выше, но измененный таким образом, чтобы на входе было четыре целых числа (0,1,2,3) вместо трех целых (0,1,2).

3. Кастомные, собственные вопросы: вопросы, которые не были связаны напрямую ни с одним вопросом, существующим в Интернете.

Пример: Вам предоставлен файл лога со следующим форматом: <username>: <text> - <contribution score> — ваша задача определить пользователя, который представляет собой медианный уровень вовлеченности в разговор. Учитывайте только тех пользователей, у которых оценка вклада превышает 50%. Предположим, что количество таких пользователей нечетное, и вам нужно найти того, кто находится прямо посередине, если отсортировать их по баллам вклада. Учитывая приведенный ниже файл, правильным ответом будет SyntaxSorcerer.

LOG FILE START
NullPointerNinja: "who's going to the event tomorrow night?" - 100%
LambdaLancer: "wat?" - 5%
NullPointerNinja: "the event which is on 123 avenue!" - 100%
SyntaxSorcerer: "I'm coming! I'll bring chips!" - 80%
SyntaxSorcerer: "and something to drink!" - 80%
LambdaLancer: "I can't make it" - 25%
LambdaLancer: "🙁" - 25%
LambdaLancer: "I really wanted to come too!" - 25%
BitwiseBard: "I'll be there!" - 25%
CodeMystic: "me too and I'll brink some dip" - 75%
LOG FILE END

​x
 
LOG FILE STARTNullPointerNinja: "who's going to the event tomorrow night?" - 100%LambdaLancer: "wat?" - 5%NullPointerNinja: "the event which is on 123 avenue!" - 100%SyntaxSorcerer: "I'm coming! I'll bring chips!" - 80%SyntaxSorcerer: "and something to drink!" - 80%LambdaLancer: "I can't make it" - 25%LambdaLancer: "🙁" - 25%LambdaLancer: "I really wanted to come too!" - 25%BitwiseBard: "I'll be there!" - 25%CodeMystic: "me too and I'll brink some dip" - 75%LOG FILE END

Для получения дополнительной информации о типах вопросов и о том, как мы разрабатывали этот эксперимент, пожалуйста, ознакомьтесь с документом Interviewer Experiment Guidelines, который мы предоставили интервьюерам, участвующим в эксперименте.

Интервьюируемые (опрашиваемые)

Опрашиваемые были взяты из числа наших активных пользователей и приглашены для участия в коротком опросе. Мы выбрали тех, кто:

Активно искали работу на современном рынке
Имели опыт работы более 4 лет и претендовали на позиции старшего уровня
Оценили свою осведомленность о «ChatGPT для кодинга» как умеренную или высокую
Отнес себя к тем, кто считает, что может обмануть на собеседовании и не быть пойманным

Этот отбор помог нам склонить кандидатов в сторону тех, кто действительно мог обмануть на собеседовании, имел мотивацию для этого и уже был достаточно хорошо знаком с ChatGPT и кодинг-интервью.

Мы сказали интервьюерам, что они должны использовать ChatGPT во время интервью, и целью было проверить их способность обманывать с помощью ChatGPT. Им также сказали, чтобы они не пытались пройти собеседование с помощью своих собственных навыков — главное, чтобы они полагались на ChatGPT.

В итоге мы провели 37 интервью, 32 из которых нам удалось использовать (пять пришлось удалить, так как участники не следовали инструкциям):

11 с «дословными» вопросами
9 с «модифицированными» вопросами
12 с «кастомными» вопросами

Небольшая оговорка. Поскольку наша платформа обеспечивает анонимность, наши интервью содержат аудиозапись, но не видео. Мы анонимны, потому что хотим создать безопасное пространство для наших пользователей, чтобы они могли быстро начать работу и учиться без осуждения. Это здорово для наших пользователей, но мы признаем, что отсутствие видео в этих интервью делает наш эксперимент менее реалистичным. На реальном собеседовании вы будете находиться перед камерой, и на кону будет стоять работа, что затрудняет обман, но не исключает его (если вы не согласны, посмотрите ролик TikTok выше!).

После интервью и интервьюеры, и респонденты должны были заполнить анкету. Мы спрашивали респондентов о трудностях использования ChatGPT во время интервью, а интервьюерам давали несколько шансов выразить беспокойство по поводу интервью — мы хотели узнать, сколько интервьюеров отметят свои интервью как проблемные и сообщат, что подозревают жульничество.

Анкета кандидата

Эксперимент: насколько сложно обмануть на технических собеседованиях с помощью ChatGPT?

Анкета интервьюера

Мы не знали, что произойдет в этом эксперименте, но предположили, что если половина кандидатов, которые обманули, выйдут сухими из воды и пройдут собеседование, это будет показательным результатом для нашей индустрии.

Результаты

После удаления интервью, в которых участники не следовали инструкциям, мы получили следующие результаты. Контрольной точкой послужило то, как кандидаты проходили моковые собеседования Interviewing.io за пределами исследования. Этот показатель — 53%. Обратите внимание, что большинство вопросов на тестовых собеседованиях на нашей платформе — это вопросы в стиле LeetCode, что вполне логично, поскольку именно такие вопросы задают FAANG-компании. Мы вернемся к этому вопросу позже.

“Дословные” задачи решались значительно чаще, по сравнению как со средним показателем по платформе, так и с «Кастомными» вопросами. “Дословные” и «Модифицированные» задачи статистически значимо не отличались друг от друга. “Кастомные” вопросы имели значительно меньший процент прохождения, чем все остальные группы.

«Дословные» вопросы

Как и следовало ожидать, группа, отвечавшая на «дословные» задачи, показала наилучшие результаты, пройдя 73% собеседований. Опрашиваемые сообщили, что получили идеальное решение от ChatGPT.

Ниже приведен наиболее примечательный комментарий из опроса после интервью для этой группы — мы считаем, что он особенно показателен для понимания того, что происходило в головах многих интервьюеров:

Трудно определить, решил ли кандидат задачу, потому что он действительно хорош, или же он уже слышал этот вопрос раньше. Обычно я добавляю одну или две дополнительные характеристики к проблеме, чтобы определить разницу.

Обычно этот интервьюер продолжал задавать модифицированные вопросы, чтобы получить больше сигналов, поэтому давайте рассмотрим группу «модифицированных» вопросов, чтобы узнать, действительно ли интервьюеры получают больше сигналов, добавляя изюминку в свои вопросы.

«Модифицированные» задачи

Помните, что этой группе задавались вопросы с LeetCode, которые были стандартными, но измененные таким образом, что они не были доступны непосредственно в Интернете. Это означает, что у ChatGPT не могло быть прямого ответа на этот вопрос. Таким образом, участники опроса в гораздо большей степени зависели от реальных способностей ChatGPT решать проблемы, чем от его способности повторять учебники LeetCode.

Как и ожидалось, результаты этой группы не слишком отличались от “дословной” группы: 67% кандидатов прошли собеседование. Как оказалось, эта разница не была статистически значимой по сравнению с «дословной» группой, т.е. «модифицированные» и «дословные» результаты по сути одинаковы. Этот результат говорит о том, что ChatGPT без особых проблем справляется с незначительными изменениями в вопросах. Однако опрошенные заметили, что для того, чтобы заставить ChatGPT решить измененные вопросы, требуется больше подсказок. Как сказал один из наших респондентов:

Вопросы, взятые непосредственно из LeetCode, не вызвали никаких проблем. А вот с вопросами, которые не так уж и сильно похожи на LeetCode, ChatGPT было гораздо сложнее справиться.

«Кастомные» вопросы

Как и ожидалось, в группе «кастомных» вопросов оказался самый низкий процент прохождения — всего 25% кандидатов. Это не только статистически значимо меньше, чем в двух других группах, но и значительно ниже, чем в контрольной! С полностью индивидуальными вопросами инженеры показали худшие результаты даже по сравнению с прохождением интервью без помощи ИИ (и когда из задавали вопросы в стиле LeetCode)!

Обратите внимание, что при первоначальном расчете это число было немного выше, но после детального изучения пользовательских вопросов мы обнаружили проблему с этим типом вопросов, которую не предполагали, и которая незначительно изменила результаты в сторону более высокого уровня прохождения. Прочтите раздел ниже под названием «Компании: Немедленно измените вопросы, которые вы задаете!», чтобы узнать, в чем заключалась эта проблема.

Никто не был пойман на списывании

В нашем эксперименте интервьюеры не знали, что респондентов просят жульничать. Как вы помните, после каждого собеседования интервьюеры заполняли анкету, в которой должны были описать, насколько они уверены в своих оценках кандидатов.

Уверенность интервьюеров в правильности своих оценок оказалась высокой: 72% опрошенных заявили, что уверены в своем решении о приеме на работу. Один из интервьюеров был настолько уверен в результатах работы своего собеседника, что решил, что мы должны пригласить его стать интервьюером на платформе!

Кандидат показал очень хорошие результаты и продемонстрировал сильное знание Amazon L6 (Google L5) SWE… и мог бы также рассматриваться в качестве интервьюера/наставника на Interviewing.io.

Это большая уверенность после одного собеседования — возможно, даже слишком большая!

Мы давно знаем, что инженеры плохо оценивают свою работу, поэтому, возможно, не стоит удивляться тому, что интервьюеры также переоценивают эффективность задаваемых ими вопросов.

У тех интервьюеров, которые не были уверены в своем выборе (28%), мы спросили, почему. Вот частотное распределение их причин.

Обратите внимание, что мошенничество нигде не упоминается!

Большинство интервьюеров, обеспокоенных решением о приеме на работу, назвали конкретные причины своей неуверенности. Это неоптимальные решения, упущенные крайние случаи, грязный код или плохая коммуникация. Мы специально включили категорию «Другие проблемы», чтобы узнать, не будут ли они выражать беспокойство по поводу того, что интервьюер обманывает, но если копнуть глубже, то можно обнаружить лишь незначительные претензии, такие как «проблемы с характером» и «нужно ускорить программирование».

Помимо этой возможности указать на обман, интервьюерам еще трижды предлагалось отметить любые другие проблемы, связанные с интервью, включая текстовые поля свободной формы и несколько вопросов с несколькими вариантами ответов, в которых можно было объяснить свои опасения.

Когда интервьюер закрывал собеседование, потому что не понимал ответа ChatGPT, он объяснял странное поведение и неловкие ответы недостатком практики, а не жульничеством. Один из интервьюеров посчитал, что кандидат решает задачи нормально, но отметил, что он медлителен и должен более тщательно рассматривать крайние случаи.

«Кандидат не выглядел подготовленным ни к одному вопросу по LeetCode».

«Подходу кандидата не хватало ясности, и он слишком рано перешел к программированию».

«Кандидат не был готов к решению даже самых простых вопросов по программированию с LeetCode».

«Хорошее решение проблем в целом, но кандидату нужно быть быстрее в программировании и выявлении критических пограничных ситуаций».

Итак, кто же сообщил о фактах мошенничества? И кого поймали?

Как выяснилось, ни один интервьюер не упомянул о том, что кто-то из кандидатов жульничает!

Мы были ошеломлены, обнаружив, что интервьюеры не высказывали никаких подозрений в мошенничестве, и, что интересно, респонденты были уверены, что им все сходит с рук. 81% опрошенных не беспокоились о том, что их поймают, 13% считали, что могли предупредить интервьюера, и лишь 6% участников, что поразительно мало, считали, что интервьюер подозревает их в обмане.

Опрашиваемые в основном были уверены, что их обман останется незамеченным

Кандидаты, которые беспокоились о том, что их поймают, получили аномальные комментарии от интервьюеров в ходе анализа после опроса, но их все равно не заподозрили в списывании. Подводя итог, можно сказать, что большинство кандидатов думали, что им удастся избежать наказания за обман, и они были правы!

Компании: немедленно измените вопросы, которые вы задаете!

Из этих результатов следует очевидный вывод: компании должны немедленно начать задавать нестандартные вопросы, иначе они серьезно рискуют получить списывания на собеседованиях (и в итоге не получить полезного сигнала от собеседования)!

ChatGPT сделал дословные вопросы устаревшими; все, кто полагается на них, наивно оставляют процесс найма на волю случая. Прием на работу и так достаточно сложен, не стоит беспокоиться об обмане. Если вы работаете в компании, которая использует дословные вопросы с LeetCode, пожалуйста, поделитесь этим постом внутри компании!

Использование кастомных вопросов — это не только хороший способ предотвратить обман. Это отсеивает кандидатов, которые заучили наизусть кучу решений LeetCode (как вы видели, процент прохождения наших кастомных вопросов был значительно ниже, чем контрольных). Это также значительно улучшает опыт кандидатов, что повышает вероятность того, что люди захотят работать у вас. Некоторое время назад мы провели анализ того, что делает хороших интервьюеров хорошими. Неудивительно, что одним из отличительных признаков оказалось умение задавать хорошие вопросы, а наши лучшие интервьюеры были как раз склонны задавать собственные вопросы! В нашем исследовании качество вопросов оказалось чрезвычайно важным для того, чтобы определить, хочет ли кандидат работать в компании. Это было гораздо важнее, чем сила бренда компании, которая имела значение для привлечения кандидатов, но не имела значения по сравнению с качеством вопросов, когда они уже были в процессе.

Как сказали некоторые из наших интервьюеров…

Всегда приятно получать вопросы, которые представляют собой нечто большее, чем обычные алгоритмы.

Мне понравился вопрос — он берет относительно простую алгоритмическую задачу (построить и обойти дерево) и добавляет в нее глубину. Мне также понравилось, что интервьюер связал проблему с реальным продуктом компании, что позволило не считать ее игрушечной и больше походило на уменьшенную версию реальной проблемы.

Это мой любимый вопрос, с которым я столкнулся на этом сайте. Это один из единственных вопросов, который, как мне показалось, имеет реальную применимость в жизни и основан на реальной (или потенциально реальной) бизнес-задаче. Кроме того, в нем хорошо прослеживаются такие проблемы, как сложность, эффективность и блокировка.

Еще один тонкий совет для компаний, которые решили перейти на более индивидуальные вопросы. У вас может возникнуть соблазн взять дословные вопросы LeetCode и изменить формулировку или некоторые элементы оформления. В этом есть смысл, потому что это, конечно, проще, чем придумывать вопросы с нуля. К сожалению, это не работает.

Как мы уже говорили, в ходе эксперимента мы обнаружили, что если вопрос выглядит как кастомный, это еще не значит, что он таковым является. Вопросы могут выглядеть как кастомные и при этом быть идентичными существующим вопросам LeetCode. При составлении вопросов для кандидатов недостаточно просто замаскировать существующую задачу. Необходимо убедиться, что проблема имеет уникальные входы и выходы, чтобы ChatGPT не смог распознать ее!

Вопросы, которые задают интервьюеры, являются конфиденциальной информацией, поэтому мы не можем поделиться точными вопросами, которые использовали наши интервьюеры в эксперименте. Однако мы можем привести показательный пример. Ниже приведен «кастомный вопрос» с этим критическим недостатком, который ChatGPT легко распознает:

На свой день рождения Мия получила таинственную коробку, в которой лежали пронумерованные карточки и записка: "Соедини две карты, сумма которых равна 18, чтобы открыть свой подарок!". Помогите Мие найти нужную пару карточек, чтобы раскрыть свой сюрприз.

Входные данные: Массив целых чисел (числа на карточках) и целевая сумма (18). 

arr = [1, 3, 5, 10, 8], target = 18

Выходные данные: Индексы двух карточек, которые в сумме дают целевую сумму. 

В данном случае [3, 4], потому что индексы 3 и 4 складываются в 18 (10+8).

xxxxxxxxxx
 
На свой день рождения Мия получила таинственную коробку, в которой лежали пронумерованные карточки и записка: "Соедини две карты, сумма которых равна 18, чтобы открыть свой подарок!". Помогите Мие найти нужную пару карточек, чтобы раскрыть свой сюрприз.​Входные данные: Массив целых чисел (числа на карточках) и целевая сумма (18). ​arr = [1, 3, 5, 10, 8], target = 18​Выходные данные: Индексы двух карточек, которые в сумме дают целевую сумму. ​В данном случае [3, 4], потому что индексы 3 и 4 складываются в 18 (10+8).

Вы заметили подвох? Хотя на первый взгляд этот вопрос кажется «нестандартным», его цель идентична популярному вопросу TwoSum: найти два числа, сумма которых равна заданной цели. Входы и выходы идентичны; единственное, что в этом вопросе «нестандартно» — это история, добавленная к задаче.

Поскольку эти вопросы идентичны известным задачам, не стоит удивляться тому, что ChatGPT хорошо справляется с вопросами, в которых входы и выходы идентичны существующим известным задачам — даже если к ним добавлена уникальная история.

Как на самом деле создавать хорошие вопросы для интервью

Одна вещь, которую мы считаем невероятно полезной для создания хороших, оригинальных вопросов, — это завести общий документ с командой, в котором каждый раз, когда кто-то решает интересную, на его взгляд, проблему, независимо от того, насколько она мала, он делает быструю заметку. Эти заметки не обязательно должны быть развернутыми, но они могут стать основой для уникальных вопросов на собеседовании, которые дадут кандидатам представление о повседневной жизни вашей компании. Превращение этих разрозненных семян в вопросы для собеседования требует размышлений и усилий — вы должны отсеять множество деталей и изложить суть проблемы так, чтобы кандидату не пришлось много работать/настраиваться, чтобы ее понять. Скорее всего, вам также придется несколько раз повторить эти вопросы, прежде чем вы добьетесь правильного ответа, но отдача может быть огромной.

Чтобы было понятно, мы не выступаем за то, чтобы убрать структуры данных и алгоритмы из технических собеседований. Вопросы DS&A приобрели плохую репутацию из-за плохих, не заинтересованных интервьюеров и из-за компаний, лениво пересказывающих задачи с LeetCode, многие из которых плохие и не имеют ничего общего с их работой. В руках хороших интервьюеров эти вопросы мощны и полезны. Если вы используете описанный выше подход, то сможете придумать новые вопросы по структурам данных и алгоритмам, которые будут иметь практическую основу и компонент, который увлечет кандидатов и заставит их заинтересоваться работой, которую вы делаете.

Вы также будете двигать нашу отрасль вперед. Нельзя считать, что заучивание кучи вопросов с LeetCode дает кандидатам преимущество в современном процессе собеседования, как нельзя считать, что собеседования дошли до такого состояния, когда обман начинает казаться рациональным выбором. Решение заключается в том, что работодатель должен больше работать над созданием лучших вопросов. Давайте сделаем это все вместе.

Совет для тех, кто ищет работу

Итак, все те, кто активно ищет работу, слушайте! Да, часть ваших коллег теперь будет использовать ChatGPT для обмана на собеседованиях, и в компаниях, которые задают вопросы с LeetCode (к сожалению, их много), у этих коллег будет преимущество… на некоторое время.

Сейчас мы находимся в лиминальном состоянии, когда процессы компаний не соответствуют реальности. Скоро они их изменят, либо полностью отказавшись от использования дословных задач с LeetCode (что станет благом для всей нашей индустрии), либо вернувшись к очным встречам (что сделает обман практически невозможным после технического отбора), либо и то, и другое.

То, что другие кандидаты жульничают, — это еще один повод для беспокойства в и без того непростой обстановке, но мы не можем с чистой совестью одобрить “списывание” для «выравнивания игрового поля».

Кроме того, респонденты, использовавшие ChatGPT, единодушно сообщали о том, насколько сложнее было проходить собеседование, жонглируя ИИ.

Ниже вы можете увидеть, как один из интервьюеров спотыкается при анализе временной сложности после того, как дал идеальный ответ на вопрос интервью. Интервьюер в замешательстве наблюдает за тем, как респондент пытается объяснить, как он пришел к неправильной временной сложности (тайно предоставленой ChatGPT).

Хотя во время исследования никто не был пойман за списыванием, камеры были выключены, и многим из наших опытных кандидатов все равно было сложно сжульничать, о чем свидетельствует этот ролик.

Если отбросить этические нормы, обман — это сложная, напряженная и не совсем простая задача. Вместо этого мы советуем направить все усилия на практику, которая сослужит вам хорошую службу, когда компании изменят свои процессы, что, надеемся, произойдет в ближайшее время. В конечном итоге мы надеемся, что появление ChatGPT станет катализатором, который наконец-то сдвинет стандарты собеседований в нашей индустрии от зубрежки и заучивания к реальной проверке инженерных способностей.

Источник

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.