X открывает исходный код своего алгоритма рекомендаций

AppTractor

5 месяцев назад

В 2023 году Twitter впервые частично открыл исходный код своего алгоритма. В те дни миллиардер Илон Маск, владелец Tesla, только недавно приобрел платформу и заявил, что его миссия — реструктурировать социальную сеть, сделав её более прозрачной.

Однако публикация кода алгоритма быстро подверглась критике за «театр прозрачности», критики отметили, что он «неполный» и мало что раскрывает о внутренней работе или о том, почему код работает именно так.

Теперь X делает вторую попытку и снова открывает исходный код своего алгоритма, выполнив обещание, данное Маском на прошлой неделе. «Мы сделаем новый алгоритм , включая весь код, используемый для определения того, какие органические и рекламные публикации рекомендуются пользователям, открытым в течение 7 дней», — сказал он. Маск также пообещал обеспечивать прозрачность работы алгоритма каждые четыре недели в обозримом будущем.

Во вторник в публикации на GitHub компания X представила доступное описание своего кода для генерации ленты новостей, а также схему работы программы.

То, что было раскрыто, не является чем-то сенсационным, но позволяет заглянуть за кулисы алгоритма. На схеме показано, что при поиске контента для показа конкретному пользователю алгоритм сайта учитывает его историю взаимодействия (на какие публикации он кликал и т.д.) и анализирует недавние публикации в сети. Он также проводит анализ на основе машинного обучения out-of-network публикаций — то есть контента из аккаунтов, на которые пользователь не обязательно подписан, — которые, по мнению алгоритма, могут показаться пользователю привлекательными.

Затем алгоритм отфильтровывает определенные типы сообщений, включая сообщения с заблокированных аккаунтов или связанные с засекреченными ключевыми словами, а также контент, который был признан слишком жестоким или похожим на спам. После этого алгоритм ранжирует этот контент на основе того, что, по его мнению, будет наиболее привлекательным для пользователя. В этом процессе учитываются такие факторы, как релевантность и разнообразие контента, чтобы пользователи не получали просто набор одинаковых сообщений. Алгоритм также учитывает вероятность того, что пользователь поставит лайк, ответит на него, сделает репост, добавит в избранное или каким-либо другим образом взаимодействует с ним.

По словам X, вся эта система основана на искусственном интеллекте. В релизе на GitHub, опубликованном во вторник, отмечается, что система «полностью полагается» на «трансформатор на основе Grok» компании для «изучения релевантности на основе последовательностей взаимодействия пользователей». Другими словами, Grok анализирует ваши клики и лайки, и передает эту информацию в систему рекомендаций. В статье также отмечается отсутствие «ручной обработки признаков для определения релевантности контента», то есть люди не корректируют вручную алгоритм определения релевантности. Добавляется, что автоматизация «значительно снижает сложность наших конвейеров обработки данных и инфраструктуры обслуживания».

Почему X раскрывает всё это сейчас? Это не совсем ясно. В прошлом Маск заявлял, что хочет сделать платформу образцом корпоративной прозрачности — тема, которая актуальна и по сей день. В 2023 году, когда алгоритм Twitter был впервые представлен, Маск сказал, что обеспечение «прозрачности кода» будет «поначалу невероятно неловким», но в конечном итоге «приведёт к быстрому улучшению качества рекомендаций». Он добавил: «Самое главное, мы надеемся заслужить ваше доверие». С первым открытым исходным кодом платформа провозгласила «новую эру прозрачности» для Twitter.

Хотя Маск говорил о прозрачности, некоторые аспекты платформы, возможно, стали менее открытыми с тех пор, как он её приобрёл. Когда миллиардер купил Twitter в 2022 году, сайту пришлось перейти из публичной компании в частную — эволюция, которая обычно не является синонимом открытости. Хотя раньше сайт публиковал несколько отчетов о прозрачности в год, первый отчет о прозрачности X был опубликован только в сентябре 2024 года. В декабре X также был оштрафован на 140 миллионов долларов регуляторами Европейского союза, которые заявили, что сайт нарушил «обязательства по прозрачности» в соответствии с Законом о цифровых услугах (DSA) и утверждали, что система проверки подлинности на сайте затруднила пользователям оценку подлинности отдельных учетных записей.

В течение последнего месяца X также находился под давлением из-за того, как его чат-бот Grok использовался для создания и распространения контента сексуального характера. Офис генерального прокурора Калифорнии и законодатели Конгресса в последние недели тщательно изучали платформу, ссылаясь на утверждения о том, что Grok использовался для создания изображений обнаженных женщин и несовершеннолетних. В результате некоторые могут рассматривать этот призыв к открытости как очередную театральную постановку.