Новости

Исследователи Apple разработали LLM, которая понимает интерфейс приложений

Хотя мы не знаем, будет ли новая модель включена в такие системы, как Siri, Ferret-UI предлагает возможность расширенного контроля над таким устройством, как iPhone.

Опубликовано

1 год назад

10.04.2024

Автор:

AppTractor

Работа, опубликованная в понедельник Корнельским университетом, называется «Ferret-UI: Глубинное понимание мобильного пользовательского интерфейса с помощью мультимодальных LLM». По сути, в ней рассказывается о новой мультимодальной большой языковой модели (MLLM), которая способна понять пользовательские интерфейсы мобильных приложений.

Название Ferret первоначально появилось благодаря мультимодальной LLM с открытым исходным кодом, выпущенной в октябре исследователями из Корнельского университета совместно с коллегами из Apple. В то время Ferret мог обнаруживать и понимать различные области изображения для выполнения сложных запросов, таких как определение вида животного на выбранной части фотографии.

В новой работе Ferret-UI объясняется, что, несмотря на значительные успехи в использовании MLLM, они все еще «не способны эффективно понимать и взаимодействовать с экранами пользовательского интерфейса (UI)». Ferret-UI описывается как новая MLLM, предназначенная для понимания мобильных пользовательских интерфейсов, с «возможностями отсылки, обоснования и рассуждения».

Часть проблемы, с которой сталкиваются модели при понимании интерфейса, заключается в том, как он вообще используется. Часто в портретной ориентации иконки и другие детали могут занимать очень компактную часть дисплея, что затрудняет понимание машинами.

Чтобы помочь в этом, в Ferret есть система увеличения изображений до «любого разрешения», чтобы сделать иконки и текст более читаемыми.

Для обработки и обучения Ferret также делит экран на две части, разрезая его пополам. В статье говорится, что другие LLM, как правило, сканируют большое изображение с меньшим разрешением, что снижает возможность адекватно определить, как выглядят иконки.

Если добавить к этому значительную обработку данных для обучения, то получится модель, способная достаточно хорошо понимать запросы пользователей, понимать природу различных экранных элементов и предлагать контекстные ответы.

Например, пользователь может спросить, как открыть приложение «Напоминания», и ему ответят, что нужно нажать на экранную кнопку «Открыть». Другой запрос, спрашивающий, может ли 15-летний подросток использовать приложение, может проверить возрастные рекомендации, если они видны на экране.

Хотя мы не знаем, будет ли новая модель включена в такие системы, как Siri, Ferret-UI предлагает возможность расширенного контроля над таким устройством, как iPhone. Понимая элементы пользовательского интерфейса, он дает возможность Siri выполнять действия за пользователя в приложениях, самостоятельно выбирая элементы в приложении.

Существуют также полезные приложения для людей с ослабленным зрением. Такой LLM сможет более подробно объяснять, что происходит на экране, и, возможно, выполнять действия за пользователя, не требуя от него ничего другого, кроме как попросить об этом.

Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.