Компания Apple выпустила несколько открытых языковых моделей (LLM), которые предназначены для работы на устройстве, а не на облачных серверах. Названные OpenELM (Open-source Efficient Language Models), модели LLM доступны в Hugging Face, сообществе для обмена кодом ИИ.
Как указано в технической документации, всего существует восемь моделей OpenELM, четыре из которых были предварительно обучены с помощью библиотеки CoreNet, и четыре настроены по инструкциям. Apple использует стратегию послойного масштабирования, направленную на повышение точности и эффективности.
Apple предоставила код, журналы обучения и несколько версий, а не только финальную обученную модель, и исследователи, стоящие за проектом, надеются, что это приведет к ускорению прогресса и «более надежным результатам» в области ИИ с естественным языком.
«OpenELM — state-of-the-art открытая языковая модель. OpenELM использует стратегию послойного масштабирования для эффективного распределения параметров внутри каждого слоя модели трансформера, что приводит к повышению точности. Например, при наличии около миллиарда параметров OpenELM демонстрирует 2.36%-ное улучшение точности по сравнению с OLMo, требуя при этом в 2 раза меньше лексем для предварительного обучения.
Отличаясь от предыдущих практик, которые предоставляли только веса модели и код вывода, а также предварительное обучение на частных наборах данных, наш релиз включает полную структуру для обучения и оценки языковой модели на общедоступных наборах данных, включая журналы обучения, несколько контрольных точек и конфигурации предварительного обучения».
Стратегия масштабирования по слоям, используемая в моделях OpenELM, представляет собой метод распределения параметров внутри каждого слоя трансформера для повышения точности и эффективности модели. В контексте трансформеров, которые являются основой многих современных языковых моделей, это означает, что параметры и вычислительные ресурсы распределяются таким образом, чтобы оптимизировать производительность модели при заданном количестве параметров или ограничениях ресурсов.
В традиционном подходе к обучению трансформеров количество параметров равномерно распределено по всем слоям модели. Однако в стратегии масштабирования по слоям разработчики могут выбирать, какие слои должны иметь больше параметров в зависимости от их важности для задачи, которую модель должна выполнять. Это может включать увеличение количества параметров в определенных слоях, которые вносят наибольший вклад в обучение модели, в то время как другие слои могут иметь меньше параметров.
Преимущества такого подхода включают улучшенную точность и эффективность модели. Например, если модель с одним миллиардом параметров использует стратегию масштабирования по слоям, она может демонстрировать более высокую точность, чем модель с равномерным распределением параметров, при этом требуя меньшее количество данных для предварительного обучения.
В контексте OpenELM, стратегия масштабирования по слоям позволяет эффективно использовать вычислительные ресурсы устройства, на котором запущена модель, обеспечивая при этом высокую точность результатов. Это особенно важно для приложений, работающих на устройствах с ограниченными ресурсами, таких как смартфоны и планшеты.
Apple заявляет, что выпускает модели OpenELM, чтобы «расширить возможности и обогатить открытое исследовательское сообщество» самыми современными языковыми моделями. Обмен моделями с открытым исходным кодом дает исследователям возможность изучить риски, данные и погрешности моделей. Разработчики и компании могут использовать модели как есть или вносить в них изменения.
Открытый обмен информацией стал для Apple важным инструментом привлечения лучших инженеров, ученых и экспертов, поскольку он дает возможность публиковать научные работы, которые в обычных условиях не могли бы быть опубликованы в соответствии с политикой секретности Apple.
Apple еще не внедряла подобные возможности ИИ в свои устройства, но ожидается, что iOS 18 будет включать ряд новых ИИ-функций, а слухи говорят о том, что Apple планирует запускать свои большие языковые модели на устройстве в целях конфиденциальности.