Connect with us

Разработка

Когнитивные сервисы и искусственный интеллект: как сделан Microsoft Pix

С точки зрения разработчика, Microsoft Pix — приложение, которое реализовано с помощью уже существующих инструментов и их доработки. Ниже предлагаем рассмотреть подробнее алгоритмы, технологии и сервисы использованные в разработке приложения.

AppTractor

Опубликовано

/

     
     

Мы попросили представителей департамента стратегических технологий «Microsoft Россия» рассказать о том, как устроено новое приложение Pix и какие сервисы использовались при его создании.

Профессиональные фотографы знакомы с тем чувством, когда делаешь миллион кадров в ожидании идеального, когда необходимо поймать момент, потому что через доли секунд кадр будет уже совсем не тот. Все мы знакомы с чувством, когда хочется ощутить себя профессиональным фотографом и получить уникальный, невероятно красивый снимок с помощью смартфона, который всегда под рукой, но у которого намного меньше возможностей, в сравнении с профессиональным фотоаппаратом. Научно-исследовательская команда Microsoft предложила решение этой проблемы и разработала Microsoft Pix — приложение для iPhone, предназначенное для настройки параметров съемки фотографий (ISO, экспозиция, фокус) с применением технологий искусственного интеллекта. В этом материале мы посмотрим на него с двух сторон: пользователя и разработчика.

Как это работает с точки зрения пользователя?

С точки зрения пользователя, Microsoft Pix — крайне простое приложение, которое не требует дополнительных действий. Необходимо просто сделать фотографию, вся остальная “магия” будет происходить внутри приложения.

Как возникают идеи создания таких приложений? Они рождаются из решения задач, призванных улучшить нашу жизнь. Джош Вайсберг, ведущий менеджер Computational Photography Group в исследовательском подразделении Microsoft Research, рассказал, что для него стимулом создать это приложение стало недовольство жены качеством фотографий их детей, снятых на телефон.

В приложении вы найдете несколько интересных возможностей, например: автоматическая стабилизация изображения, синхронизация с галереей, функция определения “открыты или закрыты глаза” и так далее. В него также встроены наборы фильтров и инструменты для редактирования фотографии, при этом все изменения запоминаются и всегда можно вернуть снимок к изначальному виду. С помощью Microsoft Pix можно снимать как фото, так и видео.

Принцип работы Microsoft Pix достаточно прост — приложение создает серию из десяти снимков, после чего, с помощью технологий искусственного интеллекта выбирает лучшие фотографии (до трех штук). Перед тем, как все “неудачные” кадры будут удалены, приложение, используя данные всех снимков из серии, устраняет шумы, подбирает оптимальное освещение и тона. Весь процесс занимает не более 1 секунды. Во время изменения внешних параметров снимка с помощью набора алгоритмов определяется, было ли в процессе съемки движение, которое можно преобразовать в анимацию и получить “живое фото”.

Как это работает с точки зрения разработчика?

13874881_1145314318860366_1195035936_n

С точки зрения разработчика, Microsoft Pix — приложение, которое реализовано с помощью уже существующих инструментов и их доработки. Ниже предлагаем рассмотреть подробнее алгоритмы, технологии и сервисы использованные в разработке приложения. Краткое описание трех самых интересных:

  1. Алгоритм распознавания черт лица реализован с помощью когнитивных сервисов Microsoft. Microsoft Cognitive Services представляют собой набор интеллектуальных программных API-интерфейсов, работающих в облаке и позволяющих распознавать и интерпретировать запросы, переданные посредством привычных способов коммуникации. Например, в данном приложении был использован Face API, который распознает на изображениях лица по лицевым прямоугольникам и лицевым атрибутам, включая внешние признаки и позу. Также был использован Emotion API, который распознает эмоции человека с помощью алгоритмов искусственного интеллекта, работающих на основе мимических шаблонов. В данном приложении функциональность этих API была сокращена, т.к. для его реализации не необходимо распознавать только частичные эмоции и мимику лица: открыты или закрыта глаза, улыбается ли человек и прочее. Microsoft Cognitive Services можно воспользоваться совершенно бесплатно. Ограничения для Free-версии составляют 30,000 транзакций в месяц.
  2. Алгоритм устранения эффекта “дрожащих рук” реализован еще в 2012 году в виде отдельного приложения Cliplets для бесшовной циклической анимации, которое, к слову, абсолютно бесплатно. С помощью него была решена одна из самых частых проблем GIF-анимаций — слишком заметный переход от конца видеоролика к началу. Программа изолирует все движущиеся в кадре объекты и определяет скорость их движения, после чего оптимизирует движение всех элементов, чтобы движения в начале и в конце видео совпадали. Иначе говоря, одни объекты немного замедляются, другие немного ускоряются. В приложении Microsoft Pix были использованы алгоритмы Clipets, которые призваны стать заменой штативу. Если вам интересно реализовать подобный функционал, подробнее об алгоритмах можно прочитать в научной работе “Automated Video Looping with Progressive Dynamism”.
  3. Алгоритм автоматизации зацикливания видео, или создания “живой фотографии”, упоминается в научной работе, но в своем изначальном варианте он был крайне медленным. Для того, чтобы его можно было использовать в Microsoft Pix, были разработаны классификаторы, с помощью которых выборочно определяется элемент для зацикливания анимации. Сейчас этот процесс занимает не более 50 миллисекунд, а обработка изображения — не более 2 секунд (во время щелчка затвора).

Используя алгоритмы и облачные технологии, описанные выше, вы можете сами разработать подобное приложение. Кстати, приложение Microsoft Pix, является частью еще одного приложения, разработанного Джошем Вайсбергом с командой Microsoft — Microsoft Hyperlapse для iOS. Но это уже совсем другая история.

Комментарии
Если вы нашли опечатку - выделите ее и нажмите Ctrl + Enter! Для связи с нами вы можете использовать info@apptractor.ru.
Advertisement
Click to comment

You must be logged in to post a comment Login

Leave a Reply

Новости

Интересные материалы: 23.01

Сегодня у нас мобильные облака, карьера разработчика Xamarin и новые библиотеки.

Леонид Боголюбов

Опубликовано

/

Весь день мы собираем лучшие материалы о разработке и маркетинге технологий, стартапов, мобильных приложений и игр для iOS и Android из самых разных источников:

Комментарии
Продолжить чтение

Медиа

Podlodka #43: Профессия – архитектор

Продолжаем разбираться, что ждет разработчика после достижения сеньорности.

AppTractor

Опубликовано

/

Автор:

Podlodka

Переход в менеджмент мы уже обсудили, и в этот раз на очереди другой популярный вариант – карьера архитектора. Сергей Орлов, архитектор из Avito, помогает нам вникнуть в суть этой роли, определить её область ответственности и требуемый багаж знаний.

Комментарии
Продолжить чтение

Дизайн и прототипирование

Создание шрифта с нуля за 24 часа

Графический дизайнер Джеймс Барнард бросил себе вызов – он захотел за 24 часа создать шрифт и отправить его в Google Fonts. Как он это сделал и что узнал в процессе — в нашем переводе статьи Джеймса.

Анна Гуляева

Опубликовано

/

Я большой фанат One Day Builds Адама Сэвиджа. В начале дня у него есть только материалы, а в конце он становится обладателем чего-то, что он хотел.

Поэтому я бросил себе вызов: создать с нуля абсолютно новый шрифт и отправить его в Google Fonts за 24 часа.

В старом блокноте у меня были эскизы нескольких букв. Я хотел создать узкий шрифт без засечек, который можно будет использовать на постерах или на других больших изображениях. Во время работы в Men’s Health я использовал шрифты вроде Tungsten или Heron, которые выглядят ужасно в тексте, но отлично смотрятся в заголовках или промоматериалах (которые и были моей основной работой). Это был стиль, который я и хотел создать.

Очень грубые наброски

13:00, среда

Я отправился в Adobe Illistrator с двумя-тремя буквами, которые были у меня в эскизах. Я создал сетку из пяти строк – для линии нижних выносных, базовой линии, линии строчных, линии прописных и линии верхних выносных букв. Затем я определил ширину прописных букв и толщину основного штриха.

Я много читал о пропорциях букв и измерил некоторые существующие шрифты, чтобы определить, какое отношение должно существовать между прописными и строчными буквами. Я составил несколько правил:

  • Линия строчных = 2 × высота линии верхних выносных / высота линии нижних выносных
  • Ширина основного штриха = ¼ ширины прописной буквы
  • Ширина строчной буквы = ¾ ширины прописной буквы

Вот как это выглядит на иллюстрации

Сначала я создал буквы O и B. Я решил, что эти буквы будут иметь не форму овала, а форму скругленного угла. Многие буквы будут выглядеть, как высокий прямоугольник, но O, B и D будут иметь скругленные углы вместо овалов.

Внешний угол имеет радиус 12 мм, а внутренний — 6 мм. С этими правилами я начал создавать прописные буквы.

Мой шрифт был очень простым, но с одним «украшением». Любая апертура, то есть, срез концов полуовала, должна была быть отрезана под углом. Самыми сложными буквами стали G и K.

Затем я приступил к строчным буквам. Это было сложнее, но с установленными правилами работать было проще. Я использовал больше «украшений», особенно в верхних выносных и нижних выносных элементах. Самыми сложными стали буквы f, g, a и e, так как они были абсолютно новыми.

21:00, среда

Я перешёл к другим символам, таким как восклицательный и вопросительный знаки. Я стал работать быстрее и успел создать около 35 знаков.

Утро четверга

Утром я довольно быстро закончил цифры от 0 до 9 и начал создавать файл с шрифтом. Это было совершенно новым опытом. Мой знакомый каллиграф Иэн Барнард посоветовал для этого программу Glyphs. Я скачал программу, посмотрел несколько обучающих видео и понял, что неверно создал файл в Illustrator. Поэтому мне пришлось вставлять каждый символ вручную и подгонять его под правила программы.

10:00, четверг

Я начал заниматься интервалами и кернингом. Это было ужасно долго. Прежде чем заняться этим, нужно освоить множество сочетаний клавиш в программе. И перед кернингом вам нужно сделать интервал как можно ближе к тому, что вы хотите видеть в итоге. Для этого нужно измерить ширину отверстия в букве О и разделить ее на три. Такой интервал стоит поместить слева и справа от буквы.

11:00, четверг

С расставленными интервалами я приступил к кернингу. Это стало очень болезненным процессом. Сначала я зашёл на этот сайт и вставил в их текст для кернинга свой шрифт.

Используя сочетания клавиш, я изменил каждое расстояние между буквами, которое меня не устраивало. Самым очевидным является сочетание V и A, но в этом тексте есть и такие сочетания, о которых я и подумать не мог.

Затем я конвертировал текст в прописные буквы и сделал то же самое для них.

12:59, четверг

Я экспортировал шрифт и конвертировал его в файл .ttf, чтобы отправить в Google. Несколько символов отсутствовали (квадратные скобки и символ копирайта), и я был уверен, что шрифт не примут. У меня также не было времени добавить различные знаки для поддержки разных языков.

Это не самый лучший шрифт, но это неплохо для первой попытки. Мне пришлось учиться пользоваться программой с нуля, но я успел закончить все за день и потому гордился собой.

Название шрифта? Odibee Sans (произносится как oh-dee-bee), то есть, One Day Build — ODB.

Заключение

Я отправил Odibee Sans в Google в мае 2017, и он все ещё находится в очереди на добавление. Команда предложила мне пока уделить время дизайну шрифта, хотя они признали, что это противоречит духу проекта.

Я поработал над шрифтом ещё один день. Я добавил все нужные знаки, а также внёс изменения примерно в 30 символов.

Более того, сейчас в шрифте существует более 1500 кернинговых пар, что стало значительным улучшением шрифта. А также я создал сайт: odibeesans.com.

Комментарии
Продолжить чтение

Разработка

Как сделать собственный VR-шлем за $100

Максим Кутте, 16-летний разработчик, создал свой open source шлем виртуальной реальности.

Леонид Боголюбов

Опубликовано

/

Меня зовут Максим Кутте. Мне 16 лет и я со своими друзьями, Йонасом Сессоном и Габриелем Комбе, сделал свой собственный шлем виртуальной реальности. Он стоил нам всего 100 долларов.

Благодаря моему учителю, я начал программировать в 13. Каждый понедельник и вторник вместо кафе я с друзьями ходил в его класс.

Я потратил один год на создание простой 8-битной операционной системы и участие в конкурсе роботов.

Затем я заинтересовался виртуальной реальностью. И мы с друзьями решили, что неплохо было бы создать собственный мир в VR, в котором мы могли бы проводить время после школы. Но Oculus  тогда стоил 700 долларов, и мы решили создать собственный шлем.

VR для всех

Напечатанная на 3D принтере запчасть

Причиной всего стало аниме под названием Sword Art Online. Его главный герой находится в ролевой виртуальной реальности – и так я влюбился в VR. Я хотел понять все ее аспекты.

Я купил самые дешевые компоненты, которые мог, и начал, изучая основы физики и математики виртуальной реальности (правильное ускорение, первообразные, кватернионы…) А потом мы заново изобрели VR. Я написал WRMHL, а затем с Габриелем FastVR. Объединив все это вместе, мы получили гарнитуру стоимостью $100.

Полностью открытая гарнитура для VR и комплект для разработки

Чтобы ускорить время разработки, мы сделали FastVR – SDK с открытым исходным кодом для разработчиков, который легко понять и кастомизировать. Он работает следующим образом:

  • Главный компьютер шлема вычисляет его позицию в пространстве
  • Позиция из шлема отправляется в WRMHL и часть вычислительной мощности процессора тратится на обработку этого сообщения
  • Затем FastVR извлекает данные и использует их для рендеринга VR-игры

Все, что вам надо – сделать на основе открытых исходников шлем.

Почему open source

Я хочу сделать VR мейнстримом. Поэтому я обратился к Уссаме Аммару, одному из соучредителей The Family. Я обсудил с ним создание компании и запуск на Kickstarter.

Но он убедил меня, что на данный момент лучше подождать начинать бизнес, продолжать встречаться с теми, кто имеет те же цели, продолжать учиться.

Мы отправились в Кремниевую долину, и Уссама познакомил меня с главным архитектором в Oculus, Атманом Бринштоком. И они дали мне ценный совет: сделай все это open source.

Следующий шаг

Есть еще много технических моментов, которые мы хотим улучшить.

Сейчас мы работаем над автономной VR-гарнитурой –  у нас уже есть как упрощенная версия с более дешевым 3D-трекингом.

Все это мы скоро выпустим.

Как начать

Если вы хотите узнать больше о технической стороне и сделать гарнитуру, просто следуйте инструкциям.

 

Комментарии
Продолжить чтение

Наша рассылка

Каждому подписавшемуся - "1 час на UI аудит": бесплатный ускоренный курс для разработчиков!

Нажимая на кнопку "Подписаться" вы даете согласие на обработку персональных данных.

Вакансии

Популярное

X

Спасибо!

Теперь редакторы в курсе.