Google опубликовал систему отслеживания рук на основе ИИ

AppTractor

5 лет назад

Эти и другие проблемы побудили ученых Google исследовать новый подход к распознаванию рук — на основе машинного обучения. Они говорят, что сейчас на мобильном телефоне удается определять до 21 точки в положении руки (или нескольких рук) в одном кадре.

Google представила новую технику на конференции 2019 года по компьютерному зрению и распознаванию образов в июне, а сейчас исходный код и сценарии конечного использования для iOS и Android доступны на GitHub.

«Способность воспринимать форму и движение рук может быть жизненно важным компонентом в улучшении взаимодействия с пользователем в различных технологических областях и платформах», — пишут инженеры-исследователи Валентин Базаревский и Фан Чжан в блоге. «Мы надеемся, что предоставление этой функциональности более широкому сообществу исследователей и разработчиков приведет к появлению интересных творческих вариантов использования, появлению новых приложений и новых направлений исследований».

Технология Google состоит из трех моделей искусственного интеллекта, работающих в тандеме: детектор ладони, который анализирует кадр и возвращает ограничивающий ее прямоугольник; модель ориентира руки, которая просматривает область обрезанного изображения, определенную детектором ладони, и возвращает точки трехмерной руки; и распознаватель жестов, который классифицирует ранее вычисленную конфигурацию точек в наборе жестов.

В будущем Базаревский, Чжан и их коллеги планируют расширить технологию более надежным и стабильным отслеживанием рук, увеличить количество жестов, которые могут надежно обнаруживать, а также начать поддерживать динамические жесты, происходящие во времени. «Мы считаем, что открытие этой технологии может дать импульс новым творческим идеям и приложениям со стороны исследователей и разработчиков», — добавили они.