По мере того, как достижения ИИ продолжает прогрессировать семимильными шагами, наука о данных становится все более доступной на базовом уровне. Традиционные барьеры входа в эту область, такие как нехватка данных и вычислительной мощности, были устранены с появлением большого числа новых AI-стартапов (некоторые предлагают доступ к платформам дешевле чашки кофе) и мощных облачных вычислений, устраняющих необходимость владения дорогим оборудованием. Завершают тройку “предварительных сложностей” навыки и ноу-хау, которые необходимо использовать и которые, возможно, являются наиболее известным аспектом Data Science. Не нужно далеко ходить, чтобы найти онлайн-руководства, рекламирующие «реализацию модели Х за секунды» или «применение метода Z к вашим данным всего за несколько строк кода». В цифровом мире мгновенное удовлетворение стало синонимом всей игры.
Хотя упрощенный доступ на первый взгляд не пагубен, из-за огромного количества программных библиотек и блестящих новых моделей истинная цель науки о данных теряется, а иногда даже забывается. Потому что цель не в запуске сложных моделей или оптимизации произвольной метрики, а в использовании Data Science в качестве инструмента для решения реальных проблем.
Простым, но понятным примером является набор данных ириса. Сколько из нас использовали его для демонстрации алгоритма, не задумываясь о том, что такое чашелистик, не говоря уже о том, почему мы измеряем его длину? Хотя это может показаться тривиальным соображением для начинающего специалиста, который может быть более заинтересован в добавлении новой модели в свое портфолио, для ботаника Эдгара Андерсона, который каталогизировал рассматриваемые атрибуты, чтобы понять вариации цветов ириса, это было менее чем тривиальным. Несмотря на то, что это надуманный пример, он демонстрирует простую мысль; мейнстрим стал больше ориентирован на «выполнение» науки о данных, а не на «применение» науки о данных. Однако это несоответствие — не причина упадка специалистов по данным, а симптом. Чтобы понять причину проблемы, мы должны сделать шаг назад и посмотреть на нее с высоты птичьего полета.
Любопытно, что наука о данных является одной из немногих областей исследований, которая оставляет практикующего без области применения. Студенты-фармацевты становятся фармацевтами, студенты юридических факультетов — юристами, студенты-бухгалтеры — бухгалтерами. Поэтому студенты, изучающие науку о данных, должны стать специалистами по данным, дата сайентистами? Но специалисты по данным чего? Широкое применение науки о данных оказывается палкой о двух концах. С одной стороны, это мощный набор инструментов, который можно применить в любой отрасли, где создаются и собираются данные. С другой стороны, общая применимость этих инструментов означает, что пользователь редко будет иметь истинное знание предметной области в указанной отрасли до того, как столкнуться с ней. Тем не менее, проблема была несущественной во время роста науки о данных, поскольку работодатели спешили использовать эту зарождающуюся технологию, не полностью понимая, что это такое и как ее можно интегрировать в свою компанию.
Однако почти десять лет спустя как предприятия, так и среда, в которой они работают, претерпели изменения. Теперь они стремятся к зрелости в области науки о данных с помощью больших собственных команд, оценивающихся в соответствии с установленными отраслевыми стандартами. Теперь есть острая потребность в найме тех, кто решает проблемы и критически мыслит, кто разбирается в бизнесе, соответствующей отрасли, а также во всех заинтересованных в ней сторонах. Больше нет простой возможности использовать пару программных пакетов или даже несколько строк кода — специалист в науке о данных больше не будет определяться способностью программировать. Об этом свидетельствует растущая популярность no-code решений, таких как Data Robot, Rapid Miner и Alteryx.
Что это значит?
Дата сайентисты вымрут через 10 (плюс-минус) лет, или, по крайней мере, название роли изменится. В будущем набором навыков, известным под общим названием «наука о данных» (data science), будет обладать новое поколение опытных бизнес-специалистов и экспертов, которые смогут наполнить анализ своими глубокими знаниями в предметной области, независимо от того, умеют ли они программировать или нет.
Само название будет отражать их опыт, а не средства, с помощью которых они его демонстрируют, будь то специалисты по комплаенсу, менеджеры по продукции или инвестиционные аналитики. Чтобы найти исторические прецеденты, не нужно далеко ходить. Во время появления электронных таблиц специалисты по вводу данных пользовались большим спросом, но в настоящее время, как метко отмечает Коул Нуссбаумер Кнафлик (автор книги «Сторителинг с помощью данных»), уровень владения пакетом Microsoft Office является минимальным требованием. Раньше умение печатать вслепую на пишущей машинке считалось специальным навыком, однако с появлением персональных компьютеров оно также стала общепринятым.
Наконец, для тех, кто планирует карьеру в области науки о данных или начинает учебу, может быть полезно постоянно возвращаться к диаграмме Венна, с которой вы, несомненно, столкнетесь. Она описывает науку о данных как слияние статистики, программирования и знаний предметной области. Несмотря на то, что каждый из них занимает равную долю пересекающейся области, некоторые из них могут “весить” больше, чем другие.