Обучение
Как стать дата сайентистом не потратив ни рубля
Я ничего не потратил на свое обучение но научился всем навыкам, необходимым для того, чтобы стать специалистом по данным.
Сегодня я хочу рассказать о том, как я стал дата сайентистом. Мой путь длился два года, но статья не может рассказать обо всем. В ней я просто поделюсь своим развитием и некоторыми ошибками, которые я совершил, чтобы вы могли миновать их.
Я ничего не потратил на свое обучение но научился всем навыкам, необходимым для того, чтобы стать специалистом по данным. Если такой подросток, как я, смог это сделать, то и вы точно сможете.
В настоящее время я работаю стажером по глубокому обучению в NVIDIA.
Давайте перейдем к обучению не теряя ни секунды.
Основы
Шаг 1: Изучите Python
Некоторые люди говорят, что вы должны изучить математику, необходимую для Data Science. Но я предлагаю вам сначала изучить язык программирования (например, Python или R).
Почему Python? Потому что он используется более широко, чем R.
Ресурс, который я использовал — Изучение Python — полный курс для начинающих.
Причина, по которой я предпочитаю учебник Майка Дейна, в том что он объясняет все очень четко и в удивительном стиле.
Но просто изучение основ не поможет выучить и понять Python, вам следует попрактиковаться. Есть сайт под названием HackerRank. Решайте задачи в нем.
Шаг 2: Изучите математику
Есть пара тем, которые вам нужно понять. Я знаю, что для некоторых людей математика ужасна. Но не волнуйтесь, постарайтесь узнать как можно больше. Это не так сложно, как кажется — в основном это статистика, вероятности и только иногда линейная алгебра и исчисление. Я уверен, что это будет легко.
Вот курсы, которые я предпочитаю.
Если вы подросток или не знаете основ по этим темам, используйте Khan Academy, где вы можете изучить все основы.
Я могу также посоветовать:
- Вероятность и статистика: Вероятность и статистика: р или не р? — курс на Coursera. Я знаю, что этот курс платный, но он платный только в том случае, если вам нужен сертификат.
- Линейная алгебра: Линейная алгебра — полный курс колледжа — YouTube
- Исчисление: Введение в исчисление от Coursera. Это удивительный курс. Он научит вас многому из того, что вам будет нужно.
- Математика для машинного обучения: Многомерное исчисление — мой вариант для превращения в код того, что вы узнали.
Здесь я сделал свою первую ошибку — я не уделил этому достаточно внимания. Но иногда это очень важно.
Основы науки о данных
Шаг 3: Библиотеки Python для науки о данных
В Python есть несколько библиотек для Data Science, которые называются NumPy, Pandas и т. д. Нужно с ними ознакомиться — посмотрите урок Python для науки о данных. Это один из уроков, которые лично мне нравится. Он рассказывает про каждую концепцию от самых основ.
Шаг 4: Инструменты для науки о данных
Вот моя вторая ошибка. Я не озаботился инструментарием.
- SQL: Учебник по SQL — полный курс по базам данных для начинающих.
- MongoDB: Учебное пособие по MongoDB для начинающих — полный курс.
Шаг 5: Машинное обучение
Машинное обучение вряд ли нуждается в представлении. Это одна из самых важных частей науки о данных и самый популярный предмет исследований среди разработчиков, поэтому каждый год в этом направлении делаются новые успехи.
Это единственный курс, который, по моему мнению, лучше всего подходит для машинного обучения — Машинное обучение (Coursera, прохождение курса не будет стоить вам денег, но вы не получите сертификат). Этот курс потрясающий и дает прочные основы, но он заточен на MATLAB, поэтому вам нужно все сделать в Python.
Поэтому я могу порекомендовать курс — Бесплатный 10-часовой курс машинного обучения.
Это время, когда вам уже нужно начать практиковаться.
Рекомендую создать аккаунт на Kaggle и начать практиковаться в нем.
У Kaggle много наборов данных, возьмите эти наборы данных и погрузитесь в манипуляции с ними.
Шаг 6: Глубокое обучение
Становится вес интереснее. Глубокое обучение — это моя любимая вещь на этом пути. Тут вы действительно используете математику, которую изучили раньше.
Я настоятельно рекомендую пройти Курс CS230 в Стэнфорде. На мой взгляд, это самое глубокое погружение.
Но вам нужно научиться программировать более профессионально. Есть две популярные платформы для глубокого обучения: TensorFlow и PyTorch.
Я лично предпочитаю изучать PyTorch, потому что он более динамичен и код для решения более сложных задач в PyTorch легче писать, чем в TensorFlow.
В изучении PyTorch я предпочитаю этот курс — PyTorch для глубокого обучения — Полный курс.
После этого начните делать Kaggle Competition. Поначалу победить будет довольно сложно, но даже если вы проиграете соревнование, но научитесь решать задачи, вы уже выиграете.
Итоги
Конечно, ваше путешествие по науке о данных на этом не заканчивается. Оно вообще не имеет конца. Если вы узнаете что-то, то вам любопытно двигаться дальше. Когда видишь что-то интересное, хочется этому научиться.