The Hugging Face, платформа науки о данных с сообществом ученых, исследователей и ML-инженеров, которые вносят свой вклад в проекты с открытым исходным кодом, предлагает бесплатный курс, который поможет вам пройти путь от новичка до эксперта в области обработки естественного языка.
Обработка естественного языка или NLP — это область искусственного интеллекта, которая заставляет компьютеры понимать естественные языки, такие как английский. И что? Зачем вообще вкладывать средства в изучение NLP?
NLP пытается найти смысл в текстовых данных, что гораздо сложнее, чем сделать то же самое с числовыми данными. NLP применяется повсеместно, потому что люди практически во всем общаются на языке: поиск в Интернете, реклама, электронная почта, обслуживание клиентов, языковой перевод, виртуальные агенты, медицинские отчеты и т.д. Многие организации стремятся интегрировать NLP в свои рабочие процессы и предоставляемые ими продукты, такие как перевод, распознавание речи и чат-боты. Звучит как хороший карьерный шаг.
В этом курсе вы сможете узнать об обработке естественного языка с помощью библиотек из экосистемы Hugging Face.
Курс начинается со знакомства с библиотеками Transformers в главах 1-4, где рассматривается работа моделей. Сюда входит рассмотрение моделей Encoder, Decoder и Sequence-to-sequence, тонкая настройка этих моделей с помощью Trainer API или Keras, а также введение в предварительно обученные модели The Hugging Face Hub.
В главах 5-7 изучаются основы работы с наборами данных и токенизаторами, прежде чем погрузиться в классические задачи NLP. Сюда входит создание собственного набора данных, семантический поиск с помощью FAISS, обучение нового токенизатора на основе старого, а также построение токенизатора блок за блоком.
Глава 8 включает инструкции по отладке ошибок и обращению за помощью в случае необходимости.
Заключительная глава 9 показывает, как создавать интерактивные демонстрации для ваших моделей машинного обучения.
Барьер предварительных требований невысок — вам должно быть удобно работать с Python и вы должны немного знать математику средней школы. Никаких предыдущих знаний в области NLP или машинного обучения не предполагается, но желательно некоторое знакомство с PyTorch или TensorFlow.
По времени, несмотря на то, что курс рассчитан на самостоятельное изучение, каждая глава может быть пройдена за 1 неделю, если уделять ей 6-8 часов в неделю.
Курс можно изучать на официальном сайте, но его также можно изучать в виде плейлиста Youtube длиной в 79 роликов. Правда, на официальном сайте есть ссылки на код, который можно найти в каждом разделе, который можно запустить в Google Colab или Amazon SageMaker Studio Lab.