Приближаясь (почти) к любому обзору книги по машинному обучению

В этом обзоре книги я кратко расскажу о некоторых выводах из книги, о том, почему вам следует ее читать и как к этому подходить.

Прежде всего, вопрос заключается в том, почему вы должны прочитать эту книгу и потратить на нее время и усилия в мире, где доступно огромное количество контента по машинному обучению?

На мой взгляд, есть несколько причин,

Эта книга написана четверным гроссмейстером Kaggle Абхишеком Тхакуром.
Он написан на практическом подходе с реальными данными и реальными вариантами использования.
Не традиционная книга, но с многолетним опытом, от понимания проблемы до масштабного развертывания и победы в нескольких конкурсах мирового уровня.

Я думаю, что это достаточные причины, чтобы учиться у кого-то.

Сразу проясним несколько вещей.

Kaggle — крупнейшее в мире сообщество специалистов по данным, предлагающее мощные инструменты и ресурсы, которые помогут вам в достижении ваших целей в области данных.

В Kaggle более 800 000 специалистов по данным, инженеров по искусственному интеллекту, ученых-исследователей и т. д. соревнуются, сотрудничают и вносят свой вклад в решение проблем, связанных с данными.

Быть гроссмейстером — это один из самых высоких рангов на Kaggle, который доказывает ваши способности.

Теперь давайте обсудим, как подойти к книге, чтобы извлечь из нее максимум пользы.

Мы должны понимать, что это не традиционная книга, она предполагает, что вы имеете базовое представление о машинном обучении. Он использует очень практичный подход с впечатляющими примерами из реальной жизни. Читайте книгу и программируйте вместе с ней. Практикуйте полученные знания на одном из наборов данных серии табличных игровых площадок (TPS) Kaggle или на активном соревновании. Найдите друга, коллегу (желательно старшего) и обсудите темы и концепции. Объясните кому-нибудь концепцию простыми словами, эта техника называется «Объясни, как будто мне 5 лет» (ELI5).

Давайте обсудим конкурс самой книги.

Книга начинается с настройки среды и заканчивается обслуживанием вашей модели в производстве в масштабе.

В нем рассматриваются наиболее часто используемые методы и алгоритмы, которые вы, вероятно, использовали бы при решении задачи машинного обучения. Это дает вам основу для структурирования вашего проекта, которая поможет вам быстро экспериментировать в условиях бизнеса и соревнований. Используя фреймворк, вы сможете просто подключить модель и начать тренироваться, чтобы собирать статистику экспериментов.

Он научит вас методам построения эффективных конвейеров и предотвращения утечки данных. Вы узнаете о важности перекрестной проверки и матрицах оценки, чем отличается eval. метрики, как и где их использовать.

Теперь моя любимая тема в книге — инженерия. Вы научитесь удивительным умопомрачительным методам работы с категориальными и числовыми функциями. Далее вы узнаете, как выбирать важные функции из набора данных.

В главе об оптимизации гиперпараметров рекомендуется настраивать параметры один за другим вручную. Эта практика поможет вам понять математику, лежащую в основе алгоритма, и придет время, когда вы будете выбирать гораздо лучшие параметры, чем любой оптимизатор гиперпараметров.

После этого автор очень кратко касается проблем компьютерного зрения и НЛП. Обе эти области обширны как по широте, так и по глубине. Основы и часто используемые эффективные методологии обоих обсуждаются с примерами, включая трансформаторы.

Вы также узнаете о методах бэггинга и бустинга, ансамбля и укладки. Индустрия начала внедрять ансамбли, потому что время отклика в системах реального времени составляет менее 500 мс, и мы можем развернуть несколько виртуальных машин с разными нейронными сетями.

И последнее, но не менее важное: вы создали современную модель (SOTA) в соответствии с потребностями вашего бизнеса. Отличная работа. Но вы должны его где-то опубликовать, может быть, на какой-нибудь виртуальной машине, или создать пакет с открытым исходным кодом на GitHub, или показать демки рекрутерам. Чтобы достичь этого, в последней главе вы узнаете о возможностях воспроизводимого кода, докеризации модели и обслуживании модели в масштабе.

Автор также поможет вам понять, какие алгоритмы и методы использовать с каким набором данных и какие показатели оценки лучше использовать для разных наборов данных.

GitHub — abhishekkrthakur/approachingalmost: подход к (почти) любой проблеме машинного обучения
Обратите внимание: если вы покупаете бумажную книгу в Индии у Amazon India, чтобы продемонстрировать свою поддержку автор, вы…github.com

Заключение:

Надеюсь, вам понравится эта книга, и она значительно расширит ваши возможности.

Вам помогла данная статья? Хлопайте 👏, делитесь с сообществом, есть мысли, или я что-то пропустил? Поделитесь со мной в комментариях 📝.

Соединять

Автор — ученый-исследователь, увлеченный созданием значимых продуктов, ориентированных на воздействие. Он двойной эксперт Kaggle (набор данных и блокнот). Бывший руководитель студенческого клуба разработчиков Google (GDSC) и AWS занимается обучением облачных послов. Он любит общаться с людьми. Если вам нравится его работа, передайте ему привет.

@MrAsimZahid | Научный сотрудник
Эксперт Dual Kaggle | Бывший руководитель Google Developer Studnet Club и представитель AWS Educatemrasimzahid.github.io

Приближаясь (почти) к любому обзору книги по машинному обучению

Заключение:

Соединять

Вопросы по теме