Уроки и много уроков

Хотя я изучаю онлайн-курсы довольно давно, только недавно появилась возможность поработать над реальным рабочим проектом.

Моей задачей было извлечь другую тему из истории чтения пользователей.

Я использовал тематическое моделирование, которое частично является обработкой естественного языка. Тематическая модель - это тип статистической модели для обнаружения абстрактных тем, встречающихся в коллекции документов. Я использовал модель Скрытое размещение Дирихле (LDA), которую можно использовать для классификации текста в документе.

Одну такую ​​статью можно найти здесь,

Тематическое моделирование и скрытое распределение Дирихле (LDA) в Python

Я узнал много технических и нетехнических вещей из этого проекта. Я подумал написать об этом, так что это может помочь кому-то, кто думает присоединиться к этой трансляции

Не полагайтесь на теорию

Одна из моих самых больших ошибок - больше сосредоточиться на теории. Я действительно узнал о множестве моделей и алгоритмов и пробовал во время этих конкретных курсов, но мое внимание было больше сосредоточено на теоретическом понимании, а не на понимании программных возможностей и использования каждой модели и алгоритма. Прошу вас попрактиковаться в решении актуальных проблем, Kaggle может быть очень полезным в этом.

Качество данных

В моем проекте самой большой проблемой было отсутствие качественных данных. Данные о качестве - одна из основных задач, необходимых для правильной работы алгоритмов. Неполные, нечистые и зашумленные данные могут сильно повлиять на эффективность вашей программы.

  • Неполные данные снизят точность результатов.
  • Неправильные данные могут привести к ошибочному программированию через машинное обучение.
  • Шумные данные приведут к неточным прогнозам. Это часто приводит к снижению точности классификации и получению некачественных результатов.

Выбор модели

Поскольку у меня всего один проект, я действительно не могу помочь решить, какую модель следует выбрать, но могу сказать, что неправильный выбор модели может съесть у вас чертовски много времени и энергии и определенно может вас разочаровать. Так что выбирайте модель с умом, проведите много исследований, прежде чем выбирать модель или алгоритм.

Простой алгоритм

Простые алгоритмы, такие как линейная регрессия, логистическая регрессия, k-средних, SVM, могут быть вашими спасителями, если вы хорошо понимаете, чего ожидать.

Реалистичный мир науки о данных

Проблемы в реальном мире очень разные и очень сложные. Хотя мир машинного обучения выглядит очень круто, когда мы слышим, как машинное обучение решает жилищную проблему или как электронная почта помечается как хорошее и спам. Но на самом деле решать проблемы реального мира очень сложно, потому что мир меняется так быстро.

Нереалистичные ожидания от менеджеров, клиенты могут сильно повредить, и тогда вы поймете, что Data Science - это не волшебная палочка, которая на самом деле не волшебная палочка. Наука о данных - это просто способ импровизировать при принятии решений на основе данных.

На этом пока все, ребята. Я надеюсь, что мои знания как-то помогут вам, ребята. Я с нетерпением жду любых отзывов или вопросов.