Алгоритмы для начинающих в науке о данных

Прежде чем понять, что нужно для успеха в качестве специалиста по данным, каждый стремится им стать. Как следует из названия, наука о данных предполагает работу с данными. Чтобы начать работу с наукой о данных, нужно хорошо разбираться в широком спектре идей, включая математику, арифметику, статистику, алгоритмы и различные доступные подходы к различным проблемам. Самое главное, нужно быть готовым проводить постоянные исследования, чтобы найти наиболее эффективную технику.

«Алгоритмы» играют решающую роль в науке о данных и машинном обучении. Концепция ручного труда меняется в мире, когда практически все ручные операции становятся автоматизированными. Алгоритмы машинного обучения могут помочь компьютерам играть в шахматы, выполнять операции, определять чувства из текстов и становиться умнее и персонализированнее. Мы живем в эпоху непрерывного технологического роста, и мы можем предсказать, что произойдет в будущем, глядя на то, как компьютеры выросли за эти годы. Одним из наиболее заметных аспектов этой революции является демократизация компьютерных инструментов и процессов. За последние пять лет ученые, работающие с данными, построили сложные машины для обработки данных, без особых усилий выполняя инновационные процедуры. Результаты были ошеломляющими.

"Чтобы получить представление о том, с чем мы играем, рассмотрим, как работают алгоритмы выбора контента в социальных сетях. Они не особенно умны, но они в состоянии повлиять на весь мир, потому что напрямую влияют на миллиарды людей».

— Стюарт Рассел

Профессор Стюарт Рассел ясно подчеркнул важность алгоритмов. Профессор использовал данные социальных сетей, чтобы продемонстрировать важность алгоритмов. Социальные сети стали неотъемлемым аспектом повседневной жизни, предоставляя платформу, позволяющую людям оставаться на связи с одного конца планеты до другого. Понимание пользовательского поиска на этих платформах позволяет платформе определить требования пользователя и, как следствие, нацелить рекламу и контент, которые сопоставимы с ними. Алгоритмы используются для понимания поведения пользователей. Эти алгоритмы понимают поведение пользователя, отслеживая и анализируя реакцию пользователя при просмотре различных платформ социальных сетей, а затем отображают пользовательский контент, связанный с его предыдущим поиском. Это ясно показывает важность алгоритмов в нашей повседневной жизни.

Начнем с 11 основных алгоритмов, с которых должен начать каждый энтузиаст Data Science:

I. Линейная регрессия

Линейная регрессия относится к взаимосвязи между одним зависимым экземпляром и другим независимым экземпляром. Рассмотрим пример фирмы, выпускающей коммерческие продукты, которая должна решить, сколько она должна инвестировать в рекламу. Понимая объем продаж любого конкретного товара, фирма может решить, сколько дополнительных инвестиций требуется для рекламы того или иного продукта. Чем больше продаж, тем меньше требуется рекламы и наоборот. В этом процессе устанавливается связь между независимыми и зависимыми переменными путем подгонки их к линии регрессии, представленной линейным уравнением:

II. Логистическая регрессия

Логистическая регрессия используется, когда требуется несколько независимых признаков для получения дискретных значений или прогнозов (например, 0/1). Это лучше всего понять с помощью процедуры одобрения кредита. Любой человек, ищущий кредит, должен соответствовать нескольким условиям для того, чтобы кредит был одобрен. Пол, количество иждивенцев, источник дохода, размер дохода и множество других факторов будут играть роль в оценке того, имеет ли человек право на этот конкретный кредитный план. Логит-регрессия предсказывает вероятность события, подгоняя данные под логит-функцию.

III. Древо решений

Метод дерева решений — это метод контролируемого обучения, используемый в машинном обучении для классификации проблем. Он эффективен при классификации как категориальных, так и непрерывных зависимых переменных. Мы разделяем выборку на два или более однородных набора, используя этот подход на основе наиболее значимых атрибутов/независимых переменных. Это графическое представление всех возможных решений проблемы/решения на основе заданных условий, с внутренними узлами, представляющими свойства набора данных, ветвями, представляющими правила принятия решений, и каждым конечным узлом, представляющим результат.

IV. Случайный лес

Случайный лес основан на принципе максимального голосования. Алгоритм случайного леса объединяет множество деревьев решений для получения результатов. Начиная со случайного выбора данных для обучения и тестирования, метод случайного леса состоит из четырех основных этапов. После этого создаются многочисленные деревья решений. Дерево выбора будет усредняться при голосовании. Наконец, выберите результат прогноза, получивший наибольшее количество голосов, в качестве окончательного результата прогноза. Ансамбль относится к процессу интеграции этих деревьев. Кроме того, Ensemble использует две техники: бэггинга и бустинга.

Для повышения прогностической способности используются три основных гиперпараметра:

n_estimators: количество деревьев, которые будут построены алгоритмом.
max_features: максимальное количество функций, которые использует случайный лес, прежде чем рассматривать возможность разделения узла.
mini_sample_leaf: минимальное количество листьев, необходимое для разделения внутреннего узла.

V. XGBoost

XGBoost — это система ансамблевого обучения на основе дерева решений, которая использует градиентный спуск в качестве базовой целевой функции и обеспечивает большую гибкость при достижении желаемых результатов за счет оптимального использования вычислительной мощности. XGBoost — это масштабируемая и высокоточная реализация повышения градиента, которая расширяет вычислительные ограничения алгоритмов повышенного дерева. XGBoost имеет множество функций, которые делают его более отличительным и удобным в использовании.

Чрезвычайно сложные модели XGBoost наказываются несколькими методами регуляризации, включая Lasso и Ridge.
Возможность управлять разреженными данными и обрабатывать пропущенные значения. Блочная структура XGBost в конструкции системы позволяет одновременно использовать несколько ядер ЦП.
Осведомленность о кэше и внесистемные вычисления, которые оптимизируют дисковое пространство и скорость обработки, — это функции XGBoost, которые были созданы с учетом наилучшего использования оборудования.
Из-за своей способности к перекрестной проверке моделей помогает снизить вероятность переобучения, что помогает поддерживать компромисс между смещением и дисперсией.
После разделения данных до указанной максимальной глубины XGBoost начинает сокращать дерево назад, удаляя разбиения, которые больше не могут быть полезны.
Обратное отсечение дерева не позволяет XGBoost действовать жадно и предотвращает развитие моделей переобучения.

VI. Наивный Байес

Алгоритм наивного байесовского классификатора, основанный на теореме Байеса о вероятности, является одним из наиболее часто используемых алгоритмов для создания моделей машинного обучения, особенно для прогнозирования заболеваний и классификации документов. Теорема Байеса используется для расчета вероятностей в этом методе классификации. Он может использоваться для текстовых наборов данных и выгоден для огромных наборов данных. Он прост и удобен в использовании. Он в основном используется в таких приложениях, как анализ настроений, классификация спама, классификация документов, категоризация новостей и многие другие. Несмотря на то, что требуется условная независимость, классификатор Nave Bayes Classifier хорошо зарекомендовал себя в различных областях применения.

VII. КНН

KNN основан на методах обучения с учителем, используемых в машинном обучении. Он не сразу учится на тренировочном наборе; вместо этого он сохраняет набор данных и использует его для выполнения действия при классификации данных. Из-за этой черты он известен как «Алгоритм ленивого ученика». На основе сходства он сохраняет данные и делит их на соответствующие группы. Для расчета сходства используются «меры на основе расстояния». К ним относятся несколько мер расстояния, таких как Евклидово, Манхэттенское, Минковского и Хэмминга. В этой стратегии значение k имеет решающее значение и используется для разделения данных на группы, которые имеют смысл. Этот подход может быть полезен при работе с зашумленными и огромными наборами данных. Основной проблемой этого метода являются значительные затраты на обработку, связанные с определением разделения между точками данных для всех обучающих выборок.

VIII. Кластеризация K-средних

Алгоритм K-средних — это итеративный метод, который выполняет итерации на основе количества k-кластеров в заданном наборе данных. Этот алгоритм начинается со случайного выбора k точек данных и классификации их как кластеров. Затем вычисляется центроид этих кластеров, и процесс повторяется до тех пор, пока центроид не станет идеальным. В этот момент значения не изменятся. По сравнению с иерархической кластеризацией этот алгоритм работает быстрее при малых значениях k. Этот метод обычно используется поисковыми системами, такими как Google и Yahoo, для группировки веб-страниц в соответствии с их сходством и расчета «рейтинга релевантности» результатов поиска.

IX. Иерархическая кластеризация

Неконтролируемая иерархическая кластеризация — это метод, используемый для группировки немаркированных наборов данных в кластеры. Это также называется HCA или иерархическим кластерным анализом. Основное различие между k-средними и иерархической кластеризацией заключается в том, что нам не требуется знать количество кластеров. Этот подход создает кластеры в форме деревьев, известных как «Дендограммы». Агломеративный и разделительный — два метода, используемые в иерархической кластеризации.

Метод «Внизу вверх» или метод агломерации, который собирает все точки данных и группирует их в один кластер, работает путем многократного слияния кластеров, пока не будет создан один.
"Сверху вниз" или разделительная стратегия получила свое название от того, как работает метод разделения, который заключается в разбиении больших кластеров данных на более мелкие кластеры данных, которые затем разбиваются на точки данных. .

Х. DBSCAN

Одним из алгоритмов кластеризации является DBSCAN (пространственная кластеризация приложений с шумом на основе плотности). Этот подход основан на представлении о том, что внутри определенного радиуса должно быть минимальное количество точек данных. По сравнению с k-средними и иерархическими алгоритмами, DBSCAN оказывается более полезным для алгоритмов на основе кластеров, поскольку эти алгоритмы, отличные от DBSCAN, помогают только находить сферические формы, однако реальные данные могут быть очень неустойчивыми и содержать много шума. , поэтому кластер может быть любой произвольной формы.

В этом алгоритме используются 3 различных типа точек данных.

Основная точка. Балл считается основным, если он содержит больше баллов в течение эпизодического периода, чем баллов MinPts.
Пограничная точка. Пограничная точка — это точка, расположенная близко к основной точке, но имеющая меньше MinPts, чем eps.
Шум или выброс. Точка, которая не является ни границей, ни центральной точкой, называется шумом или выбросом.

XI. Машина опорных векторов

Машина опорных векторов (SVM) — это метод контролируемого машинного обучения, который в основном используется для решения задач классификации. SVM классифицирует данные по группам с другими подобными данными и делит эти группы с помощью гиперплоскости. SVM выбирает экстремальные векторы и точки, которые помогают в создании гиперплоскости. Опорные векторы, которые используются для представления этих экстремальных случаев, составляют основу метода SVM. Максимизация запаса, также известная как максимизация расстояния, используется для проектирования этой гиперплоскости путем максимизации расстояния между различными вовлеченными классами. SVM делится на две категории: линейные и нелинейные. Функция классификации SVM делает ее полезной для обучения, поскольку она обеспечивает высочайшую точность и правильную классификацию предстоящих данных. Тот факт, что этот алгоритм не переобучается, является его сильной стороной.

«Некоторые из самых больших проблем, с которыми сталкиваются как компьютеры, так и человеческий разум: как управлять ограниченным пространством, конечным временем, ограниченным вниманием, неизвестными неизвестными, неполной информацией и непредвиденным будущим; как сделать это с изяществом и уверенностью; и как сделать это в сообществе с другими людьми, которые одновременно пытаются сделать то же самое».

Вышеупомянутое утверждение демонстрирует важность алгоритмов и чудес, которые они могут творить. Эта статья полезна для тех, кто хочет начать закладывать свой фундамент в области науки о данных.