Итак, ранее здесь мы видели, как мы можем преобразовать наши данные в некоторую форму, которая будет для нас значимой и более легкой для манипулирования, чем предыдущая.

Не всегда у нас есть данные в нужном нам виде. Нам всегда нужно преобразовывать данные, процесс выходит далеко за рамки того, что мы видели в части 1.
В этом посте мы увидим, как мы можем лучше понять данные, используя некоторые базовые статистические данные. Напоминаем, что мы все еще используем данные о сне.

Привет, Питон!

До сих пор я использовал R в качестве языка для своих сообщений. Однако, поскольку у меня есть опыт разработки программного обеспечения, я нахожу Python более привлекательным. Кроме того, в наши дни Python становится все более и более модным, когда кто-то упоминает машинное обучение. Это не означает, что R менее способен. Это просто вопрос предпочтений.

Истории из данных

В этом посте мы увидим, как на ваш сон влияют какие-либо факторы, существующие в данных. При выполнении машинного обучения необходимо знать, что мы пытаемся решить точно. Итак, давайте сформулируем наш тезис следующим образом:

Предположим, какой-то случайный расстроенный сотрудник просматривает данные и думает, как бы ему улучшить свой сон. Его первая реакция, увидев наши очищенные данные, будет: «Хорошо, Умаир, вы проделали чудесную работу, но что именно больше всего влияет на мой сон. Мне не нужно знать так много факторов. Просто скажите мне одну или две, чтобы я мог поработать над этим и улучшить свой прекрасный сон».

Таким образом, мы могли бы сформулировать вопрос так: Учитывая, что я провожу в постели больше или меньше времени, спрогнозируйте качество моего сна.

Теперь, рассматривая приведенный выше вопрос, мы используем наши данные и работаем только с двумя столбцами данных: Минуты в постели и Качество сна. Как мы видим, Сон Качество зависит от количества минут, проведенных в постели. В машинном обучении эта зависимая переменная называется Цель, а независимая переменная называется Функция.

Ниже приведен график, показывающий функцию по сравнению с целью

Все просто

В этом посте мы не усложняем задачу, чтобы получить представление о регрессии. Поскольку это первая публикация о регрессии, мы пренебрегаем другими столбцами, иначе, если бы мы включили другие функции для определения целевой переменной, наш вопрос или тезис были бы изменены, и, конечно, все усложнилось бы.

Но подождите регрессии? Что почему ? С точки зрения непрофессионала, регрессия — это один из основных методов в статистике, который показывает связь между двумя переменными. В машинном обучении этот метод используется в контролируемом машинном обучении.

На самом деле мы наносим точки, а затем пытаемся найти линию, которая проходит через них. Теперь эта линия может быть как прямой, так и кривой (избегайте строгой геометрической терминологии). Как только у нас есть линия, мы заменяем переменные (не коэффициенты), чтобы определить цель. Итак, предположим, что наша прямая определяется выражением:

Уравнение прямой линии: y = mx + b

Итак, мы пытаемся определить m и b, а затем, заменив их в приведенных выше уравнениях, находим цель y.

Машинное обучение под наблюдением. Это один из методов машинного обучения, когда мы используем данные для обучения машины, а затем используем их для прогнозирования. Прогнозы в дальнейшем используются для проверки и уточнения модели. В нашем случае это простое уравнение является моделью, тогда как обучение в основном заключается в нахождении коэффициентов m и b.

Интересно, я создал блокнот Python Jupyter, в котором это делается. Это можно найти в моем Github Repository.

Вывод

Я надеюсь, что это дало читателям представление о том, как осуществляется контролируемое обучение. Мы не вдавались в подробности. Подробности будут позже. Быть в курсе !