Как сказано в определении, «Наука о данных — это междисциплинарная область, в которой используются научные методы, процессы, алгоритмы и системы для извлечения знаний и идей из зашумленных, структурированных и неструктурированных данных, а также для применения знаний и действенных анализ данных из широкого спектра областей применения».

Наука о данных — это очень большой пул технологий, в котором у нас есть машинное обучение и искусственный интеллект, анализ данных и моделирование и многое другое…

В этой статье мы обсудим больше о машинном обучении.

Итак, предположим, что мы отправились в университет только для того, чтобы провести исследование того, как студенты этого конкретного университета получают оценки в зависимости от количества часов, которые они учатся.

ПРИМЕЧАНИЕ. Это гипотетические данные, а не данные реального мира.

Эти данные говорят о том, что студент, который учится 3 часа, получает 30 баллов, а студент, который учится 8 часов, получает 80 баллов.

В машинном обучении каждая строка называется Запись/Наблюдение, авсе данные называются Набором данных.

Наш вариант использования заключается в том, что мы должны предсказать данные, которые поступят к нам в будущем, предположим, нам нужно предсказать данные студента, который учится 5 часов. Мы знаем, что ответ будет 50, поскольку мы наблюдали за приведенной выше таблицей и узнали закономерность, согласно которой тот, кто учится 5 часов, просто умножает 10 на количество часов, отработанных студентом. Но мы хотим, чтобы вместо того, чтобы делать все эти вычисления, наша машина должна делать это за нас.

Но есть проблема с тем, что наша машина может предсказывать только те данные, которые уже есть в ее памяти. Предположим, что в приведенном выше наборе данных, если приходит какой-либо новый ученик, мы можем выполнить расчеты его / ее оценок, но наша машина не может, потому что данные отсутствуют, и прямо сейчас наша машина не может предсказать данные.

Человеческий мозг может легко это предсказать или угадать. Человеческий мозг разумен. Мы не знаем фактическую оценку нового ученика, но можем предсказать ее с помощью прошлых наблюдений, это называется "Основная правда". Человеческий мозг обладает интеллектом, но компьютеры не имеют встроенного/жестко запрограммированного интеллекта. Компьютеры хороши в математике, но компьютеры не интеллектуальны, поскольку они могут дать вам только те данные, которые находятся внутри его хранилища.

Итак, если мы вводим человеческий интеллект в компьютеры, то эта тема называется искусственным интеллектом. Сочетание человеческого интеллекта и скорости компьютера при выполнении вычислений называется искусственным интеллектом.

Поскольку этот интеллект мы вводим в машины, именно поэтому он называется искусственным.

Люди создают программу на Python (обычно) и внедряют ее в машину, так что машина становится разумной.

Наш мозг не запоминает и не сообщает точных данных, он только хранит факт (полезные данные), с помощью которых мы можем что-то сделать. Наш мозг только хранит шаблон. Мы собираем ровно столько данных, на основании которых можем что-то сделать. У людей есть возможность изучать закономерности, но компьютеры не могут этого сделать. Компьютер не может сделать вывод, потому что компьютеры не могут создавать шаблоны, поэтому они не могут предсказывать будущие данные. Они могут выдавать результат только в том случае, если данные в них присутствуют. С другой стороны, мы можем сделать любой вывод, если проведем несколько наблюдений за историческими данными.

Из приведенного выше набора данных мы пришли к следующей формуле:

отметки = часы * 10

Если мы хотим, чтобы наша машина также предсказывала данные, для этого мы должны обучить нашу машину (мы хотим, чтобы наша машина училась на исторических данных). Этот процесс обучения нашей машины тому, как предсказывать данные, даже если данных нет в ее хранилище, называется машинным обучением.

Машина понимает только математику. Итак, мы должны создать математическую формулу и передать ее машине. Из приведенного выше набора данных мы создали математическую формулу:

отметки = часы * 10

В науке о данных математическая формула означает создание модели. Таким образом, эта модель поможет компьютерам предсказывать данные.

Рабочий процесс машинного обучения:

На этой диаграмме мы даем машине некоторые данные в качестве входных данных, внутри машины машина обучается, и как только машина обучается, создается математическая модель, и теперь она может предсказывать футуристические данные. Весь этот процесс можно выполнить с помощью алгоритма машинного обучения (простая модель линейной регрессии).

В науке о данных все, что мы хотим найти, мы обозначаем y, а все, что помогает нам найти/достичь нашей цели, мы обозначаем х.

y = зависимая переменная или цель или результат

x = независимая переменная или предиктор

Итак, теперь математическая формула для приведенного выше набора данных выглядит так:

у (отметки) = х (часы) * 10

здесь мы хотим найти оценки, поэтому обозначим их «y», а с помощью количества часов, которые изучает студент, мы можем предсказать оценки, поэтому часы обозначаются «x».

В следующей статье я расскажу о том, как выполнить весь процесс с помощью Простой модели линейной регрессии.

Спасибо…