Библиотеки, используемые в машинном обучении

Машинное обучение — это наука, связанная с программированием компьютера, с помощью которого они могут учиться на различных типах данных, обычно наборах данных большого размера. В последнее время машинное обучение как область быстро расширяется из-за огромной доступности вычислительной мощности, и поэтому сегодня для решения различных типов жизненных проблем обычно используются различные алгоритмы машинного обучения.

Однако машинное обучение — не новая область. Раньше исследователи выполняли различные алгоритмы машинного обучения и строили модели, программируя все алгоритмы, математические и статистические формулы вручную. Это сделало алгоритмы машинного обучения огромным препятствием для реализации из-за такого утомительного и многословного метода реализации.

Однако сегодня внедрение алгоритмов машинного обучения и глубокого обучения стало намного проще и экспоненциально более эффективным по сравнению со старыми днями. Это в основном благодаря Python и наличию различных библиотек машинного обучения и обработки данных, фреймворков и модулей. Сегодня Python стал одним из самых популярных языков программирования для машинного обучения, глубокого обучения и науки о данных благодаря этим библиотекам Python.

Некоторые из этих библиотек, которые повлияли на бум Python в сфере машинного обучения:

· NumPy

· SciPy

· Scikit-learn

· Теано

· TensorFlow

· Панды

· OpenCV

NumPy

NumPy означает числовой Python. Это библиотека Python, которая в основном используется для работы с n-мерными массивами в Python. Помимо только функций массива, он также предоставляет различные функции, присутствующие в области линейной алгебры, наряду с математическими преобразованиями Фурье и матричными операциями.

NumPy был создан в 2005 году Трэвисом Олифантом и представляет собой проект с открытым исходным кодом. Любой, кто хочет, может свободно использовать его, вносить свой вклад в кодовую базу или просто просматривать код благодаря лицензии с открытым исходным кодом.

Зачем использовать NumPy?

Python предоставляет списки, которые служат той же цели, что и массивы, но они неэффективны по времени. NumPy стремится предоставлять объекты n-мерного массива, которые работают до 50 раз быстрее, чем традиционные списки Python.

Основное преимущество NumPy — большие массивы и обещание гораздо более быстрых операций, чем со списками. Объект массива в NumPy называется ndarray, и он снабжен множеством вспомогательных функций, упрощающих работу с ним.

Массивы очень часто используются в науке о данных, где очень важны скорость и ресурсы. В основном, большинство наборов данных могут быть представлены в виде двумерных массивов со строками и столбцами, и потребность в более быстрых операциях с массивами в языке программирования, ориентированном на науку о данных, становится все более очевидной.

NumPy также широко известен и поддерживается в настоящее время. На этом этапе массивы и списки NumPy можно использовать взаимозаменяемо (хотя это не рекомендуется делать из-за снижения производительности).

Скайпи

SciPy расшифровывается как научный Python. Это бесплатная библиотека Python с открытым исходным кодом, которая в основном используется для научных и технических вычислений. SciPy содержит различные модули для целей линейной алгебры, оптимизации, обработки сигналов и изображений, интерполяции, интеграции, БПФ, специальных функций, решателей ОДУ и других задач и функций, которые обычно требуются в науке и технике.

Зачем использовать SciPy?

Следует отметить, что SciPy использует NumPy для своих внутренних операций. Таким образом, неизбежно возникает вопрос: «Если SciPy использует NumPy внизу, почему мы не можем просто использовать NumPy?»

Ответ заключается в том, что SciPy оптимизировала и добавила функции, которые часто используются в NumPy и науке о данных. Он также имеет более крупный и гораздо более обширный список функций, которые мы можем использовать с бонусом вычислительной мощности NumPy.

Однако с SciPy есть несколько предостережений, в основном из-за того, что он имеет меньшую скорость обработки из-за того, что это библиотека, написанная на Python, которая основана на NumPy. NumPy в основном написан на C, поэтому он обеспечивает более высокую скорость обработки, но SciPy добавляет дополнительные накладные расходы на запуск своего кода Python.

Таким образом, если программист просто хочет больше функциональности, но не заботится о более высокой производительности, SciPy — идеальный выбор по сравнению с NumPy.

Scikit-learn

Scikit-learn (ранее scikits.learn, также известная как sklearn) — бесплатная библиотека машинного обучения для языка программирования Python. Он включает в себя различные алгоритмы классификации, регрессии и кластеризации, такие как машины опорных векторов, случайные леса, повышение градиента, k-means и DBSCAN, и предназначен для взаимодействия с числовыми и научными библиотеками Python NumPy и SciPy. Scikit-learn — это проект, спонсируемый NumFOCUS.

Зачем использовать Scikit-learn?

Прежде всего, Scikit-learn обеспечивает удивительную простоту использования, предоставляя различные эффективные инструменты предиктивной аналитики. Более того, благодаря тому, что инструментарий scikit-learn является бесплатным и имеет открытый исходный код, он легко доступен для всех.

Scikit-learn построен на библиотеках Numpy, sciPy и matplotlib в Python, что дает ему большие преимущества в производительности. И так же, как язык программирования Python, он также имеет открытый исходный код и может использоваться в коммерческих целях, поэтому многие программисты могут внести свой вклад в разработку.

Scikit-learn часто используется в коммерческих целях из-за его мощности и простоты использования. Некоторыми примерами нескольких многонациональных или крупных компаний, которые используют scikit-learn в своей деятельности, являются J.P. Morgan и Spotify. J.P. Morgan использует Scikit-learn во всех своих приложениях банка для целей классификации, прогнозирования и анализа. Spotify использует Scikit-learn обычным образом, поскольку работает механизм рекомендаций, с целью создания музыкальных рекомендаций для обеспечения лучшего взаимодействия с пользователем.

Учебник Scikit-learn с использованием Python

Поскольку библиотека Scikit-learn обеспечивает простоту использования для всех задач машинного обучения, если вы работаете над приложениями, связанными с классификацией, регрессией или кластеризацией, то большая часть работы будет выполняться в основном с использованием этой библиотеки. Давайте совершим небольшое путешествие по созданию модели машинного обучения с использованием Scikit-learn.

Обычно мы начинаем с разделения набора данных на обучающие и тестовые наборы, вот как:

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0)

Затем мы импортируем соответствующую модель, которую хотим использовать для классификации, регрессии и т. д. И инициализируем ее с помощью конструктора:

from sklearn.<classifier/regression/etc. module> import <model name>
#here the respective parts in angular brackets are replaced with 
#respective module in sklearn package 
#Eg: from sklearn.neighbors import
#KNeighborsClassifier 
model=<model name>() #here the model is initialized

Затем мы обучаем обучающие наборы x и y на объекте модели, используя метод подгонки:

model.fit(x_train,y_train)

Затем мы прогнозируем вывод модели на массиве x-тестирования:

y_predicted=model.predict(x_test)

Затем, если нам нужна точность модели, мы можем использовать пакет метрик для перекрестной проверки прогноза y по сравнению с истинными значениями y:

from sklearn import metrics
accuracy=metrics.<desired metric score>(y_true,y_predicted)
#here desired metric score can be any metric like f1 score, mean squared
#error, etc. However it depends on the person developing it to figure out
#the ideal metric score

Вот и все, мы построили модель машинного обучения всего за несколько минут и несколько строк. Именно так мы можем построить большинство моделей машинного обучения с помощью Scikit-learn.

Теано

Theano — это библиотека Python и оптимизирующий компилятор, который в основном используется для манипулирования и оценки различных математических выражений, но в основном матричных выражений. Theano компилирует вычисления и расчеты для эффективной работы на архитектурах ЦП или ГП, поэтому он идеально подходит для матричных вычислений (из-за использования ГП).

Theano называют «дедушкой библиотек глубокого обучения Python». Он разрабатывался с 2007 года и повлиял на создание других библиотек, таких как TensorFlow.

Зачем использовать Theano?

Theano, как библиотека Python, позволяет нам чрезвычайно эффективно решать операции с многомерными массивами. Поскольку он использует графический процессор (который необходим для запуска больших нейронных сетей из-за огромного размера), он в основном используется при создании различных проектов глубокого обучения.

Theano также тесно интегрирован с NumPy, поэтому он также может использовать высокую производительность NumPy, когда ему нужно вычислять сложные выражения с использованием массивов на ЦП, а не на графическом процессоре.

Однако вычисления на GPU в Theano поддерживают использование только переменных float32, поэтому это действует как ограничение.

Теано против TensorFlow

TensorFlow — наиболее широко используемый и известный фреймворк для глубокого обучения, поэтому он широко используется во многих исследовательских проектах. Однако Theano выполняет задачи быстрее, чем TensorFlow. Однако в задачах, связанных с несколькими GPU, TensorFlow опережает Theano.

Несмотря на то, что он выполняет задачи быстрее, чем TensorFlow, время компиляции Theano медленнее. Более того, Theano устарел, поскольку его разработка началась в 2007 году, и поэтому он может выполнять вычисления, которые намного проще по сложности, тогда как в TensorFlow мы можем выполнять массивные вычисления.

Поскольку TensorFlow намного новее, чем Theano, и поскольку Theano очень старый (разрабатывается с 2007 года), Theano в значительной степени застопорился в развитии. Благодаря популярности TensorFlow его разработка и обновления делают его гораздо лучшей альтернативой Theano.

Еще некоторые функции

1. Автоматическое дифференцирование. Theano автоматически определяет, как рассчитать градиент в различных точках для реализации прямой (прогнозной) части модели. Это позволяет нам выполнять градиентный спуск для обучения модели.

2. Оптимизация скорости и стабильности — Theano внутренне реорганизует и оптимизирует различные вычисления и расчеты для более быстрого и стабильного выполнения. Он также компилирует некоторые операции в код C для повышения скорости вычислений.

TensorFlow

TensorFlow — одна из самых известных библиотек глубокого обучения, а также важная платформа для современного машинного обучения. Это комплексная платформа с открытым исходным кодом, обладающая огромным гибким набором инструментов, библиотек и ресурсов сообщества. Это упрощает использование для специалистов по данным и исследователей, предоставляя различные хорошо работающие модели для использования.

Зачем использовать TensorFlow?

TensorFlow использует графы потоков данных для построения моделей. Это позволяет создавать множество типов крупномасштабных нейронных сетей, которые имеют много слоев. TensorFlow в основном используется для: классификации, восприятия, понимания, обнаружения, прогнозирования.

TensorFlow позволяет пользователям легко создавать и обучать модели машинного обучения и глубокого обучения с помощью интуитивно понятных API, таких как Keras. Используя их, он также обеспечивает быстрое выполнение, помогая немедленным итерациям модели и упрощая отладку.

Поскольку tensorflow построен на основе простой и гибкой архитектуры, он позволяет исследователям и специалистам по обработке и анализу данных переносить новые идеи и концепции с бумаги в код, в точные современные модели и публиковать их быстрее.

Панды

Pandas — это программная библиотека, написанная для языка программирования Python и обычно используемая для обработки и анализа данных. В частности, он предлагает структуры данных и операции для работы с числовыми таблицами и временными рядами. Это бесплатное программное обеспечение, выпущенное под лицензией BSD из трех пунктов.

Зачем использовать Pandas?

Pandas в основном используется для анализа данных, корреляции данных, а также очистки данных. Мы можем импортировать данные из различных форматов файлов, таких как значения, разделенные запятыми, или CSV, JSON, таблицы или запросы базы данных SQL и Microsoft Excel.

Мы также можем использовать эту библиотеку для очистки данных, которые мы прочитали. Он предлагает варианты очистки пустых ячеек или ячеек с неправильным форматированием или с неправильными данными, а также возможность удаления повторяющихся значений для лучшей обработки.

OpenCV

OpenCV — это библиотека для компьютерного зрения в реальном времени, а также функций обработки изображений. Первоначально разработанный Intel для языка программирования C++, позже он был поддержан Willow Garage, а затем Itseez. Сегодня библиотека является кроссплатформенной, доступна на нескольких языках и бесплатна для использования по лицензии Apache 2 с открытым исходным кодом.

Зачем использовать OpenCV?

OpenCV повышает простоту использования для обработки изображений, распознавания образов и других различных операций компьютерного зрения на разных языках вместе с Python. Как уже упоминалось, это кроссплатформенный.

OpenCV легко позволяет нам анализировать любой объект, присутствующий в трехмерном пространстве, через камеру. Это также позволяет нам выполнять преобразования изображения в изображение с помощью различных функций, предусмотренных в нем. Следовательно, OpenCV полезен как для задач компьютерного зрения, так и для задач обработки изображений.

Использование OpenCV вместе с машинным обучением может помочь в создании очень мощных инструментов для распознавания объектов, а также для маркировки объектов. Сам по себе он также может предоставлять функции, полезные для создания приложений, включающих шифрование и дешифрование изображений.

Заключение

Сегодня машинное обучение превратилось в обширную парадигму, следы которой можно найти практически повсюду. Например, в контексте регулярного использования сразу приходят на ум механизмы рекомендаций, программное обеспечение для распознавания лиц и т. д. Тогда как в сфере исследований и разработок первое, что приходит к нам, — это Python и библиотеки Python.

Python превратился из забавного инструмента, который поощрял удобство для программистов, но был непрактичен для эффективного использования. Он превратился в один из самых надежных и широко используемых языков программирования в сфере машинного обучения благодаря огромному набору библиотек, фреймворков и модулей для машинного обучения. Этот рост похож на то, как сегодня машинное обучение выросло в масштабах и приложениях из нишевой темы с бесконечными человеко-часами, необходимыми для реализации алгоритма, в одну из самых широко известных и интересных областей исследований сегодня.

Авторы

◾ Михир Камат
◾ Сварадж Калбанде
◾ Рохан Катта
◾ Вишал Хандате