Публикации по теме 'scikit-learn'


День 19 из 66 дней данных
66 дней данных День 19 из 66 дней данных Документирование моего пути обучения науке о данных В 19-й день 66 Days of Data я работал над созданием блокнота Jupyter для обучения студентов использованию библиотеки scikit-learn для построения базовой модели для вводного курса Python для курса #datascience . Давайте взглянем на блокнот Jupyter для практического обучения Scikit-learn. Пошаговое руководство Я работал над вводными текстовыми ячейками, чтобы познакомить учащихся..

Вложения слов и векторы документов: Часть 2. Уменьшение порядка
Встраивание слов приводит к линейному преобразованию n -длинных ( n - это размер словаря, составляющего корпус текста) разреженных векторов документов в p -длинные плотные векторы с p ‹ n , таким образом, достигается уменьшение порядка… В предыдущем посте Вложения слов и векторы документов: Часть 1. Сходство мы заложили основу для использования векторов документов на основе набора слов в сочетании с встраиваниями слов (предварительно обученными или специально обученными) для..

Наивный Байес: объяснение и реализация
В этой статье мы узнаем о работе другого традиционного алгоритма машинного обучения под названием «Наивный Байесовский». Вступление Наивный алгоритм Байеса - это метод классификации, основанный на теореме Байеса с допущением независимости между предикторами. Теорема Байеса утверждает, что: Используя теорему Байеса, мы можем найти вероятность того, что произойдет A , при условии, что произошло B . Здесь B - свидетельство, а A - гипотеза. Сделанное здесь предположение..

Как выбрать лучшую модель
Как мы установили ранее, прогнозирование путем создания моделей на основе данных является отличным инструментом для искусственного интеллекта, поскольку оно позволяет агенту определять ответ на основе предыдущего «опыта» в соответствии с заранее определенной моделью. Тем не менее, при анализе данных путем создания различных моделей прогнозирования очень сложно найти наилучшее сочетание характеристик таких данных для создания наилучшей модели с точки зрения ошибки и значения r в квадрате...

Извлечение функций при обработке естественного языка с помощью Python
Объяснение того, как извлекать функции из данных документа Введение В этой статье объясняется извлечение функций при обработке естественного языка. Данные документа не поддаются вычислению, поэтому их необходимо преобразовать в числовые данные, такие как модель векторного пространства. Эта задача преобразования обычно называется извлечением функции из данных документа. Извлечение признаков в основном имеет два основных метода: набор слов и встраивание слов. Оба они широко..

Как разделить набор данных для обучения и тестирования наборов данных с помощью SciKit Learn
Когда вы работаете над моделью и хотите ее обучить, очевидно, что у вас есть набор данных. Но после обучения нам нужно протестировать модель на каком-то тестовом наборе данных. Для этого у вас будет набор данных, отличный от тренировочного набора, который вы использовали ранее. Но не всегда возможно получить столько данных на этапе разработки. В таких случаях очевидным решением является разделение имеющегося набора данных на два набора, один для обучения, а другой для тестирования; и вы..

5 лучших проектов машинного обучения с открытым исходным кодом для улучшения ваших приложений DataScience
Машинное обучение - это изучение компьютерных алгоритмов, которые автоматически улучшаются по мере накопления опыта. Это рассматривается как часть искусственного интеллекта. Википедия В машинном обучении и распознавании образов характеристика - это индивидуальное измеримое свойство или характеристика наблюдаемого явления. Выбор информативных, различающих и независимых признаков является важным шагом для эффективных алгоритмов распознавания, классификации и регрессии. Эти..