Публикации по теме 'scikit-learn'


Пропустите предварительную обработку данных! Доступ к 12 готовым наборам данных
CIFAR, IMDB, Reuters, MNIST и другие Это удобно, когда можно получить доступ к наборам данных, не загружая их раньше. Часто, когда наборы данных берутся прямо из источника, данные необходимо преобразовать, очистить и предварительно обработать. Для больших наборов данных НЛП слова должны быть количественно определены, что может занять значительное время для больших наборов данных. В этой статье я расскажу, как загрузить 12 наборов данных с помощью Keras и Scikit-Learn, которые..

Прогнозирование цен на акции с помощью регрессионного анализа в Python
Регрессионный анализ — это мощный статистический метод, который позволяет нам понять взаимосвязь между переменными и делать прогнозы на основе исторических данных. В этом блоге мы поделимся основами регрессионного анализа с использованием библиотеки Python scikit-learn. Независимо от того, являетесь ли вы специалистом по данным, аналитиком или энтузиастом, понимание регрессионного анализа расширит ваш аналитический инструментарий и позволит вам извлечь ценную информацию из ваших данных...

Упростите подготовку данных с помощью этих 4 малоизвестных классов Scikit-Learn
Забудьте о train_test_split: Pipeline, ColumnTransformer, FeatureUnion и FunctionTransformer незаменимы, даже если вы используете XGBoost или LGBM. Подготовка данных, как известно, является наименее любимым аспектом науки о данных. Однако, если все сделано правильно, это не должно быть такой головной болью. Несмотря на то, что в последние годы scikit-learn вышла из моды как библиотека для моделирования , учитывая стремительный рост PyTorch, LightGBM и XGBoost, она по-прежнему..

Дизайн Scikit-Learn с простым объяснением
Я думаю, мы все согласны с тем, что Scikit-learn - это основная библиотека машинного обучения для Python. На самом деле это библиотека, удобная для новичков, благодаря семантическому интерфейсу (API). По этой причине многие люди до сих пор используют и вносят свой вклад в библиотеку Scikit-Learn. Библиотека Scikit-Learn очень хорошо разработана с использованием метода ООП (объектно-ориентированного программирования) Python. Ознакомьтесь с классами здесь . Кстати, такого класса..

Когда следует использовать PySpark вместо Scikit-Learn ?
Исследование масштабируемости дерева решений в контексте больших данных: PySpark vs Scikit-Learn. PySpark известен тем, что использует парадигму MapReduce , что приводит к распределению классификации между разными машинами в кластере, тогда как Scikit-Learn делает это локально.

Дискретность и когда ее использовать
Дискретизация — это операция, которая преобразует непрерывный признак в дискретный. Многие специалисты по данным не знают о силе этого преобразования и о том, как оно может повысить производительность их моделей на определенных наборах данных. В этой статье объясняется, что такое дискретизация, когда ее использовать и как применять ее к вашим собственным наборам данных с помощью Scikit-Learn. Определение дискретизации С математической точки зрения дискретизация берет функцию, значения..

Различные способы обучения тестовых сплитов (часть 1: использование Scikit Learn)
с Python доктора Элвина Анга https://www.alvinang.sg/s/Various_Ways_of_Train_Test_Splits_with_Python_by_Dr_Alvin_Ang-1.ipynb Шаг 1. Введите набор данных Шаг 2: Вытащите y Шаг 3: Тренировка тестового сплита from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 2) О докторе Элвине Анге Доктор Элвин Анг получил степень доктора философии, магистра и бакалавра в NTU,..