Публикации по теме 'data-preprocessing'


Чистый AutoML для «грязных» данных: как и зачем автоматизировать предобработку таблиц в машинном обучении
Как и зачем автоматизировать предварительную обработку таблиц в машинном обучении В этом посте мы хотели бы обсудить такую ​​известную и широко описанную тему, как предварительная обработка табличных данных в науке о данных. Вы спросите: «Зачем нам это нужно? Ничего нового не скажешь!» Действительно, что может быть тривиальнее табличной обработки данных для моделей машинного обучения? Но мы постараемся собрать как можно больше информации в одном полном руководстве и представить ее..

Запутался в вменении пропущенных значений! Вот подход к их вменению
Всем привет! мы все знаем, что заполнение пропущенных значений является важным шагом на этапе предварительной обработки данных. Но не всегда заменяя отсутствующие значения средним или медианным для непрерывных данных, а режим для категориальных данных может быть не всегда полезен и не всегда дает вам значимую информацию. Для этого есть метод, который выбрать на основе процента отсутствующих значений в столбцах функций. Если процент отсутствующего значения меньше 50%, мы можем..

Вино, сыр и ватты: изучение энергетического ландшафта Франции
Вино, сыр и ватты: изучение энергетического ландшафта Франции Сегодняшняя тема — энергопотребление во Франции, и, хотя это обширная тема, я представлю глобальный обзор, выделив некоторые ключевые моменты. Для этого проекта я использовал набор данных с сайта французского правительства. Мне всегда нравится изучать этот сайт, так как он часто содержит ценные данные. Вы можете получить доступ к набору данных здесь:..

Машинное обучение — Смещение прогноза
Поймите предвзятость на конкретном примере Концепт В науке о данных и машинном обучении предвзятость относится к проблеме, с которой мы можем столкнуться и повлиять на производительность модели и прогнозов. Эту предвзятость легко понять, но трудно избежать, поскольку производительность модели во время обучения часто бывает хорошей. Таким образом, вы можете не увидеть видимых проблем. В этой статье я проиллюстрирую эту предвзятость на простом примере (построю контролируемую модель..

Выбор функций в машинном обучении | Важность выбора функций | МЛ
Что такое выбор функций? Выбор признаков — это процесс выбора подмножества соответствующих признаков (переменных, предикторов) из большего набора потенциальных признаков для использования в построении модели. Выбор признаков — важный аспект машинного обучения, поскольку он может повысить производительность модели за счет уменьшения сложности модели и уменьшения переобучения. Почему важен выбор функций? Выбор характеристик важен по нескольким причинам: Улучшенная..

«Как мы можем сделать данные правильными для анализа или избавиться от них»?
Меня всегда просили провести некоторый анализ данных, но перед тем, как проводить какой-либо анализ, меня беспокоило то, что данные, которые у меня были, были ли они релевантными или нет. Содержали ли они какие-либо ошибки, ошибка означает любые выбросы, экстремальные значения или отсутствующие значения . Поэтому, прежде чем проводить какой-либо анализ, я хотел быть уверенным, что данные, которые у меня есть, не содержат ошибок или уместны, чтобы сделать правильную или значимую..

Предварительная обработка текста в обработке естественного языка в Python
Прежде чем использовать текстовые данные для анализа или прогнозирования, необходимо выполнить предварительную обработку. Обработка естественного языка ( NLP ) — это раздел науки о данных, который занимается текстовыми данными. Прежде чем использовать текстовые данные для анализа или прогнозирования, необходимо выполнить предварительную обработку. Это важный шаг в процессе построения модели в проектах НЛП. При предварительной обработке мы должны выполнить следующее: Удалите..