Публикации по теме 'data-preprocessing'
Чистый AutoML для «грязных» данных: как и зачем автоматизировать предобработку таблиц в машинном обучении
Как и зачем автоматизировать предварительную обработку таблиц в машинном обучении
В этом посте мы хотели бы обсудить такую известную и широко описанную тему, как предварительная обработка табличных данных в науке о данных. Вы спросите: «Зачем нам это нужно? Ничего нового не скажешь!» Действительно, что может быть тривиальнее табличной обработки данных для моделей машинного обучения? Но мы постараемся собрать как можно больше информации в одном полном руководстве и представить ее..
Запутался в вменении пропущенных значений! Вот подход к их вменению
Всем привет! мы все знаем, что заполнение пропущенных значений является важным шагом на этапе предварительной обработки данных. Но не всегда заменяя отсутствующие значения средним или медианным для непрерывных данных, а режим для категориальных данных может быть не всегда полезен и не всегда дает вам значимую информацию.
Для этого есть метод, который выбрать на основе процента отсутствующих значений в столбцах функций. Если процент отсутствующего значения меньше 50%, мы можем..
Вино, сыр и ватты: изучение энергетического ландшафта Франции
Вино, сыр и ватты: изучение энергетического ландшафта Франции
Сегодняшняя тема — энергопотребление во Франции, и, хотя это обширная тема, я представлю глобальный обзор, выделив некоторые ключевые моменты.
Для этого проекта я использовал набор данных с сайта французского правительства. Мне всегда нравится изучать этот сайт, так как он часто содержит ценные данные. Вы можете получить доступ к набору данных здесь:..
Машинное обучение — Смещение прогноза
Поймите предвзятость на конкретном примере
Концепт
В науке о данных и машинном обучении предвзятость относится к проблеме, с которой мы можем столкнуться и повлиять на производительность модели и прогнозов.
Эту предвзятость легко понять, но трудно избежать, поскольку производительность модели во время обучения часто бывает хорошей. Таким образом, вы можете не увидеть видимых проблем.
В этой статье я проиллюстрирую эту предвзятость на простом примере (построю контролируемую модель..
Выбор функций в машинном обучении | Важность выбора функций | МЛ
Что такое выбор функций?
Выбор признаков — это процесс выбора подмножества соответствующих признаков (переменных, предикторов) из большего набора потенциальных признаков для использования в построении модели. Выбор признаков — важный аспект машинного обучения, поскольку он может повысить производительность модели за счет уменьшения сложности модели и уменьшения переобучения.
Почему важен выбор функций?
Выбор характеристик важен по нескольким причинам:
Улучшенная..
«Как мы можем сделать данные правильными для анализа или избавиться от них»?
Меня всегда просили провести некоторый анализ данных, но перед тем, как проводить какой-либо анализ, меня беспокоило то, что данные, которые у меня были, были ли они релевантными или нет. Содержали ли они какие-либо ошибки, ошибка означает любые выбросы, экстремальные значения или отсутствующие значения . Поэтому, прежде чем проводить какой-либо анализ, я хотел быть уверенным, что данные, которые у меня есть, не содержат ошибок или уместны, чтобы сделать правильную или значимую..
Предварительная обработка текста в обработке естественного языка в Python
Прежде чем использовать текстовые данные для анализа или прогнозирования, необходимо выполнить предварительную обработку.
Обработка естественного языка ( NLP ) — это раздел науки о данных, который занимается текстовыми данными. Прежде чем использовать текстовые данные для анализа или прогнозирования, необходимо выполнить предварительную обработку. Это важный шаг в процессе построения модели в проектах НЛП.
При предварительной обработке мы должны выполнить следующее:
Удалите..