Публикации по теме 'data-preprocessing'


Понять закономерности в данных
Следующий шаг после импорта данных В моем предыдущем блоге я вкратце объяснил, как очистить данные, выполнить EDA (исследовательский анализ данных) и что такое базовая разработка функций. Допустим, вы выполнили read_csv и импортировали данные. Что дальше? Следующая важная вещь, о которой нужно поговорить, - это то, как мы можем понять и проанализировать различные шаблоны в нашем наборе данных. Это поможет нам решить несколько вопросов: a. Это поможет нам понять, сколько..

Путешествие в мир науки о данных….
Я проработал в ИТ около 15 с лишним лет, в первую очередь в сфере разработки приложений, поэтому лично у меня никогда не было возможности работать в сфере машинного обучения / искусственного интеллекта / науки о данных. Но я уже много лет сильно интересуюсь машинным обучением, искусственным интеллектом и наукой о данных. Несколько лет назад я пытался учиться самостоятельно, но у меня не получалось. В последнее время мой десятилетний сын Санник проявил интерес к Java / Golang / AWS, следуя..

Применение методов выбора признаков в задаче регрессии
Примеры выбора функций и оптимизации в Python После множества звонков администраторам данных для получения наиболее полезных данных по различным каналам и платформам обогащения данных вы, как специалист по данным, завершили сбор данных. Теперь у вас есть обширный набор данных для навигации. Чтобы оптимизировать компромисс между временем вычислений, производительностью и интерпретируемостью, вам нужно только включить наиболее релевантные столбцы в вашу модель машинного обучения. На этом..

Влияет ли коллинеарность признаков на соответствие модели?
В контексте линейной регрессии — геометрическое понимание Абстрактный: Наше предположение состоит в том, что коллинеарность признаков в контексте линейной регрессии не сильно влияет на соответствие. Однако это делает коэффициенты соответствия чрезвычайно неопределенными и, следовательно, отрицательно влияет на интерпретируемость модели. Мы проверим это предположение, а затем также приведем обоснование того, почему это так. Обоснование будет содержать геометрическое понимание..

Система отслеживания заявок и прогнозирования карьеры
Система отслеживания заявок и прогнозирования карьеры (ATCPS) автоматизирует весь процесс найма и помогает вашим рекрутерам без проблем принимать на работу лучших первоклассных кандидатов. Согласно недавнему отчету Software Advice, почти 26% рекрутеров заявили, что использование системы отслеживания кандидатов является одним из основных факторов, способствующих соискателям, имеющим хороший опыт работы с кандидатами. Помимо простоты, предоставляемой рекрутерам, ATCPS также помогает..

Как предотвратить утечку данных?
Утечка данных в машинном обучении — это очень плохо, поэтому, прежде чем разбираться, как предотвратить, давайте посмотрим, почему это происходит. Предварительная обработка данных — это первый и решающий шаг в машинном обучении. Это следующие этапы: Сбор данных. Выявление недостающих данных и обработка их. Кодирование категорийных данных, если они есть. Разделение данных на наборы данных для обучения и тестирования. Масштабирование функций. Поэтому масштабирование функций..

Изучение несбалансированных данных
Большинство руководств по машинному обучению работают с наборами данных, встроенными в библиотеки, такие как Tensorflow или Pytorch. Эти наборы данных отлично подходят для понимания концепций данного алгоритма. Но все мы знаем, что такие данные далеки от того, что мы видим, работая над проблемами реальной жизни. В реальной жизни огромное количество усилий вкладывается в обработку доступных данных для извлечения полезного, значимого набора данных, который может обучать модели ИИ. При..