Публикации по теме 'data-preprocessing'


Классификация текста - от набора слов до BERT - Часть 3 (fastText)
Эта история является частью серии Text Classification - From Bag-of-Words до BERT, реализующей несколько методов на Kaggle Competition под названием « Задача классификации токсичных комментариев » от Jigsaw (дочерняя компания Alphabet) . В этом конкурсе перед нами стоит задача построить многоголовую модель, способную обнаруживать различные типы токсичности, такие как угрозы, непристойность, оскорбления и ненависть на основе личных данных. Если вы не проверяли предыдущие..

Предварительная обработка данных в Python.
Здравствуйте, ребята, вы слышали, видели вышеприведенную терминологию предварительной обработки данных? Те, кто хочет стать Data Scientist или Data Wrangler, должны знать эту терминологию. Это самая важная часть машинного обучения, искусственного интеллекта, науки о данных, компьютерного зрения, глубокого обучения и т. д. Предварительная обработка данных: Это первый шаг к любым алгоритмам машинного обучения или любым алгоритмам. Поскольку алгоритмы принимают некоторые правильно..

Предварительная обработка данных: концепции
МАШИННОЕ ОБУЧЕНИЕ Предварительная обработка данных: концепции В современном мире данные действительно считаются ресурсом. Согласно Всемирному экономическому форуму, к 2025 году мы будем генерировать около 463 эксабайт данных во всем мире в день! Но подходят ли все эти данные для использования алгоритмами машинного обучения? Как мы это решаем? В этой статье мы рассмотрим тему предварительной обработки данных - преобразование данных таким образом, чтобы они стали машиночитаемыми .....

Предварительная обработка данных для машинного обучения
Большинству алгоритмов машинного обучения (ML) требуются предварительно обработанные данные в качестве входных данных для правильной работы и построения более точных моделей. Как правило, предварительная обработка данных помогает уменьшить объем анализируемых данных, создать дополнительные информативные функции, сделать сложные базовые зависимости и скрытые шаблоны явными, отбросить неинформативные необработанные сигналы и удалить шум. Предварительная обработка данных состоит из..

Прогнозирование временных рядов с помощью LSTM
Прогнозирование временных рядов с помощью LSTM Что такое временной ряд и что в нем особенного? Временной ряд представляет собой набор выборок, взятых через равные промежутки времени. Интересно анализировать их поведение в среднесрочной и долгосрочной перспективе, пытаясь выявить закономерности и иметь возможность прогнозировать, каким будет их поведение в будущем. Что делает временные ряды особенными, в отличие от «проблемы» регрессии, так это две вещи: 1- Это зависит от времени...

Что внутри данных!
Предварительная обработка, EDA и разработка функций Вы не поверите, но эта часть покрывает около 60–70% всей работы по машинному обучению! Я не буду здесь говорить о кодах, потому что считаю, что если вы знаете логику, найти код не так уж сложно, только то, как добраться до него, будет варьироваться от человека к человеку. Некоторые места, где можно получить коды, - это StackOverflow, Kaggle, Github или что-нибудь в Google, что помогает заставить эту логику работать! Вместо этого..

Нормализация против стандартизации
Узнать разницу между обоими и понять, когда их использовать? Масштабирование функций Необработанные данные могут содержать различные атрибуты, которые не находятся в одном масштабе. Например, различные количества, такие как доллары, килограммы и объем продаж. Многие методы машинного обучения более эффективны, если атрибуты данных имеют одинаковый масштаб. Двумя популярными методами масштабирования объектов являются нормализация и стандартизация . Масштабирование признаков —..