Предварительная обработка, как следует из названия, — это обработка чего-либо до того, как оно будет использовано или передано в каком-либо сценарии. Таким образом, предварительная обработка данных означает обработку перед подачей данных в модель глубокого обучения. В каждой проблеме машинного обучения или другой проблеме, где нашим основным фактором являются данные, предварительная обработка данных играет важную роль, которая включает в себя нормализацию данных, масштабирование данных, изменение формы данных, увеличение данных, удаление выбросов из данных или удаление бесполезных точек из данных и т. д.

Методы предварительной обработки данных могут различаться в зависимости от предметной области, т. е. методы предварительной обработки данных изображения могут отличаться от методов предварительной обработки текстовых данных. Но в основном зависит от варианта использования.

Как правило, данные являются первым и одним из основных факторов, влияющих на производительность и точность моделей машинного обучения.

Зачем нам это нужно?

Иногда мы имеем дело с набором данных, который ранее не использовался и не настраивался с какой-либо моделью машинного обучения, и он исходит из реального мира, где данные и их понимание регулярно меняются. Здесь специалистам по данным или инженерам по данным необходимо будет понять и извлечь из данных информацию, а также сделать что-то, что можно будет интегрировать с данными реального мира. Но ❓
Модели машинного обучения не знают, что такое настоящие данные, они знают только машинный язык. Таким образом, в этом случае инженеру потребуется уточнить и очистить данные таким образом, чтобы их можно было обучить с помощью моделей машинного обучения, а затем легко использовать в реальном мире.

Различные методы предварительной обработки данных

Существует много методов предварительной обработки данных, и их использование зависит от перспективы проблемы. Ниже я обсудил основные методы предварительной обработки данных, которые могут помочь моделям машинного обучения изучать различные функции из данных.

Нормализация данных.Этот метод распространен и широко используется во многих задачах, в которых мы должны преобразовывать точки данных в определенный диапазон. то есть [0,1]. Модели машинного обучения, использующие евклидово расстояние, могут обеспечить наилучшие результаты при нормализации данных.

Изменение размера изображения. Этот метод иногда отмечается как необходимый, когда мы имеем дело с моделями классификации изображений и обнаружения объектов. Здесь нам нужно будет изменить размер изображения таким образом, чтобы его размеры соответствовали входному размеру модели машинного обучения.

Удалить значения Nan. Этот метод в основном используется в текстовых данных, когда некоторые значения Nan входят в данные. Либо нам нужно будет удалить их, либо нам нужно будет заменить их определенными значениями. Много раз мы заменяем эти значения на медиану или среднее значение всего столбца. ценить. Было замечено, что иногда это сильно влияет на наши результаты.

Удалить выбросы. Этот метод используется редко и в основном используется, когда в наших данных появляются некоторые значения, которые не слишком заметны или имеют ненормальный характер и влияют на наши результаты. Поэтому мы удаляем их для достижения лучших результатов.

Это все, что касается "Что такое предварительная обработка данных и зачем она нам нужна?". Вы можете попробовать эти методы на своих собственных данных.

Обо мне

У меня более 1,5 лет опыта работы в сфере разработки программного обеспечения. В настоящее время я работаю инженером-программистом, совершенствуя продукты и услуги для наших клиентов, используя розничную аналитику, внедряя аналитические инструменты для больших данных, создавая и поддерживая модели, а также внедряя новые привлекательные наборы данных. Раньше я был стажером по компьютерному зрению в The Spark Foundation, где я получил опыт анализа данных о зрении с различных платформ с открытым исходным кодом, например (kaggle, google images, open images и т. д.), а также для обучения различных моделей глубокого обучения. на этих данных.

Пожалуйста, не стесняйтесь оставлять комментарии ниже, если у вас есть какие-либо вопросы