Когда мы говорим о данных, мы обычно думаем о больших наборах данных с огромным количеством строк и столбцов. Хотя это вероятный сценарий, это не всегда так — данные могут быть в самых разных формах: структурированные таблицы, изображения, аудиофайлы, видео и т. д.

Машины не понимают свободный текст, изображения или видеоданные как таковые, они понимают единицы и нули. Так что, вероятно, будет недостаточно, если мы покажем слайд-шоу всех наших изображений и будем ожидать, что наша модель машинного обучения будет обучена только этим!

В любом процессе машинного обучения предварительная обработка данных — это этап, на котором данные преобразовываются или кодируются, чтобы привести их в такое состояние, в котором теперь машина может легко их анализировать. Другими словами, теперь алгоритм может легко интерпретировать особенности данных.

Предварительная обработка данных делится на 4 компонента:

  1. Интеграция данных
  2. Преобразование данных
  3. Сжатие данных
  4. Очистка данных