Когда мы говорим о данных, мы обычно думаем о больших наборах данных с огромным количеством строк и столбцов. Хотя это вероятный сценарий, это не всегда так — данные могут быть в самых разных формах: структурированные таблицы, изображения, аудиофайлы, видео и т. д.
Машины не понимают свободный текст, изображения или видеоданные как таковые, они понимают единицы и нули. Так что, вероятно, будет недостаточно, если мы покажем слайд-шоу всех наших изображений и будем ожидать, что наша модель машинного обучения будет обучена только этим!
В любом процессе машинного обучения предварительная обработка данных — это этап, на котором данные преобразовываются или кодируются, чтобы привести их в такое состояние, в котором теперь машина может легко их анализировать. Другими словами, теперь алгоритм может легко интерпретировать особенности данных.
Предварительная обработка данных делится на 4 компонента:
- Интеграция данных
- Преобразование данных
- Сжатие данных
- Очистка данных