Примечания к полю данных

Резюме

«Качество данных относится к состоянию набора значений качественных или количественных переменных». В то время как каждая фирма и человек, с которыми я встречался на протяжении многих лет, хотят внедрить или уже внедрили аналитику данных в свой бизнес, мне кажется странным, что качество данных — это тема, которая редко всплывает во время разговоров. Качество данных — единственный лучший фактор, обеспечивающий низкий уровень ошибок при составлении отчетов и принятии количественных решений. Позвольте мне объяснить себя.

Шкала зрелости данных

В народном воображении ИИ и продвинутое машинное обучение являются вершиной иерархии данных. Но в реальной жизни есть и другие формы анализа данных, которым не уделяется такого же внимания. ETL, стохастическое моделирование, A/B-тестирование сегодня более распространены и являются основными целями, которые в будущем будут заменены AI/ML.

Ниже приводится мой взгляд на иерархию Данных Маслоу на предприятии.

Качество данных — основа

Знание ваших данных повлияет на то, как вы их используете, и на уверенность в результатах анализа. Более 80 % организаций не смогут достичь практических целей в области ИИ из-за недостаточного качества данных.

Качество данных в банках

В эпоху после CCAR во многих крупных компаниях, предоставляющих финансовые услуги, работала большая группа по обеспечению качества данных. Регуляторное давление привело к увеличению числа обращений к качеству данных. Можно привести аргументы в пользу и против такого подхода. Для целей этой статьи я сосредоточусь не столько на оптимальном размере команды, сколько на методах и методах, которые можно настроить. Размер команды в любом квазитехническом наборе функций не является точной наукой.

Виды проверок качества данных

Есть несколько методов, которые можно использовать для понимания пригодности данных. Ниже приведены лишь несколько примеров:

· Выборочные проверки электронной таблицы на ощупь. Аналитик или даже разработчик программного обеспечения обычно открывает необработанный файл и бегло просматривает данные. Достоинства: Просто, Быстро. Минусы: очень ручной, повторяющийся, не поддающийся количественной оценке.

· Конец дня высокого уровня Stats для ночных работ. Как правило, процесс передачи файлов по FTP или обработки необработанных данных создает базовую статистику, такую ​​как проверки размера файла или пометки для «неудачных» файлов. Плюсы: Легко. Минусы: Не очень информативно.

· Автоматизированные информационные панели с качеством данных. Оперативная или пакетная обработка данных Проверка качества исходных данных. Плюсы: Высокая рентабельность, систематичность. Минусы: требуются технические навыки, требуются предварительные инвестиции в технологии.

Инструменты качества данных

Назвать несколько:

1) Collibra для хранения результатов качества данных, совместной работы и отчетности

2) Trifacta отлично подходит для автоматизации проверок DQ и является отличным инструментом анализа данных, особенно для среды больших данных.

3) Alteryx для настройки конвейеров данных с проверками DQ

4) Tableau, Qlik для дашбордов и подготовки данных

5) Мулсофт

6) Оракл Аналитика

Инвестиции в качество данных как путь к расширенной аналитике

Работа, проделанная для достижения автоматизированного качества данных, также может предоставить технические артефакты для мощной аналитики и информационных панелей Tableau. Правильно выполненная программа качества данных не требует затрат.

Проблемы реализации качества данных

Многие программы качества данных не достигают заявленной цели. Основной причиной этого являются нереалистичные ожидания. Процесс обеспечения качества данных может быть очень простым и не требующим больших затрат. Пока данные могут быть получены, даже простые макросы на основе Excel с использованием образцов данных могут быть хорошим началом для большинства организаций. При построении простых правил и эвристик DQ рекомендуются небольшие шаги, которые можно улучшить. Существует множество готовых продуктов, которые можно подключить к большинству основных источников данных.

Почему качество данных так важно для расширенной аналитики

Алгоритмы — это классический механизм «мусор в мусоре» в корпоративной архитектуре. Пропущенные значения или неправильная интерпретация кодов могут значительно увеличить количество ошибок для правил сегментации, корреляционных и стохастических моделей. Некоторые модели менее чувствительны к чистоте данных и больше подходят для случаев, когда качество данных низкое.

Ясир Али