Публикации по теме 'data-quality'


Почему я присоединился к Validio в качестве первого коммерческого сотрудника
Почему я присоединился к Validio в качестве первого коммерческого сотрудника Присоединение к команде высокопроизводительных инженеров +15 в качестве первого коммерческого найма было волнующим, образовательным, интеллектуально стимулирующим и, не буду лгать, иногда немного ошеломляющим (вы все знаете, как проходят первые недели на новой работе). Но кто я? Меня зовут Ричард, и я недавно присоединился к Validio в качестве руководителя стратегии роста и коммерческой деятельности,..

MAGI: платформа машинного обучения ViaHub
Автор: Team MLOps Введение В мире, где количество моделей машинного обучения растет в геометрической прогрессии, важность платформы, сопровождающей весь ее жизненный цикл, становится все более необходимой, особенно в компаниях с несколькими продуктивными моделями машинного обучения. Когда мы говорим о моделировании и развертывании, мы сталкиваемся с чем-то еще более сложным, поскольку каждая модель имеет уникальные требования к обработке, обучению, внедрению, мониторингу и..

Качество данных с Apache NiFi
Качество данных должно быть в центре внимания каждого центра разработки данных. «Мусор на входе, мусор на выходе» - это принцип, по которому каждая команда инженеров данных должна жить и стремиться предоставлять данные высочайшего качества для целей аналитики и машинного обучения. При этом поддерживать качество данных легче сказать, чем сделать. Из-за множества источников, отправляющих данные с переменной скоростью и с переменными форматами, становится невозможным отследить, какой..

Почему очистка данных подводит ваши модели машинного обучения  — и что с этим делать
Для точности модели машинного обучения одной очистки данных недостаточно. Беспорядочная среда данных порождает небрежную науку о данных. Вот почему. Эта статья написана в соавторстве с исследователями данных Райаном Кернсом и доктором наук Элором Ариэли. Точные усилия должны быть предприняты в соответствии со строгими стандартами в чистой среде. Хирурги работают, ракетчики работают в чистых помещениях, а специалисты по данным… ну, мы стараемся изо всех сил. Мы все слышали..

Как использовать Ydata-Profiling с API Great Expectations V3
Почти все задачи машинного обучения зависят от данных в той или иной форме. Чтобы генерировать высококачественные данные, командам специалистов по обработке и анализу данных необходим прямой доступ к данным и четкое понимание каждого актива данных. Качество данных является неотъемлемой частью успешного развертывания моделей машинного обучения. В Provectus мы понимаем важность качественных данных . В нашей структуре качества данных мы используем комбинацию Pandas Profiling (PP) для..

Все начинается с качества данных
В этом посте я хочу обсудить вопрос (по крайней мере, для меня) первостепенной важности - качество данных . Новые алгоритмы машинного обучения, их оценка и оптимизация, конечно, полезны и доставляют удовольствие, но если вы примените отличный алгоритм к зашумленным, грязным или поврежденным данным, не ожидайте, что он вернет отличные результаты. В двух эпизодах блестящих передач обсуждается эта проблема, среди прочего, например, осведомленность общественности о машинном обучении, как..

«Розеттский камень»  — «Самый важный образец текста в истории и роль размеченных данных в…
Представьте, что вы открываете утреннюю газету и смотрите на набор символов и символов. И ты понятия не имеешь, что все это может означать. К счастью, это не так. Мы все были обучены преобразовывать последовательность символов в значение. Нас учили читать. Это неявно предполагает, что а) существуют известные правила преобразования текста в понятные сообщения и б) мы знаем об этих правилах. В более аналитическом смысле мы изучили эти правила в прошлом и используем их в механизме..