Публикации по теме 'data-engineering'


Навыки управления данными
Мой друг задал мне интересный вопрос о том, какие навыки стоит изучить специалистам по управлению данными и как построить дорожную карту . Фактически, этот вопрос заставил меня задуматься, потому что у меня в голове не было четкой картины. Это просто мои мысли по теме и по большей части я просто размышляю о текущем состоянии и будущем управления данными. Предпосылки Вначале, как и в любой другой области, есть базовые вещи, которые должен знать любой инженер-программист. Короче..

7 «запахов» MLO, которые говорят о том, что ваш процесс машинного обучения воняет
Плохие методы и другие симптомы в процессе машинного обучения, указывающие на более глубокую проблему. Запахи кода - это распространенный способ выявления скрытых проблем в вашем коде с помощью проверки на уровне поверхности. Вот несколько практик, которые показывают похожие запахи в процессе машинного обучения. Они увеличивают вероятность скрытых ошибок в вашей практике машинного обучения в долгосрочной перспективе. Вы напрямую управляете артефактами модели. После завершения..

Качество данных: обнаружение аномалий, работающее с ThirdEye
Создание системы обнаружения аномалий похоже на хождение по канату. Слишком много ложных срабатываний: предупреждения никто не проверяет. Слишком много ложноотрицательных результатов: время, сэкономленное на полезных предупреждениях, не стоит времени, потраченного на обслуживание системы. В обоих случаях вы не оправдываете ожиданий. В предыдущей статье мы рассказали, как мы используем ThirdEye для обнаружения и анализа нарушений качества данных на тысячах таймсерий. Мы..

Mighty P машинного обучения
Значение p-value в машинном обучении. День очень приятный. Чтобы узнать что-то новое в своем путешествии по машинному обучению, вы начинаете изучать множественную линейную регрессию. Но еще до того, как вы начнете, вы сталкиваетесь с загадкой, называемой p-значением . Этот термин заставит вас пройти курс математики в средней школе, и даже по прошествии значительного количества времени вы не поймете его значения. Но это очень важная концепция, связанная с обучением вашей модели...

Как я повысил производительность при получении больших данных с помощью S3-Select
Осмысление больших данных Как я повысил производительность при получении больших данных с помощью S3-Select Как эффективно извлекать данные с помощью S3-select и чем он отличается от Amazon Athena Недавно я наткнулся на функцию S3, которая особенно полезна при работе с большими данными. Вы можете написать простой запрос SQL, чтобы выбрать определенные столбцы и отфильтровать определенные строки, чтобы получить только те данные, которые вам нужны для вашего приложения. В этой..

Индустриализация модели машинного обучения с использованием Airflow и Apache BEAM
Вступление Рабочий процесс модели машинного обучения состоит из следующих шагов, изображенных на схеме ниже. В этой статье будет обсуждаться индустриализация фазы вывода (белые прямоугольники выше) с использованием воздушного потока для планирования нескольких задач и Apache BEAM для применения модели, которая уже обучена, ко всем точкам данных. . Некоторый контекст Я инженер по обработке данных, и одна из моих миссий - запустить модели машинного обучения в производство,..

Пересчет системы обнаружения машинного обучения по прошлым атакам (часть 1)
Разработка продукта машинного обучения для кибербезопасности сопряжена с уникальными проблемами. Для некоторой предыстории, продукты Abnormal Security предотвращают атаки на электронную почту (например, фишинг, компрометацию корпоративной электронной почты, вредоносное ПО и т. Д.), А также идентифицируют учетные записи, которые были захвачены. Эти атаки представляют собой хитроумные попытки социальной инженерии, направленные на кражу денег (иногда в миллионах) или получение доступа к..