Раньше масштабирование моделей машинного обучения отнимало много времени. На примере аналитики мошенничества в этом посте показано, как комбинация Spark 3.0 с графическими процессорами NVIDIA делает это возможным с очень небольшим изменением кода.

Возможность — искра

Apache Spark — это невероятная инфраструктура для унифицированного крупномасштабного горизонтально масштабируемого приема данных, обработки данных и машинного обучения. Он легко масштабируется до сотен узлов и может обрабатывать практически любые типы преобразования корпоративных данных и вычислительную нагрузку. Но в некоторых приложениях масштаб данных настолько огромен, что обработка данных эффективным, экономичным и своевременным образом чрезвычайно затруднена.

Вызов — время

Аналитика мошенничества, особенно в отношении данных банковских переводов, которые известны своей сложностью, является одной из таких проблем. Банковский перевод не всегда идет из банка А в банк Б. Он часто проходит через глобальную сеть банков, поэтому, хотя банк С может не быть получателем банковского перевода, он может быть участником транзакции в качестве посредника. Риск заключается в том, что как только любой банк переводит деньги на любой счет в рамках (пока не классифицированного) мошеннического перевода, он теперь несет ответственность.

Записи о банковских переводах содержат огромное количество неструктурированной информации, которую можно извлечь, очистить и классифицировать. Но для обеспечения эффективной аналитики мошенничества эти внутренние данные должны быть объединены с наборами внешних данных почти в режиме реального времени.

Представьте возможности

Что, если бы вы могли сделать свои существующие задания Spark достаточно быстрыми, чтобы предотвратить мошенничество, не переписывая их? Один из способов сделать это — использовать последнюю версию Spark вместе с набором программных библиотек NVIDIA RAPIDS. Это обеспечит сквозные конвейеры данных, которые полностью выполняются на графических процессорах. Инжиниринг данных в режиме реального времени теперь возможен, поскольку RAPIDS включает знакомый API Dataframe для преобразования крупномасштабных данных. Это, в сочетании с многоузловой инфраструктурой с несколькими графическими процессорами, обеспечит сверхускоренное преобразование данных в масштабе, который ранее был слишком дорогим и сложным. Этот новый найденный масштаб сделает невозможное возможным и, что более важно, поможет предотвратить мошенничество с использованием электронных средств связи.