TL:DR: современная модель встраивания слов, которая подсчитывает, сколько апельсиновых мокко фраппучино вы можете себе позволить в месяц. Вроде того.

Апрель 2018: я написал это год назад, но забыл опубликовать.

Общая теория относительности

«Хотел бы я пройти курс общей теории относительности», — сказал мне Винченцо (доктор философии в области субъядерной физики), когда он потел над особенно сложной задачей, связанной с неконтролируемым алгоритмом кластеризации.

'Что? Вы не знаете общую теорию относительности? Я знаю общую теорию относительности благодаря Интерстеллар. Я могу это сделать, — ответил я в шутку.

'Нет. Я очень хорошо знаю специальную теорию относительности, занимаясь теоретической физикой».

Это мне сказали, и я снова сожалею, что не учился усерднее в школе. Или, может быть, даже учится.

Итак, почему мы говорим об общей теории относительности и тому подобном, что связано с ИИ (искусственным интеллектом, золотым мальчиком любой статьи LinkedIn)? Что ж, оказывается, для построения «моделей» в ИИ (по сравнению с машинным обучением) требуется больше, чем немного математики.

Зачем тебе это, дорогая?

Представьте, была большая куча данных, до которых Google не мог добраться. Он строго регламентирован и живет внутри чего-то, что рифмуется с Танком. Теперь вы, потребитель или даже владелец указанных данных, можете получить к ним доступ и, возможно, получить доступ ко всем из них от различных поставщиков финансовых услуг (ваш банк или приложение FinTech могут предлагать такие вещи).

Обновление: Open Banking появился в апреле 2018 года. Когда я что-то говорю, его еще мало используют.

Это объединение данных для вас как потребителя известно как агрегация (Йодли владеет этим пространством в настоящее время, но PSD2 и Open Banking, вероятно, проделают огромную дыру в своем рву и выведут всю воду), но я думаю, что это глупое слово. и на самом деле должно быть Сопоставление.

На примечании, по-видимому, сопоставление означает:

«Сортировка»

формальный

легкий неформальный ужин.

“обед состоял из салями, оливок и ржаного хлеба”

Я люблю Коллаж. Или Шведский стол.

Вернемся к данным, которые скрыты или защищены силовым полем регулирования или «данными, которыми мы, банк, не владеем и, следовательно, не должны предоставлять людям для просеивания или передачи на откуп Amazon’s Mechanical Turk».

Как можно было бы получить всю его замечательную, гранулированную ценность и совершать волшебные вещи, например, предсказывать будущий финансовый крах и делать соответствующие предложения:

— сократить расходы на «Апельсиновый мокко фраппучино»

— возможно, вечерние напитки в четверг составляют до 20 тысяч в год

— при ваших нынешних расходах на напитки с кофеином и вечерние махинации в четверг вы разоритесь через три месяца.

— радостная новость, вы можете позволить себе выпить четыре пинты и купить два фраппучино Orang Mocha Frappuccino раз в неделю, посещая с «другом» кино раз в месяц (включая две большие порции попкорна).

Похоже, это текущая тенденция использования финтех-приложений, которые очень зависят от способности осмысливать транзакции и лежащую в их основе атрибуцию расходов.

Итак, как создать список «Starbucks», «Tesco», «B&Q» * и других важных элементов, таких как способы оплаты, типы продуктов, валюта, географические объекты и т. д. и т. д., и сделать этот процесс повторяемым, с минимальным вмешательством человека и быстро?

*да, вы можете попытаться создать список, но этот список должен точно совпадать с тем, что выплевывается на вашу банковскую/кредитную карту ("starbucks" вместо этого может отображаться как "starbucks" или "strbucks"), но вы получить довольно ограниченные (дерьмовые) результаты, и это требует много работы для подготовки и поддержания. Я знаю, я был там и сделал это.

Более современный, но старый контролируемый подход к маркировке транзакций с последующим обучением модели статистического консенсуса на основе указанных меток требует следующего: (все данные + всетеги + >все ресурсы) = все время. Кроме того, в банковском деле нельзя увидеть, как вы отправляете эти данные для пометки (вы могли бы, но не должны, поскольку скоро окажетесь в аду GDPR). Зачем делать по-старому, если по-новому просто лучше?

Искусственный интеллект спешит на помощь

Это действительно очень неприятная проблема. В самой задаче нет никакой ценности, кроме алхимического эффекта, но она может стать бетонной стеной, которая постоянно мешает вам решить все проблемы Апельсинового мокко фраппучино (OMF) в будущем. Это почти так же сложно, как Сложная проблема (вообще не так).

Кроме того, если полученные метаданные неверны, ваш тщательно созданный «движок категоризации OMF» идентифицирует Beer как OMF, и вы будете выглядеть очень глупо. Итак, давайте возьмем машину и немного математической магии, чтобы уже решить проблему и перейти к более увлекательным занятиям, таким как расчет вероятности вашего следующего визита в Starbucks.

Представьте, что вы могли бы просто поместить мистера Робота (а не хакера-любителя опиума) в свою инфраструктуру, чтобы он считывал все данные и производил метаданные, описывающие, какие объекты сгруппированы вместе? Сделано в супермасштабе, для разных языков и типов банков.

{"продавцы": ['starbucks', 'tesco', 'b&q']}

Просто так*тысяча.

Так как? Вложения Word. Вот как! И в гиперболическом пространстве!

ЧТО ТАКОЕ ВЛОЖЕНИЯ ЭТОГО СЛОВА? В космосе? Немного сложности, если позволите.

По сути, мы запускаем то, что по сути является умной функцией совместного появления, кластеризации всех данных, чтобы расположить слова и их отношения. Например, Великобритания, Англия, Шотландия, Уэльс должны быть как можно ближе друг к другу с возможностью определения иерархии Великобритании и ее частей.

Использование этой конструкции по сравнению с классическим евклидовым пространством естественным образом строит древовидные структуры (иерархии).

После создания набора вложений слов мы запускаем автоматический (неконтролируемый) алгоритм кластеризации для создания кластеров связанных слов. Это может показаться простым, но опять же, нам нужен автоматизированный подход, чтобы мы могли пить флэт уайт без перерыва.

Именно здесь Общая теория относительности вызывала у Винченцо учащенное сердцебиение (а не кофеин), поскольку нам нужно вычислять и перемещать слова через указанное пространство, чтобы сойтись в кластеры. Легкий? Не так много, если вы знаете что-нибудь о K-Means

Выходы волшебного ящика

Краткая история: мы можем понять основную семантическую структуру и иерархию заданного набора трудно отображаемых полуструктурированных данных, а затем создать кластеры похожих слов. На самом деле может бытьна самом делепридется проделать некоторую работу старой школы и назвать кластеры, такие как "Продавцы", "Тип платежа", "Страны", "Местность", но это не должно не прерывайте свою жизнь слишком долго.

Еще более короткая история: нажмите кнопку, получите ответ. Иди возьми апельсиновый мокко фраппучино. Восторг.

Подача

Мы гордимся нашим небольшим решением очень сложной проблемы. Банки (FinTechs, InsureTechs, MomTech или любые другие технологии) могут извлечь выгоду, но есть много других проблем и проблем, которые можно решить, используя этот новый и смелый способ работы. Модель HyperSpace® (на самом деле не зарегистрированное имя) — это чудо и сексуальная привлекательность, но это ничто, если вы не можете развернуть ее и использовать в гневе.

Угадай, что!

Наша платформа превратит эту концепцию из академической задачи в полноценную, готовую к работе услугу на ваших серверах или у облачного провайдера в один миг!! Нет операционной модели SaaS, когда мы заставляем вас отправлять нам данные, создавать профили потребителей, которые мы продаем по самой высокой цене.

Запускайте модели в масштабе своей инфраструктуры, разрабатывайте собственные модели на платформе. Делайте умные вещи легко.

Как будто весь этот блог был создан, чтобы вызвать у вас благоговение и отправить вас к нам, чтобы вы стали частью нашей маленькой семьи платформы ИИ!

Если вам это нравится, не соглашайтесь или просто слегка озадачены тем, что, во имя Бога, мы пытаемся сделать. Напишите что-нибудь где-нибудь или напишите мне ([email protected])