Поскольку мы начинаем органично развивать сообщество MILKit, важно, чтобы маркетинговое сообщение было ясным и точным. МОЛОКО. аббревиатура от Machine Intelligence Launch Knowledge, которая описывает нашу цель машинного обучения.

Утилита, которую мы создаем для криптосообщества, уникальна. Не просто еще одна метавселенная DEX, Swap, P2E, а жизненно важная утилита, помогающая защитить людей от мошенничества, обмана, ловушек и других опасностей блокчейна. Эта статья будет живым документом, который будет обновляться, чтобы включать ответы на вопросы, возникающие у сообщества.

Какова цель проекта MILKit?

MILKit стремится стать самой точной системой раннего предупреждения для обнаружения различных типов крипто-мошенничества в режиме реального времени. Используя современное машинное обучение, MILKit будет проверять все новые токены по мере их запуска, буквально в ту секунду, когда токен становится доступным для торговли.

MILKit будет получать соответствующие данные о токене с момента его создания в блокчейне.

Эти данные для обучения модели включают, помимо прочего: –

  • Какой кошелек отчеканил контракт?
  • Откуда взялись средства?
  • Кто предоставил ликвидность?
  • Являются ли эти кошельки или связанные с ними кошельки общими для предыдущих развертываний токенов?
  • Являются ли эти кошельки или связанные с ними кошельки общими для какого-либо предыдущего источника ликвидности?
  • Являются ли какие-либо держатели или кошельки, связанные с держателями на момент запуска, общими с предыдущими токенами?
  • Заблокирован ли LP токена?
  • Как долго он заблокирован?
  • Каково распределение токенов при запуске?
  • Существует ли кошелек разработчика и заблокирован ли он, если да, то на какой срок?
  • Договор проверен?
  • Насколько этот контракт похож на другие контракты, ранее созданные для блокчейна, и что мы знаем о предыдущих экземплярах этих похожих смарт-контрактов? Они коврики?

После того, как первоначальный прототип будет обучен и протестирован, объем сбора данных может быть расширен за счет включения других показателей из различных источников данных вне сети, таких как социальные сети.

Используя различные методы машинного обучения и большой объем тщательно отобранных данных, MILKit будет прогнозировать по каждому запуску новой пары токенов различные крипто-мошенничества, в том числе вытягивание ковров, насосы и свалки, приманки и т. д., в режиме реального времени.

В тех случаях, когда отчеты MILKit могут использоваться в судебных разбирательствах, требуется, чтобы модель машинного обучения была интерпретируема человеком. Интерпретируемость человеком требует другого подхода и ограничивает выбор алгоритмов.

Для того, чтобы вывод обученной модели считался криминалистическим и судебным допустимым:

  • Точность должна превышать 95%.
  • Модель должна быть интерпретирована человеком свидетелем-экспертом.

Кто конечные пользователи?

Существует два различных направления продаж и маркетинга продукта: бизнес для потребителя (B2C) и бизнес для бизнеса (B2B). Со стороны B2C конечным пользователем будут розничные инвесторы из криптосообщества.

На стороне B2B MILKit стремится сотрудничать с:

  • Централизованные биржи (CEX)
  • Поставщики криптоаналитики
  • Правоохранительные органы
  • Специалисты по крипто-юризму
  • Судебные бухгалтеры
  • Регуляторы

Со стороны B2C приложение будет обеспечивать мониторинг всех запусков токенов в режиме реального времени.

Что такое модель машинного обучения?

Модель машинного обучения — это файл, обученный распознавать определенные типы шаблонов. Вы обучаете модель на наборе данных, предоставляя ей алгоритм, который она может использовать для рассуждений и извлечения уроков из этих данных.

Вот краткое объяснение того, как работает машинное обучение менее чем за 10 минут.

Как команда MILKit планирует достичь цели?

К счастью, путь к сверхчеловеческой модели обнаружения мошенничества с блокчейном хорошо протоптан. Существует множество технологий с открытым исходным кодом, которые помогают ускорить процесс обучения, оптимизации и развертывания моделей машинного обучения, а технологическая группа MILKit вместе со своими партнерами по исследованиям в области ИИ имеют огромный опыт в этой области.

По крайней мере, 80% жизненного цикла машинного обучения и науки о данных включает в себя сбор и организацию данных, однако для фактического обучения и тестирования модели машинного обучения требуется всего несколько строк кода.

Точность модели

Чтобы модель считалась криминалистической, она должна быть точной не менее 95%.

Если вы когда-либо покупали токены у бота для новых пар Pancake Swap, вы уже знаете, что по крайней мере 99% всех новых пар являются мошенническими, в основном это приманки с несколькими серьезными проблемами, если вам повезет. Возможно, вы сможете получить прибыль в 2, 5, 20 или более раз, прежде чем токен упадет до нуля за одну красную свечу.

Учитывая дисбаланс от 99% до 1%, это, безусловно, означает, что точность 95% будет легкой. Если модель предсказывает, что каждая новая пара является мошенничеством, то мы уже на 99 % точны, верно?

К счастью, эта проблема была решена на заре существования поисковых систем исследователями информационного поиска (IR) как средство для лучшей оценки точности результатов поиска.

Мы используем показатели: точность и отзыв для измерения точности модели классификации машинного обучения.

Истинно положительный (TP) – количество прогнозов, в которых классификатор правильно прогнозирует положительный класс.

Истинно отрицательный (TN) – количество предсказаний, в которых классификатор правильно предсказывает отрицательный класс.

False Positive (FP) – количество прогнозов, в которых классификатор неправильно прогнозирует отрицательный класс.

False Negative (FN) – количество прогнозов, в которых классификатор неправильно прогнозирует положительный класс.

Теперь давайте посмотрим, как мы можем лучше измерить производительность, используя точность и полноту.

Точность. Какой процент положительных прогнозов был на самом деле положительным. Для расчета точности мы используем формулу: TP/(TP+FP).

Напомнить: какой процент всех положительных результатов правильно прогнозируется как положительный. Для расчета отзыва, также известного как доля истинно положительных результатов (TPR), мы используем следующую формулу: TP/(TP+FN).

Специфичность. Какая доля всех отрицательных значений правильно предсказана как отрицательная. Для расчета специфичности, также известной как истинно отрицательный показатель (TNR), мы используем следующую формулу: TN/(TN+FP).

Цель специалистов по данным — стремиться к точности, равной 1, и отзыву, равному 1, что составляет 100%, это достигается за счет минимизации ошибки.

Наша цель — достичь точности 95 % или выше в лабораторных условиях с использованием метода, называемого «перекрестная проверка». Подводя итог, перекрестная проверка использует образцы, ранее невидимые для модели машинного обучения, для проверки точности модели.

В юридическом, судебно-медицинском контексте перекрестная проверка будет тщательно изучена учеными данных, предоставленными группой юридической защиты.

Дополнительную информацию о перекрестной проверке можно найти здесь и здесь, а также прочитать о компромиссе смещения и дисперсии здесь и здесь.

Цепочка хранения доказательств

В судебном деле, основанном на данных, может рассматриваться конвейер данных от необработанных данных блокчейна и подготовленных данных DEX до окончательной обученной и протестированной модели. как «цепочка хранения доказательств».

Процесс должен быть задокументирован, воспроизведен и интерпретирован третьими сторонами. Оно должно выдержать проверку группой экспертов по защите, а свидетели-эксперты должны быть устойчивы к перекрестному допросу.

Интерпретируемость человека

Юриспруденция — уникальный пример использования машинного обучения. В суде адвокаты и свидетели-эксперты обязаны представлять свои дела судье, для этого требуется, чтобы доказательства были представлены в устной форме с подтверждающими документами.

Для получения дополнительной информации о интерпретируемом и неинтерпретируемом машинном обучении см.: Большие дебаты об ИИ — NIPS2017 — Ян ЛеКун.

Это требование исключает из таблицы некоторые подходы к машинному обучению, в частности, глубокие нейронные сети, также известные как глубокое обучение. Для получения дополнительной информации о глубоком обучении см. Джеффри Хинтон: Основы глубокого обучения. Тем не менее, ограничение подхода семейством интерпретируемых моделей не будет проблемой в отношении производительности, поскольку количество обучающих примеров, требуемых моделью глубокого обучения, было бы непрактичным.

Когда машинное обучение MILKit?

Мы начали собирать примеры из недавно запущенных пар на Pancake Swap для первоначального изучения, чтобы понять фактический баланс между законными проектами и мошенническими токенами.

Ожидается, что этап сбора и маркировки данных в проекте займет не менее 80% времени прототипирования модели. Первоначальная обученная модель будет повторяться с использованием различных алгоритмов, пока не будет выбран оптимальный подход. Это станет эталоном перед началом конкурса по науке о данных на Kaggle.com.

Kaggle, дочерняя компания Google LLC, представляет собой интернет-сообщество специалистов по обработке и анализу данных и специалистов по машинному обучению. Kaggle позволяет пользователям находить и публиковать наборы данных, исследовать и создавать модели в веб-среде обработки и анализа данных, работать с другими специалистами по данным и инженерами по машинному обучению, а также участвовать в соревнованиях по решению задач, связанных с наукой о данных.

Kaggle начал свою деятельность в 2010 году, предлагая соревнования по машинному обучению, а теперь также предлагает общедоступную платформу данных, облачную рабочую среду для науки о данных и обучение искусственному интеллекту. Его ключевыми сотрудниками были Энтони Голдблум и Джереми Ховард. Николас Грюн был учредителем, его сменил Макс Левчин. В 2011 году был привлечен капитал, в результате чего компания оценивается в 25,2 миллиона долларов. 8 марта 2017 года Google объявила о приобретении Kaggle.
– ВИКИПЕДИЯ

Постоянное обучение

Первоначальные наблюдения из собранных данных показывают, что мошенничество с токенами является движущейся целью, появляются новые методы, которые все больше оптимизируются для психологического воздействия (чтобы максимизировать FOMO) и запутать мошенничество, чтобы оно выглядело законным.

Модель требуется для быстрого изучения новых закономерностей в данных. Поскольку новые данные поступают каждый день, модель будет ежедневно переобучаться с использованием данных после того, как они будут помечены.

9 из 10 ковров

Большинство вытягиваний ковров (по объему) вытягивают ковер в течение первого часа, однако это не всегда так. Некоторые мошенничества с токенами могут занять дни, недели или даже месяцы, прежде чем ковер будет раскрыт.

Система маркировки на основе правил будет отслеживать цену и LP каждого токена с ежедневными интервалами, чтобы гарантировать, что данные обучения будут максимально точными даже в таких случаях. Ожидается, что это постоянное переобучение модели и обновление обучающих данных будет постоянно повышать точность прогнозов модели.

Положи свои деньги туда, где твой рот

По мере того, как MILKit создает большую базу данных известных кошельков и данных о ценах, мы также ожидаем, что сможем с высокой точностью изучать поведение мошенников, не только выявлять мошенников, но и предсказывать поведение повторных мошенников. Это даст MILKit возможность автоматически торговать определенными мошенническими токенами, покупая их в момент запуска и продавая в оптимальной точке выхода до того, как ожидается, что токен исчезнет.

Комбинация ожидаемого времени ожидания и доверительного интервала позволяет нам автоматизировать как торговлю, так и оптимизировать управление банкроллом с помощью критерия Келли.

В теории вероятностей критерий Келли (или стратегия Келли или ставка Келли) представляет собой формулу, которая определяет оптимальный теоретический размер ставки. Он действителен, когда известна ожидаемая доходность. Размер ставки Келли находится путем максимизации ожидаемого значения логарифма богатства, что эквивалентно максимизации ожидаемого геометрического темпа роста. Он был описан Дж. Л. Келли-младшим, исследователем из Bell Labs, в 1956 году. Этот критерий также известен как научный метод азартных игр, поскольку в долгосрочной перспективе он приводит к большему богатству по сравнению с любой другой стратегией (т. е. теоретическая максимальная прибыль как количество ставок стремится к бесконечности).

Практическое использование формулы было продемонстрировано для азартных игр, и та же идея использовалась для объяснения диверсификации в управлении инвестициями. В 2000-х годах анализ в стиле Келли стал частью основной теории инвестиций, и было сделано заявление о том, что известные успешные инвесторы, включая Уоррена Баффета и Билла Гросса, используют методы Келли. Уильям Паундстоун написал обширный популярный отчет об истории ставок Келли.

ВИКИПЕДИА: https://en.wikipedia.org/wiki/Kelly_criterion

Ожидается, что эта информация будет ценной и привлекательной для розничных трейдеров, ищущих предсказуемые краткосрочные торговые возможности.

Гипердефляционная бизнес-модель

Как и во многих приложениях-агрегаторах блокчейна, требование к пользователям хранить долларовую сумму в долларах США MILK гарантирует, что цена будет расти пропорционально активным пользователям приложения за счет удаления токенов из доступного предложения.

Продолжение следует…