С началом серии статей, посвященных искусственному интеллекту, делается попытка сделать эту тему более широко известной в сообществе. В первоначальной публикации кратко были описаны различные виды алгоритмов обучения, используемых для искусственного интеллекта, на приятном примере из реальной жизни — беспилотном транспортном средстве.

В данной статье этой теме уделено больше внимания из-за важности этих алгоритмов. Они образуют строительные блоки всего процесса машинного обучения. Чтобы обнаружить закономерности в больших данных, которые приводят к действенным выводам, ученые используют различные алгоритмы обучения. Эти алгоритмы можно разделить на две группы в зависимости от того, как они узнают о прогнозах данных: обучение с учителем и обучение без учителя.

Машинное обучение с учителем
Машинное обучение с учителем — это используется чаще всего. Алгоритмы, такие как линейная и логистическая регрессия, многоклассовая классификация и метод опорных векторов, составляют часть этой группы высокого уровня. Он называется контролируемым, потому что инженеры направляют алгоритмы и обучают их распознавать правила для входных данных, которые должны генерировать коррелирующие выходные данные. Требование для этого метода состоит в том, что все возможные выходные данные уже известны, а данные, используемые для обучения алгоритма, уже помечены правильными ответами, что предполагает наличие связи между входными и выходными данными.

В этом методе группы известны, а опыт, предоставляемый алгоритму, представляет собой отношения между реальными объектами и группой, к которой они принадлежат. Машине сообщают, кто есть что, значительное количество раз, а затем ожидается, что она предскажет это самостоятельно.

Наиболее распространенными формами контролируемого обучения являются:

  • Классификация
    В этом типе вывод должен быть дискретным, то есть либо «да», либо «нет». В некоторых случаях количество вариантов может увеличиться до двух.

    Пример: алгоритм классификации научится идентифицировать животных после обучения на наборе данных изображений, которые должным образом помечены видом животного. и некоторые отличительные признаки.
  • Регрессия
    Другой формой является проблема регрессии. В этом типе все, что нам нужно, это непрерывный вывод, который не должен быть дискретным.

    Возьмем пример анализа размеров домов на рынке недвижимости, чтобы спрогнозировать их цену. Это дает непрерывный выпуск, в котором цена является функцией размера.

Неконтролируемое обучение
С другой стороны, неконтролируемое машинное обучение более тесно связано с тем, что некоторые называют настоящим искусственным интеллектом — идеей о том, что компьютер может научиться идентифицировать сложные процессы и шаблоны без участия человека. давать указания в пути. Хотя неконтролируемое обучение сложно для некоторых более простых случаев использования, оно открывает двери для решения проблем, с которыми люди обычно не справляются.

В то время как контролируемый алгоритм классификации учится присваивать введенные метки изображениям животных, его неконтролируемый аналог будет смотреть на неотъемлемые сходства между изображениями и соответствующим образом разделять их на группы, присваивая каждой группе свою новую метку. Вот почему неконтролируемое обучение часто интерпретируется как синоним кластеризации. Этот метод используется, когда группы (категории) данных неизвестны. Он называется неконтролируемым, поскольку он остается на алгоритме обучения, чтобы выяснить закономерности в предоставленных данных.

В практическом примере этот тип алгоритма полезен для сегментации клиентов, поскольку он будет возвращать группы на основе параметров, которые человек может не учитывать из-за ранее существовавших предубеждений в отношении демографического распределения компании. Широко используемая форма неконтролируемого обучения, которая также многими интерпретируется как синоним, — это кластеризация.

  • Кластеризация
    Страница новостей Google использует этот тип машинного обучения, создавая отдельные кластеры. Страница группирует или группирует один тип новостей с разных сайтов и получает возможность помещать любые новые входные данные в соответствующий кластер. Благодаря этому всего на одной веб-странице можно найти множество новостных сайтов по связанным переменным, таким как частота слов, длина предложения, количество страниц и т. д. вычеркнуть их из рассмотрения.

Выбор контролируемого или неконтролируемого алгоритма машинного обучения обычно зависит от факторов, связанных со структурой и объемом ваших данных, а также от варианта использования рассматриваемой проблемы. Всесторонняя программа по науке о данных будет использовать оба типа алгоритмов для построения прогностических моделей данных, которые помогают принимать решения по различным бизнес-задачам.

CoinAnalyst
Технологическое решение CoinAnalyst активно использует обе методологии. В дополнение к анализу неструктурированных и необработанных наборов данных для создания классификации интеллектуальные алгоритмы обучаются различным видам терминов и классов слов, чтобы кластеризация также учитывала эти характеристики при выполнении своих процессов.

Идея плотности контента помогает алгоритмам точно классифицировать статьи, сообщения и любые другие публикации в социальных сетях в широком диапазоне доменов на крипторынке при оценке на основе набора данных достоверности уже правильно классифицированных классов данных. Это гарантирует, что технология сможет определить, к какому проекту относится, кто сделал публикацию и насколько надежен контент.

Начните с большого набора данных и дайте каждому элементу аннотацию, указывающую, относится ли этот элемент к определенной категории. Фактическая количественная оценка контента была выполнена с использованием другого существующего набора данных, содержащего большие списки слов, более или менее вероятно передающих контент (высокая плотность контента: «официальный», «успешный», «надежный», «многообещающий» и т. д.; низкий контент). плотность: «ложь», «вводит в заблуждение», «не стоит», «мошенничество»).

Таким образом, каждая статья, заявление или публикация получает балл. Эти оценки выполняются как автоматизированной системой (в основном), так и самими инженерами. В конце концов, мы получаем большое количество данных, помеченных как насыщенные контентом или нет, и это то, что передается алгоритму машинного обучения, который в основном строит собственное внутреннее представление о том, что является и не является плотным контентом.

Конечно, эту задачу можно расширить до более мелких уровней. В нашей следующей публикации мы углубимся в методы классификации текста и прогнозы на уровне тональности. Если вы когда-нибудь задумывались о том, как функционируют машины опорных векторов и байесовские сети в рамках методов машинного обучения с учителем, следите за новостями в следующей статье. Мы также предоставим вам некоторые «ранние сведения» об уже работающем продукте CoinAnalyst!

Первоначально опубликовано на medium.com 11 августа 2018 г.