1. Что такое машинное обучение: -

1. Все в современном мире становится онлайн, и все обмениваются данными повсюду. Все мы являемся производителями и потребителями данных. Бывший. Супермаркеты производят товары, и миллионы покупателей покупают их. Они хотят знать о прогнозе клиентов. Не все покупают все наугад.

2. В данных есть определенные закономерности. Чтобы решить задачу на компьютере, нам понадобится алгоритм. Это последовательность инструкций, которые необходимо выполнить для преобразования ввода в вывод. Бывший. Можно разработать алгоритм сортировки входных данных как набора чисел, а выходных данных - их упорядоченного списка. Для одной и той же задачи могут быть разные алгоритмы, и мы можем быть заинтересованы в том, чтобы найти лучший ~ , требующий наименьшего количества инструкций или памяти, или и того, и другого.

3. Для некоторых задач у нас нет такого алгоритма, как «Поведение клиентов», «Спам-письма от законных писем».

4. Применение методов машинного обучения к большим базам данных называется интеллектуальным анализом данных. Большой объем данных обрабатывается для построения простой модели, которая будет полезна.

5. Машинное обучение - это не только проблема базы данных, но и часть искусственного интеллекта. Чтобы быть умной как система, которая в изменяющейся среде должна иметь способность учиться.

6. Распознавание образов: каждое лицо симметрично в зависимости от лица человека, которого оно может распознать.

7. Машинное обучение - это теория статистики при построении математической модели, поскольку основная задача - делать выводы на основе выборки.

2. Типы алгоритмов машинного обучения.

3. Учебные ассоциации

Изучите условную вероятность формы p (y | x), где y - это продукт, который нам нравится, условие на x. Бывший. Чтобы различать покупателя, p (y | x, D), где D - это атрибуты покупателя, т. Е. Пол, возраст, семейное положение и т. Д.

Правило ассоциации - это шаблон, который гласит, что когда событие происходит, другое событие происходит с определенной вероятностью. Это операторы if / then, которые помогают обнаружить взаимосвязи между несвязанными данными в репозитории данных, то есть найти взаимосвязи между объектами, которые часто используются вместе. Он находит весь набор предметов, поддержка которых превышает минимальную. Затем, используя более крупный набор элементов, сгенерируйте желаемые правила, уровень достоверности которых превышает минимальный уровень достоверности. Типичным и широко используемым примером применения ассоциативных правил является анализ рыночной корзины. Он должен одновременно удовлетворять заданному пользователем минимальному уровню поддержки и заданному пользователем минимальному уровню уверенности.

Бывший. Если покупатель покупает молоко, он также может купить хлопья. Если покупатель покупает планшет (iPad и т. Д.), Он также может приобрести чехол (чехол).

Правило: x = ›y

1. Поддержка = частота (x, y) / N

2. Уверенность = частота (x, y) / частота (x)

3. Подъем = опора / опора (x). поддержка (у)

4. Алгоритмы правил ассоциации

1. АИС

2. SETM

3. Априори

4. AprioriTid

5. Априорный гибрид

6. FP - Рост

7. Eclat

4.1. AIS

Это первый алгоритм, предложенный для изучения ассоциаций. В этом алгоритме создается только одно правило последовательного связывания элемента, что означает, что консеквент правил содержит один элемент, например: правило типа x ∩ y = ›z, но не правила типа x =› y ∩ z.

Шаги:

1. Базы данных сканировались много раз, чтобы получить набор часто используемых элементов. Чтобы сделать этот алгоритм более эффективным, был введен метод оценки.

2. Счетчик поддержки каждого отдельного элемента был накоплен во время первого прохода по базам данных на основе минимального количества элементов поддержки, которое должно было считаться меньше, чем его минимальные значения исключаются из списка элементов.

3. Кандидат 2 - наборы элементов создаются путем расширения частых наборов 1 - элементов другими элементами в транзакции. Во время этих операций количество поддержки для этих наборов из 2 элементов накапливается и проверяется на соответствие пороговому значению поддержки.

4. Сходство кандидата (k + 1) - элементы были созданы путем расширения частых наборов k - элементов элементами из той же транзакции.

5. Процесс генерации наборов элементов-кандидатов и генерации наборов частых элементов до тех пор, пока какой-либо из них не станет пустым.

Недостаток

Установлено слишком много элементов-кандидатов, поэтому требуется больше места и слишком много проходов по всей базе данных.

4.2. SETM

В SETM наборы элементов-кандидатов генерируются «на лету», когда базы данных сканируются, но подсчитываются в конце прохода. Он следует той же процедуре, что и алгоритм AIS. Но идентификатор транзакции (TID) генерирующей транзакции сохраняется с набором элементов-кандидатов в последовательной структуре.

Недостаток

SETM имеет тот же недостаток, что и алгоритм AIS. Другой недостаток состоит в том, что для каждого набора элементов-кандидатов существует столько записей, сколько он поддерживает значение.

4.3. APRIORI

Он используется для частого анализа наборов элементов и изучения правил ассоциации. Алгоритм использует k - itemset, которые используются для исследования (k + 1) - itemset для извлечения частых наборов элементов из баз данных транзакций для логических правил ассоциации.

В этом алгоритме частые подмножества расширяются по одному элементу за раз, и этот шаг известен как процесс генерации кандидатов. Затем группа кандидатов сравнивается с данными. Чтобы эффективно подсчитывать наборы элементов-кандидатов, он использует метод поиска в ширину и структуру хеш-дерева.

Он идентифицирует частые отдельные элементы в базах данных и расширяет их на все большие и большие наборы элементов до тех пор, пока эти наборы элементов появляются в базах данных достаточно часто.

Он определяет частые наборы элементов, которые можно использовать для определения правил ассоциации, которые выделяют общие тенденции в базах данных.

Этапы создания APRIORI

1. CIk = набор элементов-кандидатов размера k.

2. FIk = часто встречающийся набор элементов размером k.

3. FI1 = {частые товары};

4. FOR (k = 1; FIk! = null; k ++) действительно начинаются

5. CIk + 1 = кандидаты, созданные из FIk;

6. ДЛЯ каждой транзакции t в базе данных D выполните

7. Увеличьте значение счетчика всех кандидатов в

8. CIk + 1, содержащееся в t

9. FIk + 1 = кандидаты в CIk + 1 с минимальной поддержкой _

10. END

11. ВОЗВРАТ ФИК:

Недостатки APRIORI

Сложный процесс генерации кандидатов, который больше всего использует время, пространство и память. Это требует многократного сканирования баз данных.

4.4. АПРИОРИТИД

В этом алгоритме база данных не используется для подсчета поддержки наборов элементов-кандидатов после первого прохода. Процесс генерации кандидатов аналогичен алгоритму APRIORI. Создается другой набор «c», каждый член которого имеет TID каждой транзакции и большие наборы элементов, присутствующие в этой транзакции. ИТ используются для подсчета поддержки каждого набора элементов-кандидатов.

Преимущество перед APRIORI

Последний пропускает результат, если APRIORITID лучше, чем APRIORI.

4.5. АПРИОРИ ГИБРИД

Поскольку APRIORI лучше, чем APRIORITID в ранних передачах, а APRIORITID лучше, чем APRIORI в более поздних передачах. Новый алгоритм разработан на основе комбинации этих двух методов, чтобы получить лучшую производительность в обоих проходах.

4.6. FP - Рост

Чтобы преодолеть два недостатка APRIORI-алгоритма, используется алгоритм FP-роста, для которого требуется построить FP-Tree, для чего требуется два прохода.

Стратегия. В ней используется стратегия "разделяй и властвуй".

1. Сначала он вычисляет список часто используемых элементов, отсортированный по частоте в убывающем порядке (F-список) во время первого сканирования баз данных.

2. При втором сканировании базы данных рекурсивно сжимаются в FP-дерево.

Частые наборы элементов создаются всего за два прохода по базам данных и без какого-либо процесса генерации кандидатов.

Есть два подпроцесса генерации FP

1. Построение FP - дерева

2. Генерация частых паттернов из FP-дерева.

4.7. ECLAT

Это означает кластеризацию классов эквивалентности и обход решетки снизу вверх. Это наиболее эффективная и масштабируемая версия APRIORI. Он работает в вертикальном направлении - поиск в глубину. Вертикальный подход делает это быстрее, чем APRIORI.

5. Заключение

Из приведенных выше 7 алгоритмов обучения ассоциациям наиболее широко используются APRIORI, алгоритм FP - Tree.

6. Набор данных о бакалейных товарах - анализ рыночной корзины

6.1. APRIORI Подход

Шаги

1. Импорт и установка библиотек

Импортируйте необходимые библиотеки и установите apyori для правила ассоциации и pyfpgrowth.

2. Загрузить файл

Загрузите файл. Набор данных взят из Kaggle - анализа корзины продуктового рынка.

3. APRIORI - правило ассоциации

Из анализа ясно видно, что p (y | x, D) равно p (другие предметы | цельное молоко, TID клиента), то есть другие предметы, такие как другие овощи, булочки / булочки, йогурт, связаны с цельным молоком. Который был приобретен клиентами с идентификаторами транзакции 0, 8–12. Покупатели, покупающие овощи, предпочитают молоко, потому что это необходимый товар, который необходимо учитывать в каждой семье, которая сопровождает все.

6.2. FP - Подход дерева роста

Шаги

  1. Набор данных

2. FP - Правила ассоциации роста

3. Преобразование в массивы

FP - Дерево роста создается для указанных транзакций и наборов данных. В котором в основном яйцо ассоциируется с другими предметами.

использованная литература

Алпайдин, Е., 2014. Адаптивные вычисления и машинное обучение. В: Т. Диттерих, под ред. Введение в машинное обучение. Лондон: MIT Press, стр. 1–20.