Этот тип обучения является новым и является важной частью области машинного обучения. Мы используем этот тип обучения, когда у нас есть несколько размеченных данных и много неразмеченных данных в процессе обучения. Этот тип обучения находится между контролируемым и неконтролируемым обучением. Та часть, где у нас есть помеченные данные, попадает в контролируемый домен, а объем немаркированных данных попадает в неконтролируемый домен.

Получение размеченных данных очень дорого и требует много времени, в то время как получение неразмеченной информации легко и недорого. Использование неразмеченных данных с размеченными данными привело к значительному повышению точности обучения.

Таким образом, могут возникнуть ситуации, когда у нас есть небольшое количество размеченных данных и большое количество неразмеченных данных. Тогда в таких случаях мы не можем перейти ни к контролируемой, ни к неконтролируемой стратегии обучения. Так что в таких случаях нам на помощь приходит полууправляемое обучение. Мы можем значительно повысить точность и сэкономить время и усилия при маркировке каждой точки данных.

Аналогия.

На языке непрофессионала или словами, которые легко понять, полу-контролируемое обучение похоже на наблюдение за учеником в течение короткого промежутка времени, а затем позволяющее ему идти и бродить по полю самостоятельно.

Он решает задачи классификации. Это означает, что вам понадобятся некоторые контролируемые детали. Затем в то же время вы должны обучать модель на больших наборах неразмеченных данных, для чего вам нужна неконтролируемая часть машинного обучения.

Основная концепция состоит в том, чтобы сгруппировать разные точки данных в одних и тех же кластерах, а затем использовать контролируемое обучение для присвоения имен точкам данных или экземплярам в этих группах.

Например, предположим, что у нас есть набор данных из 1000 изображений различных транспортных средств. И у нас есть четыре категории, и 100 точек данных или экземпляров помечены именами этих категорий. Затем мы используем концепцию полуконтролируемого обучения. Во-первых, нам нужно создать кластеры изображений, содержащих одинаковые автомобили. Как только группа кластеров была сформирована с использованием подхода к обучению без учителя, вступает в игру задача обучения с учителем. Затем мы присваиваем имена различным коллекциям и, следовательно, нескольким экземплярам в этих кластерах. Таким образом, мы используем обучение с полуучителем для обучения модели с использованием обеих стратегий обучения, то есть обучения с учителем и обучения без учителя.

Обучение с подкреплением

В этой стратегии машинного обучения нас интересует, как агент максимизирует вознаграждение. В этом обучении есть несколько важных концепций, которые необходимо понять.

Первый — Агент.

Агент — это исполнитель действия — машина, которая выполняет действие в окружающей среде. Вся цель агента состоит в том, чтобы сделать вознаграждение максимальным, выполняя действия правильно. Если агент выполняет действие неправильно, то агент получает наказание, то есть вознаграждение уменьшается из общего хранилища вознаграждений агента.

Второй — Действие.

Это действия, которые агент выполняет в среде. Некоторые примеры: робот ходит, робот играет в теннис и т. д.

Третье — Окружающая среда.

Среда — это игровое поле для агента. Здесь он совершает действия. Среда может быть разной. Для игрового ИИ это игра. Для робота-швабры это дом, а для марсохода — Марс.

Четвертое — Награда.

Награда представляет собой достижение, увеличивающее счет агента. В процессе обучения непрерывно циркулируют награды. Агент пытается максимизировать вознаграждение, и он делает это так, чтобы его отношения встали. Примером вознаграждения может быть увеличение счета во время игры.

Пятое — состояние.

Состояние означает обновленную среду. Когда агент выполняет какое-либо действие в среде, среда обновляется. Эта обновленная среда возвращается агенту и называется состоянием.

Это использование этого типа обучения происходит, когда у нас нет данных для начала. В обучении с подкреплением агент начинает выполнять задачи, и если он выполняет задачи правильно, агент получает вознаграждение, а если он ошибается, его наказывают. Как и в приведенном выше примере, увеличение счета — это награда, а уменьшение — наказание.

Для аналогии, это как оставить человека в машине и сказать ему, чтобы он научился водить. Он будет учиться вождению самостоятельно, делая ошибки и исправляя их. Здесь наградой могут быть деньги. Если водитель не ошибется, он получит 1 доллар, а если ошибется, то даст 50 центов.

Выводы

Это четыре типа стратегий машинного обучения. Все алгоритмы машинного обучения попадают в одно из вышеперечисленных обучений. Они предлагают чрезвычайно значительное количество алгоритмов, которые могут быть реализованы. Мы обсудим их в следующих постах.

Если вам понравился контент, поделитесь им 🙂 , а если вы считаете, что контент нуждается в улучшении, пожалуйста, прокомментируйте ниже с предложениями.

Я аспирант из Кашмира в области компьютерных наук. В эти дни covid я обращаюсь к распространению информации о машинном обучении, которое является моей страстью и изучением будущего. Цель состоит в том, чтобы заставить людей понять и понять основные концепции машинного и глубокого обучения, которые имеют решающее значение для дальнейшего успеха в этой области.

Первоначально опубликовано на https://mlforlazy.in 29 апреля 2021 г.