Наборы данных машинного обучения

Мы создали ряд machine learning наборов данных, которые могут быть интересны профессионалам и студентам в этой области.

Вы можете увидеть наши текущие machine learning наборы данных по адресу https://datahub.io/machine-learning

Вступление

Машинное обучение - это наука, заставляющая компьютеры учиться так же, как люди, а также улучшать их способность учиться действовать без явного программирования. Он используется как общий термин для анализа вычислительных данных: использование данных для умозаключений и прогнозов. Он сочетает в себе вычислительную статистику, аналитику данных, интеллектуальный анализ данных и значительную часть науки о данных. Алгоритмы машинного обучения часто делятся на контролируемые и неконтролируемые («интеллектуальный анализ данных»).

Для получения дополнительной информации посетите: https://datahub.io/awesome/machine-learning-data

Пример набора данных

Используя столбцы в качестве входных данных, алгоритмы машинного обучения могут «научиться» предсказывать соответствующие выходные данные для любых входных данных.

Некоторые из наиболее известных алгоритмов контролируемого обучения включают в себя:

Нейронные сети
Наивный байесовский
K - ближайший сосед
Древо решений
Машины опорных векторов

Некоторые из наиболее известных алгоритмов обучения без учителя включают в себя:

Сканирование БД
К - означает

Все вышеперечисленные алгоритмы могут применяться к наборам данных, которые находятся под пользователем машинного обучения.

Доступные наборы данных

Некоторые интересные наборы данных, на которые вы можете взглянуть:

использование

Для тех, кто плохо знаком с наукой о данных и машинным обучением, вы можете погрузиться в анализ и попрактиковаться в наших подготовленных наборах данных. Нет необходимости изменять необработанные необработанные онлайн-данные, мы уже позаботились об этом.
Для тех, кто продвинулся в изучении машинного обучения, вы можете получить широкий спектр хорошо подготовленных наборов данных (в том числе хорошо известных), на которых вы можете попрактиковаться, чтобы вы могли улучшить и сосредоточить свои усилия на улучшении своего понимания.
Для практиков машинного обучения вы можете найти актуальные наборы данных, которые можно использовать для внедрения новейших классификаторов, чтобы вы могли вносить свой вклад в сообщество машинного обучения или создавать проекты для любой организации, с которой вы можете работать.

Начиная с машинного обучения, это будет показано в hepatitis наборе данных и на языке Python: https://datahub.io/machine-learning/hepatitis#python

Получение набора данных

Первым делом необходимо установить библиотеку пакетов данных:

pip install datapackage

Затем вам нужно получить набор данных с помощью «Импортировать в свой инструмент» (опция внизу страницы).

from datapackage import Package
package = Package('https://datahub.io/machine-learning/hepatitis/datapackage.json')
# print list of all resources:
print(package.resource_names)
# print processed tabular data (if exists any):
for resource in package.resources:
    if resource.descriptor['datahub']['type'] == 'derived/csv':
        print(resource.read())

Матрицы ввода и вывода

В наборе данных hepatitis последний столбец представляет атрибут класса, который содержит информацию о том, выжил пациент или умер.

Обозначим количество столбцов буквой m, а количество экземпляров буквой n.

Входная матрица будет содержать все элементы из всех столбцов, кроме класса, что означает, что ее размер будет n x m-1.

Выходная матрица будет содержать элементы из атрибута класса, и ее размер будет n x 1

Используя эти матрицы, вы сможете передать их в качестве параметра любому методу классификатора.

Резюме

Используя DataHub, вы можете легко получить нужные вам наборы данных и просто начать работать с ними без необходимых переборов с данными и сосредоточиться на создании алгоритмов машинного обучения. Надеемся, они будут вам полезны и интересны.

Если у вас есть вопросы, комментарии или отзывы, присоединяйтесь к нашему каналу чата или задайте вопрос в нашем трекере.

Первоначально опубликовано на datahub.io.