Мы создали ряд machine learning
наборов данных, которые могут быть интересны профессионалам и студентам в этой области.
Вы можете увидеть наши текущие machine learning
наборы данных по адресу https://datahub.io/machine-learning
Вступление
Машинное обучение - это наука, заставляющая компьютеры учиться так же, как люди, а также улучшать их способность учиться действовать без явного программирования. Он используется как общий термин для анализа вычислительных данных: использование данных для умозаключений и прогнозов. Он сочетает в себе вычислительную статистику, аналитику данных, интеллектуальный анализ данных и значительную часть науки о данных. Алгоритмы машинного обучения часто делятся на контролируемые и неконтролируемые («интеллектуальный анализ данных»).
Для получения дополнительной информации посетите: https://datahub.io/awesome/machine-learning-data
Пример набора данных
Используя столбцы в качестве входных данных, алгоритмы машинного обучения могут «научиться» предсказывать соответствующие выходные данные для любых входных данных.
Некоторые из наиболее известных алгоритмов контролируемого обучения включают в себя:
- Нейронные сети
- Наивный байесовский
- K - ближайший сосед
- Древо решений
- Машины опорных векторов
Некоторые из наиболее известных алгоритмов обучения без учителя включают в себя:
- Сканирование БД
- К - означает
Все вышеперечисленные алгоритмы могут применяться к наборам данных, которые находятся под пользователем машинного обучения.
Доступные наборы данных
Некоторые интересные наборы данных, на которые вы можете взглянуть:
- Сейсмические удары
- Гепатит
- Рак шейки матки
- Первичная опухоль
- Плодородие
- "Рак молочной железы"
- Быстрые знакомства
- "Дерматология"
- Лимфа
- Крестики-нолики
- Состояние глаза ЭЭГ
использование
- Для тех, кто плохо знаком с наукой о данных и машинным обучением, вы можете погрузиться в анализ и попрактиковаться в наших подготовленных наборах данных. Нет необходимости изменять необработанные необработанные онлайн-данные, мы уже позаботились об этом.
- Для тех, кто продвинулся в изучении машинного обучения, вы можете получить широкий спектр хорошо подготовленных наборов данных (в том числе хорошо известных), на которых вы можете попрактиковаться, чтобы вы могли улучшить и сосредоточить свои усилия на улучшении своего понимания.
- Для практиков машинного обучения вы можете найти актуальные наборы данных, которые можно использовать для внедрения новейших классификаторов, чтобы вы могли вносить свой вклад в сообщество машинного обучения или создавать проекты для любой организации, с которой вы можете работать.
Начиная с машинного обучения, это будет показано в hepatitis
наборе данных и на языке Python: https://datahub.io/machine-learning/hepatitis#python
Получение набора данных
Первым делом необходимо установить библиотеку пакетов данных:
pip install datapackage
Затем вам нужно получить набор данных с помощью «Импортировать в свой инструмент» (опция внизу страницы).
from datapackage import Package
package = Package('https://datahub.io/machine-learning/hepatitis/datapackage.json')
# print list of all resources: print(package.resource_names)
# print processed tabular data (if exists any): for resource in package.resources: if resource.descriptor['datahub']['type'] == 'derived/csv': print(resource.read())
Матрицы ввода и вывода
В наборе данных hepatitis
последний столбец представляет атрибут класса, который содержит информацию о том, выжил пациент или умер.
Обозначим количество столбцов буквой m
, а количество экземпляров буквой n
.
Входная матрица будет содержать все элементы из всех столбцов, кроме класса, что означает, что ее размер будет n x m-1
.
Выходная матрица будет содержать элементы из атрибута класса, и ее размер будет n x 1
Используя эти матрицы, вы сможете передать их в качестве параметра любому методу классификатора.
Резюме
Используя DataHub, вы можете легко получить нужные вам наборы данных и просто начать работать с ними без необходимых переборов с данными и сосредоточиться на создании алгоритмов машинного обучения. Надеемся, они будут вам полезны и интересны.
Если у вас есть вопросы, комментарии или отзывы, присоединяйтесь к нашему каналу чата или задайте вопрос в нашем трекере.
Первоначально опубликовано на datahub.io.