65+ лучших бесплатных наборов данных для машинного обучения

Написано Альберто Риццоли и первоначально опубликовано в блоге V7 (65+ лучших бесплатных наборов данных для машинного обучения)

Вы когда-нибудь часами искали подходящий набор данных для своего проекта по науке о данных?

Это может стать довольно пугающим, не так ли?

Ну, уже нет ;-)

Независимо от того, являетесь ли вы студентом или профессионалом, который ищет высококачественные наборы данных для машинного обучения или проектов анализа данных — мы обеспечим вас!

Мы поделимся с вами исчерпывающим списком из 65+ открытых наборов данных машинного обучения, к которым вы можете получить бесплатный доступ.

💡Совет для профессионалов: зайдите в V7 Репозиторий открытых наборов данных, чтобы просмотреть или загрузить некоторые из самых крутых наборов данных!

И если вы готовы начать аннотировать свои данные, проверьте:

💡Мы всегда ищем талантливых технических писателей. Хотели бы вы внести свой вклад в блог V7? Отправьте свое портфолио на [email protected]

Агрегаторы открытых наборов данных

"Где я могу получить бесплатные наборы данных для машинного обучения?" вы можете спросить себя.

Не смотрите дальше.

Вот список лучших средств поиска открытых наборов данных, которые вы можете использовать для просмотра широкого спектра специализированных наборов данных для своих проектов по науке о данных.

Давайте прыгнем прямо в него.

Каггл

Сообщество специалистов по обработке и анализу данных с инструментами и ресурсами, которые включают наборы данных для машинного обучения всех видов извне. От здоровья до спорта, еды, путешествий, образования и многого другого — Kaggle — одно из лучших мест для поиска качественных данных о тренировках.

Поиск в наборе данных Google

Поисковая система от Google, которая помогает исследователям находить свободно доступные онлайн-данные. Он работает аналогично Google Scholar и содержит более 25 миллионов наборов данных. Здесь вы можете найти экономические и финансовые данные, а также наборы данных, загруженные такими организациями, как ВОЗ, Statista или Гарвард.

Репозиторий машинного обучения UCI

Один из старейших агрегаторов наборов данных в сети. Все наборы данных вносятся пользователями, и вы можете загрузить их с веб-сайта репозитория машинного обучения UCI без регистрации. Они классифицируются по задачам, атрибутам, типам данных и области знаний.

Опенмл

Онлайн-платформа машинного обучения для обмена и организации данных с более чем 21 000 наборов данных. Он регулярно обновляется, автоматически обновляет и анализирует каждый набор данных и снабжает его обширными метаданными для упрощения анализа.

ДатаХаб

Коллекция тысяч наборов данных машинного обучения от данных финансового рынка, макроэкономических данных и роста населения до цен на криптовалюту. Вы можете получить к нему доступ без какой-либо регистрации.

Бумаги с кодом

Проект сообщества с бесплатными и открытыми ресурсами, в настоящее время включающий 3937 наборов данных для науки о данных и машинного обучения, включая задачи обработки естественного языка. Вы можете легко отфильтровать их по модальности, задаче или языку.

Визуальные Данные

Поисковая система для наборов данных компьютерного зрения. Вы можете легко отфильтровать их по категории, дате, популярности или использовать окно поиска, чтобы найти набор данных для конкретной темы. Отличный источник наборов данных для проектов классификации, обработки и сегментации изображений.

Государственные наборы данных для машинного обучения

Использование демографических данных может помочь правительствам улучшить благосостояние граждан и экономики в целом. Использование общедоступных правительственных данных для обучения моделей машинного обучения может помочь в обнаружении закономерностей, выявлении тенденций и обнаружении аномалий.

Эти прогностические модели, в свою очередь, могут помочь предотвратить некоторые социальные и культурные проблемы, такие как убыль населения или миграция.

Вот список выбранных общедоступных наборов данных, которые вы можете использовать для своих проектов машинного обучения.

Дата.гов

Сайт открытых данных правительства США. Вы можете отфильтровать их по различным отраслям, таким как здравоохранение, климат, образование и т. д. Имейте в виду, что большая часть этих данных из открытых источников может потребовать дополнительных исследований.

Портал открытых данных ЕС

Точка доступа к общедоступным данным, опубликованным институтами, агентствами и другими организациями ЕС. Он содержит данные, связанные с экономикой, сельским хозяйством, образованием, занятостью, климатом, финансами, наукой и т. д.

"Всемирный банк"

Открытые данные Всемирного банка, к которым вы можете получить доступ без регистрации. Он содержит данные о демографии населения, макроэкономические данные и ключевые показатели развития. Отличный источник данных для проведения анализа данных в больших масштабах.

Данные здравоохранения США

Статистика и наборы данных для здравоохранения и общественного здравоохранения. Вы можете найти данные о здоровье населения, заболеваниях, лекарствах и планах медицинского страхования, собранные в базах данных FDA и USDA о составе пищевых продуктов.

Национальный центр статистики образования США

Это веб-сайт с данными об учебных заведениях и демографических данных об образовании в США и за рубежом.

Служба данных Великобритании

Это платформа, которая обеспечивает доступ к более чем 7000 коллекций цифровых данных для исследовательских и учебных целей. Здесь вы можете найти экономические и социальные данные из Службы экономических и социальных данных (ESDS), Программы переписи населения и других источников, включая некоторые международные наборы данных.

Дата США

Бесплатная платформа с наиболее полной визуализацией общедоступных данных США.

Наборы данных машинного обучения для финансов и экономики

Открытые финансовые и экономические наборы данных — отличный источник информации для ваших проектов машинного обучения, связанных с финансовым сектором.

Благодаря огромному количеству финансовых отчетов, собранных за десятилетия, вы можете тренировать свои модели, используя обширные общедоступные наборы данных, к которым легко получить доступ. Не секрет, что машинное обучение широко используется для алгоритмической торговли, прогнозирования фондового рынка, управления портфелем и обнаружения мошенничества.

Кроме того, развитие глубокого обучения за последние годы позволило тестировать экономические модели, упростить сбор новых источников данных и прогнозировать поведение граждан, чтобы помочь в разработке политики.

Вот список надежных источников различных наборов данных, которые вы можете использовать для своих проектов машинного обучения.

Глобальное финансовое развитие (GFD)

Обширный набор данных о характеристиках финансовых систем для 214 стран мира. Он содержит ежегодные данные, которые собирались с 1960 года.

Рыночные данные Financial Times

Актуальный источник данных о финансовых рынках со всего мира. Набор данных содержит информацию об акциях и курсах акций, ценных бумагах, валютах, облигациях и товарах.

Квандл

Платформа с богатым набором финансовых, экономических и альтернативных данных. Данные Quandl представлены в двух форматах: временные ряды (данные за определенный период времени) и таблицы (числовые и несортированные типы данных, такие как строки и т. д.). Вы можете скачать их в виде файла JSON или CSV.

Данные МВФ

Международный валютный фонд публикует данные о кредитах МВФ, обменных курсах и других экономических и финансовых показателях.

Американская экономическая ассоциация (АЭА)

Веб-сайт со ссылками на некоторые из наиболее полезных и популярных источников экономических данных. Он включает данные по макроэкономике США, а также глобальные данные о доходах, занятости и здоровье на индивидуальном уровне.

Наборы данных изображений для компьютерного зрения

Теперь давайте посмотрим на некоторые из лучших открытых наборов данных для проектов компьютерного зрения.

Некоторые из самых популярных идей проектов машинного обучения и лабораторных исследований основаны на обучающих визуальных данных. Компьютерное зрение находит применение в таких областях, как медицинская визуализация, беспилотные автомобили или распознавание лиц.

Вы можете использовать наборы изображений или видео для ряда задач компьютерного зрения, включая получение изображений, классификацию изображений, семантическую сегментацию и анализ изображений.

Однако -

Чтобы построить надежную модель глубокого обучения для компьютерного зрения, вам потребуется значительный объем высококачественных обучающих данных.

Вот список сайтов с открытым исходным кодом, где вы можете получить к нему доступ бесплатно.

Лабельме

Обширный набор данных, созданный Лабораторией компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL). Он содержит 187 240 изображений, 62 197 аннотированных изображений и 658 992 помеченных объекта.

ИмиджНет

Один из самых популярных и крупнейших наборов данных изображений для компьютерного зрения. Он организован в соответствии с иерархией WordNet. В настоящее время он содержит 1 281 167 изображений для обучения и 50 000 изображений для проверки в 1000 категориях.

Кинетика-700

Большой высококачественный набор видеоданных URL-ссылок примерно на 650 000 видеоклипов Youtube, которые охватывают 700 классов человеческих действий. Видео включает в себя взаимодействие человека с объектом, а также взаимодействие человека с человеком. Набор данных Kinetics отлично подходит для обучения модели распознавания действий человека.

ЛСУН

Набор данных, содержащий около миллиона помеченных изображений для каждой из 10 категорий сцен (например, церковь, столовая и т. д.) и 20 категорий объектов (например, птица, самолет и т. д.). Он призван предоставить другой эталон для классификации и понимания крупномасштабных сцен.

МС КОКО

Крупномасштабное обнаружение объектов, сегментация, обнаружение ключевых точек и набор данных с открытым исходным кодом. Он содержит более 200 000 помеченных изображений.

КАТУШКА100

Набор данных, содержащий 7200 цветных изображений 100 объектов (72 изображения на объект), снятых под каждым углом при повороте на 360°. Его собрал Центр исследований интеллектуальных систем Колумбийского университета.

Визуальный геном

Большой и подробный набор данных и база знаний с подписями к более чем 100 000 изображений.

Открытые изображения Google

Коллекция из более чем 9 миллионов разнообразных изображений с богатыми аннотациями. Он содержит аннотации меток на уровне изображения, ограничивающие рамки объектов, сегментацию объектов и визуальные отношения по 6000 категориям. Эта большая база данных изображений является отличным источником данных для любого проекта по науке о данных.

Ютуб-8М

Обширный набор данных из миллионов идентификаторов видео YouTube с высококачественными машинными аннотациями более чем 3800 визуальных объектов. Этот набор данных содержит предварительно вычисленные аудиовизуальные функции из миллиардов кадров и аудиосегментов.

Лица с надписью в дикой природе

Качественная база данных из 13 000 фотографий лиц, предназначенная для разработки проектов по распознаванию лиц. Каждое лицо было подписано именем изображенного человека.

Распознавание сцен в помещении

База данных, содержащая 5620 изображений в 7 категориях для помещений. В каждой категории не менее 100 изображений в формате jpg.

xView

Обширный общедоступный набор данных изображений с высоты птичьего полета. Он содержит более 1 миллиона изображений объектов с 60 классами сложных сцен со всего мира, аннотированных с помощью ограничительных рамок.

CelebFaces

Крупномасштабный набор данных из более чем 200 000 изображений знаменитостей. Каждое изображение содержит 40 аннотаций атрибутов. Изображения охватывают ряд вариаций поз и фоновых помех.

Стэнфордский набор данных о собаках

Набор данных с изображениями 120 пород собак со всего мира. Он содержит 20 580 изображений в 120 категориях, аннотированных с использованием меток классов и ограничивающих рамок.

Места

Набор данных предоставлен Лабораторией компьютерных наук и искусственного интеллекта Массачусетского технологического института. Существует более 2,5 миллионов изображений в 205 категориях сцен. Каждое изображение имеет метку категории. Вы можете использовать его для обучения глубоких нейронных сетей для понимания различных сцен.

VisualQA

Новый набор данных, содержащий открытые вопросы об изображениях. Он включает 265 016 изображений (COCO и абстрактные сцены), не менее трех вопросов на изображение и десять ответов на вопрос.

СИФАР-10

Обширный набор данных, содержащий 60000 цветных изображений 32x32 в 10 классах, по 6000 изображений в каждом классе. Он включает в себя 50 000 обучающих изображений и 10 000 тестовых изображений.

Набор данных городских пейзажей

Крупномасштабный набор данных, содержащий разнообразный набор стереовидеопоследовательностей, записанных на улицах 50 разных городов. Он поставляется с аннотациями на уровне пикселей для 5 000 кадров и набором из 20 000 слабо аннотированных кадров. Т

его набор данных полезен для семантической сегментации и обучения глубоких нейронных сетей для понимания городской сцены.

💡 Совет для профессионалов: вы можете ознакомиться с нашим бесплатным набором данных с более чем 6000 аннотированных рентгеновских снимков легких здесь.

Наборы данных обработки естественного языка

Где я могу найти базы данных для задач обработки естественного языка?

Хороший вопрос.

Хотя NLP составляет значительную часть вариантов использования машинного обучения, включая распознавание голоса и речи и языковой перевод, оно требует большого объема данных и часов обучения.

Существует также несколько категорий наборов данных, которые вы можете использовать в зависимости от концепций обработки естественного языка, которые вы планируете изучить.

Взгляни!

Общие наборы данных НЛП

Давайте начнем с нескольких популярных наборов данных для общих целей обработки естественного языка.

Большая плохая база данных НЛП

Хорошо организованная коллекция из 841 набора данных для задач, связанных с НЛП, включая классификацию документов, автоматическое добавление подписей к изображениям, диалоги, кластеризацию, классификацию намерений, языковое моделирование или машинный перевод.

Набор данных электронной почты Enron

Набор данных, собранный и подготовленный проектом CALO (Когнитивный помощник, который учится и организует). Он включает более 600 000 электронных писем, созданных 158 сотрудниками корпорации Enron.

Google Книги Ngrams

Обширная коллекция слов, извлеченных из корпуса Google Книг. «n» указывает количество элементов в кортеже, что означает, что 4-грамма содержит четыре слова или символа.

Данные ссылок на Википедию

Набор данных с 1,9 миллиардами слов из более чем 4 миллионов статей. Вы можете осуществлять поиск по словам, фразам, частям речи, синонимам, сравнениям терминов и т. д. Кроме того, вы можете создавать и использовать тематические виртуальные корпуса из любой из 4 400 000 статей в корпусе.

Сборник СМС-спама на английском языке

Небольшой набор данных, содержащий 5574 сообщения с пометкой SMS (на английском языке), собранные для исследования спама в мобильных телефонах. Они помечаются либо как законные, либо как спам.

Визг Обзоры

Открытый набор данных с более чем 8,6 миллионами отзывов и 200 000 изображений, опубликованных Yelp. Он также содержит более 1,2 миллиона бизнес-атрибутов, таких как часы работы, парковка, доступность и атмосфера.

Авторский корпус блога

Набор данных, содержащий более 681 000 сообщений, написанных 19 320 разными блоггерами. Всего в корпусе более 140 миллионов слов. Каждый блог представлен в виде отдельного файла и содержит идентификационный номер блоггера, пол, возраст, отрасль и астрологический знак.

Наборы данных анализа настроений для машинного обучения

Для обучения надежной модели анализа настроений вам потребуется большой объем специализированных наборов данных.

Поиск подходящих наборов данных может быть сложной задачей, поскольку они должны охватывать широкий спектр приложений и вариантов использования для анализа настроений.

К счастью, мы составили список лучших бесплатных наборов данных для анализа настроений.

Многодоменный набор данных анализа тональности

Относительно старый набор данных с положительными и отрицательными отзывами о продуктах от Amazon. Отзывы содержат оценки от 1 до 5 звезд (при необходимости их можно конвертировать в бинарные).

Стэнфордское дерево настроений

Большой набор данных обзоров фильмов с аннотациями настроений на основе обзоров Rotten Tomatoes. Он содержит более 10 000 единиц данных. Исходный код этого стандартного набора данных настроений был написан на Matlab, но не переписан на Java.

Настроение140

Набор данных, содержащий 1,6 миллиона твитов, извлеченных с помощью Twitter API (изначально он не был открытым, но теперь доступен бесплатно на Kaggle). Твиты были аннотированы (0 = отрицательный, 2 = нейтральный, 4 = положительный), и их можно использовать для определения настроений. Эти данные Twitter доступны в формате CSV с удаленными смайликами.

Набор данных обзоров фильмов IMDB

Обширная коллекция из 50 000 обзоров фильмов с IMDB. Он содержит 25 000 крайне поляризованных обзоров фильмов для обучения и 25 000 для тестирования. Отрицательные отзывы имеют оценку ниже 4 из 10, а положительные отзывы имеют оценку более 7 из 10.

Настроение авиакомпаний США в Твиттере

Набор данных, содержащий твиты с февраля 2015 года о каждой из крупнейших авиакомпаний США. Твиты классифицируются как положительные, отрицательные или нейтральные. Он включает в себя такие функции, как Twitter ID, оценка достоверности настроений, отрицательные причины, название авиакомпании, количество ретвитов и т. д.

Набор данных обзоров OpinRank

Большая коллекция отзывов об автомобилях и отелях, собранных с Tripadvisor и Edmunds. Он содержит почти 260 000 отзывов об отелях и 42 230 отзывов об автомобилях.

Данные обзора Amazon (2018)

Обновленная версия набора данных отзывов Amazon за 2014 год. Он содержит 233,1 миллиона отзывов, собранных в период с мая 1996 года по октябрь 2018 года. Другие функции включают метаданные продукта (описания, информация о категории, цена, бренд и характеристики изображения) и ссылки (также просмотренные/просмотренные). также купил графики).

Лексиконы чувств для 81 языка

Набор данных опубликован на Kaggle. Он содержит как позитивные, так и негативные словари тональности для 81 языка. Сентименты были построены на основе английских сентиментальных лексиконов.

Наборы текстовых данных для обработки естественного языка

Наконец, вот несколько текстовых наборов данных для проверки.

Опасный набор данных

Коллекция из 216 930 вопросов (викторина) Jeopardy, ответов и других данных, доступных для скачивания в формате JSON.

20 групп новостей

Коллекция из 20 000 документов из более чем 20 различных групп новостей. Содержание охватывает множество тем, некоторые из которых тесно связаны между собой для справки. Доступны три версии: оригинальная, отсортированная по датам и с удаленными дубликатами.

Этот набор данных обычно используется для экспериментов с текстовыми приложениями методов машинного обучения, таких как классификация текста и кластеризация текста.

Набор данных судебных дел

Небольшой набор данных с текстовыми сводками по 4000 судебных дел, которые можно загрузить из репозитория машинного обучения UCI. Превосходный источник данных для обучения автоматическому резюмированию текста.

Корпус WikiQA

Обширный набор данных, содержащий пары вопросов и предложений, собранные и аннотированные для исследования ответов на открытые вопросы. Он содержит более 3000 вопросов и более 29 000 предложений с ответами, из которых чуть менее 1500 помечены как предложения с ответами.

Аудио речь и музыкальные наборы данных для проектов машинного обучения

Теперь давайте взглянем на некоторые из лучших аудио-речевых и музыкальных наборов данных.

Общий голос

Высококачественный многоязычный набор голосовых данных с открытым исходным кодом для обучения технологиям с поддержкой речи. Проект возглавляют волонтеры, которые записывают образцы предложений с помощью микрофона и просматривают записи других пользователей.

АудиоСет

Богатый набор данных с добавленными вручную аудиособытиями. Он содержит 632 класса аудиособытий и коллекцию из 2 084 320 10-секундных звуковых клипов, помеченных людьми, взятых из видео на YouTube.

ЛибриСпич

Качественный набор данных примерно на 1000 часов чтения английской речи, полученный из аудиокниг. Все аудиоданные были тщательно сегментированы и выровнены.

Разговорный корпус Википедии

Созданный добровольцами корпус согласованной разговорной Википедии, включающий сотни статей из английской, немецкой и голландской Википедии. Преимущества этого источника данных сводятся к разнообразному набору читателей и тем. Все аннотации можно сопоставить с исходным html.

ВоксФорж

Открытый набор речевых данных, созданный для сбора расшифрованной речи на таких языках, как английский, немецкий, итальянский, португальский или испанский.

Бесплатный музыкальный архив (FMA)

Набор данных для анализа музыки. Он содержит полноразмерный звук и звук HQ, предварительно вычисленные функции, а также метаданные трека и пользовательского уровня. Аудиоданные получены из 106 574 треков 16 341 исполнителя и 14 854 альбомов, расположенных в иерархической таксономии 161 жанра.

Бальный зал

Музыкальный набор данных с информацией о бальных танцах (онлайн-уроки и т. д.). Некоторые характерные отрывки из многих танцевальных стилей представлены в реальном аудиоформате. Общее количество экземпляров составляет 698 с продолжительностью около 30 секунд.

Визуализация данных

Для успешного завершения ваших проектов по визуализации данных вам нужны чистые и хорошо организованные данные, которые можно было бы логически представить на графике или диаграмме.

Вот несколько веб-сайтов, на которых вы можете найти подходящие наборы данных для этой цели.

ПятьТридцатьВосьмой

Платформа, которая фокусируется на анализе опросов общественного мнения, политике, экономике и спортивных блогах. На нем размещаются интерактивные статьи, подкрепленные тщательно отобранными наборами данных. Они публикуют свои наборы данных через репозиторий Github.

Баззфид

Популярный новостной веб-сайт, который превратился из низкокачественной наживки в высококачественную журналистику данных, основанную на исследованиях. Buzzfeed делает свои наборы данных общедоступными на Github.

ПроПублика

Независимый некоммерческий отдел новостей, специализирующийся на вопросах, представляющих общественный интерес в США. Он предлагает как бесплатные, так и платные наборы данных, которые поддерживаются в хорошем состоянии и регулярно обновляются.

Заключение

Вот и все — полный список из 65+ бесплатных наборов данных для машинного обучения, компьютерного зрения, анализа данных, интеллектуального анализа данных и проектов визуализации данных.

Мы надеемся, что вы нашли набор данных, который искали.

А если нет — дайте нам знать!

Мы будем рады обновить статью с вашими предложениями по наборам данных.