Это снова то время. Мы знаем, что вы усердно работаете над своими навыками машинного обучения, и пора найти наборы данных, достойные этой задачи. Если вы новичок в этой области или ищете вдохновения, вот несколько отличных открытых наборов данных машинного обучения для обучающих моделей. Еще лучше - они открытого доступа.

Но сначала: как найти открытые наборы данных машинного обучения

Поиск открытых наборов данных машинного обучения - это навык сам по себе, и вы должны хорошо освоить его, если вы работаете в сообществе специалистов по науке о данных. К счастью, есть несколько источников для поиска этих наборов данных. Вот некоторые из распространенных:

  • Kaggle
  • Поиск по набору данных Google
  • Github
  • Data.gov
  • Лаборатория машинного обучения UCI

И много других. Фактически, присоединение к таким сообществам, как Github или Kaggle (и Open Data Science) в сочетании с хорошо продуманными поисками по ключевым словам, может помочь вам найти открытые наборы данных машинного обучения, специфичные для вашего проекта. Найдя набор данных, спросите себя:

  • Могу ли я доверять источнику?
  • Могу ли я найти / исправить неточности?
  • Это полная?
  • Являются ли данные объективными?

Уделите немного времени, чтобы изучить набор данных и ответить на эти вопросы. Они помогут вам отфильтровать «данные» от «высококачественных данных».

22 лучших открытых набора данных для машинного обучения

Мы разделим эти открытые наборы данных машинного обучения на основе некоторых общих категорий, но вы также можете смешивать и сопоставлять их на основе данных, доступных в каждом наборе. То, что что-то помечено для анализа настроений, не означает, что оно не будет работать, например, с общей обработкой естественного языка.

Обработка изображения

LabelMe: набор данных компьютерного зрения, опубликованный MIT, который позволяет пользователям вносить свой вклад с помощью инструмента аннотации. Вы можете скачать изображения с помощью инструментария MatLab или работать с ними онлайн.

Google Open Images: массивный набор данных (соответствующий всем материалам Google) со ссылками на миллионы категоризированных общедоступных изображений в тысячах категорий. Изображения подпадают под лицензию Creative Commons для обеспечения дополнительной безопасности с открытым исходным кодом.

Набор данных UMDFaces: для изображений, предназначенных для анализа лиц, этот набор данных включает сотни тысяч неподвижных и видеоизображений более 8000 объектов, все с аннотациями.

VisualGenome: текущий проект, соединяющий концепции структурированных изображений с языком, эта база знаний включает более 100 000 изображений и миллионы помеченных атрибутов, отношений и визуальных ответов на вопросы.

Обработка естественного языка

Грязные слова: этот забавный набор данных из самого Github рассматривает то, что вы определенно не хотите отображать в своем чат-боте, если только это не чат-бот такого типа. Увлекательный и непрерывный сборник неприемлемых для общества слов и фраз на множестве языков.

Обзоры Amazon: за два десятилетия этот набор данных содержит около 35 миллионов обзоров Amazon со связанным продуктом для справки. Он также предоставляет рейтинг, текст и основную информацию о пользователях.

Microsoft MAchine Reading COmpferenceion Dataset (MS Marco): ресурс Microsoft, посвященный глубокому обучению в поиске. Он включает в себя набор данных вопросов, набор данных для создания естественного языка, наборы данных для ранжирования отрывков и извлечения ключевых слов, а также разговорный поиск.

Опасность! Набор данных вопросов : этот набор данных, содержащий более 200 000 вопросов, ответов и соответствующих данных, является отличным универсальным вариантом. Он также содержит информацию о значении вопроса и его категории.

Анализ настроений

Dynasent: этот набор данных на английском языке включает более 121 000 предложений в положительных, отрицательных и нейтральных высказываниях, созданных на собственной открытой платформе. Каждое высказывание было проверено пятью работниками толпы.

ReDial: аннотированный набор данных, содержащий разговоры людей, рекомендующих друг другу фильмы. Существует около 10 000 разговоров, и сайт предлагает примеры из разговоров для проверки.

Youtubean: используя скрытые субтитры из видео, посвященных обзорам, этот набор данных поддерживает ряд задач и целей анализа настроений.

iSarcasm: Twitter - это золотая жила для анализа настроений, и этот набор данных сосредоточен исключительно на саркастических твитах (саркастических или несаркастических) и другой подгруппе, обозначенной как ироничные (ирония, сатира, преуменьшение, преувеличение, и риторические вопросы).

Речь

Vox Celeb: крупномасштабный набор для идентификации говорящего с более чем 100 000 высказываний, собранных из видео на YouTube. Он предлагает широкий выбор акцентов, сбалансированный по половому признаку и разный возраст. Он предлагает пользователям около 2000 часов выступления.

Мерцающие звуковые подписи: коллекция из более чем 40 000 подписей, описывающих 8000 изображений, этот набор данных был создан для исследования схем мультимодального обучения для обнаружения шаблонов речи без учителя.

VoxForge: в отличие от некоторых других сборников, этот специально предназначен для набора акцентов в английских высказываниях. Он подходит для интенсивного обучения разнообразным речевым образцам.

CHIME: этот набор данных для задач предоставляет реальные записи, то есть записи выступающих в реальных условиях, а не только в студии. В частности, он предлагает настоящий звук и синтетический звук, созданный путем наложения сред поверх записей, а также чистый звук без шума.

Правительственные данные

Data USA: хорошо организованное место для поиска всевозможных данных от правительства США и его различных ведомств. Он включает информацию об избирательных округах, государственных служащих, демографических исследованиях и многое другое.

Данные ООН (Организация Объединенных Наций): для наборов данных по различным государственным полномочиям и региональным профилям предоставляет сайт Организации Объединенных Наций.

EuroStat: в этой европейской базе данных наборы данных классифицируются по областям или темам и включают разделы, посвященные политике.

data.gov.au: доступные общедоступные данные Австралии в формате с возможностью поиска. Пользователи могут найти тысячи наборов данных по различным темам, включая данные о населении, окружающей среде и регионах.

Для начинающих

Данные о поездках на такси Нью-Йорка: набор данных о поездках, начиная с 2009 г., этот набор данных исследует такие вещи, как тарифы, продолжительность поездки и типы оплаты. Кроме того, он предлагает другие инструменты, такие как руководства пользователя и удобный формат.

Набор данных семян пшеницы: простой набор данных, который полезен для классификации, он предлагает информацию о трех сортах пшеницы, проанализированных с помощью метода мягкого рентгена.

Использование открытых наборов данных для вашей практики в области науки о данных

Существует так много отличных открытых наборов данных, которые вы можете использовать, чтобы практиковать свое ремесло, создавать проекты своей мечты и расширять свое портфолио. Независимо от того, строите ли вы для своего нынешнего работодателя или мечтаете о новых проектах, эти наборы данных предлагают отличное обучение машинному обучению без затрат на покупку дорогостоящих частных коллекций данных.

Сделайте огромную услугу сообществу ODSC и прокомментируйте ваши любимые открытые наборы данных по машинному обучению ниже? Есть ли в списке те, с которыми вы работали? Те, о которых мы не упомянули? Дайте нам знать.

Прочтите здесь наборы данных 2019, чтобы освежить память и добавить в свои коллекции открытые наборы данных машинного обучения!

Как узнать больше о машинном обучении и как использовать эти открытые наборы данных машинного обучения

На нашем предстоящем мероприятии, которое состоится 16–18 ноября в Сан-Франциско, ODSC West 2021 представит множество выступлений, семинаров и тренингов по открытым наборам данных машинного обучения и машинного обучения. Вы можете зарегистрироваться сейчас и получить скидку 30% на все типы билетов, прежде чем через несколько недель скидка упадет до 20%. Некоторые выделенные занятия по машинному обучению включают:

  • К более энергоэффективным нейронным сетям? Используйте свой мозг !: Олаф де Леув | Data Scientist | Dataworkz
  • Практические MLOps: Путь автоматизации: Евгений Виноградов, к.б.н. | Начальник отдела развития ГВС | YooMoney
  • Приложения современного моделирования выживания с помощью Python: Брайан Кент, доктор философии | Data Scientist | Основатель The Crosstab Kite
  • Использование алгоритмов обнаружения изменений для выявления аномального поведения в больших системах: Вина Мендиратта, доктор философии | Адъюнкт-факультет, исследователь надежности сетей и аналитики | Северо-Западный университет

Сессии по MLOps:

  • Настройка гиперпараметров с помощью воспроизводимых экспериментов: Милесия МакГрегор | Старший инженер-программист | Итеративный
  • MLOps… От модели к производству: Филипа Пелеха, доктор философии | Ведущий специалист по данным | Леви Страусс и Ко
  • Операционализация моделей, разработанных и внедренных на гетерогенных платформах: Сурав Мазумдер | Data Scientist, идейный лидер, руководитель операций по ИИ и машинному обучению | IBM
  • Разработайте и разверните конвейер машинного обучения за 45 минут с Ploomber: Эдуардо Бланкас | Data Scientist | Fidelity Investments

Сессии по глубокому обучению:

  • GAN: теория и практика, синтез изображений с помощью GAN с использованием TensorFlow: Аджай Баранвал | Директор центра | Центр глубокого обучения в электронном производстве, Inc
  • Машинное обучение с помощью графиков: выходя за рамки табличных данных: доктор Клер Дж. Салливан | Защитник науки о данных | Neo4j
  • Глубокое погружение в обучение с подкреплением с помощью PPO с использованием TF-Agents и TensorFlow 2.0: Оливер Зейгерманн | Разработчик программного обеспечения | embarc Software Consulting GmbH
  • Начните с прогнозирования временных рядов с помощью платформы Google Cloud AI Platform: Карл Вайнмайстер | Менеджер по работе с разработчиками | Google

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг. Вы также можете пройти обучение по науке о данных по запросу, где бы вы ни находились, с нашей платформой Ai + Training.