Поиск наборов данных машинного обучения действительно трудоемок, но это не обязательно! В этой статье мы поделились несколькими наборами данных, которые вы можете использовать для проектов машинного обучения. Мы также поделились подробностями о том, что содержит каждый набор данных, вместе со ссылкой на них. Наш список включает в себя наборы данных из разных областей и разных размеров, поэтому вы можете выбрать тот, который соответствует вашим интересам и опыту.

Кроме того, мы поделились проектными идеями для разных наборов данных, чтобы вы могли сразу приступить к работе над проектом. Работа над проектами поможет вам проверить свои знания алгоритмов машинного обучения. Давайте начнем:

Идеи проекта наборов данных машинного обучения

1. Набор данных электронной почты Enron

Этот набор данных содержит около 5 000 000 электронных писем от более чем 150 пользователей. Все эти электронные письма принадлежат компании Enron, и большинство электронных писем, представленных в этом наборе данных, принадлежат ее высшему руководству. Если вы хотите работать над проектом по обработке естественного языка, вам следует начать здесь.

Набор данных электронной почты Enron широко популярен для проектов НЛП, и вы сможете многому научиться из него. Вы можете создать модель кластеризации K-средних и использовать ее для выявления любых мошеннических действий по текстам электронных писем. Кластеризация K-средних представляет собой алгоритм неконтролируемого ML и разделяет элементы на k кластеров в соответствии с их сходством.

Ссылка на набор данных



2. Набор изображений Flickr

Flickr — это служба хостинга изображений с миллионами пользователей по всему миру. Этот набор данных содержит 30 000 изображений с разными подписями. Вы можете использовать этот набор данных для создания генератора подписей к изображениям. Этот набор данных довольно известен благодаря анализу изображений и описанию изображений с помощью текста.

Вы можете создать модель CNN (Сверточная нейронная сеть), которая анализирует изображения и генерирует подпись в соответствии с функциями, которые она идентифицирует в конкретном изображении. Вы можете обучить модель с помощью тысяч подписей, доступных в наборе данных. Создание генератора титров даст вам большой опыт в изучении работы анализа изображений и в том, как вы можете использовать его в реальных случаях.

Ссылка на набор данных

3. Набор данных Iris (начинающий уровень)

Если вы раньше не работали над проектом по машинному обучению, то вам стоит начать здесь. Набор данных Iris популярен среди студентов машинного обучения из-за его простоты и размера. Он содержит информацию о трех видах ириса (цветка), например, размер чашелистика и лепестка.

Другое название этого набора данных — набор данных радужной оболочки глаза Фишера из-за его происхождения. Рональд Фишер использовал этот набор данных в своей статье 1936 года.

Набор данных Iris состоит из четырех столбцов и 150 строк. Вы можете создать модель классификации с этим набором данных. Модель классификации разделяет элементы на разные классы в соответствии с их атрибутами, и ее создание также может помочь вам понять разницу между неконтролируемым и контролируемым обучением.

Ссылка на набор данных

4. Набор данных Паркинсона

Набор данных Паркинсона доступен для студентов, которые хотят использовать машинное обучение в области медицины. Это один из лучших наборов данных для проектов машинного обучения в медицинском секторе, поскольку он содержит 195 случаев вместе с 23 атрибутами.

Болезнь Паркинсона — это расстройство нервной системы, которое влияет на основные движения. Медленные движения, потеря равновесия и скованность являются одними из наиболее заметных симптомов этого заболевания. Вы можете использовать этот набор данных для создания модели, которая отделяет пациентов от здоровых людей, анализируя их симптомы и атрибуты, чтобы определить, есть ли у них болезнь Паркинсона или нет.

Использование машинного обучения в сфере здравоохранения с каждым днем ​​становится все более популярным. Поэтому, если вы заинтересованы в использовании своего опыта машинного обучения в этом секторе, вам следует начать здесь. Вы можете черпать вдохновение из этих приложений машинного обучения в здравоохранении.

Ссылка на набор данных

5. Набор данных клиентов торгового центра

Этот набор данных содержит информацию о людях, посещающих торговый центр. Он содержит несколько переменных, таких как идентификаторы клиентов, годовой доход, возраст, оценки расходов и пол. Набор данных разделил клиентов на разные категории в соответствии с их поведением и тенденциями.

Вы можете использовать этот набор данных для создания модели классификации, которая разделяет клиентов по их полу, сумме расходов или годовому доходу. Этот набор данных идеально подходит для проекта сегментации клиентов, который является популярным приложением AI и ML в бизнесе.

Компании используют сегментацию клиентов для разработки маркетинговых стратегий и улучшения своей рекламы. Работа над этим проектом поможет вам понять, как можно использовать алгоритмы машинного обучения для точной сегментации клиентов.

Ссылка на набор данных

Читать: Идеи проекта Python

6. Набор данных Uber Rides

Это один из лучших наборов данных машинного обучения для проектов визуализации. Набор данных Uber Rides содержит информацию о поездках на такси, которые имели место в период с апреля 2014 года по сентябрь 2014 года. В то время было совершено около 4,5 миллионов поездок на такси, поэтому набор данных довольно огромен. Набор данных содержит информацию о местах, связанных с этими поездками, и другие соответствующие данные.

Вы можете использовать данные, представленные в этом наборе данных, для создания красивой визуализации данных. Визуализация данных помогает получить ценную информацию из больших массивов данных. Кроме того, визуализация данных помогает принимать более обоснованные решения в соответствии с обнаруженными знаниями. Вы можете черпать вдохновение из этих проектов визуализации данных, чтобы начать работу.

Ссылка на набор данных



7. Google Trends и его данные

Google Trends — это инструмент, который позволяет анализировать поисковые запросы Google и находить популярные темы, которые люди ищут в Google. Это бесплатный, но мощный инструмент, который может предоставить вам множество данных о шаблонах и тенденциях поиска людей.

Google Trends позволяет узнать, сколько поисковых запросов по конкретному ключевому слову и связанным с ним терминам было получено за определенное время. Вы также можете использовать его для получения данных, относящихся к демографии.

Если вы планируете использовать машинное обучение для анализа данных, то это огромный набор данных для начала. Вы можете получить столько данных, сколько захотите, по любой теме. Google Trends отлично подходит для новичков, которые не работали над многими проектами машинного обучения.

Ссылка на набор данных

8. Набор данных кинетики

Если вы заинтересованы в использовании ИИ для распознавания человеческих взаимодействий, то этот набор данных для вас. Анализ человеческих действий и взаимодействий является жизненно важной частью компьютерного зрения, области искусственного интеллекта, изучающей изображения и видео. Стать специалистом в области компьютерного зрения поможет вам в работе над идентификацией объектов, распознаванием лиц и другими соответствующими приложениями.

Этот набор данных содержит около 650 000 видеороликов, в которых показано взаимодействие человека с человеком (например, объятия и рукопожатия), а также взаимодействие человека с объектом (например, игра на гитаре). Он имеет 700 классов действий, где каждый класс имеет не менее 600 клипов. Каждый клип имеет человеческую аннотацию вместе с одним классом действий. Продолжительность каждого видео в этом наборе данных составляет около 10 секунд.

Ссылка на набор данных

Читать: Идеи проекта машинного обучения

9. Данные ГТСРБ

GTSRB расшифровывается как German Traffic Sign Recognition Benchmark, и это отличный проект для выполнения мультиклассовой классификации. Этот набор данных содержит более 50 000 изображений вместе с информацией о них. Набор данных также имеет 40 классов, и реальные события дорожных знаков в этом наборе данных уникальны в нем.

Это один из лучших наборов данных для проектов машинного обучения, если рассматривать варианты его использования. Вы можете изучить классификацию изображений и создать основу для классификации различных дорожных знаков.

Классификация дорожных знаков может быть важной частью автономного транспортного средства (самоуправляемого автомобиля), поэтому, если вы заинтересованы в применении ИИ в автомобильном секторе, вам следует поработать над этим проектом.

Вы можете начать с небольшого раздела этого набора данных, если у вас нет большого опыта работы с проектами машинного обучения.

Ссылка на набор данных

10. Набор данных бостонских домов

Набор данных Boston Housing — один из самых популярных наборов данных для проектов машинного обучения. Он подходит для проектов по распознаванию образов и является отличным способом применить свои знания в области машинного обучения. Этот набор данных содержит информацию, собранную Службой переписи населения США о жилье в районе Бостон-Масс, и насчитывает около 500 случаев. В наборе данных 14 переменных, в том числе уровень преступности на душу населения, среднее количество комнат в доме и другие.

Поскольку в нем очень мало случаев (если быть точным, 506), он подходит для начинающих специалистов по машинному обучению и студентов. Вы можете использовать этот набор данных для создания модели, которая прогнозирует цены на дома в этом регионе в соответствии с найденными вами данными.

Вы можете обучить модель с ценами на дома, присутствующими в этом наборе данных, а затем использовать ее для прогнозирования будущих цен в соответствии с условиями конкретной области. С этим набором данных вы можете работать над многими похожими проектными идеями регрессии и недвижимости.

Ссылка на набор данных

Время работать над проектами машинного обучения

Теперь, когда у вас есть обширный список наборов данных для проектов машинного обучения, вы можете начать работу над одним из них. Мы надеемся, что этот список был вам полезен.

Если вы хотите узнать больше о машинном обучении или найти еще больше идей для проектов, вам следует заглянуть в наш блог. В блоге upGrad вы найдете множество ресурсов по этим темам. Вы также можете купить курс машинного обучения, чтобы получить полный опыт обучения.

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с Дипломом PG в машинном обучении и искусственном интеллекте IIIT-B & upGrad, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, Статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Эта статья первоначально была опубликована в блоге upGrad.