Нужны данные о тренировках для таких категорий, как спорт, развлечения, здоровье и т. д., а также для всех подкатегорий.

Я экспериментирую с алгоритмами классификации в ML и ищу корпус для обучения моей модели различению различных категорий, таких как спорт, погода, технологии, футбол, крикет и т. д.

Мне нужны некоторые указатели на то, где я могу найти набор данных с этими категориями,

Еще один вариант для меня - просканировать Википедию, чтобы получить данные для 30+ категорий, но я хотел провести мозговой штурм и мнения, если есть лучший способ сделать это.

Редактировать

Обучите модель с помощью набора слов для этих категорий. Тестируйте — классифицируйте новые/неизвестные веб-сайты по этим предопределенным категориям в зависимости от содержимого веб-страницы.


person learner    schedule 29.11.2011    source источник
comment
Что вы пытаетесь классифицировать? Картинки? Новости? Аудиокомментарий?   -  person DJClayworth    schedule 29.11.2011
comment
я пытаюсь классифицировать веб-страницы (только текст с веб-страниц)   -  person learner    schedule 29.11.2011
comment
Может ли это лучше подойти для Stats.SE?   -  person Michael McGowan    schedule 29.11.2011


Ответы (1)


репозиторий машинного обучения UCI содержит доступный для поиска архив наборов данных для контролируемого обучения.

Вы можете получить более точные ответы, если предоставите более конкретную информацию о том, какие входные и выходные данные будут иметь ваш идеальный набор данных.

Изменить:

person Nate Kohl    schedule 29.11.2011