Я экспериментирую с алгоритмами классификации в ML и ищу корпус для обучения моей модели различению различных категорий, таких как спорт, погода, технологии, футбол, крикет и т. д.
Мне нужны некоторые указатели на то, где я могу найти набор данных с этими категориями,
Еще один вариант для меня - просканировать Википедию, чтобы получить данные для 30+ категорий, но я хотел провести мозговой штурм и мнения, если есть лучший способ сделать это.
Редактировать
Обучите модель с помощью набора слов для этих категорий. Тестируйте — классифицируйте новые/неизвестные веб-сайты по этим предопределенным категориям в зависимости от содержимого веб-страницы.