Я пишу программу для чтения RSS на python в качестве учебного упражнения, и мне бы очень хотелось иметь возможность помечать отдельные записи ключевыми словами для поиска. К сожалению, большинство реальных фидов не содержат метаданных ключевых слов. В настоящее время у меня есть около 60 000 записей в моей тестовой базе данных из примерно 600 фидов, поэтому ручная пометка не будет эффективной. Пока мне удалось найти только два решения:
1. Используйте Natural Language Toolkit для извлечения ключевых слов:
- Плюсы: гибкий; отсутствие зависимости от внешних сервисов;
- Минусы: можно индексировать только резюме статьи, а не саму статью; нетривиальность: написание высококачественного инструмента для извлечения ключевых слов само по себе является проектом;
2. Используйте API Google Adwords чтобы получить варианты ключевых слов из URL статьи:
- Плюсы: ключевые слова супер высокого качества; на основе всего текста статьи; легко использовать;
- Минусы: Не бесплатно(?); Пределы скорости запросов неизвестны; Я боюсь, что моя учетная запись будет заблокирована, и я не смогу проводить кампании AdWords для своих коммерческих сайтов;
Кто-нибудь может предложить какие-либо предложения? Являются ли мои опасения по поводу блокировки моей учетной записи AdWords необоснованными?