Как я могу программно генерировать соответствующие теги для базы данных URL-адресов?

Я пишу программу для чтения RSS на python в качестве учебного упражнения, и мне бы очень хотелось иметь возможность помечать отдельные записи ключевыми словами для поиска. К сожалению, большинство реальных фидов не содержат метаданных ключевых слов. В настоящее время у меня есть около 60 000 записей в моей тестовой базе данных из примерно 600 фидов, поэтому ручная пометка не будет эффективной. Пока мне удалось найти только два решения:

1. Используйте Natural Language Toolkit для извлечения ключевых слов:

  • Плюсы: гибкий; отсутствие зависимости от внешних сервисов;
  • Минусы: можно индексировать только резюме статьи, а не саму статью; нетривиальность: написание высококачественного инструмента для извлечения ключевых слов само по себе является проектом;

2. Используйте API Google Adwords чтобы получить варианты ключевых слов из URL статьи:

  • Плюсы: ключевые слова супер высокого качества; на основе всего текста статьи; легко использовать;
  • Минусы: Не бесплатно(?); Пределы скорости запросов неизвестны; Я боюсь, что моя учетная запись будет заблокирована, и я не смогу проводить кампании AdWords для своих коммерческих сайтов;

Кто-нибудь может предложить какие-либо предложения? Являются ли мои опасения по поводу блокировки моей учетной записи AdWords необоснованными?


person Parker Ault    schedule 17.01.2011    source источник
comment
Просто в дополнение: в итоге я использовал python-calais, который немного устарел (последнее обновление было в 2009 году), но до сих пор работал безупречно. У него есть удобная функция, которая принимает URL-адрес в качестве аргумента и возвращает ответ Кале, преобразованный в словарь Python. Я был очень впечатлен точностью и актуальностью предоставленных метаданных, особенно с учетом стоимости (бесплатно).   -  person Parker Ault    schedule 20.01.2011


Ответы (2)


Вы можете использовать API предлагаемых тегов.

Пример использования API через Python http://www.michael-noll.com/projects/delicious-python-api/

Другой вариант – Открыть Кале.

person Peter Hoffmann    schedule 17.01.2011
comment
Я не знал об Open Calais, это выглядит потрясающе. У меня такое ощущение, что это породит немало новых проектов. :) - person Parker Ault; 17.01.2011

Существует ряд бесплатных и коммерческих инструментов/сервисов для текстовых аннотаций, которые вы можете рассмотреть, в зависимости от ваших конкретных потребностей, перечисленных ниже:

Есть ли инструмент лучше, чем OpenCalais?.

Некоторые из них предоставляют объекты, некоторые обеспечивают меру релевантности ключевых слов, а другие предоставляют теги тем.

person John Lehmann    schedule 17.01.2011