Использование API поисковых систем для замены моего собственного сканирования (не для целей поисковой системы)?

На данный момент я просматриваю большое количество предопределенных сайтов в поисках очень небольшого количества конкретных документов, представляющих интерес. Важно отметить, что я не сканирую эти сайты, чтобы создать свою собственную поисковую систему: она предназначена специально для поиска документов.

У всех основных поисковых систем есть API, за который я не против заплатить, но они, похоже, сосредоточены на использовании своего API для создания собственной поисковой системы.

Например: Yahoo BOSS TOS на http://info.yahoo.com/legal/us/yahoo/boss/tou/ . B.1(a) гласит: «Вам разрешается использовать Услуги только с целью включения и отображения результатов Услуг как части продукта поиска, развернутого в вашем предложении». Поэтому я могу использовать его только для своей собственной поисковой системы.

У Google есть только система пользовательского поиска, что опять же не то, что мне нужно.

API Bing кажется ближе к тому, что мне нужно, но тогда его TOS требует не удалять определенные фрагменты информации и т. Д. Но опять же, мне не требуется использовать его только для реализации моей собственной поисковой системы (из того, что я вижу) .

Я слишком много читаю об этом или существует поисковая система, которая позволяет мне использовать результаты их обхода определенных сайтов вместо моих собственных для моего продукта? Опять же, сами результаты поиска не являются моим продуктом: это то, что я делаю с данными в документах.

Спасибо за любые советы.


person Narcissus    schedule 12.09.2013    source источник


Ответы (1)


Вы не хотите использовать поисковую систему, чтобы сделать это.

Поисковые системы не будут индексировать весь контент на сайте. Например, если на сайте много похожих страниц, они будут удалены. Сайты с большим количеством страниц не будут полностью проиндексированы.

Таким образом вы потенциально можете пропустить много страниц.

Продолжайте ползать!

P.S. Сканирование отдельных веб-сайтов часто нарушает их TOS. Если вы заботитесь об этом, также позаботьтесь о том, чтобы придерживаться файла robots.txt.

person Byron Whitlock    schedule 12.09.2013
comment
Спасибо за ответ Байрон. Между прочим, мы абсолютно придерживаемся robots.txt и делаем многое, чтобы снизить нагрузку на сайты, на которые мы заходим (мы можем работать очень медленно, так как у нас есть много сайтов, которые нужно сканировать параллельно). Документов, которые мы извлекаем, очень мало, и когда они есть, они не выбрасываются поисковыми системами (поскольку у них нет похожих версий ... это просто природа самих документов). Как я уже сказал, спасибо, но я думаю, мне все еще нужно знать, если кто-нибудь знает, можем ли мы делать то, что хотим. - person Narcissus; 13.09.2013