Что содержит список краулеров?

Я читал о том, как реализовать сканер. Я понимаю, что мы начинаем со списка URL-адресов для посещения (список семян). Посетите все эти URL-адреса и добавьте все ссылки на посещенных страницах в список (граница). Итак, сколько я должен добавить в этот список семян? Мне просто нужно добавить столько URL-адресов, сколько я могу, и надеяться, что они дадут мне столько же URL-адресов на www, и действительно ли это гарантирует, что я получу все другие URL-адреса? Или есть какое-то соглашение для этого? Я имею в виду... что делает поисковая система, такая как Google?


person Vanddel    schedule 17.05.2011    source источник


Ответы (1)


Суть в том, что они составляют большой список веб-сайтов, используя соединения (ссылки) между ними. Чем больше веб-сайтов знает ваша поисковая система, тем лучше. Единственная проблема здесь заключается в том, чтобы сделать этот список полезным. То есть большой список возможностей веб-сайта не означает хороший результат поиска, поэтому вы должны уметь сказать, что важно на каждой веб-странице.

Но в зависимости от мощности обработки информации, которой вы обладаете, нет необходимости где-то останавливаться.

Это не гарантирует, что вы достигнете каждого отдельного URL-адреса, но, по сути, это единственный практичный способ сканирования Интернета.

person Gabriel    schedule 17.05.2011