Инструменты для очистки содержимого веб-сайта?

Я работаю с клиентом, чтобы перенести веб-сайт с существующего производственного оборудования в новую аппаратную среду. Кажется, сейчас отличное время для проведения аудита и удаления любого старого или устаревшего контента, а не просто слепого копирования его снова.

Существуют ли какие-либо хорошие бесплатные инструменты или сценарии, которые я могу использовать для сравнения доступного в Интернете контента на сервере с фактическими файлами на сервере, чтобы увидеть, какой контент фактически связан и используется?

Заранее благодарю за любую помощь!


person Brian Teeter    schedule 07.07.2009    source источник


Ответы (2)


Что ж, для начала вы можете использовать такой инструмент, как Xenu's Link Sleuth, чтобы сканировать все ваши страницы, чтобы найти неработающие ссылки и тому подобное. Мы использовали этот инструмент в нашей интрасети, чтобы найти и исправить наши неработающие ссылки. Это бесплатно и выполняет свою работу.

Еще один инструмент, который мы использовали для миграции между системами, - это поисковая система. Хорошая поисковая система будет сканировать все ваши страницы и показывать двустороннюю связь между ссылками. Это может помочь вам найти, на какой контент чаще всего ссылаются, а какой, возможно, потерян. К сожалению, инструменты такого типа не бесплатны.

person Zack The Human    schedule 07.07.2009

Я уверен, что есть, но я уверен, что нет никого, кто мог бы работать лучше, чем ты сам, понимаешь? Насколько велик этот сайт и вы сами его кодировали?

person Mickey    schedule 07.07.2009
comment
Сайт очень большой, где-то в диапазоне 2-3000 страниц, плюс ссылки на изображения и файлы. Делать это вручную непрактично. Я мог бы написать сценарий для анализа каждой страницы, извлечения ссылок и проверки их до завершения, записывая каждую найденную страницу. Затем сравните с файловой системой, но это займет много времени. Я не первый, кому это нужно, поэтому я думаю, что должен быть какой-то бесплатный инструмент или инструмент с открытым исходным кодом, который мог бы помочь, я просто не знаю ни одного. - person Brian Teeter; 07.07.2009