Я использую драгоценный камень Anemone следующим образом:
- Посетите первый URL-адрес (seed), сохраните содержимое страницы в базе данных, а также сохраните все ссылки с этой страницы в базе данных (все ссылки, которых еще нет в базе данных).
- Загрузите следующую ссылку из базы данных, снова сохраните ее содержимое и любые другие ссылки.
- Если другой ссылки нет, снова просканируйте все ссылки (через некоторое время), чтобы перезаписать старый контент новым.
Это работает довольно хорошо, но есть ли возможность сканировать страницы, требующие входа в систему (если я знаю имя пользователя и пароль)? Я знаю гем Mechanize, который предоставляет функциональные возможности для заполнения форм, но я не знаю, как интегрировать его в свой процесс (если это возможно). Или есть другой способ, как просканировать страницы «за» формой входа?