Python Web Crawler с сохраненной историей веб-поиска

Я создаю веб-сканер Python с возможностью просматривать историю веб-поиска, анализировать информацию и хранить важную информацию в базе данных для криминалистических/академических целей. Я понимаю функциональность просмотра веб-сайтов, но часть, с которой я борюсь, заключается в том, чтобы иметь возможность сканировать историю веб-поиска. Я приведу сценарий:

Во время судебно-медицинской экспертизы.

Вам был предоставлен полный криминалистический образ компьютера подозреваемого, затем вы находите папку AppData для Google Chrome, в которой хранится вся информация о подозреваемом, включая информацию формы, учетные данные и историю веб-поиска.

Как мне настроить поисковый робот только для поиска данных в истории веб-поиска подозреваемых.

У меня также возникают проблемы с доступом к информации, хранящейся в данных пользователя Google Chrome, чтобы попытаться просмотреть мою личную информацию, которая хранится здесь в качестве начала. В настоящее время я пытаюсь использовать браузер БД для просмотра файлов, чтобы попытаться просмотреть свою историю веб-поиска, однако м не повезло с этим. Какие-либо предложения

Для тех, кто заинтересован в этом моем проекте, я могу обновлять эту тему по мере продвижения, чтобы вы могли видеть прогресс моего веб-краулера, конечный результат будет иметь возможность собирать историю веб-поиска и данные с общедоступных и частных веб-сайтов, сортировать важную информацию, т.е. имя, адрес, дату рождения в базу данных для последующего использования в качестве биографического словаря.

Я БУДУ ПОДЧЕРКИВАТЬ ЭТО ЕЩЕ РАЗ, ПОСКОЛЬКУ ЭТО ВСЕ ДЛЯ АКАДЕМИЧЕСКИХ ЦЕЛЕЙ В КОНТРОЛИРУЕМОЙ СРЕДЕ И ИСПОЛЬЗУЕТСЯ НА ТЕСТИРОВАНИИ/ПОДДЕЛЬНОМ АККАУНТЕ


person BoBBob123    schedule 15.11.2015    source источник


Ответы (1)


Hindsight (https://github.com/obsidianforensics/hindsight) – это инструмент с открытым исходным кодом, написанный на Python. может анализировать массу информации из файлов в каталоге /Google/Chrome/User Data/.

Вы можете взглянуть на его источник для вдохновения или просто запустить инструмент и проанализировать его вывод (он может создавать XLSX, JSON или SQLite) в вашем сканере.

person Ryan    schedule 24.11.2015
comment
спасибо, что-нибудь поможет на этом этапе, мне трудно начать - person BoBBob123; 25.11.2015