Удаление бот-трафика из Google Analytics

В отчетах Google Analytics я вижу трафик, который почти уверен, что он исходит от ботов:

введите здесь описание изображения

Посмотрите, как поставщик услуг является amazon technologies inc. (из Эшберна, штат Вирджиния, по-видимому, боты Amazon AWS) и microsoft corporation (из Коффивилля, штат Канзас).

Я хочу исключить весь трафик от всех ботов, включая Google, Amazon, Microsoft и любую другую компанию. Я хочу видеть трафик только от реальных людей, которые посещают мой сайт, а не от веб-роботов. Спасибо.


person Jaime Montoya    schedule 19.07.2018    source источник
comment
Я добавил ответ, но, перечитав ваш вопрос, я так понимаю, вы просто хотите отфильтровать результаты и не столько удерживать ботов от попыток сканирования файлов. Так что, к сожалению, я не уверен, поможет ли мой ответ каким-либо образом. ;-)   -  person JGlass    schedule 20.10.2018


Ответы (3)


В настройках просмотра Google Analytics вы увидите параметр «Фильтрация ботов». Установите флажок «Исключить все попадания от известных ботов и пауков». Если Google Analytics распознает обращения из Ashburn и Coffeyville как боты, данные от этих ботов не будут отображаться в вашем представлении.

Фильтрация ботов

Если Google Analytics не распознает их как ботов, вы можете изучить влияние добавления фильтра в ваши представления, который исключит трафик от организации (организаций) интернет-провайдера.

Фильтр просмотра для организации интернет-провайдера

person Dave Meindl    schedule 20.07.2018
comment
Потрясающий! Я только что сделал это. Пока не фильтровать организацию интернет-провайдера, но установить флажок Исключить все обращения от известных ботов и поисковых роботов. Я надеюсь, что это исправит это для меня. Если нет, я попробую исключить организации интернет-провайдеров, как вы мне объяснили. Но я надеюсь, что Google распознает посещения Amazon и Microsoft из Эшберна и Коффивилля как трафик ботов. - person Jaime Montoya; 20.07.2018

Большинство этих ботов приходят из других инструментов. В прошлую пятницу мы получили много сеансов связи из Коффивилля и с корпорацией Майкрософт в качестве поставщика услуг. Это произошло потому, что мы использовали инструмент для сканирования нашего веб-сайта на наличие файлов cookie. Итак, это причина. Мой лучший вариант - исключить любые данные из этого города/города. Скриншот из Google Analytics о том, как я реализовал фильтр в этом представлении

person Ruben Lozano    schedule 20.10.2018

Вы можете использовать Robots.txt, чтобы попытаться исключить ботов: Стандарт исключения роботов

Некоторые выдержки не говорят о том, что ссылка когда-либо может потерпеть неудачу.

Стандарт исключения роботов, также известный как протокол исключения роботов или просто robots.txt, представляет собой стандарт, используемый веб-сайтами для связи с поисковыми роботами и другими веб-роботами. Стандарт определяет, как информировать веб-робота о том, какие области веб-сайта не должны обрабатываться или сканироваться. Роботы часто используются поисковыми системами для категоризации веб-сайтов. Не все роботы соответствуют стандарту; сборщики электронной почты, спам-боты, вредоносные программы и роботы, которые сканируют уязвимости в системе безопасности, могут даже начинать с тех частей веб-сайта, куда им было приказано не входить. Этот стандарт отличается от Sitemaps, стандарта включения роботов для веб-сайтов, но может использоваться вместе с ним.

О стандарте
Когда владелец сайта хочет дать инструкции веб-роботам, он помещает текстовый файл с именем robots.txt в корень иерархии веб-сайта. (например, https://www.example.com/robots.txt). Этот текстовый файл содержит инструкции в определенном формате (см. примеры ниже). Роботы, которые решили следовать инструкциям, пытаются получить этот файл и прочитать инструкции, прежде чем получать любой другой файл с веб-сайта. Если этот файл не существует, веб-роботы предполагают, что владелец веб-сайта не хочет предоставлять никаких конкретных инструкций, и сканируют весь сайт.

Файл robots.txt на веб-сайте будет функционировать как запрос на то, чтобы указанные роботы игнорировали указанные файлы или каталоги при сканировании сайта. Это может быть, например, из-за предпочтения конфиденциальности результатов поисковой системы или убеждения, что содержимое выбранных каталогов может вводить в заблуждение или не иметь отношения к категоризации сайта в целом, или из-за желания, чтобы приложение работает только с определенными данными. Ссылки на страницы, указанные в файле robots.txt, по-прежнему могут отображаться в результатах поиска, если на них ведут ссылки со страницы, которая просканирована.

Несколько простых примеров
В этом примере всем роботам сообщается, что они могут просматривать все файлы, поскольку подстановочный знак * обозначает всех роботов, а директива Disallow не имеет значения, то есть ни одна страница не запрещена.

User-agent: * Disallow: Тот же результат может быть достигнут с пустым или отсутствующим файлом robots.txt.

Этот пример говорит всем роботам держаться подальше от веб-сайта:

User-agent: * Disallow: / Этот пример говорит всем роботам не заходить в три каталога:

User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ Этот пример говорит всем роботам держаться подальше от одного конкретного файла:

User-agent: * Disallow: /directory/file.html Обратите внимание, что все остальные файлы в указанном каталоге будут обработаны.

person JGlass    schedule 20.10.2018