Какие дополнительные данные отправлять в URL-запросе?

Краткая версия: как мне узнать, как сформулировать дополнительные данные (например, определенные параметры на странице, которые отображают разные HTML-файлы, но относятся к одному и тому же URL-адресу) при получении URL-адреса с помощью urllib?

Длинная версия: мне трудно понять, как обрабатывать свойства запроса URL, которые определяются не URL-адресом ссылки, а, возможно, другой информацией, которую обычно отправляет ваш браузер. Точнее: эта страница содержит таблицу, которую я хочу прочитать с помощью python, но длина таблицы зависит от количества элементов на странице, которое вы выбираете в левом нижнем углу (т.е. количество элементов в коде, который я получаю из urllib.request.urlopen, является стандартом 50 или около того, а не полная таблица). Нажатие кнопок, например. 400 элементов на странице не меняют URL-адрес, поэтому я ожидаю, что какая-то информация отправлена ​​​​куда-то еще. Я понимаю, что использование urllib может отправлять дополнительные данные помимо URL-адреса, но мне неясно, как мне понять, как я должен формулировать «дайте мне всю таблицу» (или «дайте мне 400 элементов на страницу») в этих данных.

Изучение файла .html, который я получаю при сохранении веб-страницы в своем браузере, не дало мне никаких подсказок, и мне не хватает словарного запаса для поиска ответов в Интернете (то есть поиск в Google «параметра запроса urllib» слишком расплывчатый). Поэтому я был бы полностью удовлетворен, если бы кто-нибудь указал мне на дубликат этого вопроса.

Заранее спасибо :)


person SolUmbrae    schedule 13.06.2016    source источник
comment
Информация, вероятно, хранится и отправляется в файле cookie. Проверьте фактический запрос, отправленный в вашем браузере, с помощью инструментов отладки вашего браузера.   -  person deceze♦    schedule 13.06.2016
comment
@deceze Возможно, это то, что я пытался сохранить, сохранив страницу в формате html и проработав документ. (в хроме, который также работает с источником просмотра, [эта ссылка может работать только в хроме](источник представления:virtonomics.com/mary/main/geo/transport/423083/370074/423081/) Мне не удалось обнаружить информацию, но я также не знаю точно, что я ищу.   -  person SolUmbrae    schedule 13.06.2016
comment
Я говорю об этом: developers.google.com/web/tools/chrome-devtools/profile/ — вы хотите воспроизвести HTTP-запрос, поэтому посмотрите исходный HTTP-запрос; а не HTML-документ.   -  person deceze♦    schedule 13.06.2016
comment
@deceze Выглядит отлично, я посмотрю, спасибо :)   -  person SolUmbrae    schedule 13.06.2016
comment
@deceze Я просто скажу, где я нахожусь, а затем вы сможете решить, стоит ли отвечать вашего времени: похоже, было сделано два запроса, первый для virtonomics.com/mary/main/common/util/setpaging/dbproduct/, который включает выбранный вариант в конец в URL-адресе и второй для исходного URL-адреса. Заголовки запросов вроде бы не сильно зависят от выбранного варианта (т.е. недостаточно информации для определения того, какой вариант был выбран), поэтому я не понимаю, как первый запрос влияет на второй.   -  person SolUmbrae    schedule 13.06.2016
comment
Например. это часть файла cookie заголовка второго запроса (исходный URL) для опции 200 Cookie: language=en; _vwo_uuid_v2=73DE79322AAAFF3B48532C85F221A7CE|ada5b444309dffb170d78e9f62563ede; игрок=ложь; _ym_uid=1465824310890855545; _ym_isad=2; _mm_key_=d68ddbf70bd0fda1636ddf6913cae067; _мм_пользователь_=1217393; зарегистрированный_пользователь = 1; traidingHallProductCategory=1535; виртономика_unitlist_size=50; last_realm = Мэри; _gat=1; PHPSESSID=tfbmtov1v8pg6sngts4kignmf1; _ga=GA1.2.527327008.1465824310   -  person SolUmbrae    schedule 13.06.2016
comment
И для варианта 10: Cookie: language=en; _vwo_uuid_v2=73DE79322AAAFF3B48532C85F221A7CE|ada5b444309dffb170d78e9f62563ede; игрок=ложь; _ym_uid=1465824310890855545; _ym_isad=2; _mm_key_=d68ddbf70bd0fda1636ddf6913cae067; _мм_пользователь_=1217393; зарегистрированный_пользователь = 1; traidingHallProductCategory=1535; виртономика_unitlist_size=50; last_realm = Мэри; PHPSESSID=tfbmtov1v8pg6sngts4kignmf1; _ga=GA1.2.527327008.1465824310; _gat=1 Они совпадают, кроме _gat=1; но это не различает 5 возможных вариантов (я проверил, есть разные варианты с одним и тем же файлом cookie, я должен был их опубликовать)   -  person SolUmbrae    schedule 13.06.2016


Ответы (1)


Для всех, кто найдет этот вопрос, я подробно расскажу об ответе, который @deceze дал в комментариях:

  • Откройте веб-страницу, которую хотите прочитать, в браузере.
  • Откройте сетевую панель браузера (в хроме это [Strg+Shift+I] или щелкните правой кнопкой мыши> Проверить
  • Перейдите на вкладку «Сеть» (по крайней мере, в хроме)
  • Делайте все, что вы хотите, чтобы ваша программа делала, и пустой список сетевой панели заполнится большим количеством данных.
  • Найдите свой запрос в списке событий (наверное, один из самых первых), нажмите на него и выберите "Заголовки"
person SolUmbrae    schedule 13.06.2016