Позволят ли ограничения скорости Twitter мне провести анализ данных, необходимый для построения полного графа социальной сети с примерно 600 тысячами пользователей?

Основной вопрос: позволят ли ограничения скорости Твиттера выполнить анализ данных, необходимый для построения полного графа социальной сети со всеми направленными ребрами среди примерно 600 тысяч пользователей?

Вот идея:

Ребра/связи/отношения в сети будут отношениями последователя/следователя.

Начните с определенного списка примерно из 600 пользователей Twitter, выбранных потому, что все они представляют все новостные агентства большого города.

Соберите всех подписчиков и друзей (людей, на которых они подписаны) для всех 600 пользователей. Эти пользователи, вероятно, имеют среднее количество подписчиков 2000 каждый. Вероятно, у них в среднем 500 друзей (людей, на которых они подписаны).

Поскольку все эти подписчики из 600 находятся в одном городе, ожидается, что многие из этих подписчиков будут теми же пользователями, которые следят за этими 600 людьми. Итак, давайте прикинем и предположим, что у этих 600 пользователей в общей сложности примерно 600 000 подписчиков и друзей. Таким образом, это будет подграф/сеть из 600 600 пользователей Twitter.

Итак, как только я соберу всех 600 000 подписчиков и друзей всех этих 600 человек, я хочу иметь возможность построить социальную сеть из всех этих 600 600 человек И их подписчиков. Это потребовало бы от меня возможности найти по крайней мере все направленные ребра среди этих 600 600 пользователей (независимо от того, подписаны ли каждый из этих 600 600 пользователей друг на друга). С ограничениями скорости Twitter возможен ли такой интеллектуальный анализ данных?


person TJE    schedule 07.06.2013    source источник
comment
Может быть, вы могли бы сказать нам ограничения скорости в твиттере, чтобы нам не пришлось искать их самим. Кроме того, меня больше всего беспокоит то, что получившаяся сеть в любом случае в значительной степени бессмысленна ... какая семантика на самом деле имеет твиттер? Не намного больше, чем случайное нажатие не той кнопки, не так ли?   -  person Has QUIT--Anony-Mousse    schedule 07.06.2013
comment
Вы уверены, что у вас есть аппаратное обеспечение для обработки чисел на графике с 600 000 узлов и примерно 1,2 млн ребер (исходя из вашей оценки в 2 000 подписчиков на каждого)?   -  person David Marx    schedule 11.06.2013


Ответы (2)


Я отвечу на эти вопросы в обратном порядке, начиная с Дэвида Маркса: Ну, у меня есть доступ к довольно мощному компьютерному исследовательскому центру с огромным объемом памяти, так что это не должно быть проблемой. Однако я не знаю, справится ли с этим программное обеспечение.

Скорее всего, мне придется сократить проект, и это нормально. Идея для меня состоит в том, чтобы начать с большей идеи, выяснить, насколько большой она может быть, а затем соответственно урезать.

В продолжение вопроса Anony-Mousse: Часть моей проблемы заключается в том, что я не уверен, что правильно интерпретирую ограничения скорости Twitter. Я не уверен, что это 15 запросов за 15 минут или 30 запросов за 15 минут. И я думаю, что 1 запрос получит 5000 подписчиков/друзей, так что вы могли бы предположительно собирать 75 000 друзей или подписчиков каждые 15 минут, если ограничение составляет 15 запросов за 15 минут. Я также пытаюсь выяснить, существует ли какой-либо процесс запроса более высоких пределов скорости для любых исследовательских целей.

Здесь перечислены ограничения: https://dev.twitter.com/docs/rate-limiting/1.1/limits

person TJE    schedule 11.06.2013

Основной вопрос: Позволят ли мне ограничения скорости Твиттера заниматься интеллектуальным анализом данных (...)

Да, это технически осуществимо, однако на это уйдет много времени, если вы используете только один токен доступа пользователя API. Я имею в виду здесь, вероятно, более 6 месяцев непрерывной работы.

Чтобы быть более точным:

  • извлечение узлов (пользователей Twitter) можно выполнить очень быстро, поскольку вы будете использовать конечную точку users/lookup API, которая позволяет извлекать 100 узлов за запрос и выполнять 180 запросов за 15-минутное окно (на каждый токен доступа, который вы имеют)
  • извлечение ребер (отслеживание отношений между пользователями) является медленной частью, вы будете использовать конечные точки friends/ids и followers/ids API, ограниченные 15 запросами в 15 минут и позволяющие извлекать не более 5000 друзей подписчиков за уникальный пользователь на запрос.

Вы можете использовать метаданные узлов (тексты описаний, местоположения, языки, часовые пояса) для выполнения интересного анализа, даже не извлекая «график» (следите за отношениями между всеми)

Обойти это можно, распараллелив части извлечения, распределив извлечение по нескольким токенам доступа. Мне кажется, что условия использования соответствуют требованиям, если вы уважаете защищенные учетные записи.

В любом случае следует отфильтровать извлечение ребер для знаменитостей (вы, наверное, не хотите извлекать подписчиков hootsuite, их почти 6 миллионов).

отказ от ответственности: самореклама здесь: если вы не хотите разрабатывать это самостоятельно, я могу сделать для вас извлечение и предоставить вам файл графика, так как я извлекаю графики из твиттера на tribalytics. (Я прочитал это и что перед публикацией).

Я также пытаюсь выяснить, существует ли какой-либо процесс запроса более высоких пределов скорости для любых исследовательских целей.

Официально в белом списке больше нет приложений с более высокими ограничениями скорости, как могло бы быть с предыдущая версия API твиттера. Вам, вероятно, все же следует связаться с Twitter и узнать, могут ли они помочь вам, поскольку ваша работа предназначена для академических целей.

Скорее всего, мне придется сократить проект, и это нормально.

Я бы посоветовал вам сократить первоначальный список из 600 пользователей настолько, насколько это возможно. Оставляйте только тех, кто действительно занимает центральное место в вашей теме и чья аудитория не слишком велика. Извлечение графика местных знаменитостей даст вам график со многими людьми, не имеющими никакого отношения к населению, которое вы хотите изучить.

person Mehdi    schedule 13.09.2013