У меня есть скрипт, который сохраняет входящие твиты для фразы (например, «python») в таблицу базы данных «A», используя twitter потоковое API. Позже другой скрипт ищет ту же фразу, используя API поиска в Twitter, и сохраняет результаты в таблице "B". ". Мой вопрос в том, почему в «А» есть твиты, которых нет в «Б», и наоборот.
Я могу придумать одну причину, по которой твиты должны быть в «Б», а не в «А»:
«A» содержит только твиты, опубликованные после запуска API потоковой передачи, в то время как API поиска возвращает результаты за последнюю неделю. Если потоковое API работает более недели, то в «B» не должно быть ни одного твита, которого нет в «A».
Я знаю две причины, по которым некоторые твиты должны быть в «А», а не в «Б»:
- поисковый API возвращает только результаты за последнюю неделю, в то время как потоковый API возвращает все
- поисковый API возвращает только часть результатов, а не все, поскольку его внимание не сосредоточено на полноте.
Я хотел бы убедиться, правильно ли я понял или нет.