Я уже давно верю, что существует невидимый барьер, когда дело доходит до общения в социальных сетях. например, если кому-то нравятся фотографии собак / кошек, то канал в Instagram или Twitter, который они видят, создан так, чтобы их было больше. этот простой подход к персонализации каналов приводит к более серьезным опасностям, как это произошло в моем случае. Поскольку мне нравилось и мое взаимодействие ограничивалось людьми, скажем, одного типа идей, то через некоторое время мой твиттер стал просто набором этих идей. Однажды я понял, что не помню, о чем вообще говорят люди по ту сторону. не говоря уже о взаимодействии с ними. теперь это осознание сочетается с моим увлечением новой группой лидеров, таких как Александрия Окасио-Кортес @AOC и Дэн Креншоу @DanCrenshawTX. я хотел посмотреть, подписаны ли люди, следующие за ними, по крайней мере, за людьми с другой стороны.

  1. сначала мне нужны данные твиттера. я написал скрипт для получения всех подписчиков в твиттере обоих вышеупомянутых лидеров.
  2. затем я нашел набор последователей, скажем (перекресток B). то есть люди, которые следуют за одним лидером, но не следуют за другим
  3. после этого скажем, для последователей Александрии Окасио-Кортез, которые не следуют за Дэном Креншоу. я запланировал, подписаны ли они на других известных знаменитостей, таких как @ямджоноливер, @сетмейерс, @шонхэннити, @andersoncooper, Джейк Таппер, @LindseyGrahamSC, @SpeakerPelosi. Как не удалось сделать анализ по всем подписчикам в твиттере, так как их довольно много. я взял случайную выборку пользователей и создал csv.

CSV-файл выглядел примерно так:

4. теперь пришло время для некоторых гистограмм

Синий цвет представляет последователей Александрии Кортес, следующих за знаменитостями. Красный представляет последователей Дэна Креншоу после знаменитости.

5. Затем я сделал базовую классификацию. где вы введете чей-то никнейм в твиттере, и он подскажет, что из двух наших лидеров человек с большей вероятностью имеет политическую идеологию, тесно связанную с каким из них. здесь я написал скрипт для получения всех пользователей твиттера, за которыми следует введенный дескриптор твиттера, а затем, после некоторых базовых вещей ML, он сделает прогноз. я смог достичь точности 90% с моим набором данных.

6. наконец, моя матрица путаницы для классификации: