Если они могут извлечь из этого пользу, почему я не могу?

Около двух лет назад я прошел свой первый вводный курс по науке о данных. В течение десяти недель, пока я был зачислен, я научился очищать данные, изменять их, анализировать, визуализировать и вставлять в алгоритмы машинного обучения. Меня сразу зацепило. В эпоху, когда большие данные доступны как универсальный буфет модных словечек, мне казалось, что перед моими глазами открылся целый новый мир.

В то же время, когда я изучал вводную науку о данных, меня также записали на курс под названием «Профессиональные обязанности». В моем университете это принято называть компьютерной этикой. Мой быстро растущий голодный аппетит к данным был внезапно подавлен крайним когнитивным диссонансом.

Утром я узнал, насколько легко вывести недостающие атрибуты из набора обучающих данных, а днем ​​я узнал о скандалах с деанонимизацией, происходящих в индустрии. Я научился создавать парсер в тот же день, когда меня научили целостности контекста. Я заглядывал в два будущего; один, который увековечит системный обман, и другой, который может использовать мои технические знания для социальной справедливости.

Хотя я вел противоречивую войну с данными, я очень благодарен за эту битву. Эти десять недель полностью изменили мое восприятие технологий. Реальность, в которой я жил, была реальностью самодовольства и отрицания. Я думал, что, если притворимся незнанием моей потребности в конфиденциальности данных, мне не придется оправдывать свое чрезмерное использование социальных сетей.

Затем наступили последние три недели квартала. Нам поручили заключительный проект по курсу науки о данных. Я должен был получить набор данных, очистить его, выполнить какой-то анализ, создать визуализацию, ввести его в модель машинного обучения и чему-то научить класс.

Я знал, что хочу сделать что-то важное со своим проектом. Я хотел сделать заявление. Я мог бы легко найти набор данных по спортивной статистике или обзорам фильмов, но они не собирались использовать мою способность культивировать этику так, как мне было нужно. Я загружал групповое фото в знаменитую базу данных Facebook, как вдруг меня осенило.

Я собирался использовать свои собственные данные Facebook.

Открытие

До появления GDPR сбор данных в Facebook был противоположностью прозрачности. Мне было трудно найти, какие данные собирала компания, не говоря уже о том, как получить к ним какой-либо доступ. В конце концов, прищурившись, чтобы прочитать мелкий шрифт на странице настроек, я нашел свой золотой билет в одном предложении.

 Download a copy of your Facebook data.

Это заняло несколько дней, но в конце концов мне выдали заархивированную папку с html-файлами со всей * информацией, которую я лично предоставил гиганту социальной сети в течение восьми лет с ними. Я был шокирован.

* Я говорю все с нерешительностью, потому что есть вероятность, что эта информация - это только то, чем Facebook готов поделиться, собранным / собранным от своих пользователей.

На самом деле, не знаю, почему я был так удивлен. Я должен был знать, что они хранили все мои данные. Мысли, сообщения, события, картинки и лайки в течение почти десятилетия складывались. Я думаю, что это был акт физического наблюдения за агрегацией моей сетевой жизни в одном zip-архиве, который действительно добавил вишенку на вершину метафорического фруктового мороженого с кризисом конфиденциальности данных. У них даже были мои данные по распознаванию лиц. Я впервые удалил Facebook.

По иронии судьбы я только что узнал на уроке компьютерной этики, что удалить учетную запись Facebook на самом деле невозможно, поскольку данные, которые уже были собраны, никогда не будут удалены. Тем не менее, я открыл свой ноутбук и начал искать в HTML-адресах своей личности в Интернете. Мне нужно было поработать.

Проэкт

К этому моменту у меня было около восьми недель первого знакомства с наукой о данных. Я не мог создать нейронную сеть, распознающую лица, или анализ социальных графов моих друзей. На самом деле, я хотел доказать своим проектом только одно: если компании, работающие в социальных сетях, получают выгоду от использования наших личных данных, почему мы не можем сделать то же самое? Я решил создать два набора данных:

  1. Мои личные сообщения из Facebook Messenger.
  2. Мои общедоступные сообщения из моей хроники в Facebook.

Используя библиотеку nltk, я выполнил анализ настроений на обоих этих наборах данных, чтобы увидеть, был ли я постоянно положительным и / или отрицательным между моей публичной персоной и моими личными делами. Я узнал, что это не так. Я был (по понятным причинам) гораздо более негативным в частной жизни, чем публично. Я поигрался с данными. Я узнал, что в январе у меня гораздо больше шансов быть отрицательным. Хотя апрель был отличным. Я создал предсказатель машинного обучения, который угадывает, насколько я могу быть положительным или отрицательным в любой день с точностью до секунды.

Я сделал это, имея восемь недель знаний в области науки о данных. Что мешало профессионалам Facebook сделать нечто подобное? Если бы я узнал так много о своей личной жизни с помощью элементарного анализа данных, я бы даже представить себе не мог, что мог бы узнать обо мне целый ряд экспертов.

Я представил свои выводы классу. Я рассказал им о своей мотивации, конфиденциальности данных в Интернете и использовании данных в социальных сетях. Они хлопали, и я сел. Проект был завершен ... но путешествие только началось.

Я использовал свои собственные данные в надежде узнать больше о себе. Вместо этого я узнал больше о своей личности. В Европе мои данные считаются частью моей личности. В США это не так. Пока я просматривал тысячи своих личных сообщений, публичных мыслей или привычных лайков на страницах, которые были собраны за последнее десятилетие; стало невозможно представить, как кто-то мог подумать, что данные не являются частью нашей идентичности.

Один момент времени может изменить чье-то мировоззрение на всю оставшуюся жизнь. Моим моментом был первый год обучения в колледже, когда я сидел в кафе и эксплуатировал свои собственные данные. По мере того как комфорт самоуспокоенности становился все более иллюзорным, я знал, что безразличие невозможно.

Обсуждая эту тему, я подумывал превратить свой старый проект в универсальный инструмент с открытым исходным кодом, чтобы каждый мог проанализировать свои собственные настроения в Facebook. Свяжитесь с нами, если вы заинтересованы в использовании собственных данных, и, возможно, мы сможем воплотить это в жизнь!