Проблема создания ценности из наших собственных данных

Наши данные обычно ценны только потому, что они являются частью более крупного блока больших данных. Если мы хотим монетизировать наши собственные данные, что-то должно измениться.

Было много разговоров об Amazon, Facebook и других компаниях, получающих прибыль от наших данных, и было много разговоров об изменении способа хранения данных, чтобы мы полностью контролировали их, и даже чтобы мы получали прибыль. наших собственных данных. Эти идеи звучат неплохо, но претворить их в жизнь будет намного сложнее, чем некоторые люди могут себе представить.

Учитывайте покупательские привычки. Ваши покупательские привычки не так уж и ценны. Никого не волнует, что вы уже покупаете или не покупаете. Компании хотят знать, что вы купили бы, если бы вам была предоставлена такая возможность. Чтобы знать, что вы бы купили, бизнес должен понимать поведение потребителей, а не только ваше поведение. И здесь на помощь приходят большие данные.

Базовые рекомендательные системы (RS)

Собирая и анализируя покупательские привычки сотен, тысяч и даже миллионов людей, такие компании, как Amazon, могут предсказать, что вы купили бы, и адаптировать ваш опыт покупок и свою рекламу к вам.

Часто такое агрегирование и анализ выполняется с помощью машинного обучения. Алгоритмы, которые стремятся оценить предпочтения на основе существующих выборов, называются рекомендательными системами (RS). В рекомендательных системах используются многочисленные методы.

Один из подходов, используемых в RS, - это совместная фильтрация. При таком подходе вкусы отдельного пользователя сопоставляются с вкусами других пользователей со схожими вкусами, а затем, если совпадению что-то нравится, предполагается, что пользователь тоже. Эта информация часто хранится в матрице «пользователь-элемент», что на самом деле не самый эффективный вариант, потому что матрица может быть очень большой и иметь много пропусков. Но это базовый метод.

Возможен пользовательский контроль при совместной фильтрации. Поскольку матрица «пользователь-элемент» имеет строку для данных каждого пользователя, эти строки могут быть децентрализованы, или, по крайней мере, у нас есть возможность удалить данную строку по запросу пользователя. Мы также можем знать, когда используется строка, чтобы можно было произвести какую-то выплату. Но этот метод был бы до абсурда неэффективным.

Нейронные сети и черные ящики

Более сложный, но гораздо более эффективный метод - использование нейронных сетей. Сеть обучается шаблонам поведения потребителей и учится рекомендовать продукты на основе поведения конкретного пользователя. Эти системы могут быть очень мощными, но они собирают пользовательские данные таким образом, что их невозможно разобрать. На самом деле невозможно разделить или контролировать данные одного пользователя.

Итак, в этом случае первая проблема заключается в том, как вы контролируете информацию? Это похоже на то, как если бы вы рассказали кому-то информацию о себе, а затем сказали, чтобы он забыл все, что вы им только что рассказали! Нейронные сети просто не работают так, чтобы мы могли удалить данные, которым их учим. Также потребуется дополнительный уровень, который указывает, когда данные пользователя используются, чтобы они могли получать выплаты, но в некотором смысле этот параметр снижает анонимность совокупных данных.

Проблема в том, что нейронные сети - это вообще черные ящики. Черный ящик в информатике - это любое устройство, которое принимает ввод и производит вывод таким образом, что мы не знаем, какова его функция. Черный ящик работает, но мы не понимаем почему. Эти устройства часто используются в теоретических дискуссиях, но на самом деле нейронные сети - это черные ящики. Мы можем ввести данные и получить результат, но мы действительно не понимаем, почему это произошло.

Статья Дэвида Вайнбергера о машинном обучении довольно подробно освещает эту тему. На самом деле меня немного беспокоит то, что некоторые люди слишком привыкают позволять машинному обучению моделировать реальность для них, но анализ важен, потому что он не только показывает, насколько полезным и важным стало машинное обучение для прогнозирования будущих событий, но и также насколько сложно реконструировать эти модели.

Машинное обучение расширяет разрыв между знаниями и пониманием
И дает нам инструменты для нашего следующего эволюционного шага onezero.medium.com

Есть те, кто даже считает, что машинное обучение настолько мощно, а раскрытие этих черных ящиков настолько сложно, что они представляют собой сдвиг парадигмы от понимания к простому прогнозированию с использованием этих обученных моделей. Если эта технология настолько разрушительна, что угрожает самому способу ведения науки, как мы можем контролировать ее внутреннюю работу и разбивать ее на части?

Есть несколько методов, позволяющих получить небольшое представление о том, что узнала сеть, и раскрытие этой информации может дать нам дальнейшее понимание в будущем, но мы не можем просто полностью развернуть нейронную сеть обратно в ее обучающую информацию и извлечь заданную информацию. обосновать решение или удалить заданное подмножество обучающих данных, если мы не сохраним все данные и не будем постоянно воспроизводить всю нейронную сеть, что помимо абсурдной неэффективности приведет к еще большим проблемам с конфиденциальностью.

Нейронные сети, которые можно развернуть таким образом, повышают риск атаки. Нейронная сеть белого ящика может быть исследована способами, которые предоставляют слишком много информации об обучающей информации (На пути к обратному проектированию нейронных сетей черного ящика). Но даже эти методы являются простыми формами исследования модели, чтобы попытаться получить информацию. Это все еще не позволяет нам по-настоящему понять, как было принято решение в модели.

Правовые вопросы

GDPR и другие правовые протоколы, которые стремятся предоставить людям полный контроль над своими данными, находятся в конфликте с машинным обучением, особенно такого рода. Чем больше правовой защиты данных у человека, тем больше становится нелегальных нейронных сетей просто из-за того, что они являются черным ящиком. Сам GDPR уже создает множество проблем для машинного обучения из-за своей неспособности дать подробный комментарий к результату решения.

Эта проблема рассматривается в разделе Сделает ли GDPR незаконным машинное обучение? и хотя этой статье около года, но у меня такое чувство, что ответов на многие вопросы все еще не существует. И GDPR все еще во многих отношениях намного слабее, чем хотят некоторые люди.

ReadWrite предполагает, что блокчейн - это способ дать нам универсальный базовый доход, и я согласен, но не согласен с этим подходом. В своей статье Является ли криптовалюта недостающим компонентом универсального базового дохода автор предлагает законы, которые обеспечивают полное и неопровержимое право собственности на данные для лиц, которые их генерируют…. Такая практика сделала бы актуальным Решения на основе нейронных сетей полностью незаконны. И я просто не считаю блокчейн решением, которое могло бы найти реальный способ обойти эту проблему.

Заключительный момент

Другая проблема, как я уже упоминал в предыдущих обсуждениях, заключается в том, что эти компании так заинтересованы в наших данных, потому что от них ожидается, что они предоставят нам все бесплатно. Платим ли мы Facebook за услуги, которые они предоставляют? Нет. Хорошо, потому что я рекламодатель на Facebook. Я один из их потребителей. Итак, Facebook et al. должны делать все возможное, чтобы потребители были довольны и служили их интересам. Это не только этично, но и закон.

Навигация: Главный указатель | Политическая теория | Экономика

Дальнейшее чтение

Психология искусственного интеллекта
Почему теории психологии, а также антропологии и когнитивной нейробиологии необходимо применять для разработки… todatascience.com