Что такое открытые данные?

Из Википедии: Открытые данные - это идея о том, что некоторые данные должны быть бесплатно доступны каждому для использования и повторной публикации по своему желанию, без ограничений со стороны авторских прав, патентов или других механизмов контроля. Цели движения за открытые исходные данные аналогичны целям других движений за «открытый (исходный)».

Самыми крупными источниками открытых данных (с некоторыми примерами) являются:

Правительства и муниципалитеты

Данные переписи и национальная статистика:

Данные, опубликованные в рамках инициатив открытого правительства:

НПО и некоммерческие организации

Глобальное развитие, иммиграция:

  • "Организация Объединенных Наций"
  • ОЭСР
  • "КТО"

Географические данные:

Новости и СМИ

Наука и исследования

Науки о здоровье предоставляют множество хорошо структурированных данных.

Количество наборов данных машинного обучения растет.

Исторические наборы данных:

Коммерческие организации

Иногда делятся своими данными:

Или разрешите собирать их данные в исследовательских целях:

Спортивный

Популярность ставок на спорт служит отличным стимулом для создания очень подробных наборов данных для улучшения методов прогнозирования:

  • "Бейсбол"
  • "Баскетбол"

Почему это должно вас волновать?

Открытые данные на благо общества

Если вас не расстраивает текущая политическая ситуация, независимо от того, какую страну вы называете своим домом - вы, вероятно, один из тех, кто вообще перестал читать / смотреть новости. Наслаждайся своим блаженством. Но если вы готовы и хотите что-то с этим сделать - вот вариант, который стоит рассмотреть:

Открытые данные и движение за открытое правительство находятся в верхней части моего списка способов справиться с нынешней ситуацией, когда политики и общественные деятели манипулируют эмоциями людей и используют вызывающие разногласия темы для продвижения своих интересов. Я вижу в этом способ увести общество от политических аргументов (иначе говоря, «тот, кто громче кричит - побеждает») к аргументам, основанным на фактических данных. Это не заставит аргументы исчезнуть полностью, но я бы предпочел аргументы о различных способах интерпретации данных, текущим соревнованиям по популярности и выступлениям фокус-групп.

Со стороны правительства обнадеживают следующие тенденции:

Мы уже видели, как некоторые правительства публикуют свои законодательные документы на GitHub и новые предложения, такие как GitHub для правительств. Публикация и обслуживание данных - гораздо более сложная проблема, которую еще предстоит решить.

Некоторые муниципалитеты идут на несколько шагов дальше, чтобы опубликовать данные в открытом доступе:

Выше приведены некоторые удивительные наборы данных, такие как записи всех диспетчерских служб экстренной помощи, данные о преступности, данные ГИС по городским районам, участкам собственности, основным транспортным магистралям и даже данные оценки жилой недвижимости.

Прекрасной иллюстрацией потенциала открытых данных является движение журналистики, основанной на данных, где данные используются либо для подтверждения историй, либо даже для их обнаружения:

Открытые данные для бизнеса

Если исправление правительств не входит в число ваших приоритетов - существует много успешных предприятий, построенных с использованием открытых данных.

Его использование можно разделить на следующие категории:

Оптимизация бизнеса в таких областях, как анализ рынка, целевой маркетинг, привлечение и удержание клиентов. Например, использование данных переписи для определения географических регионов и целевой демографической группы, наиболее восприимчивой к продукции компании.

Улучшение существующих продуктов. Например, Google Maps, который использует данные GTFS для расписания общественного транспорта.

Бизнес-модели были сосредоточены на предоставлении дополнительных функций поверх [того, что есть или должно быть] открытых данных. Примеры:

  • Yelp использует базу данных предприятий и муниципальных медицинских инспекций и дополняет ее поисковыми, рейтинговыми и социальными функциями.
  • WalkScore использует данные о местонахождении магазинов, школ и общественного транспорта для расчета рейтинга удобства аренды квартир.
  • Mapbox использует открытые данные для предоставления качественных картографических решений.

Открытые данные для машинного обучения

Поскольку области больших данных и машинного обучения находятся на пике цикла шумихи, выставочные площадки на конференциях по данным заполнены стартапами, занимающимися проблемами больших данных и машинного обучения для предприятий. Очень немногое из этой шумихи касалось открытых данных. Все эти компании в настоящее время направляют свои усилия на данные, производимые внутри компаний.

Однако, если бизнесу нужна построенная модель, но на самом деле он не производит данные, необходимые для ее внутреннего построения (например, не все предприятия, которым нужна поведенческая модель пользователей, находятся в области психологии) - это когда внимание переключается на открытое данные. В этом случае вы столкнетесь с очень скудной коллекцией наборов данных, обычно создаваемых университетами с открытым исходным кодом, например:

Большинство наборов открытых данных очень старые, хорошо известные и используются почти каждым ученым в соответствующей области просто потому, что альтернатив не так много.

Создание набора данных - очень трудоемкая задача, которую обычно выполняют университеты. К сожалению, они не стремятся открывать публике созданные ими наборы данных. Даже получение доступа к данным в исследовательских целях часто практически невозможно обнаружить.

Заключение

Спрос и предложение на данные в настоящее время полностью несоразмерны, и с учетом столь быстрого роста спроса разрыв продолжает увеличиваться. Я считаю, что открытые данные сыграют значительную роль в устранении этого пробела.

Открытое пространство данных все еще находится в зачаточном состоянии. Объем постоянно растет, и это здорово, но даже данные, которые уже есть, остаются крайне недоиспользованными и недооцененными. Кажется, что он застрял в порочном круге низких инвестиций и низкой прибыли, и ему нужно лишь немного подтолкнуть в правильном направлении, чтобы набрать обороты. Я считаю, что у этого есть огромный потенциал для обществ, и есть много творческих способов использования открытых данных, которые ждут, пока их откроют предприниматели.

Ниже приводится список проблем, которые, как я считаю, необходимо решить, чтобы раскрыть истинный потенциал открытых данных:

  • Обнаруживаемость
  • Отсутствие сплоченности
  • Доступность
  • Сотрудничество
  • Плохая обработка измерения времени
  • Монополизация данных
  • Происхождение и происхождение

Следующие несколько своих постов я посвящу этим вопросам, их причинам и долгосрочным перспективам.

Заинтересованы?

Подпишитесь на наш блог и посетите kamu.dev, где мы работаем над переосмыслением будущего данных.