Обстоятельства, приведшие к рождению новой науки

Что такое наука о данных?

Наука о данных — это молодая дисциплина, состоящая из множества ранее существовавших областей (таких как компьютерные науки и статистика). Однако то, что делает эту новую дисциплину, — это не поля, из которых она состоит, поскольку, если бы это было так, это было бы просто другое приложение статистики. Необходимость создания этой дисциплины обусловлена ​​ее контекстуальным характером. Наука о данных не может обсуждаться исключительно с помощью одних цифр, она требует контекста, будь то медицинский или экономический. Более того, как только контекст определен, конечным результатом должно быть действие. Это сочетание составляющих его полей, контекста и приложений, которые делают науку о данных тем, чем она является.

Источник

В начале, даже до самой науки о данных, не было ничего, кроме простого следствия, плавающего в пустоте, следствия, которое было построено на законе Паркинсона. Вообще говоря, этот закон гласит, что спрос на ресурс имеет тенденцию к увеличению, чтобы соответствовать предложению ресурса. Этот закон можно экстраполировать из экономики и других примеров, например, в природе, где газ расширяется, чтобы заполнить любой контейнер. Что еще более важно для обсуждения, данные расширяются, чтобы заполнить пространство, доступное для хранения.

Следовательно, эта внутренняя природа данных (наряду с дешевым хранением) приводит к циклу хранения/создания данных. Этот саморазвивающийся процесс после многих итераций в конечном итоге создаст очень большие объемы данных и, соответственно, хранилище, подходящее для их хранения. Накопление данных из этого цикла теперь широко известно как большие данные.

Что было быстро обнаружено после рождения больших данных, так это то, что это был совершенно другой зверь по сравнению с наборами данных прошлых лет. Во-первых, даже для обработки такого большого объема данных необходимо было создать новую архитектуру, а именно облачные вычисления. Однако на этом проблемы не заканчиваются, после обработки большие данные необходимо правильно использовать. Точно так же, как в физике, где изучение явлений в экстремальных масштабах требовало новых инструментов и теорем, для больших данных также требовался новый подход. Эта потребность привела к созданию новых аналитических инструментов, которые сами по себе привели к возможности получать новые идеи, которые никогда нельзя было получить из «небольших данных».

Рождение больших данных из простого следствия, а также эволюция их обработки привели к развитию новой науки, также известной как Наука о данных.

Этические проблемы

Как и в случае со всеми технологиями, моральность определяет намерение пользователя, а не сам инструмент. Таким образом, для человека важно учитывать любые последствия, которые могут возникнуть в результате его действий. Говоря конкретно о науке о данных и изучении больших данных, также существуют проблемы, о которых следует помнить. Например, как можно хранить все данные, некоторые из которых являются конфиденциальными, чтобы можно было обеспечить конфиденциальность и безопасность. Даже до этого нужно ли вообще собирать интересующие данные? Говоря менее осязаемо, специалист по данным должен изучить возможные последствия своих исследований и то, как их можно использовать в качестве альтернативы.

В недавней истории уже было много сомнительных применений науки о данных. От отслеживания целей сомнительно заброшенного проекта военных беспилотников Google (Project Maven) до целенаправленной пропаганды Cambridge Analytica — существует слишком много способов злонамеренного использования науки о данных. В общем, этика — это то, что повсеместно присутствует во всех областях, и в силу своей важности она должна быть в центре любого дизайна.