Что такое данные: руководство для начинающих по пониманию того, что означают данные.

Введение

Вы, вероятно, несколько раз слышали слово "данные", возможно, в школе, из новостей, в своей повседневной работе или профессии, пару раз натыкались на него в Интернете или где-либо еще, где бы вы ни находились. и если вы специалист по данным, то вся ваша профессия зависит от этого.

Данные безграничны и присутствуют в любой точке Вселенной, однако использование термина «данные» иногда может сбивать с толку, потому что почти каждый имеет представление о том, что он для них значит.
[Мои данные — это не ваши данные 😃]

Определение

В вычислениях данные могут быть в форме текста, документов, изображений, аудио и видео. На рудиментарном уровне данные представляют собой набор единиц и нулей.

В статистике данные определяются как факты или цифры, из которых можно сделать вывод.

ИТ-специалисты будут описывать данные с точки зрения сущностей и атрибутов.

С точки зрения непрофессионала, данные описывают человека, место, объект, событие или концепцию в пользовательском контексте или среде, а их значение зависит от их организации.
например.

  • При вычислении разная организация 1 и 0 означает разные вещи,
    [0001 = 1 и 0010 = 2].
  • В биологии разная последовательность генома (A, C, G и T) приводит к разным генетическим кодам, которые представляют разные особи или виды.
  • Перечисление истории покупок с указанием личности клиента представляет покупательскую привычку этого конкретного человека.
  • Ваши твиты могут быть случайным расположением любого из 26 символов английского языка и пробелов. Тем не менее, вы решили расположить их таким образом, чтобы передать смысл.

Если данные не помещаются в контекст, они не представляют никакой ценности для людей или компьютеров. Контекст является ключевым.

  • В контексте вычислений 0001 — это двоичное представление 1.
  • В контексте итальянского языка ваш твит на английском ничего не значит, даже если он может содержать одинаковую последовательность символов.

Некоторые говорят, что «факты» — это то, что можно показать как истинное, существующее или имевшее место.

В идеале данные можно определить как фактическое представление атрибутов чего-либо.

Ну, я говорю в идеале, потому что данные не всегда соответствуют действительности. Проще говоря, данные могут быть неверными. Частичные или целые данные иногда могут представлять нечто совершенно отличное от того, что вы ожидаете или собираетесь измерять. например. Школьник нашел ошибку в данных НАСА и Математическая ошибка обошлась Мэриленду в 31 миллион долларов

Данные, которые являются фактическими или истинными или служат потребностям проблемной области, иногда называют хорошими данными или сигналом.
Данные, которые являются ложными, недействительными или не соответствуют потребностям проблемной области, иногда называют неверными данными. или шум.

Данные, которые описывают набор (более одного) данных, называются метаданными, а набор данных часто называют набором данных.

Анатомия данных

Давайте рассмотрим сценарий (обстоятельство или конкретный эксперимент), в котором вы хотите узнать о типах пассажиров, с которыми вы садитесь в один и тот же автобус/поезд на местной автобусной/железнодорожной станции. Итак, вы собрали некоторую информацию о каждом человеке, которая становится вашим набором данных. [сталкер 😏]

Наборы данных обычно отображаются в таблицах, как показано ниже.

Набор данных — это набор данных, отождествляемых с конкретным экспериментом, сценарием, предметом или обстоятельством.

В таблице строки представляют отдельных лиц, а столбцы представляют переменные.

Из вышеизложенного мы можем сказать, что:
Данные – это части информации о лицах, организованные в переменные.

Под индивидуумом мы подразумеваем конкретного человека или объект.
В нашем сценарии пассажирами являются индивидуумы.
Людей иногда называют наблюдениями, случаи, вектор или вектор признаков.

Под переменной мы подразумеваем определенную характеристику человека. В нашем сценарии переменными являются возраст, рост, номер места, пол, класс.
Переменные иногда называют наблюдениями, переменными или функциями.

Каждая строка дает нам всю информацию о конкретном человеке (в данном случае о пассажире), а каждый столбец дает нам информацию о конкретной характеристике всех пассажиров.

Типы данных

Данные можно классифицировать по-разному и с разных точек зрения, что заслуживает отдельного блога, но вкратце данные можно классифицировать как необработанные или обработанные, структурированные или неструктурированный, а также может быть классифицирован как качественный или количественный.

Имена, имена и еще раз имена

Если вы внимательно проследите, вы поймете, что существуют разные способы именования одного и того же предмета, которые связаны с областью исследования, предпочтениями или простым соглашением. Это может быть ошеломляющим для новичка или человека, плохо знакомого с определенной областью, но не расстраивайтесь. Возможно, вы уже знаете, что означает этот термин. Все дело в знакомстве. Не стесняйтесь спрашивать или искать в Интернете.