В машинном обучении так много причудливых терминов, которые новичку кажутся непосильными. Теперь, проходя структурированный курс, я понял многие из этих терминов/методов, которые я использовал в повседневных экспериментах по машинному обучению, но не знал жаргона.

Для начала в этой статье я расскажу о различных терминах, связанных с данными:

Структурированные данные. В основном это данные, которые можно хранить в таблицах/Excel. Он имеет какой-то формат, который делает их легко доступными для поиска. Пример:

Полуструктурированные данные. Они частично структурированы, и с помощью некоторых минимальных инструментов или анализа из них можно извлечь информацию. Как расширяемый язык разметки (XML)

Неструктурированные данные. К этой категории относится большинство реальных данных. Это скорее непрерывный поток данных, например текстовые сообщения, которые вы получаете, музыка, которую вы слышите, видео, которое вы смотрите, и т. д. Пример:

СК Тендулкар – игрок в крикет, сыгравший 463 матча и 452 иннинга. Он играл с 1989 по 2012 год. Он набрал 18 426 пробежек.

Большие данные. Этот термин используется для описания больших объемов данных. Это могут быть журналы, генерируемые сервером журналов каждую секунду, и т. д. Сложно управлять такими объемами данных с помощью таких инструментов, как SQL и Excel.

Общедоступные данные. Это данные, собираемые правительством или другими государственными учреждениями и публикуемые для проведения исследований.

Частные данные.Эта категория данных содержит конфиденциальную информацию и используется организациями и правительствами по частям. Например, данные о здоровье пациента и т.д.

Лицензированные данные. Существует несколько типов лицензий, связанных с данными. В первую очередь их можно разделить на две категории: Только исследования — данные такого типа могут использоваться в исследовательских целях, для публикации статьи и т. д. с должным указанием авторства; Коммерческие — эти виды данных могут использоваться для создания коммерческих продуктов и обычно имеют некоторые финансовые условия, связанные с их использованием.

Категорические данные. Категориальные данные — это качественные данные, полученные из переменной. Например, тип боулера: быстрый, средне-быстрый, спин и т.д.

· Упорядоченная категориальная переменная: они имеют определенный порядок. Например, положение хвата бэтсмена: низкое — держит биту за нижнюю часть рукоятки, среднее — держит биту за середину рукоятки, высокое — держит биту за верхнюю часть рукоятки.

· Неупорядоченная категориальная переменная: они не упорядочиваются или их упорядочивание не имеет смысла. Например, Работа человека в команде: Игрок, Тренер, Физиотерапевт, IT и т.д.

Дискретные данные.Дискретные данные — это информация, которая может принимать только определенные значения. Например, Тип игрока: Бэтмен, Боулер, Универсал, Уикеткипер.

Непрерывные данные.Непрерывные данные — это данные, которые могут принимать любое значение. Например: средний показатель игрока.

Метаданные. Это данные, которые описывают каждую переменную/данные. Например: Какие форматы (однодневка, контрольный матч, Т-20) учитывались при сборе данных конкретного игрока.

В следующей статье я буду изучать термины, связанные с пониманием скрытых закономерностей в данных.

Продолжение следует…