Работа специалиста по обработке и анализу данных заключается в том, чтобы найти шаблон, скрытый в данных, и предсказать будущие значения. Для выполнения этих функций первым шагом является сбор данных . После сбора данных мы склонны определять, где они собираются. Здесь в игру вступает «мера центральной тенденции». Измерение центральной тенденции помогает найти, где находится «толпа» чисел.

Ниже приведены меры центральной тенденции, широко используемые в науке о данных:

  • Значит:
  1. Это точка наибольшей плотности.
  2. Среднее – это значение средней точки массива, а не средней точки диапазона.
  3. Обычно мы думаем, что среднее значение данных устанавливается как среднее, хотя в науке о данных «средним» может быть любая центральная тенденция.
  4. Среднее очень чувствительно к выбросам.

Чтобы вычислить среднее значение, суммируйте все значения данных и после этого разделите его на количество точек данных.

  • Медиана:
  1. Медиана — это точка, которая делит набор данных while на два от середины.
  2. Медиана менее чувствительна к выбросам.
  3. Медиана — это среднее значение набора данных при упорядочении по возрастанию.

Чтобы вычислить медиану, сначала расположите данные в порядке возрастания. Если число значений нечетное, разделите общее число значений на 2, а если число значений четное, найдите среднее значение двух средних значений.

  • Режим:
  1. Режим набора данных — это значение, которое встречается чаще всего.
  2. Набор данных может содержать более одного режима.
  3. Набор данных, который содержит только одну моду, называется одномодальным, а набор данных, который содержит два значения моды, называется бимодальным. Когда в наборе данных более двух режимов, набор данных называется мультимодальным.

Чтобы рассчитать режим, просто найдите частоту каждого значения данных. Данные с наибольшей частотой - это режим набора данных.