Работа специалиста по обработке и анализу данных заключается в том, чтобы найти шаблон, скрытый в данных, и предсказать будущие значения. Для выполнения этих функций первым шагом является сбор данных . После сбора данных мы склонны определять, где они собираются. Здесь в игру вступает «мера центральной тенденции». Измерение центральной тенденции помогает найти, где находится «толпа» чисел.
Ниже приведены меры центральной тенденции, широко используемые в науке о данных:
- Значит:
- Это точка наибольшей плотности.
- Среднее – это значение средней точки массива, а не средней точки диапазона.
- Обычно мы думаем, что среднее значение данных устанавливается как среднее, хотя в науке о данных «средним» может быть любая центральная тенденция.
- Среднее очень чувствительно к выбросам.
Чтобы вычислить среднее значение, суммируйте все значения данных и после этого разделите его на количество точек данных.
- Медиана:
- Медиана — это точка, которая делит набор данных while на два от середины.
- Медиана менее чувствительна к выбросам.
- Медиана — это среднее значение набора данных при упорядочении по возрастанию.
Чтобы вычислить медиану, сначала расположите данные в порядке возрастания. Если число значений нечетное, разделите общее число значений на 2, а если число значений четное, найдите среднее значение двух средних значений.
- Режим:
- Режим набора данных — это значение, которое встречается чаще всего.
- Набор данных может содержать более одного режима.
- Набор данных, который содержит только одну моду, называется одномодальным, а набор данных, который содержит два значения моды, называется бимодальным. Когда в наборе данных более двух режимов, набор данных называется мультимодальным.
Чтобы рассчитать режим, просто найдите частоту каждого значения данных. Данные с наибольшей частотой - это режим набора данных.