Майкл Пирц, PhD, P.Eng (консультант-основатель Daytum)

Недра уникальны
Из-за (1) разрозненных данных, (2) неоднородной пространственной системы, (3) высокой степени неопределенности, (4) толстого слоя неизбежной интерпретации и (5) чрезвычайно ценные девелоперские решения

Мы должны выйти за рамки данных!
Аналитика данных — это приложение для очистки данных и статистического анализа, помогающее принимать решения. Надежное использование статистики и знаний в предметной области (геонауки и инженерия) по-прежнему имеет решающее значение!

Мусор на входе, мусор на выходе!
Очистка данных составляет 80–90 % усилий, а обработка данных с огромным разнообразием и объемом метаданных остается сложной задачей. Принципы «Мусор на входе, мусор на выходе» и «Корреляция не является причинно-следственной связью» остаются в силе.

Точность модели машинного обучения
Основывайте ее на компонентах ошибок тестирования, таких как (1) дисперсия модели — чувствительность модели из-за ограниченных данных, (2) смещение модели — ошибка из-за невозможности соответствие сложности системы и (3) неустранимая ошибка из-за отсутствия переменных или диапазонов переменных в наборе обучающих данных.

Сложность и точность модели: не переходите к сложному!
Из-за компромисса между дисперсией модели и смещением модели модели с меньшей сложностью часто превосходят по точности сложные модели.

Сложность моделирования и интерпретируемость
Более сложные модели, как правило, труднее исследовать и передавать. Модель может работать, но мы можем не извлечь из нее уроков и не довериться ей!

Непараметрические модели
Как правило, они содержат большое количество параметров, требуют большого количества неявных параметров и, следовательно, требуют большего объема данных для обучения, что приводит к большему риску переобучения.

Модели переобучения
Модели переобучения объясняют почти все отклонения в обучении, выражая высокую достоверность, но плохо работают при тестировании с новыми данными, которые не использовались для обучения модели. Модель переобучения соответствует вашим особенностям данных!

Переобучение коварно!
Параметры модели устанавливаются таким образом, чтобы максимизировать соответствие обучающим данным, а гиперпараметры модели определяют сложность модели и задаются путем настройки скрытых данных тестирования, чтобы избежать переобучения.

Когда Майкл не создает пакеты Python и не занимается наставничеством для студентов, он либо бегает, катается на своем джипе, либо катается на байдарках по озеру Остин. Его можно найти в Twitter здесь и на его канале YouTube здесь.

*Этот пост впервые появился на нашем сайте здесь.