У меня есть несколько больших наборов данных, которые я использовал для создания нестандартных распределений вероятностей (с использованием numpy.histogram
для объединения данных и функции scipy.interpolate
interp1d
для интерполяции полученных кривых). Я также создал функцию, которая может создавать образцы из этих пользовательских PDF-файлов с помощью пакета scipy.stats
.
Моя цель - увидеть, как изменение размера моих выборок влияет на степень соответствия как дистрибутивов, из которых они получены, так и других PDF-файлов, и определить, насколько большой образец необходим, чтобы полностью определить, было ли оно получено из одного или другого. моих пользовательских PDF-файлов.
Для этого я понял, что мне нужно использовать какой-то непараметрический статистический анализ, то есть видеть, был ли набор данных взят из предоставленного распределения вероятностей. Проведя небольшое исследование, кажется, что тест Андерсона-Дарлинга идеально подходит для этого, однако его реализация на python (scipy.stats.anderson
) кажется пригодной только для предустановленных распределений вероятностей, таких как нормальное, экспоненциальное и т. Д.
Итак, мой вопрос: с учетом множества нестандартных PDF-файлов (или CDF, если необходимо, или данных, которые я использовал для их создания), как лучше всего определить, насколько хорошо набор образцов данных соответствует каждой модели в Python? Если это тест Андерсона-Дарлинга, есть ли способ определить пользовательский PDF-файл для тестирования?
Спасибо. Любая помощь очень ценится.