В качестве простой модели для представления сети знаний и изучения свойств взвешенных графов я вычислил косинусное сходство между статьями в Википедии.
Сейчас я смотрю на распределение весов сходства для каждой статьи (см. картинки).
На рисунках вы видите, что кривая изменяет производную вокруг определенного значения (возможно, с экспоненциальной на линейную): я хотел бы подогнать кривую и извлечь это значение, где производная явно (или ожидаемо) изменяется, так что я можно разделить похожие статьи на два набора: «наиболее похожие» (слева от порога) и «другие» (справа от порога).
Я хочу подогнать кривую для каждого распределения статей; сравнить распределение по отношению к среднему распределению всех статей; сравнить распределение относительно распределения случайной взвешенной сети. (Ваши предложения очень приветствуются при определении рабочей процедуры: вы знаете, что я хотел бы использовать эту модель в качестве игрушечной модели, чтобы затем обучить, как сеть или статья могут развиваться во времени).
Мой опыт работы с пользователем с уклоном в науку о данных, я хочу лучше понять, какая модель может описать распределение значений, которые я наблюдал, правильный способ сравнения распределений и инструменты Python (или Mathematica 11), чтобы подогнать кривую и получить производная для каждой точки.
- какую модель вы предлагаете для описания распределения наблюдаемых значений сходства между объектами во взвешенной сети (здесь совместная база знаний представлена в виде взвешенной сети, где вес - это значение сходства двух заданных статей - следует ли ожидать экспоненты? пуассоновский? почему?)
- как вычислить соответствие кривой и извлечь производную кривой в заданной точке (python или Mathematica 11)