Я пытаюсь рассчитать показатель достоверности того, что строка появляется в подмножестве гораздо большего набора.
Скажем, у меня есть 10 слов в исходном списке, и я сопоставляю новое слово со всеми 10 словами. Каждое совпадение возвращает оценку сходства. Я установил порог, чтобы игнорировать любую оценку сходства ниже 70%. Итак, в конце у меня осталось мое входное слово, возможно, совпадающее с 3 словами в моем списке.
Для меня это дает мне 33,333% вероятности того, что мое входное слово совпадает с тремя словами с более высоким показателем сходства. Я хочу подсчитать, насколько я уверен, что слово совпадает с этими тремя. Я рассчитал свой показатель уверенности следующим образом, но это кажется неправильным и слишком простым.
- Категория 1 - сходство 70% - вероятность 33,3%.
- Категория 2 - сходство 75% - вероятность 33,3%.
- Категория 3 - сходство 80% - вероятность 33,3%.
((0,70) * (0,333)) + ((0,75) * (0,333)) + ((0,80) * (0,333)) = 75% достоверно.
Каков наилучший метод расчета уровней достоверности?
РЕДАКТИРОВАТЬ: Лучший образец по запросу
Оригинальный набор слов
- Привет
- Помощь
- Ад
- Проблема
- Мир
- Океан
- Животное
- Морковь
- Коричневый
- Чернить
Сопоставьте новое слово - Вертолет с исходным набором слов. Сопоставление возвращает 3 слова из исходного набора с оценкой сходства более 70%. Были возвращены следующие слова: 1. Привет — схожесть 70% 2. Помощь — схожесть 75% 3. Ад — схожесть 80%
Я хочу подсчитать балл, который покажет, насколько я уверен, что helpicopter соответствует возвращенным словам.
Ответ: на [ссылка] http://social.msdn.microsoft.com/Forums/en-US/sqlintegrationservices/thread/ff9fc38e-8ca3-4d9a-b505-dfbe37910b17