Нормализация ранжирования с весами

Я работаю над проблемой поиска документов, где с учетом набора документов и поискового запроса я хочу найти документ, ближайший к запросу. Модель, которую я использую, основана на TfidfVectorizer в scikit. Я создал 4 разных вектора tf_idf для всех документов, используя 4 разных типа токенизаторов. Каждый токенизатор разбивает строку на n-граммы, где n находится в диапазоне 1 ... 4 .

Например:

doc_1 = "Singularity is still a confusing phenomenon in physics"
doc_2 = "Quantum theory still wins over String theory"

Таким образом, model_1 будет использовать 1-граммовый токенизатор, model_2 будет использовать 2-граммовый токенизатор.

Затем для заданного поискового запроса я вычисляю косинусное сходство между поисковым запросом и всеми остальными документами, используя эти 4 модели.

Например, поисковый запрос: Сингулярность в квантовой физике. Поисковый запрос разбивается на n-граммы, и значения tf_idf вычисляются из соответствующей модели n-грамм.

Поэтому для каждой пары запрос-документ у меня есть 4 значения сходства на основе используемой модели n-грамм. Например:

1-gram similarity = 0.4370303325246957
2-gram similarity = 0.36617374546988996
3-gram similarity = 0.29519246156322099
4-gram similarity = 0.2902998188509896

Все эти оценки сходства нормализованы по шкале от 0 до 1. Теперь я хочу рассчитать агрегированную нормализованную оценку, чтобы для любой пары запрос-документ большее сходство n-грамм получало действительно высокий вес. По сути, чем выше сходство ngram, тем выше его влияние на общий балл.

Может кто-нибудь предложить решение?


person drcocoa    schedule 11.08.2015    source источник
comment
Как насчет того, чтобы возвести в квадрат каждый балл, а затем взять сумму? Или возьмите более высокую степень, если вы хотите придать лучшим результатам еще больший вес. Разделите на 4, чтобы нормализовать до [0..1].   -  person lenz    schedule 11.08.2015
comment
В качестве альтернативы, если вы пометили данные о золоте, вы можете обучить классификатор (например, SVM), используя четыре оценки в качестве признаков. При прогнозировании вероятность класса 1 можно рассматривать как комбинированный балл.   -  person lenz    schedule 11.08.2015
comment
Спасибо @lenz за подсказку. Я попытался использовать exp(n-gramsize, соответственно_score). Но погружение на 4 не нормализует данные.   -  person drcocoa    schedule 11.08.2015
comment
Я также подумал о создании золотого набора данных и обучении собственного классификатора. Но это казалось излишним с точки зрения времени и ручных усилий для решения этой проблемы. если бы я мог просто поднять более высокие баллы в граммах, я думаю, этого было бы достаточно. Твои мысли?   -  person drcocoa    schedule 11.08.2015
comment
Вы имеете в виду pow()? (В Python нет встроенного exp().) Я имел в виду использование одной и той же мощности для всех оценок, поскольку числа в [0..1] становятся меньше, чем выше показатель экспоненты. Я все еще думаю, что деление на 4 нормализуется до [0..1], поскольку возведение в квадрат (или куб...) числа в этом диапазоне сохранит его в этом диапазоне.   -  person lenz    schedule 11.08.2015
comment
Ах, я понимаю из вашего комментария в ответе Альваса, что вы хотите повысить баллы за более высокие n-граммы, а не за высокие баллы. Ваш последний абзац не очень ясен ... Ну да, тогда довольно просто умножить каждый балл на вес, при этом все веса в сумме равны 1.   -  person lenz    schedule 11.08.2015
comment
Я использовал math.exp(ngram_size x score), чтобы повысить оценку для более высоких оценок n-грамм.   -  person drcocoa    schedule 11.08.2015


Ответы (1)


Есть много способов поиграть с числами:

>>> onegram_sim = 0.43
>>> twogram_sim = 0.36
>>> threegram_sim = 0.29
>>> fourgram_sim = 0.29
# Sum(x) / len(list)
>>> all_sim = sum([onegram_sim, twogram_sim, threegram_sim, fourgram_sim]) / 4
>>> all_sim
0.3425
# Sum(x*x) / len(list)
>>> all_sim = sum(map(lambda x: x**2, [onegram_sim, twogram_sim, threegram_sim, fourgram_sim])) / 4
>>> all_sim
0.120675
# Product(x)
>>> from operator import mul
>>> onetofour_sim = [onegram_sim, twogram_sim, threegram_sim, fourgram_sim]
>>> reduce(mul, onetofour_sim, 1)
0.013018679999999998

В конце концов, все, что поможет вам повысить точность выполнения вашей конечной задачи, является лучшим решением.


Помимо вашего вопроса:

Для вычисления схожести документов существует давняя задача SemEval, вызывающая Семантическое сходство текста https://groups.google.com/forum/#!forum/sts-semeval

Общие стратегии включают (не исчерпывающе):

  1. Используйте аннотированный корпус с оценками сходства для пар предложений, извлеките некоторые признаки, обучите регрессор и выведите оценку сходства.

  2. Используйте некоторую семантику векторного пространства (настоятельно рекомендуется прочитать: http://www.jair.org/media/2934/live-2934-4846-jair.pdf), а затем сделайте некоторые оценки сходства векторов (взгляните на Как рассчитать косинусное сходство для двух строк предложений? - Python)

    я. Пригодится подмножество жаргона семантики векторного пространства (иногда известное как встраивание слов), иногда люди обучают векторное пространство с помощью тематических моделей/нейронных сетей/глубокого обучения (другие связанные модные слова), см. http://u.cs.biu.ac.il/~yogo/cvsc2015.pdf

    II. Вы также можете использовать более традиционные векторы мешка слов и сжать пространство с помощью TF-IDF или любого другого «скрытого» уменьшения размерности, а затем использовать некоторую функцию сходства векторов, чтобы получить сходство

    III. Создайте красивую функцию сходства векторов (например, cosmul, см. https://radimrehurek.com/gensim/models/word2vec.html), а затем настроить функцию и оценить ее в разных местах.

  3. Используйте некоторые лексические ресурсы, которые содержат онтологию понятий (например, WordNet, Cyc и т. д.), а затем сравните сходство, просматривая концептуальные графы (см. http://www.nltk.org/howto/wordnet.html). Примером может быть https://github.com/alvations/pywsd/blob/master/pywsd/similarity.py


Учитывая приведенное выше в качестве фона и без аннотаций, давайте попробуем вырезать несколько примеров векторного пространства:

введите здесь описание изображения

Сначала давайте попробуем простые ngrams с простыми двоичными векторами:

import numpy as np
from nltk import ngrams

doc1 = "Singularity is still a confusing phenomenon in physics".split()
doc2 = "Quantum theory still wins over String theory".split()
_vec1 = list(ngrams(doc1, 3))
_vec2 = list(ngrams(doc2, 3))
# Create a full dictionary of all possible ngrams.
vec_dict = list(set(_vec1).union(_vec2))
print 'Vector Dict:', vec_dict
# Now vectorize the documents
vec1 = [1 if ng in _vec1 else 0 for ng in vec_dict]
vec2 = [1 if ng in _vec2 else 0 for ng in vec_dict]
print 'Vectorzied:', vec1, vec2
print 'Similarity:', np.dot(vec1, vec2)

[из]:

Vector Dict: [('still', 'a', 'confusing'), ('confusing', 'phenomenon', 'in'), ('theory', 'still', 'wins'), ('is', 'still', 'a'), ('over', 'String', 'theory'), ('a', 'confusing', 'phenomenon'), ('wins', 'over', 'String'), ('Singularity', 'is', 'still'), ('still', 'wins', 'over'), ('phenomenon', 'in', 'physics'), ('Quantum', 'theory', 'still')] 

Vectorzied: [1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0] [0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1] 

Similarity: 0 

Теперь попробуем включить от 1gram до ngrams (где n = len(sent)) и поместить все в векторный словарь с бинарными ngrams:

import numpy as np
from nltk import ngrams

def everygrams(sequence):
    """
    This function returns all possible ngrams for n 
    ranging from 1 to len(sequence).
    >>> list(everygrams('a b c'.split()))
    [('a',), ('b',), ('c',), ('a', 'b'), ('b', 'c'), ('a', 'b', 'c')]
    """
    for n in range(1, len(sequence)+1):
        for ng in ngrams(sequence, n):
            yield ng

doc1 = "Singularity is still a confusing phenomenon in physics".split()
doc2 = "Quantum theory still wins over String theory".split()
_vec1 = list(everygrams(doc1))
_vec2 = list(everygrams(doc2))
# Create a full dictionary of all possible ngrams.
vec_dict = list(set(_vec1).union(_vec2))
print 'Vector Dict:', vec_dict, '\n'
# Now vectorize the documents
vec1 = [1 if ng in _vec1 else 0 for ng in vec_dict]
vec2 = [1 if ng in _vec2 else 0 for ng in vec_dict]
print 'Vectorzied:', vec1, vec2, '\n'
print 'Similarity:', np.dot(vec1, vec2), '\n'

[из]:

Vector Dict: [('still', 'a'), ('over', 'String'), ('theory', 'still', 'wins', 'over', 'String', 'theory'), ('String', 'theory'), ('physics',), ('in',), ('wins', 'over', 'String', 'theory'), ('is', 'still', 'a', 'confusing', 'phenomenon', 'in'), ('theory', 'still', 'wins'), ('Singularity', 'is', 'still', 'a', 'confusing', 'phenomenon'), ('a',), ('wins',), ('is', 'still', 'a'), ('Singularity', 'is'), ('phenomenon', 'in'), ('still', 'wins', 'over', 'String'), ('Singularity', 'is', 'still', 'a', 'confusing', 'phenomenon', 'in', 'physics'), ('Quantum', 'theory', 'still', 'wins', 'over'), ('a', 'confusing', 'phenomenon'), ('Singularity', 'is', 'still', 'a'), ('confusing', 'phenomenon'), ('confusing', 'phenomenon', 'in', 'physics'), ('Singularity', 'is', 'still'), ('is', 'still', 'a', 'confusing', 'phenomenon', 'in', 'physics'), ('wins', 'over'), ('theory', 'still', 'wins', 'over'), ('phenomenon',), ('Quantum', 'theory', 'still', 'wins', 'over', 'String'), ('is', 'still'), ('still', 'wins', 'over'), ('is', 'still', 'a', 'confusing', 'phenomenon'), ('phenomenon', 'in', 'physics'), ('Quantum', 'theory', 'still', 'wins'), ('Quantum', 'theory', 'still'), ('a', 'confusing', 'phenomenon', 'in', 'physics'), ('Singularity', 'is', 'still', 'a', 'confusing'), ('still', 'a', 'confusing', 'phenomenon', 'in'), ('still', 'a', 'confusing'), ('is', 'still', 'a', 'confusing'), ('in', 'physics'), ('Quantum', 'theory', 'still', 'wins', 'over', 'String', 'theory'), ('confusing', 'phenomenon', 'in'), ('theory', 'still'), ('Quantum', 'theory'), ('is',), ('String',), ('over', 'String', 'theory'), ('still', 'a', 'confusing', 'phenomenon', 'in', 'physics'), ('a', 'confusing'), ('still', 'wins'), ('still',), ('over',), ('still', 'a', 'confusing', 'phenomenon'), ('wins', 'over', 'String'), ('Singularity',), ('confusing',), ('theory',), ('Singularity', 'is', 'still', 'a', 'confusing', 'phenomenon', 'in'), ('still', 'wins', 'over', 'String', 'theory'), ('a', 'confusing', 'phenomenon', 'in'), ('Quantum',), ('theory', 'still', 'wins', 'over', 'String')] 

Vectorzied: [1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0] [0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1] 

Similarity: 1 

Теперь давайте попробуем нормализовать по нету. из возможных нграмм:

import numpy as np
from nltk import ngrams

def everygrams(sequence):
    """
    This function returns all possible ngrams for n 
    ranging from 1 to len(sequence).
    >>> list(everygrams('a b c'.split()))
    [('a',), ('b',), ('c',), ('a', 'b'), ('b', 'c'), ('a', 'b', 'c')]
    """
    for n in range(1, len(sequence)+1):
        for ng in ngrams(sequence, n):
            yield ng

doc1 = "Singularity is still a confusing phenomenon in physics".split()
doc2 = "Quantum theory still wins over String theory".split()
_vec1 = list(everygrams(doc1))
_vec2 = list(everygrams(doc2))
# Create a full dictionary of all possible ngrams.
vec_dict = list(set(_vec1).union(_vec2))
print 'Vector Dict:', vec_dict, '\n'
# Now vectorize the documents
vec1 = [1/float(len(_vec1)) if ng in _vec1 else 0 for ng in vec_dict]
vec2 = [1/float(len(_vec2)) if ng in _vec2 else 0 for ng in vec_dict]
print 'Vectorzied:', vec1, vec2, '\n'
print 'Similarity:', np.dot(vec1, vec2), '\n'

Выглядит лучше, снаружи:

Vector Dict: [('still', 'a'), ('over', 'String'), ('theory', 'still', 'wins', 'over', 'String', 'theory'), ('String', 'theory'), ('physics',), ('in',), ('wins', 'over', 'String', 'theory'), ('is', 'still', 'a', 'confusing', 'phenomenon', 'in'), ('theory', 'still', 'wins'), ('Singularity', 'is', 'still', 'a', 'confusing', 'phenomenon'), ('a',), ('wins',), ('is', 'still', 'a'), ('Singularity', 'is'), ('phenomenon', 'in'), ('still', 'wins', 'over', 'String'), ('Singularity', 'is', 'still', 'a', 'confusing', 'phenomenon', 'in', 'physics'), ('Quantum', 'theory', 'still', 'wins', 'over'), ('a', 'confusing', 'phenomenon'), ('Singularity', 'is', 'still', 'a'), ('confusing', 'phenomenon'), ('confusing', 'phenomenon', 'in', 'physics'), ('Singularity', 'is', 'still'), ('is', 'still', 'a', 'confusing', 'phenomenon', 'in', 'physics'), ('wins', 'over'), ('theory', 'still', 'wins', 'over'), ('phenomenon',), ('Quantum', 'theory', 'still', 'wins', 'over', 'String'), ('is', 'still'), ('still', 'wins', 'over'), ('is', 'still', 'a', 'confusing', 'phenomenon'), ('phenomenon', 'in', 'physics'), ('Quantum', 'theory', 'still', 'wins'), ('Quantum', 'theory', 'still'), ('a', 'confusing', 'phenomenon', 'in', 'physics'), ('Singularity', 'is', 'still', 'a', 'confusing'), ('still', 'a', 'confusing', 'phenomenon', 'in'), ('still', 'a', 'confusing'), ('is', 'still', 'a', 'confusing'), ('in', 'physics'), ('Quantum', 'theory', 'still', 'wins', 'over', 'String', 'theory'), ('confusing', 'phenomenon', 'in'), ('theory', 'still'), ('Quantum', 'theory'), ('is',), ('String',), ('over', 'String', 'theory'), ('still', 'a', 'confusing', 'phenomenon', 'in', 'physics'), ('a', 'confusing'), ('still', 'wins'), ('still',), ('over',), ('still', 'a', 'confusing', 'phenomenon'), ('wins', 'over', 'String'), ('Singularity',), ('confusing',), ('theory',), ('Singularity', 'is', 'still', 'a', 'confusing', 'phenomenon', 'in'), ('still', 'wins', 'over', 'String', 'theory'), ('a', 'confusing', 'phenomenon', 'in'), ('Quantum',), ('theory', 'still', 'wins', 'over', 'String')] 

Vectorzied

Similarity: 0.000992063492063 

Теперь давайте попробуем считать нграммы вместо того, чтобы брать 1/len(_vec), то есть _vec.count(ng) / len(_vec):

import numpy as np
from nltk import ngrams

def everygrams(sequence):
    """
    This function returns all possible ngrams for n 
    ranging from 1 to len(sequence).
    >>> list(everygrams('a b c'.split()))
    [('a',), ('b',), ('c',), ('a', 'b'), ('b', 'c'), ('a', 'b', 'c')]
    """
    for n in range(1, len(sequence)+1):
        for ng in ngrams(sequence, n):
            yield ng

doc1 = "Singularity is still a confusing phenomenon in physics".split()
doc2 = "Quantum theory still wins over String theory".split()
_vec1 = list(everygrams(doc1))
_vec2 = list(everygrams(doc2))
# Create a full dictionary of all possible ngrams.
vec_dict = list(set(_vec1).union(_vec2))
print 'Vector Dict:', vec_dict, '\n'
# Now vectorize the documents
vec1 = [_vec1.count(ng)/float(len(_vec1)) if ng in _vec1 else 0 for ng in vec_dict]
vec2 = [_vec2.count(ng)/float(len(_vec2)) if ng in _vec2 else 0 for ng in vec_dict]
print 'Vectorzied:', vec1, vec2, '\n'
print 'Similarity:', np.dot(vec1, vec2), '\n'

Неудивительно, что, поскольку все счетчики равны 1, это один и тот же показатель сходства:

Vector Dict: [('still', 'a'), ('over', 'String'), ('theory', 'still', 'wins', 'over', 'String', 'theory'), ('String', 'theory'), ('physics',), ('in',), ('wins', 'over', 'String', 'theory'), ('is', 'still', 'a', 'confusing', 'phenomenon', 'in'), ('theory', 'still', 'wins'), ('Singularity', 'is', 'still', 'a', 'confusing', 'phenomenon'), ('a',), ('wins',), ('is', 'still', 'a'), ('Singularity', 'is'), ('phenomenon', 'in'), ('still', 'wins', 'over', 'String'), ('Singularity', 'is', 'still', 'a', 'confusing', 'phenomenon', 'in', 'physics'), ('Quantum', 'theory', 'still', 'wins', 'over'), ('a', 'confusing', 'phenomenon'), ('Singularity', 'is', 'still', 'a'), ('confusing', 'phenomenon'), ('confusing', 'phenomenon', 'in', 'physics'), ('Singularity', 'is', 'still'), ('is', 'still', 'a', 'confusing', 'phenomenon', 'in', 'physics'), ('wins', 'over'), ('theory', 'still', 'wins', 'over'), ('phenomenon',), ('Quantum', 'theory', 'still', 'wins', 'over', 'String'), ('is', 'still'), ('still', 'wins', 'over'), ('is', 'still', 'a', 'confusing', 'phenomenon'), ('phenomenon', 'in', 'physics'), ('Quantum', 'theory', 'still', 'wins'), ('Quantum', 'theory', 'still'), ('a', 'confusing', 'phenomenon', 'in', 'physics'), ('Singularity', 'is', 'still', 'a', 'confusing'), ('still', 'a', 'confusing', 'phenomenon', 'in'), ('still', 'a', 'confusing'), ('is', 'still', 'a', 'confusing'), ('in', 'physics'), ('Quantum', 'theory', 'still', 'wins', 'over', 'String', 'theory'), ('confusing', 'phenomenon', 'in'), ('theory', 'still'), ('Quantum', 'theory'), ('is',), ('String',), ('over', 'String', 'theory'), ('still', 'a', 'confusing', 'phenomenon', 'in', 'physics'), ('a', 'confusing'), ('still', 'wins'), ('still',), ('over',), ('still', 'a', 'confusing', 'phenomenon'), ('wins', 'over', 'String'), ('Singularity',), ('confusing',), ('theory',), ('Singularity', 'is', 'still', 'a', 'confusing', 'phenomenon', 'in'), ('still', 'wins', 'over', 'String', 'theory'), ('a', 'confusing', 'phenomenon', 'in'), ('Quantum',), ('theory', 'still', 'wins', 'over', 'String')] 

Vectorzied

Similarity: 0.000992063492063 

Помимо нграмм, вы также можете попробовать скипграммы: Как вычислить скипграммы в python?

person alvas    schedule 11.08.2015
comment
Спасибо за развернутый ответ. Я только что узнал еще несколько способов нормализации из вашего ответа. Делить количество ngram на длину вектора было умно. Однако я не понимал, как длина ngram влияет на счет. Я хочу, чтобы более длинные оценки ngram вносили больший вклад в общую оценку. Например, вклад/влияние различных n граммов на общий балл может быть следующим: 1 грамм: 10 %, 2 грамма: 20 %, 3 грамма: 30 %, 4 грамма: 40 %. - person drcocoa; 11.08.2015