извлекать n-граммы из шаблонов

Я пробовал извлекать нграммы из паттернов, которые извлекаются из текстовых документов, паттерны имеют разное количество терминов.

например: если шаблон p = {t1, t2, t3}

и нам нужно извлечь ngram 3

это должно быть так

t1
t2
t3

t1, t2
t2,t3

t1,t2,t3

Я написал код, но он не работает.

     public Hashtable<String, Pattern> findGrams(XMLDocument d) {
    ArrayList<Pattern> patterns = d.getPatterns();

    System.out.println("patterns " + d.getPatterns());

    ArrayList terms = new ArrayList();
    Hashtable Grams = new Hashtable();

    String s = "";

    // to extract all terms from the pattern
    for (int i = 0; i < patterns.size(); i++) {
        Pattern pat = (Pattern) patterns.get(i);
        terms.clear();
        for (int z = 0; z < pat.getNumitems(); z++) {
            terms.add(pat.getItems().get(z).toString());
        }

        // to generate grams from the pattern
        int j = 0;
        int x=0;
        for (int y = 1; y <= ngram ; y++) {

             for ( x = 0; x < terms.size() & j != y; x++) {
                    s = terms.get(x).toString();

                    if (y > 1) {
                        for (j = x + 1; j < terms.size() & terms.indexOf(j) < ngram; j++) {
                            s = s + "," + terms.get(j).toString();
                        }
                    }

                    if (!Grams.contains(s)) {
                        System.out.println(s);
                        Grams.put(s, i);
                    }
                }

        }
    }
    return (Grams);
}

любая помощь, пожалуйста,


person Mubarak    schedule 12.07.2012    source источник
comment
Мне было трудно понять, о чем вы здесь просите. Не могли бы вы привести конкретный пример с заданными входными данными и ожидаемым выходом?   -  person Aleksander Blomskøld    schedule 12.07.2012
comment
например: если шаблон p = {t1, t2, t3} и нам нужно извлечь ngram 3, он должен быть таким для ngram 1: t1, затем t2, затем t3 для ngram 2: t1, t2, затем t2, t3 для ngram 3 : t1, t2, t3   -  person Mubarak    schedule 12.07.2012
comment
Это домашнее задание? Это может быть дубликат stackoverflow.com/ вопросы / 3656762 /?   -  person radimpe    schedule 12.07.2012
comment
Нет, это не домашнее задание, это часть проекта   -  person Mubarak    schedule 12.07.2012
comment
С этим кодом много фундаментальных проблем. Я предлагаю вам взглянуть на ссылку @radimpe на предыдущий вопрос SO. Вы можете изменить свой код на основе решения в этом вопросе. Это несложно понять.   -  person Rob Wagner    schedule 12.07.2012
comment
Я предлагаю вам взглянуть на «Связанные» ссылки в правой части сообщения. Существует множество ответов, связанных с созданием N-граммов, уже доступных на SO.   -  person radimpe    schedule 12.07.2012
comment
Я смотрел на это раньше, но я думаю, что это другое.   -  person Mubarak    schedule 12.07.2012


Ответы (1)


Я надеюсь, что это даст вам то, что вам нужно.

import java.util.*;

public class Test {

    public static List<String> ngrams(int n, String str) {
        List<String> ngrams = new ArrayList<String>();
        String[] words = str.split(" ");
        for (int i = 0; i < words.length - n + 1; i++)
            ngrams.add(concat(words, i, i+n));
        return ngrams;
    }

    public static String concat(String[] words, int start, int end) {
        StringBuilder sb = new StringBuilder();
        for (int i = start; i < end; i++)
            sb.append((i > start ? " " : "") + words[i]);
        return sb.toString();
    }

    public static void main(String[] args) {
        for (int n = 1; n <= 3; n++) {
           for (String ngram : ngrams(n, "t1 t2 t3"))
               System.out.println(ngram);
            System.out.println();
        }
    }
}
person Uwaise    schedule 23.09.2012