Поиск входных параметров нейронной сети для классификации текстовых документов

Мне нужно обучить нейронную сеть для классификации некоторых текстовых документов в логический класс (NN имеет один выход со значениями «Да» или «Нет»).
Существует ли какой-либо алгоритм для поиска наилучших входных параметров (например, наличие слов , термин, предложение и/или частота/повторение слова и ...) ?
Если нет, можете ли вы дать мне отправную точку для поиска этих параметров (как их выбрать)?

Спасибо


person Ariyan    schedule 18.11.2011    source источник
comment
в идеале все перечисленное! Если вы можете дать нейронной сети слова, термины, n-граммы слов, n-граммы символов и т. д., то вы даете ей больше входных данных для принятия решений. Вероятно, нет смысла давать предложения NN или что-то большее, чем термин. Однако чем больше входных данных у вас есть, тем медленнее будет работать ваш алгоритм, поэтому вам придется настраивать его, пока вы не получите результаты, которые вас устраивают. Для этого нет волшебной палочки, хотя вы можете создать другой алгоритм ИИ, чтобы предоставить NN другие входные данные, но вы можете столкнуться с той же проблемой и для этого алгоритма ИИ.   -  person Kiril    schedule 18.11.2011
comment
@Lirik: я не имею в виду вынесение приговора NN. Я имею в виду предоставление логических входных данных, которые показывают наличие или отсутствие термина... и/или количество повторений слова... и я не думаю о более чем 10-15 входных данных.   -  person Ariyan    schedule 18.11.2011
comment
мой ответ не сильно изменится... нет алгоритма, который мог бы оптимизировать это для вас (если вы не создадите другой алгоритм ИИ для этого), поэтому вам следует попытаться настроить NN со всеми вещами, которые могут увеличить точность. Это утомительный процесс, и я не знаю, как его обойти.   -  person Kiril    schedule 19.11.2011


Ответы (1)


Стандартный подход, о котором я знаю, состоит в том, чтобы использовать вектор слов/терминов и присваивать им отрицательную или положительную оценку с использованием обучающего или статистического алгоритма. даже обучения персептрону должно быть достаточно, вам просто нужен хороший набор положительных и отрицательных примеров.

Насколько я знаю, так работают все спам-фильтры. и они работают довольно хорошо.

person WeaselFox    schedule 05.01.2012