Поиск входных параметров нейронной сети для классификации текстовых документов

Мне нужно обучить нейронную сеть для классификации некоторых текстовых документов в логический класс (NN имеет один выход со значениями «Да» или «Нет»).
Существует ли какой-либо алгоритм для поиска наилучших входных параметров (например, наличие слов , термин, предложение и/или частота/повторение слова и ...) ?
Если нет, можете ли вы дать мне отправную точку для поиска этих параметров (как их выбрать)?

Спасибо

neural-network input-parameters

Ariyan 18.11.2011 источник

comment

в идеале все перечисленное! Если вы можете дать нейронной сети слова, термины, n-граммы слов, n-граммы символов и т. д., то вы даете ей больше входных данных для принятия решений. Вероятно, нет смысла давать предложения NN или что-то большее, чем термин. Однако чем больше входных данных у вас есть, тем медленнее будет работать ваш алгоритм, поэтому вам придется настраивать его, пока вы не получите результаты, которые вас устраивают. Для этого нет волшебной палочки, хотя вы можете создать другой алгоритм ИИ, чтобы предоставить NN другие входные данные, но вы можете столкнуться с той же проблемой и для этого алгоритма ИИ. - Kiril 18.11.2011

comment

@Lirik: я не имею в виду вынесение приговора NN. Я имею в виду предоставление логических входных данных, которые показывают наличие или отсутствие термина... и/или количество повторений слова... и я не думаю о более чем 10-15 входных данных. - Ariyan 18.11.2011

comment

мой ответ не сильно изменится... нет алгоритма, который мог бы оптимизировать это для вас (если вы не создадите другой алгоритм ИИ для этого), поэтому вам следует попытаться настроить NN со всеми вещами, которые могут увеличить точность. Это утомительный процесс, и я не знаю, как его обойти. - Kiril 19.11.2011

Ответы (1)

arrow_upward
1
arrow_downward

Стандартный подход, о котором я знаю, состоит в том, чтобы использовать вектор слов/терминов и присваивать им отрицательную или положительную оценку с использованием обучающего или статистического алгоритма. даже обучения персептрону должно быть достаточно, вам просто нужен хороший набор положительных и отрицательных примеров.

Насколько я знаю, так работают все спам-фильтры. и они работают довольно хорошо.

WeaselFox 05.01.2012

Поиск входных параметров нейронной сети для классификации текстовых документов

Ответы (1)

Вопросы по теме