Это может быть любой язык высокого уровня, который может быть доступен в типичной Unix-подобной системе (Python, Perl, awk, стандартные утилиты unix {sort, uniq} и т. д.). Надеюсь, это достаточно быстро, чтобы сообщить общее количество уникальных терминов для текстового файла размером 2 МБ.
Мне это нужно только для быстрой проверки работоспособности, поэтому его не нужно хорошо проектировать.
Помните, без учета регистра.
Большое спасибо, ребята.
Примечание: если вы используете Python, не используйте код только для версии 3. Система, на которой я его запускаю, имеет только 2.4.4.