Мне нужно рассчитать статистику совпадения слов для примерно 10 000 целевых слов и нескольких сотен контекстных слов для каждого целевого слова из n-граммового корпуса книг Google.
Ниже ссылка на полный набор данных:
Как видно, размер базы данных составляет примерно 2,2 ТБ и содержит несколько сотен миллиардов строк. Для вычисления статистики совпадения слов мне нужно обработать все данные для каждой возможной пары целевого и контекстного слова. В настоящее время я рассматриваю возможность использования Hadoop с Hive для пакетной обработки данных. Каковы другие жизнеспособные варианты, учитывая, что это академический проект с временными ограничениями в семестр и ограниченной доступностью вычислительных ресурсов.
Обратите внимание, что запросы к данным в реальном времени не требуются.