Я работаю над большими данными, и мой проект состоит из графиков с текстовыми данными. Мне нужно рассчитать сходство между вершинами, вероятностью перехода, количеством связанных компонентов, вектором рейтинга страницы и случайным блужданием в одном проекте.
Я реализовал их в Hadoop, но я думаю, что это занимает больше времени (графы имеют 2500 узлов, 4000 ребер, 600 подключенных компонентов, что занимает 25 минут), так что может быть лучшим выбором для их реализации: apache hadoop или apache giraph или apache Twister?