Является ли Pentaho ETL и Data Analyzer хорошим выбором?

Я искал инструмент ETL и в Google нашел много о чайнике Pentaho.

Мне также нужен анализатор данных для работы на схеме Star, чтобы бизнес-пользователь мог поиграть и создать любой отчет или матрицу. И снова PentaHo Analyzer выглядит хорошо.

Другая часть приложения будет разработана на Java, и приложение не должно зависеть от базы данных.

Достаточно ли хорош Pentaho или есть другие инструменты, которые я должен проверить.


person flair    schedule 27.11.2009    source источник


Ответы (4)


Pentaho кажется довольно надежным, предлагая весь набор инструментов BI с улучшенной интеграцией, как сообщается, в пути. Но... есть вероятность, что компании, желающие пойти по пути открытого исходного кода для своего решения BI, также, скорее всего, в конечном итоге будут использовать технологию базы данных с открытым исходным кодом... и в в этом смысле "независимая от базы данных" легко может быть обоюдоострым мечом. Например, вы можете разработать куб в службах Microsoft Analysis Services, зная, что любые MDX/XMLA, которые ваш куб отправляет в базу данных, будут последовательно обрабатываться, и неприятных сюрпризов будет очень мало.

Сравните это со стеком Pentaho, который обычно прекращает взаимодействие с Postgresql или Mysql. Я не могу поручиться за то, как Postgresql работает в сфере OLAP, но по опыту знаю, что Mysql — при всех его несомненных достоинствах — имеет «проблемы» с типами SQL, которые обычно возникают повсюду в решении OLAP. (в кубе далеко не уедешь, не используя GROUP BY или COUNT DISTINCT). Таким образом, часть того, что вы сэкономите на лицензионных расходах, почти наверняка будет использовано для решения проблем, возникающих из-за того, что Pentaho не всегда знает, с какой базой данных он разговаривает - так сказать, ограбить Питера, чтобы (хотя бы частично) заплатить Полу.

person davek    schedule 29.11.2009
comment
На самом деле кажется, что все больше и больше пользователей Pentaho начинают использовать различные базы данных столбцов с открытым исходным кодом (например, Lucid) вместо mysql, и тогда вы можете получить ослепляющую производительность от запросов типа olap. Кроме того, анализ хорошо справляется с кешированием, поэтому даже если запросы в базовой базе данных выполняются медленно, это всего лишь разовое попадание. Ну наконец то; Он поддерживает агрегированные таблицы — еще один способ избежать этих медленных запросов — и конструктор агрегации сортирует все это за вас — это очень удобный инструмент. - person Codek; 17.02.2010

К сожалению, нужно больше информации. Например:

  • вам нужно будет обмениваться данными с известными приложениями (Oracle Financials, Remedy и т. д.)? Если это так, вы можете сэкономить массу времени и денег с помощью решения ETL, которое уже имеет встроенную поддержку этого интерфейса.
  • с какими продуктами баз данных (и их версиями) и типами файлов вам нужно поговорить?
  • вам нужно поддерживать запросы веб-сервисов?
  • вам нужна передача данных почти в реальном времени?
  • вам нужен аудит и подсчет на уровне правил для учета каждой отдельной строки
  • Вам нужна дельта-обработка?
  • на каких машинах вам это нужно? линукс? окна? мэйнфрейм?
  • Каким процессам контроля версий, тестирования и сборки должен соответствовать этот инструмент?
  • какая производительность и масштабируемость вам нужны?
  • Вы не возражаете, если база данных в конечном итоге будет управлять преобразованиями?
  • вам нужно, чтобы это работало в пользовательском пространстве?
  • вам нужно запускать его части в разных сетях, отключенных от остальных? (не редкость для процессов извлечения)
  • сколько интерфейсов и какой сложности вам нужно поддерживать?

Вы можете потратить много времени на развертывание и изучение инструмента ETL, но обнаружите, что он действительно не очень хорошо соответствует вашим потребностям. Лучше сначала потратить пару часов, чтобы понять это.

person KenFar    schedule 02.12.2009
comment
спасибо за ваши параметры для выбора инструмента ...... я обязательно подтвержу это для Pentaho. Если считать, что ответ верен на все ваши вопросы, пентахо вам подходит? - person flair; 02.12.2009
comment
Ну, это быстрый список высокого уровня. Я бы также подумал о лицензировании, поскольку в бесплатной версии отсутствуют важные функции (например, удаленное администрирование и оповещения). И я бы также подумал, насколько сильно вам нужен подход, основанный на модели. Лично я считаю, что ETL на основе моделей — это PITA примерно на 20% работы. Что мне больше всего нравится, так это набор библиотек и инструментов для python/ruby/java/perl, с которыми затем можно взаимодействовать. Для многих небольших проектов создание собственных библиотек является лучшим решением, чем изучение большого продукта и работа с другим поставщиком. - person KenFar; 02.12.2009
comment
Любопытный; Каким образом в платной версии есть оповещения? - person Codek; 24.03.2011
comment
Извините, я больше не могу найти свои заметки о продукте Pentaho ETL для подтверждения. В приведенном выше комментарии я, вероятно, имел в виду оповещение в случае сбоя процессов с помощью SMS-сообщений, а не оповещение, как это сделал бы инструмент OLAP. Этот комментарий был сделан более года назад и может быть устаревшим, хотя тенденция продуктов с двойной лицензией сохранять свои лучшие функции для коммерческой версии все еще актуальна. - person KenFar; 25.03.2011

Раньше я использовал Talend с некоторым успехом. Вы создаете свой перевод, объединяя операции в графическом дизайнере. Были определенно некоторые WTF, и было трудно иметь дело с многострочными записями, но в остальном это работало хорошо.

Talend также генерирует Java, и вы можете получить удаленный доступ к процессам ETL. Инструмент также бесплатен, хотя они обеспечивают обучение и поддержку предприятия.

person Dana the Sane    schedule 27.11.2009

Есть много вариантов. Посмотрите на BIRT, Talend и Pentaho, если вам нужны бесплатные инструменты. Если вам нужна гораздо большая надежность, посмотрите на Tableau и BIRT Analytics.

person BirtyGuy    schedule 19.02.2013