Мой источник имеет разные форматы даты, как показано ниже, и я ищу алгоритм для определения шаблона исходной даты, опробованного в интеграции данных Pentaho с выбранным значением и нечеткими шагами.
Столбец даты (строка)
"20150210"
"20050822--"
"2014-02-May"
"20051509--"
"02-May-2014"
"2013-May-12"
"12DEC2013"
"15050815"
"May-02-2014"
"12312015"
Я знаю, что в PDI мы можем достичь шага JS, написав условия If для каждого шаблона, но это не очень хорошая идея, и этот подход делает преобразование мертвым при работе с огромными записями, ища эффективный способ поиска шаблона даты.
Я считаю, что это очень распространенная проблема во всех проектах ETL. Здесь я пытаюсь понять, как поставщики предприятий, такие как SAS Data Integration, Informatica, SSIS, обеспечивают простой способ решения.
Есть ли у нас какой-либо алгоритм для определения исходного шаблона. Если да, то какой?
Перечисленные выше форматы не ограничены.
01-02-05
‹-- Какое сегодня число? Ответ таков: это полностью зависит от культуры автора. en-GB переведет это наFeb 1 2005
. en-US идентифицируется какJan 2 2005
. В то время как ja-JP указал быFeb 5 2001
- person billinkc   schedule 12.10.2015