Open Business Intelligence

La red del Business Intelligence

ETL ¿procesado por lotes o registro a registro?

buenos días,

Trabajando con Pentaho DI (Kettle) me surje una duda. He visto que PDI ejecuta registro a registro y los registros ya processados en un step los pasa al siguiente (salvo que sea un step que necesita el dataset entero para ejecutarse, como una ordenación)

Si comparamos esto con el procesado por lotes que realiza un paso SQL em entran dudas respecto al rendimiento. ¿Qué es mejor procesar en un step de golpe todo el datasets o hacerlo por registros?.

Si miramos un paso de forma individual creo que es mejor tratar el dataset entero en un paso, pero el procesado registro a registro tiene ventaja de cara al streaming entre pasos.

¿Alguien ha comparado performance?, me llama mucho la atención que PDI que es una herramienta que puede trabajar con mucho volumen trabaje registro a registro.

Os agredezco cualquier ayuda o orientación que me podaís dar.

Gracias

Juan

Visitas: 130

Responde a esto

Respuestas a esta discusión

Buenas Juan, cómo estás?

De mi experiencia con PDI puedo decirte que muchas veces NO hay recetas únicas que se apliquen a todo proceso de integración de datos. Deberías testear localmente que es lo que más te conviene de acuerdo a tu contexto.

Precisamente el hecho de procesar registro a registro, es lo que le permite a PDI la capacidad de trabajar con Clusters!

Saludos

PD: para mantener un mínimo orden interno, intenta realizar las dudas de PDI en el grupo especializado...

Responder a debate

RSS

Distintivo

Cargando…

© 2019   Creado por Emilio.   Tecnología de

Emblemas  |  Reportar un problema  |  Términos de servicio