Open Business Intelligence

La red del Business Intelligence

En este video tutorial haremos Web Scraping utilizando Pentaho Data Integration (PDI).

Nos conectaremos a un web site y obtendremos el título y la descripción de sus cinco primeros artículos.

Crearemos una Transformation y haremos lo siguiente:

  • obtendremos un documento HTML (HTTP Client)
  • dividiremos filas en columnas (Split Fields)
  • normalizaremos el data set (Row Normaliser)
  • filtraremos las filas deseadas (Filter rows)
  • obtendremos el título y la descripción utilizando expresiones regulares y javascript (Modified Java Script Value | Replace in string)
  • seleccionaremos las columnas deseadas (Select values)

Para consultas sobre cursos Pentaho: http://www.troyanx.com/

Espero les sea útil

Salud

Etiquetas: client, expresiones, fields, get, html, http, javascript, normaliser, pdi, pentaho, Más...regex, regulares, row, scraping, split, spoon, web

Visitas: 787

Archivos adjuntos

Respuestas a esta discusión

Bastante Interesante,

 lo probaré el fin de semana y verlo en más detalle, quizás en algún momento me sea útil.

Saludos 

Muy bien explicado Dario.

Saludos.-

Buen día.

Cómo hacerlo sobre https?. No logro ver todo el codigo de la página

RSS

Distintivo

Cargando…

© 2019   Creado por Emilio.   Tecnología de

Emblemas  |  Reportar un problema  |  Términos de servicio