JARVEST, framework para web 100% en Java.

texto al poner el cursor
JARVEST (Java web harvesting library)  es un framework libre para web scraping 100% escrito en  Java. Incluye una DSL basada en JRuby que te ayuda  de forma fácil robots sencillos o complejos.

Sus características son:

  • 100% Java.
  • Soporte para consultas XPath. El HTML se limpia y convierte a XHTML antes de que hagas la búsqueda.
  • Tiene Soporte para POST y cookie tracking, lo quete ayuda a hacer un, login en los sitios accedidos.
  • Ensamblaje de robots complejos. Los robots en JARVEST son un composite de piezas primitivas que se pueden combinar en serie o paralelo.

Linea de comandos como ejemplo :

echo ” http://www.google.com ” |. / jarvest.sh RUN-P”wget | xpath(‘//a/@href’)”

Inside Java:

Lago Lago Lago = new ();

String [ ] = jarvest.exec resultados (“wget | xpath(‘//a/@href’)”, / / Robot!

http://www.google.com ” / / entradas

) ;

para la (s cadena : los resultados ) {

System.out.println (s ) ;

}

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s