Descargar todas las imágenes de una página web en una línea de ordenes

kcdtv · April 5, 2017, 12:13pm

[h]Como descargar todas las imágenes de una página web en una sola línea de ordenes[/h]
Otro pequeño truco de “tonton” **Korben ** publicado en su web aquí:
[list=*]
]Récupérer toutes les images présentes sur une page web avec Wget b7/@ Korben/]
[/list]
wget es una herramienta muy común, no conozco a una distribución GNU-Linux “normal” que no lo tenga integrado por defecto.
Veamos cuál es la sintaxis para descragar todas las imagenes de un sitio en una linea de ordenes
Para no tener que hacer “clic derecha” + “guardar imagen en…” varias veces.
Puede resultar útil si, por ejrmplo, queremos hacer un página trampa para un rogue AP…

wget -nd -H -p -A jpg,jpeg,png,gif -e robots=off <página_web>

[list=*]
]primer argumento:* -nd**

-nd, --no-directories            no crea directorios

Para no tener cada imagen en su propio directorio, sería infumable. /*]
*]-H

 -H,  --span-hosts                va a equipos extraños en el recorrido recursivo

La traducción es infumable… Con esta opción activamos el “spaning tree”. El “spanning tree” es ir a otro dominio desde un dominio. Concretamente: Quieres bajar las imágenes de un tema de aquí (wifi-libre). Las imágenes están puestas como un link hacía un servicios de alojamiento de imágenes gratis en la web externo (digamos imgur). Si activas el spanning tree el comando wget descargara la imagen de imgur (o el sitio que sea). Si no lo activas no la descargará porqué está en otro dominio que wifi-libre. /*]
*]-p (en este caso la descripción de la opción es clara)

-p,  --page-requisites           descarga todas las imágenes, etc. que se necesitan para mostrar la página HTML

*]-A jpg,jpeg,png,gif
Entendéis que con la opción -A indicamos que tipo de ficheros vamos a descargar. Cada extensión está separada por una coma (así se debe hacer con está opción -A)

-A,  --accept=LIST               lista separada por comas de extensiones aceptadas

]-e robots=off
Por defecto wget respecta la “robot exclusion” porque no es una herramienta de intrusión, es un programa amistoso. Los administradores definen que partes y documentos de su sitio son accesibles por bots y wget respecta las reglas. Si lo ponemos en modo “off”; wget no tendrá en cuenta las restricciones (si las hay) y descargará todo… o por lo menos lo intentará… En un sitio bien protegido (como lo es wifi-libre :D) no les dejará: /]
[/list]
¡Ojo con lo de ir de badboy!
Me refiero a emplear “-e robots=off” y no respectar las reglas de cortesía establecidas por el web administrador.
Los sitios bien protegidos contra Bots no van a ser muy amables contigo…
https://www.wifi-libre.com/img/members/3/unalinea_1.jpg
No te preocupes que si pides las cosas bien (sin emplear argumento “-e”) podrás descargar todas las imágenes del tema de wifi-libre para re-decorar enteramente tu cuarto.
Par saber más sobre el comando wget:
[list=*]
]wget @ GNU/]
[/list]

Betis-Jesus · April 5, 2017, 7:30pm

el wget esta muy caspado en mucha pagina web, yo tambien la tengo prohibido como bot segun como se le haga la llamada a mi web.

el wget la uso muchos para baja la pagina de configuracion de route. uso siempre el parametro **-r **y -u los uso asi

wget –random-wait -r -p -e robots=off -U mozilla http://192.168.1.1/html/gui/?version=l

es bueno usar el parametro -r para ir recorriendo los directoriio de forma recursiva y -u para evitar en alguno caso el bloqueo con alguno user agentes.

kcdtv · April 6, 2017, 9:04am

¡Bueno!
Con esta linea más se puede tener todo para hacer una fake page en dos lineas…

Esto no lo sabía… Me lo apunta en mi libreta.

Betis-Jesus · April 9, 2017, 12:04pm

wget es una muy bien herramienta que no solo sirve para descarga es bastante rapido y esta tambien para windows que mas se puede pedir, con imaginacion se puede asta crear un gesto de descarga solo usando los comando de wget