
Usando wget y Linux para bajar sitios web completos
Unos trucos para lograr bajar automáticamente los sitios que necesites desde el internet a tu pc:
Wget es una herramienta que viene en cualquier linux, es usada para bajar archivos desde internet. Su forma básica de uso para bajar una imagen es:
Ej:
$ wget http://www.gnu.org/graphics/babies/BabyGnu.png
Esta es la manera en la cual wget se utiliza normalmente, pero también puede ser utilizado recursivamente, esto es su poder escondido. wget puede conectarse a los sitios y recursivamente bajar todas las paginas (imágenes y otro tipo de datos) que estén linkeadas en la pagina principal:
Ej:
$ wget -r http://www.google.org/
Sin embargo, existen muchos sitios los cuales nos deniegan poder bajar el sitio completo. Para prevenir esto, los sitios verifican la identificación de los navegadores. Para evitar estas molestias wget tiene la opción -U.
Ej:
wget -r -p -U firefox http://www.google.org/
Seria bueno que agregaran las opciones –limit-rate= y –wait=.
Lo anterior es para hacer pausa entre cada pagina, ya que de lo contrario el dueno del sitio puede darse cuenta que con un simple comando wget le estamos bajando el sitio completamente. Sin embargo, nadie se dará cuenta si limitan la velocidad de descarga y hacen pausa entre archivos.
wget --wait=20 --limit-rate=20K -r -p -U firefox http://www.google.org/
Use –no-parent
–no-parent esta opción garantiza de que wget no descargara archivos por debajo del directorio que deseamos descargar.
Buena suerte espero sus coments..... Fuente Posted by Jonatan M. Collymoore

0 comments:
Publicar un comentario