Tip for Linux de la semana
07 Dic 2008, por DatzeroxDescargar websites enteras facilmente
Wget es una buena herramienta para descargar cualquier recurso de internet. Su uso básico para bajar una web es:
wget http://www.elsitioweb.com
Por lo tanto, wget (página del manual) + lo anterior es todo lo que necesita para navegar por Internet. El poder de wget es que puedes descargar sitios recursivos, es decir, también consigues todas las páginas (y las imágenes y otros datos) vinculados en la primera página:
wget -r http://www.elsitioweb.com
Pero muchas webs no quieren que descargues la totalidad de su sitio. Para evitar esto, comprueban el identificador del navegador. Muchos sitios te deniegan la entrada o envían una página en blanco si detectan que no está usando un navegador web.
Wget tiene la solución, solo tenemos que añadir la opción -U para este tipos de webs. Utilice -U Navegador para decirle a la web que está usando ese navegador:
wget -r -p -U Mozilla http://www.elsitioweb.com
Las más importantes opciones son –limit-rate= y –wait=. Debes añadir –wait=20 para hacer una pausa en 20 segundos para recuperaciones, esto asegura que no se añaden manualmente a una lista negra. –limit-rate= valores por defecto para bytes, añadir K para establecer KB/s. Ejemplo:
wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.elsitioweb.com

Feed RSS





