Utilisation de wget, Quelle est la bonne command pour get la version gzip au lieu du HTML proprement dit

Je suis tombé sur ce site qui parle de cela.

Donc, lors du téléchargement de tout le site en obtenant la version gzip, quelle est la bonne command?

J'ai testé cette command, mais je ne sais pas si wget obtient vraiment la version gzip:

wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/

Si vous requestz un contenu gzip (en utilisant l'en-tête gzip accept-encoding, ce qui est correct), je crois comprendre que wget ne peut pas lire le contenu. Donc, vous vous refindez avec un seul file gzip sur le disque, pour la première page que vous appuyez, mais pas d'autre contenu.

c'est-à-dire que vous ne pouvez pas utiliser wget pour requestr du contenu compressé et pour recycler tout le site en même time.

Je pense qu'il y a un patch qui permet à wget de prendre en charge cette fonction, mais ce n'est pas dans la version de dissortingbution par défaut.

Si vous incluez le drapeau -S, vous pouvez dire si le server Web répond avec le type de contenu correct. Par exemple,

 wget -S --header="accept-encoding: gzip" wordpress.com --2011-06-17 16:06:46-- http://wordpress.com/ Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126 Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected. HTTP request sent, awaiting response... HTTP/1.1 200 OK Server: nginx Date: Fri, 17 Jun 2011 15:06:47 GMT Content-Type: text/html; charset=UTF-8 Connection: close Vary: Accept-Encoding Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000 Cache-Control: max-age=190, must-revalidate Vary: Cookie X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header. X-Pingback: http://wordpress.com/xmlrpc.php Link: <http://wp.me/1>; rel=shortlink X-nananana: Batcache Content-Encoding: gzip Length: unspecified [text/html]

L'enencoding de contenu indique clairement gzip, cependant pour linux.about.com (actuellement),

 wget -S --header="accept-encoding: gzip" linux.about.com --2011-06-17 16:12:55-- http://linux.about.com/ Resolving linux.about.com (linux.about.com)... 207.241.148.80 Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected. HTTP request sent, awaiting response... HTTP/1.1 200 OK Date: Fri, 17 Jun 2011 15:12:56 GMT Server: Apache Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/ Set-Cookie: zBT=1; domain=.about.com; path=/ Vary: * PRAGMA: no-cache P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI" Cache-Control: max-age=-3600 Expires: Fri, 17 Jun 2011 14:12:56 GMT Connection: close Content-Type: text/html Length: unspecified [text/html]

Il renvoie le text / html.

Dans la mesure où certains browsers plus anciens rencontrent encore des problèmes avec le contenu encodé par gzip, de nombreux sites ne le permettent qu'en fonction de l'identification du browser. Ils l'éteignent souvent par défaut et ne l'activent que lorsqu'ils savent que le browser peut le prendre en charge – et ils n'incluent généralement pas wget dans cette list. Cela signifie que vous pouvez find que wget ne renvoie jamais de contenu gzip même si le site semble le faire pour votre browser.

command simple pour get la page html et compressé ou get n'importe quel file et compressé.

 $ wget -qO - <url> | gzip -c > file_name.gz

pour plus d'informations sur l'option. utilisez la command man.