[Lugge] Re: wget (o no?)

  • From: asettico <asettico@xxxxxxxxxxxxxxx>
  • To: LUGGe <lugge@xxxxxxxxx>
  • Date: Tue, 13 Jan 2004 14:43:48 +0100

Roberto A. F. wrote:

On Tue, 13 Jan 2004 12:10:13 +0000 Fulvio Pizzigoni <fulviopi@xxxxxxxxx>
wrote:

Ho anche provato a dare un'occhiata al manuale di wget, ma non ho trovato traccia di modalità operative in presenza di pw di accesso.

non puoi!

Non è vero (se ho capito). Guardati le opzioni --http-user, --http-passwd e --proxy-user, --proxy-passwd.

Di solito l'opzione -m genera un mirror del sito, che cmq è ben poco utile nel caso di siti dinamici (fatti cioè in php e asp con contenuto variabile).

Se nella pagina (dinamica) ci sono comunque link ad altre pagine (dinamiche), wget li risolve lo stesso. Ti conviene salvare il log su file (-v -o file.log) e guardartelo man mano che procede.

Però se ci sono campi da selezionare od inserire il processo non può
essere automotizzato a meno che non si possano dichiarare selezioni ed
inserimenti dalla riga del browser (ad es.: pippo.com?sel=citta) ma anche
in questo caso wget da solo non è sufficiente occorre un shell script.

Vero.
Alcuni consigli della notta (ma mooooooolto importanti):
* usare l'opzione -U (user agent), se non si vuole coorere il rischio di essere bannati (e quindi dannati). Chi è senza peccato... O:-)
* in caso di pagine dinamiche usare -E (estensione .html), in modo che i file creati in locale abbiano _sempre_ estensione .html, anche se gli originali terminano con altro (.php, .jsp, .asp, ...)
* potrebbe essere necessario usare dei cookies (--cookies, --load-cookies). In tal caso, procedere così:
+ entri nella pagina web
+ fai login (il server ti manda dei cookie)
+ ti salvi i cookie in un file (o usi quello di default. Con Mozilla, ~/.mozilla/.../cookies.txt)
* è possibile che debba usare *curl*, perché questo lavora anche in upload (al contrario di *wget* ) e puo anche intervenire sugli header http, gestendo anche le "relocation".


Magari devi "legare" insieme più pagine, scaricandole in momenti diversi, usando uno script.

Tempo fa mi scrissi uno script per scaricare gli archivi delle ml da /yahoogroups.com/ , utilizzando, però *curl* . Se ritieni possa servire lo allego (è il mio primo sofware sotto GPL)
--
asettico (aka Roberto) [http://www.rossomaltese.it/]
GPG fingerprint [ BA20 8C8D 7712 9D9A 57F3 A96A A7BE 905C 1CB9 26BA ]


-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS/IT/O d++(-) s:+>: a34 C++$ ULAVH*++$>++++ P+ L+>++++ E--- W++(-) N(++)
o? K-? w(---) !O M@ V@ PS+@ PE- Y? PGP->++ t+++ 5? X++ R tv+ b+ DI(+)
D++(---) G(-)>-- e>++++ h---() r++ y+++*
------END GEEK CODE BLOCK------

========---------- Prima di scrivere in m-list per favore leggi il regolamento http://www.lugge.net/soci/index.php?link=manifesto

Archivio delle e-mail postate in lista http://www.freelists.org/archives/lugge/

Modifica dell'account sulla lista LUGGe http://www.lugge.net/soci/index.php?link=manifesto.htm#list

Other related posts: