[Lugge] Re: wget (o no?)
- From: asettico <asettico@xxxxxxxxxxxxxxx>
- To: LUGGe <lugge@xxxxxxxxx>
- Date: Tue, 13 Jan 2004 14:43:48 +0100
Roberto A. F. wrote:
On Tue, 13 Jan 2004 12:10:13 +0000 Fulvio Pizzigoni <fulviopi@xxxxxxxxx>
wrote:
Ho anche provato a dare un'occhiata al manuale di wget, ma non ho
trovato traccia di modalità operative in presenza di pw di accesso.
non puoi!
Non è vero (se ho capito).
Guardati le opzioni --http-user, --http-passwd e --proxy-user, --proxy-passwd.
Di solito l'opzione -m genera un mirror del sito, che cmq è ben poco
utile nel caso di siti dinamici (fatti cioè in php e asp con contenuto
variabile).
Se nella pagina (dinamica) ci sono comunque link ad altre pagine
(dinamiche), wget li risolve lo stesso.
Ti conviene salvare il log su file (-v -o file.log) e guardartelo man mano
che procede.
Però se ci sono campi da selezionare od inserire il processo non può
essere automotizzato a meno che non si possano dichiarare selezioni ed
inserimenti dalla riga del browser (ad es.: pippo.com?sel=citta) ma anche
in questo caso wget da solo non è sufficiente occorre un shell script.
Vero.
Alcuni consigli della notta (ma mooooooolto importanti):
* usare l'opzione -U (user agent), se non si vuole coorere il rischio di
essere bannati (e quindi dannati). Chi è senza peccato... O:-)
* in caso di pagine dinamiche usare -E (estensione .html), in modo che i
file creati in locale abbiano _sempre_ estensione .html, anche se gli
originali terminano con altro (.php, .jsp, .asp, ...)
* potrebbe essere necessario usare dei cookies (--cookies, --load-cookies).
In tal caso, procedere così:
+ entri nella pagina web
+ fai login (il server ti manda dei cookie)
+ ti salvi i cookie in un file (o usi quello di default. Con Mozilla,
~/.mozilla/.../cookies.txt)
* è possibile che debba usare *curl*, perché questo lavora anche in upload
(al contrario di *wget* ) e puo anche intervenire sugli header http,
gestendo anche le "relocation".
Magari devi "legare" insieme più pagine, scaricandole in momenti diversi,
usando uno script.
Tempo fa mi scrissi uno script per scaricare gli archivi delle ml da
/yahoogroups.com/ , utilizzando, però *curl* . Se ritieni possa servire lo
allego (è il mio primo sofware sotto GPL)
--
asettico (aka Roberto) [http://www.rossomaltese.it/]
GPG fingerprint [ BA20 8C8D 7712 9D9A 57F3 A96A A7BE 905C 1CB9 26BA ]
-----BEGIN GEEK CODE BLOCK-----
Version: 3.12
GCS/IT/O d++(-) s:+>: a34 C++$ ULAVH*++$>++++ P+ L+>++++ E--- W++(-) N(++)
o? K-? w(---) !O M@ V@ PS+@ PE- Y? PGP->++ t+++ 5? X++ R tv+ b+ DI(+)
D++(---) G(-)>-- e>++++ h---() r++ y+++*
------END GEEK CODE BLOCK------
========----------
Prima di scrivere in m-list per favore leggi il regolamento
http://www.lugge.net/soci/index.php?link=manifesto
Archivio delle e-mail postate in lista
//www.freelists.org/archives/lugge/
Modifica dell'account sulla lista LUGGe
http://www.lugge.net/soci/index.php?link=manifesto.htm#list
Other related posts: