Oppure

Loading
12/06/09 10:08
maniscalco
Ciao a tutti,
anzitutto complimenti per il sito che è veramente molto utile, vi scrivo per porvervi un problema che mi affligge da un po. Ho realizzato un web spider in java che come penso tutti sanno mi consente di scaricare interi siti dal web ora il mio problema è : c'è un modo per modificare i link contenuti all interno di una pagina scaricata ? mi spiego meglio quando scarico un link non posso tenere un link del tipo
pierotofy.it/pages/extras/forum/…=
poiche i ? e altri caratteri sono "illegali "nel sistema operativo quindi dato che nel mio programmino gia realizzo diversi metodi che eliminano questi caratteri nel momento in cui si scarica una pagina vorrei sapere se è possibile modificare anche i link contenuti in quella pagina in modo da eliminare i caratteri illegali e poter usare, finalmente, le pagine scaricate in maniera offline.
Ringrazio sin da subito chi si interessera al mio problema.
:rotfl::rotfl:
aaa
12/06/09 11:17
netarrow
quei link inviano al web server informazioni che vengono poi elaborate dagli script php generando una pagina html dinamicamente.

quindi se vuoi scaricare un intero sito dinamico sul tuo PC devi salvarti un particolare stato.

potresti richiedere la home e salvarti la pagina html da qualche parte (cosa che già fai immagino).
a quel punto ricorsivamente con le regex ti cerchi dentro la pagina html tutti i link, fai la richiesta e in questo modo ottieni la pagina html generata, la salvi da qualche parte e fai un replace dell'url con un normale link alla pagina statica prima salvata.
aaa
12/06/09 11:35
maniscalco
Innanzi tutto grazie mille per la risposta netarrow,
per quanto riguarda ciò che hai detto non credo di aver proprio colto tutto.....:asd:
Ti spiego meglio: io il sito web o le singole pagine web che siano html php asp ecc ecc le salvo ricreando sul mio hdd l albero del sito.. ora ho provato a scrivere delle classi che mi riparsavano le pagine salvate per poterne poi cambiare i link ma il problema è che non so come dire al writer di rimpiazzare i link con quelli presenti nella pagina e oltretutto quando va a riscrivere la pagina va a vuoto......... Ora ho capito il tuo consiglio di usare le regex ma poi come faccio a rimpiazzare il testo nella pagina...????:-?:-?
aaa
12/06/09 13:14
netarrow
mano a mano potresti salvarti l'url della pagina dinamica e mettere magari in una hashtable il nome e il path del risultato statico che hai scaricato, e poi alla fine del processo di download, fai un semplice replace, mettendo il path della tua pagina statica al posto dell'url della pagina dinamica.
aaa