Pascal - Assegnato un file come controllare che tipo è

09/03/10 18:30

Ciao a tutti. La mia domanda è come, assegnato un file esistente e trovato, si può restituire che tipo di file è...
Mi spiego:
Ho ad esempio FileExists('Ciao.txt')... mi serve una funzione che ti dica: Ciao.txt è un file di testo (non proprio così ma il concetto è quello); ma non attraverso l'estensione in sè per sè, ma proprio con un analisi nella costituzione del file...
Spero di essermi spiegato
Grazie mille

09/03/10 18:53

XBarboX

mooolto semplice: una volta che conosci tutte i nomi dei file basta che guardi le ultime tre lettere della stringa per scoprire l'estensione del file. Sei vuoi fare il preciso, invece di guardare le ultime tre scorri tutta la stringa al cotrario e ti fermi appena trovi un "." .

aaa

09/03/10 19:04

Ma ho già scritto che non devo conoscere il file MEDIANTE L'ESTENSIONE! Se io prendo file.avi e lo rinomino in file.txt, il file sarà comunque un video, non un file di testo.
Ecco io devo capire COME SCOPRIRE il tipo di file NON dall'estensione, ma dalla configurazione dello stesso file...
Mi sono spiegato?

09/03/10 19:47

nessuno

Non puoi farlo perchè non c'è modo di essere sicuri ...

Un file è una sequenza di byte. Non c'è altro che possa dirti di che "tipo" file si tratti ...

Ad esempio, per farti capire, una immagine JPG ha un formato con una precisa struttura del file (caratteri particolari, strutture ben precise) ma si potrebbe replicare il tutto senza che quella sia una immagine ...

Mi sono spiegato?

Ricorda che nessuno è obbligato a risponderti e che nessuno è perfetto ...
---
Il grande studioso italiano Bruno de Finetti ( uno dei padri fondatori del moderno Calcolo delle probabilità ) chiamava il gioco del Lotto Tassa sulla stupidità.

09/03/10 20:39

TheKaneB

un metodo empirico, ma abbastanza buono, sarebbe quello di implementare una serie di "filtri".

Ciascun file binario ha un particolare header, che contiene spesso dei magic numbers, informazioni sulla lunghezza del file e altri dati. Beh, quasi tutti...

Il metodo consiste nell'implementare, ad esempio, un certo numero di lettori di headers (ad esempio uno per i file pcx, uno per i jpg, uno per gli avi, ecc...), lanciarli tutti verso un certo file, e contare il numero di "errori" o incongruenze che vengono rilevati.

Ad esempio, se ho un file exe, mi aspetto che da qualche parte nell'header ci sia la sequenza di caratteri MZ (appena all'inizio dell'header), un campo che mi dice la lunghezza totale del file, ecc... Se testando un file con il filtro per gli exe non trovo la sequenza MZ, allora posso scartare l'ipotesi dell'exe e testare con il prossimo filtro (magari potrebbe essere una jpg o altro...) finchè non trovo un filtro che mi dice "Hey, questo file è un XXX valido!"

L'inconveniente di questo metodo è che devi studiare ed implementare i filtri di lettura di vari tipi di formati diversi, implementando correttamente tutti gli eventuali check di integrità (alcuni usano CRC, altri usano un banale checksum, altri ancora potrebbero avere metodi customizzati, ad esempio nelle immagini PCX devi controllare che base x altezza x bytePerPixel corrispondano al dataSize, e questi sono tutti dati presenti nell'header).

Nel vecchio AmigaOS questo problema era risolto dal meccanismo dei Datatypes. Un componente centralizzato del sistema operativo conteneva tutti i filtri per tutti (o quasi) i tipi di files gestiti dal sistema, e ogni programma, invece di implementare N volte il codice per leggere un certo tipo di file, poteva chiamare le routine di apertura e salvataggio per quel file direttamente dal Datatype del sistema operativo (stiamo parlando di tecnologia avanzata, eh! cose che windows, linux e mac si sognano a distanza di ormai più di 20 anni!).

Spero di averti dato qualche spunto utile per i tuoi esperimenti

ciao!

aaa

09/03/10 21:11

nessuno

Ma anche se scrivo un file facendolo iniziare per MZ, non significa che sia un eseguibile ...

10/03/10 10:31

TheKaneB

@nessuno: si lo so... bisogna anche controllare il CRC presente nell'header e altre cose... e comunque posso sempre creare un header valido con dei dati senza significato... non è una soluzione definitiva e sicura al 100% la mia, però è una soluzione che funziona in una buona maggioranza di casi...

PS: mi hai fatto venire in mente un esperimento che feci diversi anni fa, per aumentare la capacità dei CD-Rom... Come sai, in formato CD-DA manca un layer di correzione errori, quindi la capacità reale è di circa 800MB (anzichè 650MB). Per sfruttare questo spazio in più, avevo programmato un piccolo tool che comprimeva in zip una serie di files e poi costruiva un header Wav PCM valido da applicare sopra questo file zip. Il tutto veniva masterizzato come CD Audio e poteva essere riconvertito in zip semplicemente rippando il CD e togliendo l'header falso. Il risultato era molto buono, a patto di rinunciare al livello di correzione errori C3...

Ovviamente una routine di rilevamento qualsiasi avrebbe semplicemente fallito nel rilevare quel file come zip, mentre avrebbe dato l'ok con il check per file Wav PCM. Ed è proprio su questo comportamento che mi ero basato per sperimentare quella tecnica! (Ovviamente ascoltandolo con lo stereo, emetteva suoni simili a quelli delle cassette del C64...

)

Comunque, che io sappia, non ci sono tecniche sicure per tutti i tipi di files, bisogna andare a tentativi e accontentarsi di una certa percentuale di incertezza...

Ultima modifica effettuata da TheKaneB 10/03/10 10:32

aaa

10/03/10 13:51

porca miseria :-|