giovedì 5 aprile 2012

Entropia

investiga

È possibile riconoscere l'autore di un'opera letteraria dalle parole e dalla frequenza di utilizzo di queste nell'opera stessa? Questa è una domanda che ricorre quando si parla di opere che sono arrivate a noi, come anonime, e che si sospetta possano essere di un autore la cui paternità non è confermata dagli studi storico-letterari tradizionali.
Due matematici e un fisico, Dario Benedetto, Emanuele Caglioti e Vittorio Loreto dell'Università della Sapienza di Roma, hanno deciso di testare l'algoritmo Lempel-Ziv come metodo di identificazione delle creazioni letterarie. Novanta testi scritti da 11 autori italiani (tra cui Dante Alighieri e Pirandello) come materiale di base. Si sceglie il testo di un particolare autore e gli si uniscono due piccoli testi di uguali dimensioni: uno, dello stesso autore, e un altro, di un autore diverso. Si danno i testi in pasto ad un programma di compressione, come WinZip, e si calcola quanto spazio serve per la compressione di ciascun testo. La tesi è che "l'entropia relativa del testo" può dare un'idea sulla paternità del testo anonimo. Se entrambi i testi sono opera dello stesso autore, l'algoritmo dovrebbe richiedere meno spazio di quello richiesto da un testo che viene compresso insieme ad un altro testo scritto da un autore differente. Nel secondo caso, l'entropia relativa sarà più elevata, dato che l'algoritmo deve prendere in considerazione stili diversi e utilizzo e frequenza diversa di parole. Quindi, il file compresso che ne consegue occupa più spazio. Quanto più piccolo è il file compresso di due testi combinati,tanto più probabile è che i due testi appartengano allo stesso autore stesso autore. I risultati dell'esperimento sono stati incredibili. Circa il 95% di volte, i programmi di compressione hanno permesso di identificare correttamente l'autore.
Dal momento che tutto era andato così bene, Benedetto, Caglioti e Loreto decisero poi di effettuare un altro esperimento. Analizzare i gradi di affinità tra lingue diverse. Due lingue che appartengono alla stessa famiglia linguistica dovrebbero avere un'entropia relativamente bassa. Pertanto, una combinazione di due testi scritti in linguaggi che sono strettamente correlati, rispetto a due testi che appartengono a diverse famiglie linguistiche, si dovrebbero comprimere in modo più efficiente. Gli scienziati hanno analizzano 52 lingue europee. Ancora una volta, hanno avuto successo. Utilizzando il programma di compressione, hanno potuto classificare ciascuna lingua nel suo corrispondente gruppo linguistico. Italiano e francese, per esempio, hanno una bassa entropia relativa e quindi appartengono alla stessa famiglia. Svedese e croato, d'altra parte, hanno un'alta entropia relativa e quindi devono provenire da diversi gruppi linguistici. WinZip è riuscito a identificare anche i maltesi, il basco e l'ungherese come "lingue isolate", che non appartengono a nessun gruppo linguistico conosciuto.

Nessun commento: