Tit for Tat

Un’ambiziosa sfida tecnologica e culturale. Il progetto dell’Università di Roma Tre punta alla digitalizzazione degli 85 km di scaffali di documenti dell’Archivio Segreto Vaticano coinvolgendo anche gli studenti delle superiori

L’obiettivo è ambizioso. Indicizzare e successivamente interrogare i contenuti di uno dei più grandi e importanti archivi storici al mondo: l’Archivio Segreto Vaticano. “In Codice Ratio“: è questo il nome della ricerca interdisciplinare per la definizione di un processo informatico di supporto alla trascrizione di fonti storiche manoscritte, progetto che nasce dalla collaborazione del Dipartimento di Ingegneria e del Dipartimento di Studi Umanistici della Università degli Studi Roma Tre con l’Archivio Segreto Vaticano. La ricerca scientifica è orientata allo studio di soluzioni per l’estrazione di dati dai manoscritti custoditi negli 85 chilometri di scaffali dell’archivio in modo da offrire agli storici potenti strumenti sulla conoscenza della storia europea.

Le difficoltà non mancano dal momento che i documenti antichi non sono pagine web. Si possono scansionare, ma non ci sono sempre le trascrizioni: ed è di quelle che si sente il bisogno per lavorare efficacemente sui testi. Le tecnologie tipo Ocr funzionano bene su scansioni di testi stampati, non sui manoscritti medioevali: i testi sono in lingua latina o in una vasta gamma di lingue volgare; sono pieni di simboli grafici e linguistici particolari (abbreviazioni, compendi); le scritture sono eterogenee nel tempo, nello spazio e nella morfologia. In generale, è un processo che richiede conoscenze e competenze anche molto approfondite da parte di paleografi e diplomatisti con un livello di specializzazione molto elevato. Tuttavia, un sistema software, se opportunamente supportato, potrebbe svolgere una parte consistente – anche se certo non esaustiva – del lavoro di trascrizione. Il problema principale è coordinare interventi umani e automatici, valorizzando le competenze specialistiche necessarie al processo. L’idea è di addestrare un sistema per il riconoscimento di caratteri e parole partendo da insiemi particolarmente omogenei presenti nell’archivio.

Le ricchissime serie di registrazioni di atti raccolte in volumi, che sono tipici dell’Archivio Segreto Vaticano, offrono molte informazioni e hanno una scrittura abbastanza uniforme: un sistema addestrato su qualche decina di pagine potrebbe poi operare una trascrizione automatica su interi volumi. Ci sono però due limiti. Primo: una soluzione basata su tecniche di Machine Learning funziona bene solo a fronte di una costosissima fase di addestramento: in pratica, è necessario mostrare al sistema molti esempi. Secondo: le eccezioni presenti nei testi, tipicamente sotto forma di abbreviazioni (nuovi simboli introdotti dal copista per abbreviare sequenze più o meno frequenti di caratteri); a valle di una trascrizione dei caratteri standard dell’alfabeto, sarebbe comunque necessario l’intervento di un paleografo.

Il coinvolgimento di un numero adeguato di paleografi esperti nella fase di addestramento non è sostenibile (sono molto pochi rispetto al lavoro necessario). Viceversa, è ragionevole pensare che questi potrebbero intervenire in una seconda fase, per decifrare abbreviazioni irrisolte.

Nasce quindi la necessità di scomporre l’addestramento del sistema in azioni elementari molto semplici, che possano essere affidate a persone meno qualificate. Il sistema di machine learning potrà usare gli esempi prodotti in questa fase per riconoscere la maggior parte dei caratteri. Successivamente, i paleografi potranno concentrarsi solo sulle abbreviazioni. Ovviamente, il sistema può essere addestrato anche a riconoscere le abbreviazioni più frequenti (alleviando così ulteriormente il lavoro dei preziosi paleografi), ma questo richiede un minimo di competenze.

Si è quindi pensato di coinvolgere per la fase di addestramento del sistema gli studenti liceali, che dovrebbero avere le basi per impadronirsi delle nozioni più elementari di paleografia; il loro coinvolgimento in un progetto interdisciplinare complesso, oltre a dare loro concrete motivazioni allo studio di materie apparentemente distanti quali il latino, la storia e la matematica, diventa un efficace strumento di orientamento. In una prima fase sperimentale sono coinvolti gli studenti del Liceo Scientifico Keplero (Roma). La loro partecipazione al progetto è inserita nella attività di alternanza scuola-lavoro. Oltre a essere operativamente coinvolti nella fase di addestramento del sistema, gli studenti parteciperanno a seminari di informatica, storia, paleografia per avere un inquadramento generale del progetto.

Il professor Paolo Merialdo, uno degli ideatori della ricerca, esprime grande fiducia: “Le nuove tecnologie possono essere uno strumento per processare una grande mole di dati, offrire strumenti per trovare nuove correlazioni e nuove significative interpretazioni. Coordinare gli esperti, ognuno con un ruolo trasversale (archivisti, paleografi, diplomatisti, filologi) in tutto il processo, è entusiasmante e siamo tutti molto ansiosi di pubblicare i primi risultati.”

In concreto, il progetto affronta temi di ricerca all’avanguardia, sia da un punto di vista dell’ingegneria informatica (con lo studio di soluzioni innovative di crowdsourcing, che potranno essere applicate anche in contesti diversi), sia dal punto delle discipline umanistiche (con la messa a punto di nuovi strumenti e metodologie a supporto della paleografia e dello studio delle fonti storiche), e allo stesso tempo rappresenta uno strumento di divulgazione scientifica e culturale e di orientamento agli studi per gli studenti delle scuole superiori e studenti universitari coinvolti, valorizzando un patrimonio culturale conservato in Vaticano, ma di estremo interesse per tutto il mondo.

L’Archivio Segreto Vaticano è la più grande banca dati storica al mondo e i suoi documenti rappresentano uno strumento indispensabile per capire la storia dell’Europa.

Nella foto: Archivio Segreto Vaticano, Reg. Vat. 12, f. 46r (particolare)

Twitter: @massimochi

Blog

Qui si descrivono opinioni con la prospettiva dell’economia digitale e si osservano le conseguenze sulle persone. Quando i fatti cambiano, si cambia opinione.

Indica un intervallo di date:

Storia segreta svelata

Archivio post

Post Recenti

Analisi quantitativa delle performance di LLM open source e on-premise. Un approccio metodologico trasparente e replicabile

Il COBOL ha i secoli contati

La fine dell’alternativa “Make or Buy”. Ora c’è il “Rent”

Segui anche su

RSS
Segui

Commenti Recenti

[…] Per una Nuova Fame di Notizie. Come Cucinarle Il Sole 24 Ore Sono camb...

[…] *I Big Data, come gli OGM, se non sappiamo cosa contengono possono far...

[…] *I Big Data, come gli OGM, se non sappiamo cosa contengono possono far...

I Nostri Blog

Incontri di confine

24zampe

Info Data