Dalla teoria alla prassi: la sperimentazione sul Vat.Lat. 3880
Ciò che si vuole codificare è ciò che si vuole conservare, ovvero ciò che si ritiene importante:
Simili presupposti indicano chiaramente come, confezionando un’edizione digitale, si creino dei vincoli di consapevolezza fondativi, lontani dalle soluzioni di comodo prospettate dai detrattori delle applicazioni informatiche alle discipline storiche. Un documento storico veicola, ovviamente, una serie di contenuti testuali, di informazioni su eventi, luoghi, persone, oggetti del mondo materiale, concetti, idee: riconoscerli, poterli ritrovare, passare dall’uno all’altro, collegarli fra loro costituisce un esperimento euristico che i linguaggi di marcatura consentono e che evidentemente fa slittare l’operazione di codifica di un testo dai suoi aspetti puramente linguistici, formali o strutturali a quelli relativi al suo contenuto informativo e ai più complessi significati di cui esso è portatore. Introdursi in un universo così complesso – almeno apparentemente – ha significato, pragmaticamente, operare delle scelte.
Nel caso prospettato il primo provvedimento da prendere ha riguardato, ad esempio, l’eventuale adozione o meno di un modello di marcatura preesistente.
In effetti, nonostante l’assenza di precise linee-guida per la codifica informatica di fonti storiche, non è recentemente mancata – all’interno della comunità umanistica attenta alle tecnologie elettroniche – una spinta alla definizione di modelli e procedure condivisibili per l’edizione dei testi.
Nella definizione di uno standard libero finalizzato all’interscambio di documenti umanistici tra piattaforme informatiche differenti, indipendente da una particolare applicazione software e adatto alla rappresentazione di tutte le categorie e caratteristiche testuali possibili, la TEI si è giustiamente orientata verso una codifica di tipo dichiarativo, adottando inizialmente SGML; nel giugno del 2007 il TEI Consortium ha provveduto inoltre alla pubblicazione di una nuova versione dello schema di codifica, TEI P5, contraddistinto dalla piena conformità con l’eXtensible Markup Language, proiettando prepotentemente l’iniziativa – sulla scorta del notevole successo di XML e delle tecnologie ad esso correlate – verso nuovi importanti sviluppi nell’ambito delle biblioteche digitali e del World Wide Web stesso.
Nonostante infatti nella TEI siano previsti marcatori di indubbia utilità nella descrizione delle trascrizioni, della tradizione manoscritta e dell’apparato critico, si ricava infatti l’impressione che questo approccio, orientato a identificare e sovrapporre le regole di costruzione del testo con la logica funzionale delle macchine, sia consapevolemente destinato a lasciare in ombra la storicità dell’oggettotestuale, risultando dal punto di vista contenutistico e semantico assolutamente inadeguato e insoddisfacente. Se si concepisce la codifica del testo come una rappresentazione di quell’informazione che si aggiunge al testo vero e proprio, e che eccede da esso, allora la TEI, che si approccia al testo come rappresentazione grafica di un oggetto documentario o letterario, resta essenzialmente uno strumento limitato, e limitante. Il discorso vale in egual misura per l’adattamento della TEI alla documentazione storica medievale e moderna, denominato Charters Encoding Initiative (CEI) e avviato nell’aprile del 2004 su iniziativa di Georg Vogeler.
Anche in questo caso infatti, sebbene si tratti di un disegno assolutamente orientato alla trascrizione elettronica di documentazione dai forti connotati storici e basato sul Vocabulaire International de la Diplomatique, attraverso il quale è stato possibile normalizzare gli elementi del discorso diplomatistico, il suo eventuale utilizzo non riesce ad abbracciare i dati semi-strutturati, quelli cioè che interessano l’analisi storica, non rilevabili né tantomeno inseribili all’interno delle canoniche etichette diplomatiche e archivistiche. La scelta, in fin dei conti, si è rivelata obbligata. Seguendo la TEI – o la CEI – l’edizione del codice Vat.Lat.3880, pur rispettando un modello internazionale e condiviso, si sarebbe configurata esclusivamente come la riproposizione elettronica dell’aspetto tipografico della fonte materiale di riferimento, lasciando in ombra quegli elementi logici e funzionali che in verità costituivano l’interesse primario di questa ricerca.
Nell’evidente diversità di prospettive, finalità ed esiti fra il sistema di marcatura rigidamente proposto dalla TEI e quello sperimentato in questa sede, dove si predilige con evidenza una prospettiva logica, lasciando volontariamente da parte gli aspetti tipografici del testo, si è tentato di proporre uno strumento ulteriore rispetto agli standard consolidati, ma con essi integrabile, e forse anche un modo nuovo, oltre che più elastico e semplice, per affrontare e ridurre in formato elettronico testi finalizzati alla ricerca e alla pratica storiografica. L’idea a partire dalla quale si è poi costituito il modello di codifica adottato, ha previsto – sin dall’inizio – di attingere ai dati attraverso lo spoglio fisico dei documenti, secondo un approccio che ha contribuito in maniera determinante a fissare in partenza gli elementi descrittivi e analitici delle informazioni storiche perseguite.
Parallelamente però, è avanzata la consapevolezza che la struttura di un documento ideale su cui basare l’operazione di marcatura non dovesse ricalcare esclusivamente le informazioni editoriali ma al contrario, dovesse essere finalizzata ad evidenziare tutta una serie di elementi aggiuntivi, integrabili con gli attributi stabiliti dai canoni editoriali e in grado di approfondirne il significato: «l’horse-texte, ciò che è fuori dal testo, è anche dentro il testo, si annida tra le sue pieghe: bisogna scoprirlo, e farlo parlare»1, ha giustamente detto Carlo Ginzburg ricordando come, nel valutare le proprie prove, gli storici dovrebbero sempre spazzolare la storia contropelo, imparando a leggere le testimonianze al di là delle intenzioni di chi le ha prodotte. In questo senso, il lavoro ha previsto il recupero di dati di livello superiore rispetto alla tradizionale descrizione archivistico-diplomatica, riformulandone la funzione di indicatori/qualificatori del contenuto dei documenti censiti. Si è pertanto provveduto alla costruzione di una struttura relazionale sovrimposta alla registrazione dei documenti, che valorizzasse il carattere selettivo e mirato dell’universo documentario contenuto nel Liber Privilegiorum e contemporaneamente esplicitasse e garantisse una serie ampia di collegamenti fra entità interne e oggetti esterni.
In altre parole, il modello di codifica proposto, è stato calibrato sulle specificità storiche e territoriali della documentazione, introducendo una marcatura semantica con palesi – ma palesati – elementi di interpretazione personale, nella convinzione che la possibilità offerta dall’utilizzo di XML di restituire un testo comunque integrale fosse comunque in grado di ridurre al minimo i pericoli connessi nella dichiarata soggettività dell’operazione. La metodologia adottata ha proceduto per gradi successivi di raffinamento, passando necessariamente da uno schema di codifica iniziale a maglie larghe che solo attraverso lo studio analitico e storico-diplomatistico dei documenti si è andato arricchendo di sfumature descrittive. In particolare, allo scopo di esplicitare essenzialmente le caratteristiche contestuali, composizionali e interpretative:
La codifica progettata si articola in due macro-blocchi: quello delle metainformazioni di apparato e quello delle metainformazioni di testo, relative alla struttura e al contenuto del documento. Le metainformazioni di apparato, poste in apertura ad ogni documento, sono relative a:
Attraverso questa sezione della marcatura vengono dunque delineati gli elementi del profilo del documento, che accompagnano ogni entità documentaria a prescindere dal supporto specifico di memorizzazione, includendo tutte le informazioni utili alla sua identificazione e interpretazione. Si tratta, propriamente, di metadati archivistici, finalizzati a documentare la formazione e sedimentazione dei singoli documenti, le loro reciproche interrelazioni, i legami con le strutture che li hanno prodotti, conservati o successivamente acquisiti e l’eventuale tradizione di studi che li ha accompagnati. Il blocco delle metainformazioni di testo, come si è detto sopra, è stato bipartito in due sottoinsiemi distinti ma interagenti. Sono stati infatti previsti dei marcatori di struttura, attenti alla disposizione materiale del testo dei documenti e alla sua articolazione logica, riconoscendone l’importanza fondamentale in documentazione di natura giuridica, emanata da cancellerie pubbliche, all’intero della quale era d’obbligo individuare una definita struttura diplomatica finalizzata a corroborarne il valore legale. I marcatori definiscono lo svolgimento del discorso documentario, circoscrivendone anzitutto le articolazioni principali: ciascuno di questi segmenti include poi ovviamente delle sotto-partizioni.
Questa sezione della codifica, abilitata a definire l’articolazione del discorso documentario, è stata tuttavia strutturata secondo una griglia che, riflettendo in linea di massima la tradizionale analisi formale dei documenti medievali, non ha prescritto però regole di inclusione rigidamente preordinate e ha quindi consentito numerose eccezioni nel rispetto della prassi documentaria analizzata. Oltre ai metadati relativi alle partizioni documentarie, il blocco delle meta-informazioni di testo prevede l’annidiamento di ulteriori tag, che identificano i contenuti e in particolar modo:
Per l'attributo "tipo", che stabilisce la tipologia del toponimo se diverso da località, sono previsti i valori:
Un esempio di marcatura effettuata su un toponimo è il seguente:
Un ruolo a parte hanno invece i tag <SCRIPT> e <TT> che marcano rispettivamente il redattore del documento e gli eventuali testimoni: si tratta infatti di etichette che identificano le funzioni reali esercitate dalle persone nell’ambito dell’azione giuridica e della documentazione, e che non necessariamente coincidono con le qualifiche denunciate. Un esempio di marcatura effetuata su un nome di persona è:
Infine, sono stati introdotti anche i tags per gli elenchi e le descrizioni di beni sia immobili che mobili (<BENIMM> e <BENMOB>) – molto utili sebbene nella documentazione analizzata in verità scarseggino – e il tag <EVENT> per segnalare un fatto storico all’interno del documento. Le informazioni così marcate sono, ovviamente, ricomprese entro strutture di livello superiore, che definiscono l’articolazione formale dei documenti, secondo i tre livelli di marcatura precisati, descrivendo ordinatamente la struttura ideale di ciascun testo contenuto nel cartulario, con le dovute eccezioni.
L’introduzione di una marcatura siffatta, obbligando all’analisi approfondita del documento su cui opera e grazie all’inserimento di attributi specificanti le proprietà di ogni singolo lemma etichettato, è stata in grado di produrre ritorni significativi in termini di ricerca automatica di informazioni all’interno del cartulario monrealese. L’atteggiamento seguito è stato quello di adeguare via via il lavoro ai problemi nuovi che sorgevano nel corso dell’analisi, predisponendo una codifica iniziale debole che si riservasse la possibilità di intervenire più e più volte sul testo, man mano che emergevano nuovi interrogativi o che la documentazione studiata andava acquisendo maggiore consistenza. Tali presupposti si sono rivelati efficaci ancor più nell’ambito di un progetto di ricerca che, per definizione, non ha voluto prevedere fin dall’inizio i suoi possibili sviluppi, rimandendo – anche nel modello di codifica proposto – aperto a successive ridefinizioni, alla luce di nuovi dati o di una diversa interpretazione dei dati esistenti.
|