Vai al file pdf

Dalla teoria alla prassi: la sperimentazione sul Vat.Lat. 3880

Per quanto un linguaggio di codifica sia valido e flessibile, esso ha sempre delle limitazioni, poiché nessun sistema di marcatura è indipendente da un accordo preventivo su ciò che interessa recuperare informaticamente.

La codifica, considerata come impresa dalla connotazione scientifica e interpretativa, apre dunque un mondo fatto di decisioni, teoriche e operative.

Vai a I Linguaggi di Codifica

 

 

 

Ciò che si vuole codificare è ciò che si vuole conservare, ovvero ciò che si ritiene importante:

memorizzare e codificare un testo, farne un’edizione – così come in passato – significa introdurre una nostra griglia interpretativa tra le sue pieghe: rompere i legami che in esso ci appaiono naturali per disporre le sue parti (quelle parti che siamo riusciti ad individuare) in un ordine diverso,

G. Gigliozzi, Il testo e il computer. Manuale di informatica per gli studi letterari, Milano, Bruno Mondadori 1997 (Sintesi), p. 209.

Simili presupposti indicano chiaramente come, confezionando un’edizione digitale, si creino dei vincoli di consapevolezza fondativi, lontani dalle soluzioni di comodo prospettate dai detrattori delle applicazioni informatiche alle discipline storiche.

Un documento storico veicola, ovviamente, una serie di contenuti testuali, di informazioni su eventi, luoghi, persone, oggetti del mondo materiale, concetti, idee: riconoscerli, poterli ritrovare, passare dall’uno all’altro, collegarli fra loro costituisce un esperimento euristico che i linguaggi di marcatura consentono e che evidentemente fa slittare l’operazione di codifica di un testo dai suoi aspetti puramente linguistici, formali o strutturali a quelli relativi al suo contenuto informativo e ai più complessi significati di cui esso è portatore.

Introdursi in un universo così complesso – almeno apparentemente – ha significato, pragmaticamente, operare delle scelte.

Nel caso prospettato il primo provvedimento da prendere ha riguardato, ad esempio, l’eventuale adozione o meno di un modello di marcatura preesistente.

 

In effetti, nonostante l’assenza di precise linee-guida per la codifica informatica di fonti storiche, non è recentemente mancata – all’interno della comunità umanistica attenta alle tecnologie elettroniche – una spinta alla definizione di modelli e procedure condivisibili per l’edizione dei testi. 

In questa direzione, grande diffusione ha avuto la Text Encoding Initiative (TEI), progetto di ricerca internazionale volto allo sviluppo di un sistema di codifica uniforme finalizzato alla rappresentazione dell’informazione testuale e alla gestione dei dati umanistico-letterari in formato elettronico, avviato nel 1987.

Vai alla Scheda sulla TEI

Nella definizione di uno standard libero finalizzato all’interscambio di documenti umanistici tra piattaforme informatiche differenti, indipendente da una particolare applicazione software e adatto alla rappresentazione di tutte le categorie e caratteristiche testuali possibili, la TEI si è giustiamente orientata verso una codifica di tipo dichiarativo, adottando inizialmente SGML; nel giugno del 2007 il TEI Consortium ha provveduto inoltre alla pubblicazione di una nuova versione dello schema di codifica, TEI P5, contraddistinto dalla piena conformità con l’eXtensible Markup Language, proiettando prepotentemente l’iniziativa – sulla scorta del notevole successo di XML e delle tecnologie ad esso correlate –  verso nuovi importanti sviluppi nell’ambito delle biblioteche digitali e del World Wide Web stesso.

 

Tuttavia, il modello descrittivo dei testi che sottende la TEI si basa su una formalizzazione delle consuetudini nella produzione di documenti testuali definite a partire dalla diffusione della stampa, riproponendo una sostanziale trasposizione delle strutture e funzioni convenzionalmente vigenti nei testi letterari, siano essi in prosa o in poesia.

Nonostante infatti nella TEI siano previsti marcatori di indubbia utilità nella descrizione delle trascrizioni, della tradizione manoscritta e dell’apparato critico, si ricava infatti l’impressione che questo approccio, orientato a identificare e sovrapporre le regole di costruzione del testo con la logica funzionale delle macchine, sia consapevolemente destinato a lasciare in ombra la storicità dell’oggettotestuale, risultando dal punto di vista contenutistico e semantico assolutamente inadeguato e insoddisfacente.

Se si concepisce la codifica del testo come una rappresentazione di quell’informazione che si aggiunge al testo vero e proprio, e che eccede da esso, allora la TEI, che si approccia al testo come rappresentazione grafica di un oggetto documentario o letterario, resta essenzialmente uno strumento limitato, e limitante.

Il discorso vale in egual misura per l’adattamento della TEI alla documentazione storica medievale e moderna, denominato Charters Encoding Initiative (CEI) e avviato nell’aprile del 2004 su iniziativa di Georg Vogeler.

v. le Guidelines della Charters Encoding Initiative

Anche in questo caso infatti, sebbene si tratti di un disegno assolutamente orientato alla trascrizione elettronica di documentazione dai forti connotati storici e basato sul Vocabulaire International de la Diplomatique, attraverso il quale è stato possibile normalizzare gli elementi del discorso diplomatistico, il suo eventuale utilizzo non riesce ad abbracciare i dati semi-strutturati, quelli cioè che interessano l’analisi storica, non rilevabili né tantomeno inseribili all’interno delle canoniche etichette diplomatiche e archivistiche.

La scelta, in fin dei conti, si è rivelata obbligata. 

Seguendo la TEI – o la CEI – l’edizione del codice Vat.Lat.3880, pur rispettando un modello internazionale e condiviso, si sarebbe configurata esclusivamente come la riproposizione elettronica dell’aspetto tipografico della fonte materiale di riferimento, lasciando in ombra quegli elementi logici e funzionali che in verità costituivano l’interesse primario di questa ricerca.

Edizione diplomatica

Il codice Vat.Lat.3880

 

 

 


Identificare un autonomo set di elementi e attributi, calibrato sulle caratteristiche specifiche della documentazione storica utilizzata, ma tale comunque da essere in grado di generare risultati significativi in fase di information retrieval, è sembrata dunque l’opzione più consona ai fini del progetto attuato e della stessa documentazione edita, la cui ricchezza informativa ha quasi costretto al superamento delle regole internazionali in favore di una marcatura forgiata sulla semantica e le specificità storico-territoriali dei documenti.

Una classificazione semantica si fonda sull’idea che essa non serva soltanto a produrre una fra le tante modalità di accesso ai documenti, ma offra invece uno strumento potente e pervasivo per l’organizzazione integrata di un’edizione digitale: gli strumenti semantici costituiscono infatti una guida alla formulazione efficace dei bisogni conoscitivi, all’impostazione delle ricerche e all’esame dei materiali a disposizione.

Nell’evidente diversità di prospettive, finalità ed esiti fra il sistema di marcatura rigidamente proposto dalla TEI e quello sperimentato in questa sede, dove si predilige con evidenza una prospettiva logica, lasciando volontariamente da parte gli aspetti tipografici del testo, si è tentato di proporre uno strumento ulteriore rispetto agli standard consolidati, ma con essi integrabile, e forse anche un modo nuovo, oltre che più elastico e semplice, per affrontare e ridurre in formato elettronico testi finalizzati alla ricerca e alla pratica storiografica.

L’idea a partire dalla quale si è poi costituito il modello di codifica adottato, ha previsto – sin dall’inizio – di attingere ai dati attraverso lo spoglio fisico dei documenti, secondo un approccio che ha contribuito in maniera determinante a fissare in partenza gli elementi descrittivi e analitici delle informazioni storiche perseguite.

 

Parallelamente però, è avanzata la consapevolezza che la struttura di un documento ideale su cui basare l’operazione di marcatura non dovesse ricalcare esclusivamente le informazioni editoriali ma al contrario, dovesse essere finalizzata ad evidenziare tutta una serie di elementi aggiuntivi, integrabili con gli attributi stabiliti dai canoni editoriali e in grado di approfondirne il significato: «l’horse-texte, ciò che è fuori dal testo, è anche dentro il testo, si annida tra le sue pieghe: bisogna scoprirlo, e farlo parlare»1, ha giustamente detto Carlo Ginzburg ricordando come, nel valutare le proprie prove, gli storici dovrebbero sempre spazzolare la storia contropelo, imparando a leggere le testimonianze al di là delle intenzioni di chi le ha prodotte.

In questo senso, il lavoro ha previsto il recupero di dati di livello superiore rispetto alla tradizionale descrizione archivistico-diplomatica, riformulandone la funzione di indicatori/qualificatori del contenuto dei documenti censiti.

Si è pertanto provveduto alla costruzione di una struttura relazionale sovrimposta alla registrazione dei documenti, che valorizzasse il carattere selettivo e mirato dell’universo documentario contenuto nel Liber Privilegiorum e contemporaneamente esplicitasse e garantisse una serie ampia di collegamenti fra entità interne e oggetti esterni.  

 

 

In altre parole, il modello di codifica proposto, è stato calibrato sulle specificità storiche e territoriali della documentazione, introducendo una marcatura semantica con palesi – ma palesati – elementi di interpretazione personale, nella convinzione che la possibilità offerta dall’utilizzo di XML di restituire un testo comunque integrale fosse comunque in grado di ridurre al minimo i pericoli connessi nella dichiarata soggettività dell’operazione.

La metodologia adottata ha proceduto per gradi successivi di raffinamento, passando necessariamente da uno schema di codifica iniziale a maglie larghe che solo attraverso lo studio analitico e storico-diplomatistico dei documenti si è andato arricchendo di sfumature descrittive.

In particolare, allo scopo di esplicitare essenzialmente le caratteristiche contestuali, composizionali e interpretative:

  • è stato esplorato il codice di partenza della fonte, di cui sono state delineate funzioni e regolarità;

  • sono stati individuati i dati pertinenti, ovvero tutti gli elementi significativi della fonte, sciogliendo le ambiguità di entità e relazioni interne;

  • è stato infine progettato un sistema di codifica dei dati adattato all’oggetto, al canale e ai destinatari.

La codifica progettata si articola in due macro-blocchi: quello delle metainformazioni di apparato e quello delle metainformazioni di testo, relative alla struttura e al contenuto del documento.

Le metainformazioni di apparato, poste in apertura ad ogni documento, sono relative a:

elementi dell’edizione
<EDITIO>
posizione del documento all’interno del cartulario
<NUMDOC>
documenti precedenti e successivi
<DOCPREC>, 
<DOCSUCC>
informazioni editoriali
<INFOED>
data topica e cronica del documento
<DATA>
numero delle carte di riferimento nel manoscritto
<NUMCARTE>
es.   <NUMCARTE cc="1v A-3v A">
 
elementi dell’apparato
 
tradizione del documento
<TRADITIO>
originali
<ORIGIN>
es. <ORIGIN entecons="BCRS"  fondo="FM">
 
copie
<COP>
es. <COP entecons="BSEM"  segn="XX.E.8">
 
eventuali edizioni critiche passate
<ED>
es. <ED editio1="Pirro, Sicilia Sacra, I,  p. 453">
 
regesti
<REG>
es. <REG regesto1="Behring, Regesten, 2, p.  201">
 
notizie bibliografiche
<BIBLIOGRAFIA>
es. <BIBLIOGRAFIA cit1="Barberi, Beneficia,  I, p.34">
 
regesto
<REGESTO>
eventuali commenti al documento
<OSSERVAZIONI>

Attraverso questa sezione della marcatura vengono dunque delineati gli elementi del profilo del documento, che accompagnano ogni entità documentaria a prescindere dal supporto specifico di memorizzazione, includendo tutte le informazioni utili alla sua identificazione e interpretazione.

Si tratta, propriamente, di metadati archivistici, finalizzati a documentare la formazione e sedimentazione dei singoli documenti, le loro reciproche interrelazioni, i legami con le strutture che li hanno prodotti, conservati o successivamente acquisiti e l’eventuale tradizione di studi che li ha accompagnati.    

Il blocco delle metainformazioni di testo, come si è detto sopra, è stato bipartito in due sottoinsiemi distinti ma interagenti.

Sono stati infatti previsti dei marcatori di struttura, attenti alla disposizione materiale del testo dei documenti e alla sua articolazione logica, riconoscendone l’importanza fondamentale in documentazione di natura giuridica, emanata da cancellerie pubbliche, all’intero della quale era d’obbligo individuare una definita struttura diplomatica finalizzata a corroborarne il valore legale.

I marcatori definiscono lo svolgimento del discorso documentario, circoscrivendone anzitutto le articolazioni principali: ciascuno di questi segmenti include poi ovviamente delle sotto-partizioni.

Tenore del documento
<TENOR>
Protocollo
<PROTOCOLLO>
  • invocazione
<INVOCATIO>
  • intitolazione
<INTITULATIO>
  • inscrizione
<INSCRIPTIO>
  • data cronica
<DTCRON>
  • data topica
<DTTOP>
  • preghiera
<APPRECATIO>
  • formula di perpetuità
<FORMPERP>
Testo
<TESTO>
  • preambolo
<ARENGA>
  • narrazione
<NARRATIO>
  • dichiarazione
<PROMULGATIO>
  • disposizione
<DISPOSITIO>
  • sanzione
<SANCTIO>
  •  autenticazione
<CORROBORATIO>
Escatocollo
<ESCATOCOLLO>
  • rota
<ROTA>
  • data topica
<DTTOP>
  • data cronica
<DTCRON>
  • ricognizione cancelleresca
<RECOGNITIO>
  • sottoscrizioni
<SUBSCRIPTIO>
  • signa manus dei sottoscriventi
<SMS>
  • elenco dei testimoni
<IT>
  • completio del notaio
<COMPLETIO>

Questa sezione della codifica, abilitata a definire l’articolazione del discorso documentario, è stata tuttavia strutturata secondo una griglia che, riflettendo in linea di massima la tradizionale analisi formale dei documenti medievali, non ha prescritto però regole di inclusione rigidamente preordinate e ha quindi consentito numerose eccezioni nel rispetto della prassi documentaria analizzata.

Oltre ai metadati relativi alle partizioni documentarie, il blocco delle meta-informazioni di testo prevede l’annidiamento di ulteriori tag, che identificano i contenuti e in particolar modo:

Elemento   Attributi obbligatori   Attributi opzionali  
toponimi
<TOP>
normalizzazione del nome
“nm”
tipologia del toponimo
“tipo”
    identificazione del toponimo
“id”/ “non-identificato”
definizione sintetica
“subtipo”
        ubicazione attuale
“ub” 

Per l'attributo "tipo", che stabilisce la tipologia del toponimo se diverso da località, sono previsti i valori:

  microtoponimo el geografico
ove rientrano

cappelle

campi
  casali canali
  castelli conche
  cimiteri fiumi
  coltivazioni fonti
  cortili fosse
  croci grotte
  fortificazioni isole
  giardini laghi
  guadi monti
  mulini colline
  porte paludi
  porti piane
  recinti prati
  scale rupi
  spelonche sorgenti
  strade valli
  torri  
  vigne  

Un esempio di marcatura effettuata su un toponimo è il seguente:

<TOP  nm="Iati, castellum" id="Castello di Iato"  
tipo="microtoponimo" subtipo="castello" 
ub="Monte  Jato, Comune di San Cipirello, Pa">

 

Elemento   Attributi obbligatori   Attributi opzionali  
persone
<PERSONA>
normalizzazione del nome
“nm”
parentela
“fil” (figlio),
“pat” (padre),
“mat” (madre),
“sor” (sorella), 
“fr” (fratello), 
“vir” (marito), 
“ux” (moglie), 
“par” (familiare)
    identificazione della persona
“id”/ “non-identificato”
titolo, carica, qualifica o mestiere
“nameattr”,
“tit” 

Un ruolo a parte hanno invece i tag <SCRIPT> e <TT> che marcano rispettivamente il redattore del documento e gli eventuali testimoni: si tratta infatti di etichette che identificano le funzioni reali esercitate dalle persone nell’ambito dell’azione giuridica e della documentazione, e che non necessariamente coincidono con le qualifiche denunciate.

Un esempio di marcatura effetuata su un nome di persona è:

<PERSONA  nm="Silvester" nameattr="comes" 
id="Silvestro, conte  di Marsico" tit="comes" 
fil="Guillelmus, comes  Marsici">

 

Elemento   Attributi obbligatori   Attributi opzionali  
istituzioni ecclesiastiche
<ECCL>
normalizzazione del nome
“nm”
tipologia dell'ente
“tipo”
    identificazione dell'istituzione
“id”/ “non-identificato”
ubicazione attuale
“ub”

 

<ECCL nm="Sanctae Mariae de Ammirato,  ecclesia" 
id="Chiesa di S. Maria dell'Ammiraglio"  
tipo="chiesa" ub="Comune di Palermo, Pa">

Infine, sono stati introdotti anche  i tags per gli elenchi e le descrizioni di beni sia immobili che mobili (<BENIMM> e <BENMOB>) – molto utili sebbene nella documentazione analizzata in verità scarseggino –  e il tag <EVENT> per segnalare un fatto storico all’interno del documento.

Le informazioni così marcate sono, ovviamente, ricomprese entro strutture di livello superiore, che definiscono l’articolazione formale dei documenti, secondo i tre livelli di marcatura precisati, descrivendo ordinatamente la struttura ideale di ciascun testo contenuto nel cartulario, con le dovute eccezioni.

Come consultare i documenti  

Esempio documento codificato

 

 

 

L’introduzione di una marcatura siffatta, obbligando all’analisi approfondita del documento su cui opera e grazie all’inserimento di attributi specificanti le proprietà di ogni singolo lemma etichettato, è stata in grado di produrre ritorni significativi in termini di ricerca automatica di informazioni all’interno del cartulario monrealese.

L’atteggiamento seguito è stato quello di adeguare via via il lavoro ai problemi nuovi che sorgevano nel corso dell’analisi, predisponendo una codifica iniziale debole che si riservasse la possibilità di intervenire più e più volte sul testo, man mano che emergevano nuovi interrogativi o che la documentazione studiata andava acquisendo maggiore consistenza.

Tali presupposti si sono rivelati efficaci ancor più nell’ambito di un progetto di ricerca che, per definizione, non ha voluto prevedere fin dall’inizio i suoi possibili sviluppi, rimandendo – anche nel modello di codifica proposto – aperto a successive ridefinizioni, alla luce di nuovi dati o di una diversa interpretazione dei dati esistenti.

 

 

 


1 C. Ginzburg, Rapporti di forza. Storia, retorica, prova, Milano, Feltrinelli 2000 (Campi del sapere), p. 46; lo storico ha però ripreso alcune suggestive immagini proposte da Walter Benjamin nel suo Sul concetto di storia, Torino, Einaudi 1993 (Biblioteca Einaudi, 15).