Vai al file pdf

La struttura della fonte e la sua resa digitale: la DTD

Fruire in modo non superficiale delle potenzialità offerte dall’automazione di alcuni procedimenti implica, quale presupposto metodologico, la conoscenza puntale quanto approfondita del contenuto e della struttura dei dati codificati e  assieme, dei criteri che hanno presieduto la loro costruzione.

Come è più volte emerso, l’operazione fondamentale da compiere per poter utilizzare la codifica informatica nel campo storico

è quella di individuare e descrivere in modo non ambiguo la procedura critica a partire dalla definizione degli oggetti, delle unità minime, delle entità e delle relazioni che animano l’obiettivo del nostro studio. Oggetti, unità minime, entità e relazioni che fanno parte integrante della strumentazione – e quindi del metodo – del critico,

G. Gigliozzi, La galassia Von Neumann: il testo tra piombo e byte, in I nuovi orizzonti della filologia. Ecdotica, critica testuale, editoria scientifica e mezzi informatici elettronici cit., pp. 209-231:228.

 

In questa direzione, l’eXtensible Markup Language è in grado di fornire uno strumento utile e adeguato: la Document Type Definition (DTD).

Vai a L'eXtensible Markup Language

 

Lo stesso linguaggio XML ha una propria DTD, attualmente descritto nella specifica REC-xml-19980210, in cui vengono elencate le regole della specifica stessa del linguaggio.

Una definizione, in via preliminare: una Document Type Definition è un insieme di regole per costruire documenti XML sintatticamente validi (well formed), essenzialmente una grammatica per la descrizione dei tag e del loro innestamento.

Un documento XML è ben formato – e quindi analizzabile da un programma (parser) - se e solo se: tutti i suoi tag sono chiusi, nell’ordine corretto; esiste un solo elemento radice; i valori degli attributi sono scritti tra virgolette; gli elementi non hanno due attributi con lo stesso nome; i nomi degli elementi e degli attributi non contengono i caratteri < >.

Di più: una DTD definisce l’insieme di tutte le possibili marcature valide per un documento e in essa vengono stabiliti, a priori, tutti gli elementi che si ritengono significativi della struttura e il contenuto dei documenti, ma anche i loro attributi e i rapporti tra essi intercorrenti.

Una DTD è dunque un file che definisce nomi, attributi e restrizioni di occorrenza simultanea per tutti gli elementi e le entità identificate e usate da un’intera classe di documenti, stabilendone la forma e le reciproche relazioni. 

Di solito i file contenenti una DTD sono esterni al documento XML (external set) e vengono richiamati da questi mediante un percorso posto in apertura, subito sotto la dichiarazione XML.

Tuttavia non sono rari i casi in cui la DTD si annidi all’interno dello stesso documento XML (internal set), senza per questo inficiarne la validità.

Questo sistema comporta però uno svantaggio in termini di condivisione in quanto la DTD non può essere usata per altri documenti XML simili; viceversa, mantenendo una DTD esterna, questa risulterà condivisibile e riutilizzabile.

In concreto essa è costituita da un insieme di dichiarazioni di markup definite da un nome (identificatore generico) e un modello di contenuti (content model), divise in:

  • dichiarazioni dei tipi di elemento,

  • dichiarazioni degli attributi associati ad un dato elemento,

  • dichiarazioni delle entità (entity).

 

Questo genere di dichiarazioni riguardano parametri che possono essere esterni, e pertanto utilizzabili ad esempio per inserire file all’interno di un documento XML, o interni.

In questo senso le entità vengono utilizzate per la rappresentazione di singoli caratteri non previsti nel set XML tramite il loro numero di codice (esprimibile con la forma: “&#num;” dove num è un numero di ASCII/Latin-1/UNICODE).

Ad esempio 

<!ENTITY apos "&#39;">

sostituisce con il codice l’apostrofo, normalmente utilizzato da XML e quindi in conflitto.

L’elemento identifica un’unità testuale considerata come componente strutturale: in questo senso, contenendo un nucleo informativo, è in qualche modo simile ad un campo di database anche se, diversamente da questo, mostra una flessibilità ben maggiore, rendendo possibile allargare o specificare l’informazione in esso contenuta.

Ad ogni elemento viene associato un content model che specifichi cosa possa essere contenuto al suo interno: altri elementi, attributi o testo libero (#PCDATA) attraverso indicatori di occorrenza deputati a stabilire quante volte quel determinato contenuto possa essere utilizzato (* = zero o più occorrenze, ? = zero o 1 occorrenza, + = una o più occorrenze); l’assenza di indicatori indica una e una sola occorrenza.

Un esempio, molto semplice, di occorrenze di elementi in una Document Type Definition  può essere il seguente:

<!ELEMENT  CAPITOLO (titolo, sottotitolo?, paragrafo+)>
   <!ELEMENT  PARAGRAFO (#PCDATA | note)*> 
   <!ELEMENT  note (#PCDATA)>

In questo modello, all’interno dell’elemento capitolo sono previsti un titolo, qualora presente un unico sottitolo, mentre si stabilisce che l’elemento paragrafo debba essere presente almeno una volta.

L’elemento note invece, contenuto all’interno del paragrafo, può essere ripetuto infinite volte oppure essere totalmente assente.

 Gli attributi associati ad ogni elemento vengono esplicitati attraverso una lista introdotta dalla dichiarazione <!ATTLIST…> nella quale il singolo attributo viene definito da un nome, il tipo di dato e un valore di default, stabilito tra #REQUIRED (quando il valore deve essere specificato) e #IMPLIED (quando non deve essere specificato nessun particolare valore):

<!ATTLIST edizione
  Iden  ID #IMPLIED 
  Status  (bozza | rivisto | pubblicato) #REQUIRED 
  lingua  CDATA “italiano”>

Nel caso illustrato si stabilisce ad esempio che nell’inserire l’attributo edizione il codificatore debba sempre segnalare se si tratta di una bozza, di un testo rivisto oppure di un testo già pubblicato.

Già da questi esempi basilari si intuisce quella che può essere la centralità di una Document Type Definition in una procedura di codifica informatica, vista la sua indubbia utilità nell’orientare e vincolare l’interpretazione della fonte analizzata, sia per quanto concerne il contenuto che si intende comunicare, sia con riferimento alla predisposizione di un quadro di riferimento utile all’utente che si approcci al testo codificato.

Tra gli indubbi vantaggi insiti nell’utilizzo di una DTD nella composizione di un’edizione elettronica, vanno infatti annoverati la possibilità – per ogni documento edito – di contenere al suo interno una descrizione del proprio formato, ma anche quella – per gruppi di utenti diversi – di concordare un modello unitario di codifica che faciliti lo scambio della documentazione.

Avendo inoltre predisposto preventivamente una Document Type Definition, qualunque editor deputato alla produzione di documenti XML è in grado di sfruttare le sue regole per la creazione di un’interfaccia di inserimento dei dati che sia conforme con il modello, evitando in questo modo eventuali errori di inserimento di marcatori da parte del codificatore.

Resta per inteso che, dal momento che ogni definizione di tipologia documentaria, ogni modellizzazione, si delinea come interpretazione soggettiva, non esiste una Document Type Definition in grado di riflettere una verità assoluta del testo trattato.

La DTD, in sostanza, è uno strumento che non fornisce informazioni sulla semantica né tantomeno sulla rappresentazione di un documento, ma il cui scopo è esercitare un controllo sulla marcatura: una guida, il cui uso assicura che tutti i documenti stabiliti siano informaticamente costruiti e strutturati in maniera omogenea e conforme.

 

 

 

 

Anche nel caso sperimentato si è ritenuto di poter precisare e definire un modello autonomo, calibrato sulle specificità del materiale documentario utilizzato, scartando l’impiego della DTD proposta dalla Text Encoding Initiative, sia nella versione completa sia in quella leggera che, come si è visto nel paragrafo precedente, sono orientate ai testi letterari, e quella messa a punto nell’ambito del progetto MEP (Model Editions Partnership. Historical Editions in the Digital Age) dell’University of South Carolina, mirato a formalizzare uno standard per la pubblicazione e la conversione di edizioni a stampa in formato elettronico di documentazione storica americana di età moderna.

Vai alla Scheda sulla TEI

Collegamento esterno al MEP

Lo schema proposto rispecchia fedelmente gli interessi della ricerca in atto, che sono tutti orientati al contenuto del cartulario e dei documenti in esso trascritti, escludendo pertanto la codifica degli aspetti materiali del manoscritto, per i quali si è pensato di riservare all’interno del sito un’apposita sezione illustrativa.

Struttura, caratteristiche, contenuti del Liber

Esame codicologico

 

 

 


L’intento, non esclude tuttavia che in un secondo momento, se necessario, si possa procedere ad integrazioni della DTD, in grado di rendere la codifica testuale attuata conforme alle specifiche TEI-CEI o alle loro estensioni modulari.