Il progetto Atti Chiari, volto a raccogliere il primo grande corpus italiano di atti di parte, presenta stringenti requisiti di ordine legale e numerose peculiarità sul piano della lingua e dei contenuti, che hanno reso necessario progettare e implementare una serie di processi e di strumenti ad hoc. In particolare, al fine di eliminare ogni dato personale dai documenti, senza tuttavia distruggerne il tessuto linguistico e comprometterne la leggibilità, si è creata una procedura di pseudonimizzazione funzionale anche alla successiva indicizzazione e ricerca. La molteplicità dei metadati derivanti da questo processo e delle relative fonti converge poi in un sistema di ricerca basato su un motore specificamente disegnato per trattare testi in qualsiasi formato dotati di grandi quantità di annotazioni, anche relative a strutture testuali eterogenee e liberamente sovrapponibili. La combinazione di tutte queste strutture e dei loro metadati in una ricerca è resa possibile da un approccio più astratto, dove il testo viene in certo modo smaterializzato in un insieme di oggetti dotati di metadati aperti, risultando in una modellazione modulare riflessa anche in una procedura di indicizzazione.
Testi in maschera: nuovi strumenti per la sicurezza e l’analisi linguistica di corpora giuridici
Francesca Fusco
;Giulia Lombardi
2023
Abstract
Il progetto Atti Chiari, volto a raccogliere il primo grande corpus italiano di atti di parte, presenta stringenti requisiti di ordine legale e numerose peculiarità sul piano della lingua e dei contenuti, che hanno reso necessario progettare e implementare una serie di processi e di strumenti ad hoc. In particolare, al fine di eliminare ogni dato personale dai documenti, senza tuttavia distruggerne il tessuto linguistico e comprometterne la leggibilità, si è creata una procedura di pseudonimizzazione funzionale anche alla successiva indicizzazione e ricerca. La molteplicità dei metadati derivanti da questo processo e delle relative fonti converge poi in un sistema di ricerca basato su un motore specificamente disegnato per trattare testi in qualsiasi formato dotati di grandi quantità di annotazioni, anche relative a strutture testuali eterogenee e liberamente sovrapponibili. La combinazione di tutte queste strutture e dei loro metadati in una ricerca è resa possibile da un approccio più astratto, dove il testo viene in certo modo smaterializzato in un insieme di oggetti dotati di metadati aperti, risultando in una modellazione modulare riflessa anche in una procedura di indicizzazione.File | Dimensione | Formato | |
---|---|---|---|
Clemenzi-Fusco-Fusi-Lombardi_Testi in maschera_2023.pdf
accesso aperto
Tipologia:
Published (publisher's version)
Licenza:
Accesso libero
Dimensione
1.29 MB
Formato
Adobe PDF
|
1.29 MB | Adobe PDF | Visualizza/Apri |
Pubblicazioni consigliate
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.