Investigadors de l’UJI dissenyen un sistema de transcripció que permet una recuperació més ràpida de documents antics i manuscrits

08/05/2015 | SCP
Compartir

Compartir

Facebook
X
Linkedin
Whatsapp
Gmail
Imprimir

Agilitzar la recuperació i preservació dels documents antics i manuscrits que formen part del patrimoni cultural és un dels objectius del nou sistema de transcripció assistida per a text escrit, State, desenvolupat pel grup d’investigació de percepció i aprenentatge computacionals del departament de Llenguatges i Sistemes Informàtics de la Universitat Jaume I en col·laboració amb investigadors de la Universitat Politècnica de València.

Enfront dels tradicionals reconeixedors òptics de caràcters que generen problemes en la transcripció i ofereixen resultats amb nombroses errates que l’editor ha de corregir, State es presenta com un sistema de transcripció que integra diferents ferramentes que permeten el processat d’imatges per a eliminar soroll i netejar la imatge original, la detecció de l’estructura de la pàgina, el reconeixement del text i la correcció ràpida i còmoda dels errors amb ferramentes interactives com un llapis electrònic aplicat directament sobre el text. “Es tracta d’una solució pràctica al problema de transcripció supervisada que permet alleugerir la fase més intensiva en temps, que és l’edició de la transcripció automàtica perquè aquesta siga realment fidel a l’original” explica Andrés Marzal, un dels investigadors del projecte.  

D’aquesta manera, State permet l’estalvi de fins a un 50% del temps invertit en la transcripció i correcció de textos antics o manuscrits en funció de la taxa d’error que oferisca el Reconeixedor Òptic de Caràcters (ROC) utilitzat, la qual cosa suposa moltes hores en el cas de la digitalització de grans fons documentals. Una de les aportacions del projecte State és l’arquitectura del sistema: el motor de reconeixement s’executa en una màquina diferent de la dels usuaris, que es connecten a ella simultàniament a través d’Internet i accedeixen al reconeixedor via servei web a què se subscriuen per a obtenir transcripcions baix demanda. Uns altres dels avantatges del nou sistema és la utilització d’un servidor adaptatiu, és a dir, que aprèn dels exemples. Així, una forma de treball natural és que alló que un dels transcriptors considera que val la pena ser après s’envia al servidor, que pot produir una versió millorada del ROC que passa a estar immediatament disponible per a la resta d’usuaris.

“Estem davant una ferramenta molt flexible i versàtil ja que permet que en una mateixa sessió els usuaris puguen connectar-se a més d’un motor de reconeixement o adaptar el motor a les peculiaritats d’un tipus de document. També facilita models de negoci en què es puga facturar per volum de transcripció” apunta Andrés Marzal.

Finalment, els investigadors també han treballat en un interfície multimodal que facilite als transcriptors humans manejar la ferramenta. Actualment usa teclat ratolí i pantalla sensible al llapis electrònic, però està planejat incloure altres dispositius d’interacció. “La interacció ha de ser el més natural possible, sobretot tenint en compte que els usuaris poden fer jornades de diverses hores. Oferir un interfície intuïtiu resulta molt convenient” explica l’investigador.

El prototip dissenyat pels investigadors es troba en versió alfa, per la qual cosa ja és utilitzable. De fet, recentment s’ha instal·lat a la Biblioteca Virtual Miguel de Cervantes i s’usarà en l’Arxiu Jaume I per a la transcripció de documents antics. El grup d’investigació de percepció i aprenentatge computacionals de l’UJI es planteja com a línies de treball la implementació d’altres reconeixedors, especialitzats en algunes tipografies freqüents en textos antics. A més, a mitjà termini, es preveu integrar nous dispositius en l’aplicació como pantalles touch o multitouch o veu. “Hem de tendir cap al que la tecnologia ens ofereix a cost raonable: pantalles sensibles al tacte o la inclusió de veu per a executar comandaments” afirma Marzal.

Informació proporcionada per: Servei de Comunicació i Publicacions