L’empresa d’Espaitec 4TIC utilitza un sistema de transcripció dissenyat a l’UJI en la digitalització de l’Arxiu Tarradellas

15/05/2015 | SCP
Compartir

Compartir

Facebook
X
Linkedin
Whatsapp
Gmail
Imprimir

El sistema de transcripció de textos antics State desenvolupat pel grup d’investigació de percepció i aprenentatge computacionals de la Universitat Jaume I s’utilitzarà per a digitalitzar les prop de dos milions de pàgines de documents que formen de l’Arxiu Montserrat Tarradellas i Macià, constituït pel fons documental del President Tarradellas dipositat al Monestir de Poblet des de 1980. La tecnologia desenvolupada a l’UJI s’aplicarà gràcies a la participació en el projecte com a soci tecnològic de 4TC, empresa start-up d’Espaitec, Parc Científic, Tecnològic i Empresarial de l’UJI.

El 10 de febrer es van signar els convenis que tenen per objectiu regular la col·laboració entre el Monestir de Poblet, la Diputació de Tarragona, la Universitat Rovira i Virgili (URV) i per a la digitalització, l’accés i la difusió dels fons culturals del monestir a través d’Internet i l’aportació de la infraestructura necessària per al seu desenvolupament. En el mateix acte es van signar els convenis bilaterals entre la URV i quatre socis tecnològics, 4TIC entre ells, per a fer possible el desenvolupament del projecte. L’objectiu és garantir la conservació dels continguts de l’Arxiu de forma segura i permanent. Alhora es possibilitarà el tractament de tots els continguts amb les noves tecnologies digitals, de manera que en el futur es facilitarà als investigadors i públic en general l’accés a la documentació i el tractament de dades, sempre amb les limitacions establertes pel Patronat de l’Arxiu en funció dels termes de la donació de la família Tarradellas.

L’Arxiu Tarradellas el formen documents que el president Tarradellas va conservar durant prop de quaranta anys, des de l’època de conseller de la Generalitat republicana, passant pel llarg exili fins el retorn a Catalunya com a president de la Generalitat durant la Transició. Les prop de dos milions de pàgines de documents s’estructuren en set sèries i en les següents seccions: política, església, personal, hemeroteca, reproduccions, biblioteca, donacions i Arxiu Montserrat Tarradellas i Macià.

Està previst que la digitalització del fons duri quatre anys amb una mitja de 600 documents per dia, en un format d’alta resolució. La digitalització dels materials no es pot limitar a capturar i organitzar imatges de pàgines de documents, cal enriquir les imatges amb informació que permeti efectuar recerques per contingut als documents digitalitzats. Per tant, cal la transcripció dels documents. En el cas de documents antics, amb tipografies poc corrents, manuscrits i taques als suports, les eines de reconeixement de caràcters OCR, s’han de complementar amb eines que netegen les imatges, OCRs específics adaptables que permeten la supervisió humana línea a línea per corregir errors i realimentar el sistema que així “aprèn” dels seus errors. Per donar-li solució s’ha escollit el sistema 4State, de l’empresa 4TIC, nascut de la investigació del Departament de Llenguatges i Sistemes Informàtics de l’UJI.

4TIC és una empresa jove, creada a principis de 2009, dedicada al desenvolupament i implantació de solucions basades en tecnologies emergents. Basant-se en estàndards i programari lliure, Nicolás Manero i Ángel Jimenez, creadors de 4TIC, intenten que les solucions desenvolupades puguen ser fàcilment integrades en qualsevol entorn.

Més informació: http://www.4tic.com/