Bitextor es una aplicacion liura de còde dobèrt qu’a per objectiu la generacion de memòrias de traduccion a partir de sites web multilingües, que s'utilizan coma còrpus de basa. Bitextor es estat publicat jos licéncia GNU GPL v2.

L'aplicacion descarga totes los fichièrs HTML del site web indicat per l'utilizaire. Alavetz, realiza un pretractament de l’informacion per los convertir a un format coerent e adeqüat per las etapas seguentas. Sulcòp, s'i aplica un ensemble d'euristicas (principalament basadas sus l'estructura d'etiquetas HTML e la longor de las cadenas de tèxt) per far parelhs de fichièrs que seràn considerats coma candidats a contenir lo meteis tèxt en diferentas lengas.. A partir d'aquestes candidats, se genèran las memòrias de traduccion en format TMX mercé a la librariá LibTagAligner, qu’utiliza las etiquetas HTML e la longor dels blòcs de tèxt (tanben) per realizar l'alinhament.

L'objectiu d'aquesta aisina es de facilitar l'obtencion de còrpus multilingüe a partir d'Internet. Bitextor foguèt inicialament desvolopat per facilitar lo procès d'entraïnament d'aplicacions de traduccion automatica e, concretament, la de la plataforma Apertium.

Vejatz tanben

modificar

Ligams extèrnes

modificar