Gianni Lazzari

 

Negli ultimi anni sono stati attivati importanti progetti nel settore della traduzione a voce. Importanti risultati sono stati dimostrati dal Consorzio CSTAR I e II tra i cui partner c'è l'ITC-irst di Trento


l. INTRODUZIONE

Comunicare con chi non parla la nostra lingua sta assumendo un'importanza sempre più rilevante con l'accrescere delle possibilità di mobilità e di comunicazione. Nella storia si sono avuti diversi tentativi di dare una risposta a questo problema, pensiamo al mito della torre di Babele, al linguaggio universale di Descartes, al più recente esperanto. E' stato un susseguirsi di proposte per trovare un linguaggio universale condiviso e parlato da tutti. In tempi più recenti l'apprendimento delle lingue straniere è stato considerato tra gli obiettivi principali della scuola e nell'Unione Europea è uno degli obiettivi primari per la formazione del "nuovo cittadino europeo". La lingua rappresenta inoltre una delle espressioni principali della cultura di un popolo e di un territorio e solo tramite la propria lingua è possibile esprimere e valorizzare al meglio se stessi e la propria cultura. Nella società dell'informazione e della globalizzazione questo problema sta emergendo in modo evidente: pensiamo ad Internet, alla sua potenzialità di comunicazione ed alla difficoltà di presenza nella rete per alcune lingue che sono parlate da miliardi di persone (cinese, indiano, ecc.). Abbiamo a disposizione un'infrastruttura di rete e telefonica che permette a miliardi di persone di comunicare quasi in tempo reale, ma queste stesse persone non possono accedere alle informazioni presenti nella rete e/o comunicare con persone che parlano lingue diverse.

UNA GRANDE SFIDA
I grandi avanzamenti nella tecnologie della microelettronica e dell'information technology e recentemente nelle ricerche dell'elaborazione del linguaggio naturale e del riconoscimento del parlato hanno creato le premesse per poter sperare di fare passi in avanti in questa grande sfida. E' bene chiarire subito, per non creare illusioni, che una soluzione generale a questo problema è molto lontana e non è possibile oggi fare previsioni ragionevoli se questo obiettivo possa essere raggiunto. Nonostante ciò nell'ultimo decennio sono stati messi a punto dei metodi che possono essere considerati interessanti ed utili per poter affrontare alcune situazioni applicative. Pensiamo alla traduzione di documenti quali manuali d'utilizzo di prodotti e servizi, alla possibilità di poter ottenere semplici informazioni utili quando si è all'estero, in generale a servizi che permettono agli utenti di poter comunicare esigenze semplici e di ottenere informazioni sommarie su documenti e contenuti presenti nel Web. Usando Internet ci si può trovare nella situazione di aver bisogno di documenti il cui linguaggio è per noi inaccessibile. In questo caso una traduzione grezza, anche con errori, ci permette almeno di capire se il documento è di assoluto interesse e quindi richiede una traduzione professionale.

SISTEMI EUROPEI
L'Unione Europea e le Nazioni Unite rappresentano nel panorama mondiale due istituzioni che hanno affrontato nel passato e stanno affrontando oggi progetti che prevedono l'utilizzo di tecnologie del linguaggio per l'ausilio alla traduzione. L'UE dopo anni di impegno e lavoro in questo settore ha messo a punto dei sistemi che, data una classe di documenti, permettono di ottenere una traduzione di ottimo livello in percentuali superiori al 50-60%. L'ONU ha recentemente lanciato un progetto per la definizione di un linguaggio interlingua che consenta di ridurre lo sforzo nello sviluppo di sistemi automatici di traduzione. Infatti adottando questo metodo è sufficiente tradurre dalla propria lingua al linguaggio interlingua e generare dall'interlingua nella propria lingua: con questi due moduli è assicurata la traduzione da una lingua ad ogni altra lingua.

2. I PROBLEMI AFFRONTATI
LA TRADUZIONE DA TESTO

Storicamente la ricerca nella traduzione automatica (Machine translation) è iniziata sviluppando tecniche per il trattamento di testi. Il problema affrontato quindi è stato quello di produrre un testo nella lingua desiderata (es. inglese) a partire da un testo in una lingua sorgente (es italiano). Il testo da tradurre è supposto essere corretto in termini lessicali e grammaticali. Questo problema è stato affrontato con diverse tecniche:

- basate su interlingua: il processo di traduzione avviene in due passi (analisi della lingua sorgente, trasformazione nell'interlingua, generazione nella lingua desiderata)

- basate su trasferimento diretto: dall'analisi nella lingua sorgente alla trasformazione diretta nella lingua desiderata. Due soluzioni interessanti di questo metodo sono:

- l'approccio statistico: la traduzione da una lingua ad una desiderata è vista come un processo statistico in cui una parola o una frase della lingua desiderata sono ottenute come una funzione statistica di una sequenza corrispondente della lingua sorgente

- l'approccio basato su esempi: fa riferimento all'informazione linguistica derivata dal confronto di coppie di elementi e/o frasi delle due lingue. Una volta individuato un esempio in una lingua si produce l'esempio corrispondente nella lingua desiderata. Queste tecniche, in modi diversi, utilizzano comunque sempre conoscenza linguistica e conoscenza relativa al dominio del discorso. Nel caso della conoscenza linguistica, si usano vari formalismi per rappresentare lessici e grammatiche ed algoritmi di analisi per individuare le varie strutture linguistiche. Nel caso della conoscenza relativa al dominio si usano formalismi per rappresentare le relazioni semantiche basati su "frame" o su linguaggi logici.

DUE TIPI DI SISTEMI
Infine una discriminante rilevante riguarda la metodologia di acquisizione e definizione della conoscenza linguistica. In generale possiamo dire che si possono considerare due tipi di sistemi in cui la conoscenza linguistica viene:

- "appresa" a partire da grandi quantità di dati (corpora)

- "definita a priori" e codificata nei formalismi linguistici adottati

I metodi basati su corpora sono oggi nettamente prevalenti in primo luogo perché è presente una grande quantità di dati in formato elettronico sia nel Web che nei sistemi informativi, inoltre i metodi basati su dati, soprattutto quelli statistici, sono stati determinanti per i successi ottenuti nel settore del riconoscimento del parlato negli ultimi 20 anni. Se sono disponibili corpora allineati bilingui si può ottenere un sistema di traduzione funzionante nel dominio del discorso cui appartengono i dati e con discrete capacità di generalizzazione in pochissimo tempo. I sistemi di traduzione basati su "conoscenza definita a priori" riescono a modellare bene i fenomeni per cui sono stati progettati, ma hanno di solito una bassa copertura e vanno in crisi quando devono trattare fenomeni non previsti. Un tema di ricerca importante degli ultimi anni riguarda lo sviluppo di metodi ibridi per cercare di compensare le rispettive debolezze dei metodi citati. In questa direzione stanno andando molte delle ricerche oggi in atto.

LA TRADUZIONE NEL CONTESTO DELLA COMUNICAZIONE VOCALE
Un altro tema molto interessante che è emerso recentemente dalla grande diffusione di Internet e dei telefoni cellulari riguarda la comunicazione multilingua tra due persone e la realizzazione di sistemi di traduzione a voce. Il problema da affrontare in questo caso è molto diverso dal precedente. Non si tratta infatti di tradurre un testo, ma di permettere a due persone di comunicare e dialogare. Le differenze tra traduzione da testo e traduzione vocale sono molte e significative. La comunicazione a voce infatti dipende in modo rilevante dalla situazione in cui avviene introducendo aspetti sociali che si aggiungono al puro contenuto linguistico. Inoltre il linguaggio utilizzato non possiede la maggior parte delle caratteristiche formali del testo (la punteggiatura, la grammatica utilizzata nel linguaggio scritto). Infine, la comunicazione a voce, a differenza del testo, è contemporaneamente comunicativa ed interattiva introducendo il dialogo. Per questo motivo è molto spesso orientata al raggiungimento di un obiettivo. Il dialogo inoltre richiede dei meccanismi di sincronizzazione e si basa su comportamenti che sottendono ruoli sociali (modestia, eufemismo, educazione, ironia, imbarazzo, ecc.). E' infine necessaria una correlazione tra le varie battute del dialogo, ad esempio per arrivare alla comprensione di un concetto si devono unificare due o più frasi successive. La comunicazione può poi essere soggetta a molte incomprensioni per la mancanza di un "senso comune condiviso", infatti nell'ambito del dialogo vi possono essere riferimenti diversi tra le persone coinvolte.

MODELLI DI COMUNICAZIONE
E' interessante inoltre analizzare le caratteristiche che differenziano i sistemi di riconoscimento utilizzati per comandi e dettatura dai sistemi di riconoscimento utilizzati in traduzione. In questi ultimi molto spesso, le frasi pronunciate sono malformate e contengono esitazioni, ripetizioni, false partenze e/o pezzi di frase che contengono più concetti. Infine le velocità di eloquio ed il rumore ambientale, oltre alle espressioni non verbali (colpi di tosse, risate, ecc.) rendono il problema del riconoscimento ancora più complesso. Una caratteristica importante che distingue i sistemi di traduzione del parlato dai sistemi automatici di accesso vocale all'informazione è il modello di comunicazione: il primo rappresenta una comunicazione persona-persona, il secondo persona-macchina. Le implicazioni non sono solo a livello acustico, ma anche a livello di comprensione. Infatti la fase di comprensione della comunicazione, nel caso della traduzione, avviene comunque a livello umano. La capacità di gestire situazioni in cui la comprensione della macchina sia molto approssimativa è sicuramente molto superiore da parte delle persone. A titolo di esempio, di seguito viene riportata la trascrizione di alcune battute di dialogo tipiche di una comunicazione verbale: "sì sì venerdì diciannove va bene maa.però anche lunedì perché si potrebbe così vederci anche con mmmh con come si chiama ……ah sì con Antonio……" Se lo diamo in ingresso ad un sistema di traduzione da testo, presente in Internet, otteniamo questo un po' incomprensibile: "friday nine- teen goes maa but also monday well because it could therefore vederci also with mmmh with as it is called ………ah with Antonio". Se queste sono le premesse, qual è allora lo scopo della traduzione a voce? Non certo eseguire una traduzione frase per frase e cercare una traduzione letterale, ma capire il messaggio dell'utente individuandone i concetti principali, a volte sintetizzando la frase stessa. Per fare questo il sistema ha bisogno di eseguire un'interpretazione semantica e pragmatica insieme. E' necessario infatti che il sistema conosca i concetti principali che gli utenti si comunicano e ne abbia una qualche rappresentazione. Insomma si deve passare dalla MT (Machine Translation) alla MI (Machine interpretation). Tutto ciò ha delle conseguenze importanti per la classe di problemi che si possono affrontare: si possono usare sistemi di traduzione in ambiti e domini del discorso ristretti, ovvero laddove sia possibile avere un numero non troppo elevato di concetti da interpretare.

3. LE APPLICAZIONI DI COMUNICAZIONE VOCALE MULTILINGUA

Con i vincoli precedentemente discussi si possono pensare applicazioni relative alla prenotazione di viaggi, alla negoziazione di pacchetti turistici, al commercio elettronico, alla negoziazione di appuntamenti. In questi casi, è ragionevole supporre che in pochi anni si possano realizzare servizi con prestazioni accettabili dagli utenti. Ciò che manca, oggi, al raggiungimento di questo obiettivo riguarda sostanzialmente la robustezza del sistema, ovvero la capacità di rispondere anche nel caso di errori di riconoscimento e/o di comprensione, recuperando la comunicazione. Per ottenere ciò è necessario da una parte rendere usabili dagli utenti i prototipi realizzati in laboratorio allo scopo di generare un numero sufficiente di interazioni per produrre corpora di dati che permettano il raffinamento dei modelli, dall'altra è necessario migliorare i modelli e sviluppare tecniche che permettano una maggior copertura linguistica e migliori prestazioni a livello acustico e semantico. Tutto ciò non è ancora sufficiente, è necessario infatti capire in quali contesti applicativi questa tecnologia può essere utilizzata. In comunicazioni telefoniche? In comunicazioni tramite terminali H323/HTTP (video conferenza, Internet,Voce su IP)? In comunicazioni faccia a faccia con terminal portatili tipo PDA? Inoltre la traduzione del parlato sembra ben adattarsi al caso in cui le persone che comunicano possano condividere delle informazioni e favorire quindi quella condivisione di riferimenti e concetti che può migliorare nettamente la comunicazione tra persone. Internet offre oggi molta informazione, molti servizi e con la disponibilità di nuovi strumenti e banda adeguata anche possibilità di comunicazione tra le persone per servizi in video/audio conferenza.

UN'APPLICAZIONE PROMETTENTE
Il commercio elettronico è considerato oggi una delle applicazioni più promettenti di Internet per la sua potenzialità di rendere globale il mercato di beni e servizi. Dall'esperienza dei primi servizi si nota che le interazioni dei clienti finora sono per lo più basate su menù. L'utente potenziale, attraverso un albero di decisioni, può ottenere un numero limitato e predefinito di informazioni sui prodotti. L'impostazione riflette una concezione del commercio elettronico guidata dal fornitore. Una diversa prospettiva, basata principalmente sulle esigenze del cliente, è quella in cui sia il cliente che il fornitore comunicano e negoziano. In questo modo si permette al cliente di esplorare soluzioni alternative a quelle proposte ed al fornitore di offrire alternative. Una tipica transazione di commercio elettronico potrebbe essere quindi basata su una fase di esplorazione individuale ed una successiva fase esplicativa di comunicazione e negoziazione a voce e mediata da informazione Web. L'interazione persona-persona quindi è molto più adatta soprattutto nel caso in cui si trattino servizi e prodotti difficilmente preconfigurabili, ad esempio nel settore turismo, supporto alla vendita e dopo la vendita, ecc. Risulta evidente che la globalizzazione del mercato richiede la capacità di gestire comunicazione multilingua e la traduzione a voce può essere uno strumento fondamentale per lo sviluppo del commercio elettronico.

4. I PROGETTI IN CORSO

Negli ultimi anni sono stati attivati importanti progetti nel settore della traduzione a voce. Importanti risultati di fattibilità di questa tecnologia sono stati dimostrati dal Consorzio CSTAR I e II (http://www.c-star.org/) i cui partner sono: ITC-irst, l'università Carnegie Mellon di Pittsburgh, l'università di Karlsruhe e l'università Joseph Fourier di Grenoble, l'ATR di Kyoto e l'ETRI di Taejon, Corea. Inoltre un progetto di riferimento a livello europeo è stato VERBMOBIL (finanziato dal governo tedesco). Il DFKI di Saarbrücken è il centro che ha coordinato questo progetto che ha visto coinvolte ben 23 istituzioni tra università ed industrie. Sono inoltre da ricordare i progetti sviluppati negli U.S.A. sia da SRI che da ATT Il primo ha prodotto un sistema di traduzione inglese-svedese per informazioni sui viaggi, il secondo un sistema di ausilio all'esercito che tratta le lingue inglese e coreana. In Giappone inoltre NEC ed ATR stanno mettendo a punto rispettivamente dei sistemi di traduzione per applicazioni turistiche. Recentemente UE e I'NSF hanno finanziato un progetto comune NESPOLE! (http://nespole.itc.it/) in cui ITC-irst ha assunto il ruolo di coordinamento. Obiettivo principale del progetto è il miglioramento della tecnologia di traduzione e lo sviluppo di attività sperimentale per valutare l'uso sul campo di questa tecnologia. Si tratta di passare dai prototipi di laboratorio alla realizzazione di sistemi che siano usabili anche da parte di utenti qualsiasi. Due sono i settori applicativi affrontati: le informazioni turistiche e l'help desk in ambito di video call center. Dal punto di vista della ricerca si vogliono migliorare le caratteristiche di robustezza nell'interazione (modelli acustici e semantici), potenziare l'utilizzo dell'interlingua per estendere il dominio del discorso e sviluppare metodi che aumentano la scalabilità delle applicazioni all'interno di uno stesso dominio (es. turismo) e la portabilità da un dominio all'altro (turismo help desk). Infine un altro aspetto di ricerca molto importante riguarda lo sviluppo di metodi per gestire un'interazione multimodale. Lo scenario applicativo prevede infatti che le persone che comunicano tra loro condividano delle pagine Web e quindi possano indicare parti o immagini presenti sul Web mentre parlano e negoziano. Si pensi infatti come sia molto più semplice dare delle indicazioni geografiche indicando su una mappa o carta geografica piuttosto che spiegare il tutto usando solo il linguaggio. Il progetto durerà fino al 2002 e vede coinvolti ITC-irst, i partner europei e CMU per le tecnologie di traduzione delle lingue italiano, inglese, tedesco e francese, la società Aethra di Ancona quale technology provider e l'Azienda Provinciale per il Turismo del Trentino quale utente finale.

5. IL SISTEMA DI TRADUZIONE VOCALE DI ITC-IRST

Nel 1999 e nei primi mesi del 2000 numerose sono state le sessioni dimostrative del sistema di traduzione vocale realizzato in ITC-irst. Lo scenario prevede un potenziale viaggiatore italiano collegato in contemporanea con due agenzie di viaggio, una a New York ed una a Francoforte. Tre persone riescono a comunicare nella loro lingua madre grazie al supporto dei sistemi di traduzione vocale e si possono vedere tramite un collegamento in video conferenza. Sullo schermo appaiono anche le pagine Web che arrivano direttamente dalle due agenzie di viaggio al potenziale viaggiatore. Il dialogo ruota attorno alla richiesta di prenotazione di voli aerei, di prenotazione di alberghi, di altre semplici informazioni turistiche quali ad esempio gli orari di apertura dei musei e il costo dei biglietti di ingresso. Gli agenti possono anche integrare le informazioni trasmesse a voce al viaggiatore con l'invio di pagine Web.

6. ARCHITETTURA DI SISTEMA

L:architettura del sistema consiste di due processi di elaborazione principali: la catena di analisi e la catena di generazione. La catena di analisi converte il segnale vocale in lingua italiana in una o più sequenze del linguaggio interlingua, IF (Formato Intermedio), definito nel consorzio C-STAR II, sfruttando vari componenti. Innanzitutto un riconoscitore, il quale produce una sequenza di ipotesi di parole per ciascun segnale vocale in ingresso; quindi un segmentatore, un modulo che divide la frase in segmenti tenendo conto di parametri prosodici presenti nel segnale acustico e della corrispondenza statistica tra le parole ed il confine del segmento; un analizzatore robusto finalizzato a riconoscere classi di parole o di composti (es. date, orari, nomi di città e alberghi), un modulo di comprensione che produce le rappresentazioni IF servendosi di un estrattore di argomenti (città di partenza, tipo di albergo, ecc.) dalle parole e dalle analisi e di un classificatore statistico. La catena di generazione parte da una espressione IF e produce un messaggio in linguaggio naturale italiano che esprime/riporta il contenuto di quella espressione IF. La sequenza consiste di due moduli. Il generatore prima converte la rappresentazione IF in una rappresentazione più vicina al linguaggio e la integra poi con una conoscenza di dominio per produrre frasi in italiano. Queste frasi vanno ad alimentare un sintetizzatore. E' stato utilizzato ELOQUENS, un sistema di sintesi vocale sviluppato da CSELT.

Inoltre tutti i sistemi di traduzione sviluppati dai partner di CSTAR devono essere in grado di comunicare tra loro. L'interfaccia tra il sistema ITC-irst e gli altri sistemi è attuata da un server di comunicazione.

LE SFIDE DEL FUTURO
Gli ultimi anni sono stati importanti per gli avanzamenti ottenuti nelle tecnologie del linguaggio. La traduzione da testo e la traduzione del parlato in particolare hanno dimostrato che questa grande sfida si può cominciare ad affrontare con la possibilità di ottenere risultati applicativi significativi in domini ristretti del discorso. Tutto ciò richiede però un grande sforzo di ricerca e sperimentazione e solo con collaborazioni internazionali ed estese può essere costituita quella massa critica necessaria per affrontare questa sfida.

Siti web-di rilievo

ARPA: http://www.arpa.mil/
ATR: http://www.itl.atr.co.jp/
ATT: http://www.research.att.com/
CLIPS: http://www.clips-imag.fr/geta/
CMU: http://www.cs.cmu.edu/
ETRI: http://www etri.re.kr/
IBM: http://www.ibm.com/
LDC.: http://www.ldc.upenn.edu/ldc/noframe.html
LIMSI: http://www.limsi.fr/indexgb.html
LINGLINK: http://www.linglink.lu/hlt/
NEC: http://www.neci.nj.nec.com/neci-website/index-page.html
NIST: http://www.nist.gov/speech
OREGON OGI: http://www.cse.ogi.edu
SIEMENS: http://www.siemens.de
SONY: http://www.sel.sony.com/SEL
SRI: http://www.sri.com/
UKA: http://www werner.ira.uka.de/



(Ndr: ripreso dal mensile Media Duemila -settembre 2000)