GALE vine de la Global Autonomous Language Exploitation (Exploatare autonoma si globala a limbii) si este un proiect initiat de catre DARPA (Defense Advanced Research Projects Agency, agentie ce apartine Pentagonului).
Scopul GALE este de a asculta emisiuni TV sau conversatii telefonice si de a citi site-uri in araba si chineza, de a le traduce in engleza si de a face un rezumat al elementelor cheie, totul complet automat si fara asistenta umana, cu o rata de succes de 90-95% pana in 2010.
Pentru a reusi in creearea acestui proiect DARPA a angajat trei echipe de cercetatori ce vor incerca sa rezolve aceasta problema in cinci ani. In fiecare an progresul lor va fi evaluat si echipa cu cele mai proaste rezultate poate fi eliminata sau in cazul cel mai rau proiectul poate fi oprit.
Echipele selectate pentru aceasta sarcina sunt IBM Corp. (compania privata cu cel mai mare buget alocat cercetarii din lume, in jur de 6 bilioane USD), SRI International, o organizatie de cercetare nonprofit cu sediul in Silicon Valley si BBN Technologies INC.
Dintre toate acestea BBN are cea mai frumoasa realizare si anume, pe vremea cand se numea Bolt, Beranek and Newman a lucrat in anii ’60 la realizarea unei retele de calculatoare ce mai tarziu a fost numita Internet. Cel mai recent proiect a fost sistemul de detectie al lunestitilor, sistem folosit razboiul din Iraq.
Din fericire pentru echipele GALE, acestea nu trebuie sa atinga pragul de 95% succes din start. In primul an sunt asteptati sa traduca vorbirea arabica si mandarina cu o rata de succes de 65% iar cea scrisa de 75.
Desigur, proiectul este unul extrem de greu avand in vedere ca araba si chineza sunt atat de diferite de engleza. De exemplu, in chineza timpii verbali si genurile nu exista pe cand in araba multe propozitii din engleza sunt simple cuvinte.
Pentru a imbunatati software-ul de traducere, echipele GALE au introdus in computere extrem de multe exemple de texte si conversatii in araba si chineza. Pe masura ce computerele erau expuse la din ce in ce mai multe propozitii straine analizau continutul si structura alcatuind o librarie a regulilor ce guverneaza limbile si modurile in care cuvintele sunt vorbite din ce in ce mai mare.
Cel mai important pas este reglarea fina a algoritmilor ce fac analiza lingvistica. Erori de programare pot cauza un computer sa primeasca informatii minime dintr-un text nou introdus; astfel, pe parcurs, poate deveni chiar mai prost decat era initial.
Rich Schwartz cercetator la BBN afirma ca „It’s sort of trial and error guided by intuitions and some knowledge” desi la o intrunire a cercetatorilor in domeniu un programator BBN a spus: ‘Rewrote the forward pass of the decoder algorithm to be a recursive transversal over the hypergraph, rather than a loop over spans,”
Per total echipa BBN a avut cele mai bune scoruri (75.3% cu text arabic, 75.2% text chinezesc, 69.4% vorbire araba si 67.1% chineza vorbita). IBM a avut scoruri mai mari la text arabic si SRI mai mari la mandarin. Din fericire nicio echipa nu a fost eliminata din proiect inca; inca, deoarece anul viitor trebuie ca procentajele sa se mareasca.
Partea buna a acestui proiect este ca ajuta la dezvoltarea tehnologiilor de analiza vocala si traducere automata, chiar daca momentan acestea vor fi destinate doar guvernelor
Mai multe informatii puteti gasi pe site-ul http://www.darpa.mil/ipto/Programs/gale