(continuação da parte 2)
Luiz André Barroso na penumbra, proferindo sua excelente palestra
Para colocar os Google Ads na página que o internauta está vendo é preciso que o sistema "entenda" o que está sendo tratado na tal página. Isto pressupõe que o conteúdo não está necessariamente em inglês, ou seja, fica implícita a necessidade de uma etapa de tradução. Mas não é uma tradução que vá ser mostrada para o usuário, e sim um procedimento interno que vai possibilitar que os algoritmos do sistema cheguem a uma conclusão sobre qual é o assunto sendo tratado na página.
Segundo Luiz, automatizar traduções idiomáticas é um antigo problema de inteligência artificial que vem fazendo os estudiosos quebrarem as cabeças há tempos. Uma das saídas mais inteligentes tem sido transformar este problema numa questão de modelagem estatística e, em cima disso, partir para uma fase de "treinamento" dos algoritmos, alimentando-os com toneladas de expressões traduzidas prontas. A partir de uma detalhada descrição probabilística do processo de tradução, utiliza-se um "corpus", ou seja, um vasto conjunto de pares de expressões, uma delas no idioma original e a outra sendo sua tradução para o inglês, que é a língua-mãe do Google
(Oh! Grande revelação...). Com base nestes pares, é preciso encontrar as palavras que se relacionam à tradução e realizar o alinhamento das sentenças, criando aos poucos um modelo log-linear de tradução para o idioma em questão. Ao longo da preparação para o evento, o Google andou também fazendo lá suas pesquisas internas e chegou à conclusão que o tamanho do corpus influi nos resultados. Quando se duplica o tamanho do corpus, os resultados melhoram cerca de 0,5%.
E não podemos esquecer que este processo precisa ser repetido para cada um dos idiomas contemplados pelo Google, quais sejam: africâner, albanês, alemão, amárico, árabe, armênio, azerbaijano, basco, bengali, bielo-russo, bihari, bósnio, bretão, búlgaro, cambodjano, catalão, cazaque, chinês (simplificado e tradicional), coreano, córsego, croata, dinamarquês, eslovaco, esloveno, espanhol, esperanto, estoniano, faroês, finlandês, francês, frísio, galego, galês, galês da Escócia, georgiano, grego, guarani, gujarati, dialeto hacker, hebraico, hindi, holandês, húngaro, indonésio, inglês, interlíngua, ioruba, irlandês, islandês, italiano, japonês, javanês, kannada, kurdo, laotiano, latim, letão, lingala, lituano, macedônico, malaiala, malaio, maltês, marathi, mongol, nepalês, norueguês (comum e nynorsk), occitano, oriya, pashto, persa, polonês, português (do Brasil e de Portugal), punjabi, quíchua, quirgiquistanês, reto-romano, romeno, russo, sérvio, servo-croata, sesotho, shona, sindhi, sinhala, somáli, suaíle, sudanês, sueco, tadjique, tagalo, tailandês, tâmil, tatar, tcheco, telugo, tigrínio, tonga, turco, turcomenistanês, twi, ucraniano, urdu, usbeque, vietnamita, xhosa, yiddish e, finalmente, zulu.
Na hora de traduzir pra valer, é feita uma análise de cada frase para descobrir a probabilidade máxima de casamento com um dos pares de expressões com que foi treinado o sistema.
Este ponto da palestra foi um dos muitos em que ficou claríssimo o (justificado) orgulho que tem o Luiz André em trabalhar para o Google. Foi quando ele mencionou os admiráveis
resultados que teve a empresa na
MT-05, a edição 2005 do mais cabeludo desafio mundial de "
Machine Translation" (tradução a máquina), de que participam entidades acadêmicas (ou não) da Alemanha, Canadá, China, Estados Unidos, Itália, Japão e Reino Unido. A disputa vem sendo realizada desde 2001.
A avaliação MT-05 consistiu de duas traduções para o inglês, a primeira de originais em árabe e a segunda de originais em chinês. Foram utilizadas duas categorias de massa de entrada para as traduções, chamadas "grande" (
large) e "ilimitada" (unlimited). A massa grande foi um pacote fechado distribuído pelo LDC (Linguistic Data Consortium) e a massa ilimitada consistia de qualquer material publicado antes de dezembro de 2004. O padrão utilizado para medir o desempenho dos competidores foi a métrica
BLEU (BiLingual Evaluation Understudy), desenvolvida em 2001 por pesquisadores do centro de pesquisas T. J. Watson da IBM.
[Ah, o famoso T. J. Watson, que coincidência... E sim, a boa, velha e querida IBM. Lembra-se do Holocausto? É, o massacre dos judeus na Segunda Guerra. OK, só para refrescar a memória, clique aqui para alguns lembretes em português ou aqui para certo site oficial em inglês.]
[PAUSA PARA RÁPIDA ELUCUBRAÇÃO GEOPOLÍTICA - Será que você notou os dois idiomas escolhidos para a disputa MT-05? Chinês e árabe. Sim, exatamente estes. Parece-me bem claro que os gringos do Tio Sam darão uso estratégico, militar ou de "inteligência" a esta tecnologia avançada de tradução informatizada. Afinal, os mais perigosos inimigos potenciais dos Estados Unidos neste momento histórico são países do bloco árabe e a China. Que lindo não? Que beleza ver a tecnologia a serviço da guerra. Poético até. Mas... infelizmente quase sempre foi assim...]
Pois bem, o Google
desbundou geral. Venceu disparado em todas as categorias. Aliás, foi o único dos 20 competidores que disputou nas quatro modalidades (árabe grande, árabe ilimitado, chinês grande e chinês ilimitado).
A coluna verde a esquerda é o resultado vitorioso do Google
Idem, na tradução árabe-inglês
No próximo bloco, parte 4, continuarei do ponto em que o palestrante começou a falar sobre as entranhas do sistema de arquivos do Google.
[PS: Deixo para vocês, de bandeja, um bom artigo sobre a história do Google publicado recentemente no Washington Post. É a resenha do livro "The Google Story" de David A. Vise. Só que está em inglês. Mas tem o capítulo 26 inteirinho. Clique aqui.]
(continua na parte 4)