Busca

Busca  



Todos os Horários estão como UTC - 3 horas




Criar novo tópico Responder Tópico  [ 7 Mensagens ] 
Autor Mensagem
 Assunto do Tópico: << Palestra de brasileiro do Google - parte 3 >>
MensagemEnviado: Ter Nov 29, 2005 3:53 pm 
Offline
Colunista
Avatar de usuário

Data de registro: Qui Dez 16, 2004 12:45 am
Mensagens: 245
Localização: Niterói, RJ, Brasil
(continuação da parte 2)

Imagem
Luiz André Barroso na penumbra, proferindo sua excelente palestra

Para colocar os Google Ads na página que o internauta está vendo é preciso que o sistema "entenda" o que está sendo tratado na tal página. Isto pressupõe que o conteúdo não está necessariamente em inglês, ou seja, fica implícita a necessidade de uma etapa de tradução. Mas não é uma tradução que vá ser mostrada para o usuário, e sim um procedimento interno que vai possibilitar que os algoritmos do sistema cheguem a uma conclusão sobre qual é o assunto sendo tratado na página.

Segundo Luiz, automatizar traduções idiomáticas é um antigo problema de inteligência artificial que vem fazendo os estudiosos quebrarem as cabeças há tempos. Uma das saídas mais inteligentes tem sido transformar este problema numa questão de modelagem estatística e, em cima disso, partir para uma fase de "treinamento" dos algoritmos, alimentando-os com toneladas de expressões traduzidas prontas. A partir de uma detalhada descrição probabilística do processo de tradução, utiliza-se um "corpus", ou seja, um vasto conjunto de pares de expressões, uma delas no idioma original e a outra sendo sua tradução para o inglês, que é a língua-mãe do Google (Oh! Grande revelação...). Com base nestes pares, é preciso encontrar as palavras que se relacionam à tradução e realizar o alinhamento das sentenças, criando aos poucos um modelo log-linear de tradução para o idioma em questão. Ao longo da preparação para o evento, o Google andou também fazendo lá suas pesquisas internas e chegou à conclusão que o tamanho do corpus influi nos resultados. Quando se duplica o tamanho do corpus, os resultados melhoram cerca de 0,5%.

E não podemos esquecer que este processo precisa ser repetido para cada um dos idiomas contemplados pelo Google, quais sejam: africâner, albanês, alemão, amárico, árabe, armênio, azerbaijano, basco, bengali, bielo-russo, bihari, bósnio, bretão, búlgaro, cambodjano, catalão, cazaque, chinês (simplificado e tradicional), coreano, córsego, croata, dinamarquês, eslovaco, esloveno, espanhol, esperanto, estoniano, faroês, finlandês, francês, frísio, galego, galês, galês da Escócia, georgiano, grego, guarani, gujarati, dialeto hacker, hebraico, hindi, holandês, húngaro, indonésio, inglês, interlíngua, ioruba, irlandês, islandês, italiano, japonês, javanês, kannada, kurdo, laotiano, latim, letão, lingala, lituano, macedônico, malaiala, malaio, maltês, marathi, mongol, nepalês, norueguês (comum e nynorsk), occitano, oriya, pashto, persa, polonês, português (do Brasil e de Portugal), punjabi, quíchua, quirgiquistanês, reto-romano, romeno, russo, sérvio, servo-croata, sesotho, shona, sindhi, sinhala, somáli, suaíle, sudanês, sueco, tadjique, tagalo, tailandês, tâmil, tatar, tcheco, telugo, tigrínio, tonga, turco, turcomenistanês, twi, ucraniano, urdu, usbeque, vietnamita, xhosa, yiddish e, finalmente, zulu.

Na hora de traduzir pra valer, é feita uma análise de cada frase para descobrir a probabilidade máxima de casamento com um dos pares de expressões com que foi treinado o sistema.

Este ponto da palestra foi um dos muitos em que ficou claríssimo o (justificado) orgulho que tem o Luiz André em trabalhar para o Google. Foi quando ele mencionou os admiráveis resultados que teve a empresa na MT-05, a edição 2005 do mais cabeludo desafio mundial de "Machine Translation" (tradução a máquina), de que participam entidades acadêmicas (ou não) da Alemanha, Canadá, China, Estados Unidos, Itália, Japão e Reino Unido. A disputa vem sendo realizada desde 2001.

A avaliação MT-05 consistiu de duas traduções para o inglês, a primeira de originais em árabe e a segunda de originais em chinês. Foram utilizadas duas categorias de massa de entrada para as traduções, chamadas "grande" (large) e "ilimitada" (unlimited). A massa grande foi um pacote fechado distribuído pelo LDC (Linguistic Data Consortium) e a massa ilimitada consistia de qualquer material publicado antes de dezembro de 2004. O padrão utilizado para medir o desempenho dos competidores foi a métrica BLEU (BiLingual Evaluation Understudy), desenvolvida em 2001 por pesquisadores do centro de pesquisas T. J. Watson da IBM. [Ah, o famoso T. J. Watson, que coincidência... E sim, a boa, velha e querida IBM. Lembra-se do Holocausto? É, o massacre dos judeus na Segunda Guerra. OK, só para refrescar a memória, clique aqui para alguns lembretes em português ou aqui para certo site oficial em inglês.]

    [PAUSA PARA RÁPIDA ELUCUBRAÇÃO GEOPOLÍTICA - Será que você notou os dois idiomas escolhidos para a disputa MT-05? Chinês e árabe. Sim, exatamente estes. Parece-me bem claro que os gringos do Tio Sam darão uso estratégico, militar ou de "inteligência" a esta tecnologia avançada de tradução informatizada. Afinal, os mais perigosos inimigos potenciais dos Estados Unidos neste momento histórico são países do bloco árabe e a China. Que lindo não? Que beleza ver a tecnologia a serviço da guerra. Poético até. Mas... infelizmente quase sempre foi assim...]

Pois bem, o Google desbundou geral. Venceu disparado em todas as categorias. Aliás, foi o único dos 20 competidores que disputou nas quatro modalidades (árabe grande, árabe ilimitado, chinês grande e chinês ilimitado).

Imagem
A coluna verde a esquerda é o resultado vitorioso do Google

Imagem
Idem, na tradução árabe-inglês

No próximo bloco, parte 4, continuarei do ponto em que o palestrante começou a falar sobre as entranhas do sistema de arquivos do Google.

[PS: Deixo para vocês, de bandeja, um bom artigo sobre a história do Google publicado recentemente no Washington Post. É a resenha do livro "The Google Story" de David A. Vise. Só que está em inglês. Mas tem o capítulo 26 inteirinho. Clique aqui.]

(continua na parte 4)


Editado pela última vez por C@T em Ter Dez 06, 2005 7:52 am, no total de 5 vez

Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Ter Nov 29, 2005 5:55 pm 
Offline
Usuário Pleno
Avatar de usuário

Data de registro: Qua Out 02, 2002 7:00 pm
Mensagens: 674
Localização: Goiania -GO
Mas a motivação, além da guerra e rivalidade, pode ser o fato de que quase metade do mundo fala mandarim ou árabe.

Existem cerca de 1,25bi de chineses, e 1,4bi de muçulmanos, que quase sempre tem algum domínio do árabe. Somando tudo, dá pra ter uma idéia do volume de conteúdo que poderá ser traduzido. Falta só o hindú pra fechar com chave de ouro.


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Ter Nov 29, 2005 6:44 pm 
Offline

Data de registro: Sex Jun 17, 2005 11:08 pm
Mensagens: 42
Localização: Limeira/SP
Acredito que qualquer que seja a tecnologia usada, não haverá forma correta de traduzir tudo, especialmente porque cada lingua contem caracterisiticas próprias.
Em Portugues nos temos a palavra Saudade
Gostaria de ver um texto ser traduzido corretamente...

Existem obras literarias que não acredito que possam ser traduzidas, sei de um exemplo de um livro que li no original (Fausto de Goethe), por incrivel que pareça, voce pode ler uma sentença e entender de uma forma, ler a sentença novamente e entender de outra forma, isto sucessivas vezes.
Pensei comigo mesmo, não estou sabendo ler, então perguntei a outra pessoa que nesceu na Alemanha e fala a lingua perfeitamente, e a resposta é que se pode interpretar a mesma sentença de diferentes formas.

Como uma Inteligência Artificial faria algo assim ?, média ponderada, estatistica, formula xyz, isto tudo não da certo.


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Qua Nov 30, 2005 11:29 am 
Offline
Usuário Pleno
Avatar de usuário

Data de registro: Sáb Jul 17, 2004 10:04 pm
Mensagens: 833
Localização: Rio de Janeiro
A resposta é: O que o nosso cérebro faz para traduzir "corretamente"?

Quanto mais próximo eles chegarem disso mais perfeita será a tradução.

Enquanto estava escrevendo as 2 linhas acima estava pensando? Será o "sentimento" com que lemos o texto que nos faz ter uma tradução mais perfeita que a de um PC? Mas o que é o sentimento?

Pronto. Viajei geral. :wink:

Não duvido que um dia computadores traduzam textos melhor que qualquer um que fez cursos durante anos e anos.

É o que acho.

Abraço. 8)


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Qua Nov 30, 2005 12:30 pm 
Offline
Usuário Pleno
Avatar de usuário

Data de registro: Dom Jun 29, 2003 4:52 am
Mensagens: 1596
Traduzir texto são regras, entre outras coisas!
Um computador "bem treinado", ou melhor um programa bem escrito!
vai mandar melhor q uma pessoa!
Pois naum irá esquecer de alguma regra, palavra , verdo, adjetivo e por ai vai!

O q vai demorar é para fazerem um banco de dados legal, com todas as regras, e por ai vai!


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Qui Dez 01, 2005 5:43 pm 
Offline
Usuário Senior
Avatar de usuário

Data de registro: Seg Dez 16, 2002 12:00 pm
Mensagens: 5457
Localização: Contagem MG
To na espera do 4º !!
Muito legal o documentário !!!


:wink: :arrow:


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Sáb Dez 03, 2005 4:15 pm 
Offline
Colunista
Avatar de usuário

Data de registro: Qui Dez 16, 2004 12:45 am
Mensagens: 245
Localização: Niterói, RJ, Brasil
JaLaPa escreveu:
Mas a motivação, além da guerra e rivalidade, pode ser o fato de que quase metade do mundo fala mandarim ou árabe.


Excelente argumento, JaLaPa!

- c.a.t.


Voltar ao topo
 Perfil  
 
Mostrar mensagens anteriores:  Organizar por  
Criar novo tópico Responder Tópico  [ 7 Mensagens ] 

Todos os Horários estão como UTC - 3 horas


Quem está online

Usuários vendo este fórum: Nenhum usuário registrado online e 0 visitantes


Você não pode criar novos tópicos neste fórum
Você não pode responder tópicos neste fórum
Você não pode editar suas mensagens neste fórum
Você não pode excluir suas mensagens neste fórum
Você não pode enviar anexos neste fórum

Ir para:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Traduzido por phpBB do Brasil
logo
logo

Copyright © 2000-2010 Fórum PCs - Todos os direitos reservados.
Não nos responsabilizamos por danos de qualquer espécie causados pelo uso das informações aqui divulgadas.