Busca

Busca  



Todos os Horários estão como UTC - 3 horas




Criar novo tópico Responder Tópico  [ 14 Mensagens ]  Ir para a página 1, 2  Próximo
Autor Mensagem
 Assunto do Tópico: << Palestra de brasileiro do Google - parte 2 >>
MensagemEnviado: Sex Nov 25, 2005 5:41 am 
Offline
Colunista
Avatar de usuário

Data de registro: Qui Dez 16, 2004 12:45 am
Mensagens: 245
Localização: Niterói, RJ, Brasil
(continuação da parte 1)

Em sua palestra, Luiz André Barroso explicou que a tarefa que o Google se propõe a realizar é espantosamente complexa. O primeiro passo é sair varrendo a web para indexar conteúdo, num processo denominado crawling (crawl em inglês significa engatinhar e pronuncia-se "cruól"), em que é necessário manter o instável equilíbrio entre o tamanho do que se quer armazenar e o tempo necessário para capturar estas informações. As necessidades de largura de banda são incrivelmente altas e, em alguns casos, o simples fato de a aranha do Google percorrer a teia de um site faz com que o servidor sendo vasculhado simplesmente caia. A equipe técnica da empresa está atenta a isso e, quando o site sendo varrido é pequeno, a aranha é, digamos, amansada.

Outro obstáculo, ainda na fase do crawling, é coibir a ação dos spammers. Para o Google, o conceito de spam é ligeiramente diferente daquele a que estamos acostumados. Spammer para o Google é quem arranja formas de ludibriar o algoritmo de classificação do sistema, colocando um site relativamente obscuro e pouco visitado em posição de destaque na lista de popularidade da ferramenta, conhecida como PageRank.

A fase seguinte do Google é indexar as informações capturadas, um trabalho que dura vários dias rodando em milhares de computadores. São indexados mais de 20 bilhões de documentos, entre páginas web, imagens, notícias e mensagens da Usenet. Nesta fase existem também as duras tarefas de eliminar duplicidade de informações e de realizar a compressão dos dados armazenados. Apenas esclarecendo, a mencionada duplicidade é um problema muito sério pois, ao vasculhar a web, a quantidade de páginas idênticas apontadas por links diferentes é absolutamente inimaginável. Guardar todas essas cópias seria extremamente oneroso para o Google e evitar que tal ocorra é trabalhoso, mas vale a pena.

Durante a indexação também é calculado o PageRank de cada página, que é um número que independe das consultas (queries) feitas pelos usuários e tem a ver, isso sim, com o número de vezes que determinada página web é linkada por outras.

Uma vez que a web já foi vasculhada ("crawlada" -- eca!) e indexada, já é possível atender às queries que nós internautas fazemos ao Google, sempre ávidos por uma resposta rápida e que satisfaça nossos anseios, sem que precisemos passar horas avaliando sites não diretamente ligados ao assunto que pesquisamos.

Para encontrar no meio do gigantesco banco de dados do Google as páginas relevantes em resposta a uma consulta, Luiz mostrou que a query primeiro passa pelo servidor web do Google, depois pelos servidores de índice e em seguida pelos servidores de documentos, para só então serem entregues as respostas ao usuário. A medida de relevância de cada hit (hit = cada site devolvido como resposta) é calculada com base em fatores dependentes da query e fatores independentes dela.

Imagem
Ciclo do atendimento a uma query no Google

O usuário comum às vezes se pergunta como é que o Google consegue sobreviver, já que é de uso gratuito. A resposta são os anúncios, vulgo Google Ads. Para a empresa, o Google Ads é a segunda coisa mais importante do sistema, perdendo só para a máquina de busca. A implementação deste sub-sistema é uma tarefa tão desafiadora como a própria pesquisa por palavras-chave, só que tem o complicador da semântica transacional.

Quando na sua palestra o Luiz jogou este termo "semântica transacional" alguns dos presentes fizeram cara de abobado, eu inclusive. Trata-se de mais uma daquelas expressões da moda entre os sumo-sacerdotes da tecnologia. Uma explicação completa pode ser encontrada num ótimo artigo (em inglês) da Developer Pipeline. Simplificando bastante, semântica transacional é um jeito de empacotar uma série de diferentes transações num conjunto de bancos de dados de modo elas sejam vistas pelo usuário como uma operação única. No caso do Google, para o usuário parece mágica essa coisa de digitar umas palavrinhas bobas e o sistema devolver uma lista imensa de sites relevantes. E mais, com base na busca solicitada, o sistema também exibe na tela de resposta diversos anúncios que têm tudo a ver com o assunto pesquisado. Uma query assim desencadeia uma série de operações nos bancos de dados que, até ser atendida, precisa ser vista pelo internauta como um bloco funcional único -- o que interessa a ele é a resposta e talvez alguns anúncios.

Quanto à escolha das propagandas, brincalhão, Luiz comparou o processo de escolher quais anúncios o Google Ads vai mostrar na tela de resposta com a cena de um vidente lendo os pensamentos do cliente. Só que aquilo que parece um processo adivinhatório tem por trás de si algoritmos de alta complexidade. Na verdade o Google Ads é composto por dois sub-sistemas distintos, um para posicionamento dos anúncios nas páginas de resultado de buscas e outro para anúncios nas páginas de navegação em sites e emails. Este segundo sub-sistema é conhecido no Google como Content Ads System (sistema de anúncios por conteúdo) e utiliza uma variedade de algoritmos de agrupamento e classificação para extrair significado contextual das páginas web. O sistema precisa fazer o mesmo para os dados dos anunciantes pagantes do Google. Em seguida é necessário reunir as informações que combinam com o assunto da página e atribuir-lhes um escore. Para arrematar, o mais difícil: fazer tudo isso com um tempo de resposta menor do que o do próprio provedor original de conteúdo.

No próximo bloco, começarei da parte em que o Luiz falou sobre mais um dos terríveis desafios internos do Google: a tradução.

(continua na parte 3)


Editado pela última vez por C@T em Ter Nov 29, 2005 4:14 pm, num total de 1 vezes

Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Sex Nov 25, 2005 6:13 am 
Offline
Usuário Pleno

Data de registro: Qua Dez 01, 2004 5:31 pm
Mensagens: 2078
:D :D :D

pode deixar que ja preparei uma cadeira e um chimarao aqui para esperar pela 3 parte.....

super interessante isso... tambem ainda me considero um usuario inutil que fica imaginando como acontece a indexacao dos dados dentro dos clusters das empresas que subsidiam a google...

espero poder contar com a 3 parte para clarear coisas voltadas para essa area....

ate mais C@t bom dia....


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Sex Nov 25, 2005 7:08 am 
Offline
Usuário Pleno
Avatar de usuário

Data de registro: Sáb Ago 31, 2002 3:17 pm
Mensagens: 454
Localização: PoA (Porto Alegre) / RS
Meu Deus!

:oops: Eu não tinha lido a primeira parte, por falta de tempo, e não tinha a mínima idéia do que estava perdendo!
Então fui rapidinho ler a primeira para poder deliciar-me ainda mais com a segunda...
Sensacional, C@t, parabéns!

Vendo a Google agora, às vezes penso que deveria ter estudado mais sobre web spiders e web robots lá por 1994, 95... 8O

Se me lembro bem, antigamente, a Google (e outros mecanismos de busca) já foram acusados de invasão de privacidade em servidores Web por causa da técnica de crawling.

Quanto à semântica transacional, o artigo da Developer Pipeline citado já entrou na minha lista de leituras obrigatórias! :)
A serialização de transações realmente é uma pá de cal no desempenho de um SGBD.
O interessante é que para o Google, a semântica transacional parece ser mais preocupante por causa do desempenho e não por causa da consistência dos dados (como ocorre um uma aplicação bancária, por exemplo).


Ah, C@t, o Luiz André Barroso falou algo sobre a parte de cache do mecanismo de busca da Google?
Além dos assuntos citados por ele, deve ser bastante interessante o gerenciamento da cache das sites no Google.

Bah, eu daria um braço para assistir esta palestra!


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Sex Nov 25, 2005 9:55 am 
Offline
Usuário Senior
Avatar de usuário

Data de registro: Seg Dez 16, 2002 12:00 pm
Mensagens: 5457
Localização: Contagem MG
Bacana o artigo !
É meio dificil de imaginar como se faz tudo isso !!
O cara é mesmo...O CARA !


Fico no aguardo !

:wink: :arrow:


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Sex Nov 25, 2005 2:50 pm 
Offline
Avatar de usuário

Data de registro: Sex Mar 21, 2003 1:52 am
Mensagens: 240
Localização: Rio de Janeiro
Abobalhado estou eu !

Que genialidade, que sistema bem feito, como fui perder a palestra?

Ótimo artigo!


Voltar ao topo
 Perfil E-mail  
 
 Assunto do Tópico:
MensagemEnviado: Sex Nov 25, 2005 11:04 pm 
Offline

Data de registro: Sáb Dez 21, 2002 3:33 pm
Mensagens: 63
Citação:
Quando na sua palestra o Luiz jogou este termo "semântica transacional" (...). Trata-se de mais uma daquelas expressões da moda entre os sumo-sacerdotes da tecnologia.


O conceito de transacoes foi formalizado no inicio da decada de 80 (ou antes!), e eh um conceito basico fundamental em ciencias da computacao e bancos de dados. Ai do formando em computacao que nao souber de cor o significado das propriedades ACID...


Para os inclinados, e incluindo os agora classicos papers originais, de quando o google ainda era um projeto de pesquisa em Stanford:

http://labs.google.com/papers/index.html
http://labs.google.com/papers.html


[]s


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Ter Nov 29, 2005 4:26 pm 
Offline
Colunista
Avatar de usuário

Data de registro: Qui Dez 16, 2004 12:45 am
Mensagens: 245
Localização: Niterói, RJ, Brasil
É Virgulino, mas acontece que você é campeão e cobra, ao passo que eu sou um mero iniciante. Nunca tinha ouvido falar nisso e não tenho vergonha de manifestar ignorância. Afinal, quem é que nasce sabendo, n'est-ce pas?

Meu consolo é que pelo menos um leitor possivelmente ignorava o conceito, como eu. E, no final das contas, este um se beneficiou. Mas ora pipocas estou chovendo no molhado... é claro que você compreende esta simples mecânica.

Despeço-me então com um fraterno abraço e ergo os braços ao Zimbório por ter o privilégio de poder participar de um fórum que conta com verdadeiros luminares do conhecimento, como você. Graças aos céus!

Gratíssimo pelo seu fecundo comentário, despeço-me

- c.a.t.

Virgulino Ferreira escreveu:
Citação:
Quando na sua palestra o Luiz jogou este termo "semântica transacional" (...). Trata-se de mais uma daquelas expressões da moda entre os sumo-sacerdotes da tecnologia.


O conceito de transacoes foi formalizado no inicio da decada de 80 (ou antes!), e é um conceito basico fundamental em ciencias da computacao e bancos de dados. Ai do formando em computacao que não souber de cor o significado das propriedades ACID...


Para os inclinados, e incluindo os agora classicos papers originais, de quando o google ainda era um projeto de pesquisa em Stanford:

http://labs.google.com/papers/index.html
http://labs.google.com/papers.html


[]s


Editado pela última vez por C@T em Ter Nov 29, 2005 4:29 pm, num total de 1 vezes

Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Ter Nov 29, 2005 10:32 pm 
Offline

Data de registro: Sáb Dez 21, 2002 3:33 pm
Mensagens: 63
C@T escreveu:
É Virgulino, mas acontece que você é campeão e cobra, ao passo que eu sou um mero iniciante. Nunca tinha ouvido falar nisso e não tenho vergonha de manifestar ignorância. Afinal, quem é que nasce sabendo, n'est-ce pas?

Meu consolo é que pelo menos um leitor possivelmente ignorava o conceito, como eu. E, no final das contas, este um se beneficiou. Mas ora pipocas estou chovendo no molhado... é claro que você compreende esta simples mecânica.

Despeço-me então com um fraterno abraço e ergo os braços ao Zimbório por ter o privilégio de poder participar de um fórum que conta com verdadeiros luminares do conhecimento, como você. Graças aos céus!

Gratíssimo pelo seu fecundo comentário, despeço-me

- c.a.t.


Estamos sensiveis hoje, nao? 8-))

Querido cat, nem campeao, nem cobra, nem gato, muito menos arquiteto eu sou. Infelizmente (a excecao deste ultimo).

Pobre de mim, sou apenas um programador que cometeu a ousadia de sair lah do meu cantinho, no forum Programacao. Veja soh, nem acentos eu sei usar! C'est la vie.

Como programador que sou (apenas programador, nem mesmo bom eu o sou), nao entendo nada de mecanica, nem mesmo das simples.

Mas, como voceh introduziu um conceito para uma plateia, dando como referencia um artigo da nossa queridissima e velhissima Dr Dobbs Journal, uma revista de e para programadores, eu, lah das catacumbas do forum Programacao, achei que poderia contribuir com o pouquinho daquilo que aprendih, arduamente, ao longo de anos, com mais esforco do que a maioria julgaria necessario.

Quem tiver a bagagem necessaria para ler o artigo que voceh referenciou, e ainda nao conhece transacoes, fica com a informacao errada de que isto eh coisa da moda e do dominio dos "sumos-sacerdotes" - o que desencoraja qualquer um a usar. Portanto, voceh prestou o maravilhoso servico de introduzir a estas pessoas o conceito, e eu apenas faco uma retificacao, a de que eh uma ferramenta basica, qualquer um pode usar, mesmo formandos.

E ainda aproveitei que estavamos falando para uma plateia especifica, a que leh artigos da Dr Dobbs, e mandei referencias aos papers do Google. Material muito fecundo e excitante para nos, dos poroes. Sem marketismos.

Peco desculpas se o esclarecimento e a referencia aos papers lhe compeliram a justificar seu desconhecimento. Fique calmo, pois, ao contrario das cupulas onde vivem os arquitetos, lah nos umidos e escuros calaboucos onde nos, programadores, vivemos, a ignorancia eh a norma, os mais humildes estao no topo da cadeia alimentar, e toda e qualquer informacao eh avidamente consumida.

Principalmente, peco desculpas pelo humor seco e incompreendido. Eh um desvio de carater comum a nos, programadores, forjado a Monty Python e Douglas Adams.


Despeco-me tambem com um abraco fraterno, prestando reverencias ao ilustre jornalista, este sim, um luminar, nao soh da Internet, mas tambem da BITNET e dos BBSs.


Asinus asinum fricat

[]s


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Qua Nov 30, 2005 7:20 am 
Offline
Usuário Pleno
Avatar de usuário

Data de registro: Sáb Ago 31, 2002 3:17 pm
Mensagens: 454
Localização: PoA (Porto Alegre) / RS
[modo off topic ligado]
Meu Deus!
Às vezes, penso que este fórum tá virando uma praça de guerra... :lol:
Será a proximidade do Natal? A solidão e coisa e tal... :roll:
[modo off topic desligado]

C@T, muito obrigado pela coluna!
Eu realmente ignorava o quê era semântica transacional porque, quando aprendi os conceitos há muuuuuito tempo atrás, eles não tinham este nome pomposo... :)
Ah, e vou ver se consigo ler o mais rápido possível a terceira parte da série de artigos sobre o Google!
Me interessa muito a parte de indexação de documentos e a área de banco de dados (na qual trabalho há bastante tempo ;)


Virgulino,
mesmo eu já sabendo tudo isto, obrigado pela explicação sobre transações e propriedades ACID pois outras pessoas poderão aproveitá-las.
Quanto à semântica transacional, concordo que nada mais é do que um nome para um conjunto de conceitos (e não só o conceito de transação) que já existe há um bom tempo.
Mas, na minha humilde opinião, a maioria das tecnologias novas, pelo menos na área de Informática, são apenas renovações em cima de algo antigo, não é mesmo?

Só não entendi esta tua frase: "de que é uma ferramenta basica, qualquer um pode usar, mesmo formandos."
Tens algum problema com formandos? :lol:


Voltar ao topo
 Perfil  
 
 Assunto do Tópico:
MensagemEnviado: Qua Nov 30, 2005 1:55 pm 
Offline
Colunista
Avatar de usuário

Data de registro: Qui Dez 16, 2004 12:45 am
Mensagens: 245
Localização: Niterói, RJ, Brasil
Virgulino Ferreira escreveu:
Principalmente, peco desculpas pelo humor seco e incompreendido. é um desvio de carater comum a nos, programadores, forjado a Monty Python e Douglas Adams. Despeco-me tambem com um abraco fraterno, prestando reverencias ao ilustre jornalista, este sim, um luminar, não só da Internet, mas tambem da BITNET e dos BBSs.


Menos, menos, V.F.

E também, ora, não há do que se desculpar. Seu comentário acabou sendo construtivo pois adicionou informação onde deixei lacunas. Mas recebo feedback de leitor há quase 15 anos e vejo claríssima diferença entre uma pessoa quer sinceramente enriquecer a discussão e outra que tenciona apenas expelir goma.

Mas isso é não é assunto para este fórum. Fiquemos então apenas com o que está escrito no Velho Testamento, em Provérbios 10:14

Um fraternal saravá.

- c.a.t.


Voltar ao topo
 Perfil  
 
Mostrar mensagens anteriores:  Organizar por  
Criar novo tópico Responder Tópico  [ 14 Mensagens ]  Ir para a página 1, 2  Próximo

Todos os Horários estão como UTC - 3 horas


Quem está online

Usuários vendo este fórum: Nenhum usuário registrado online e 0 visitantes


Você não pode criar novos tópicos neste fórum
Você não pode responder tópicos neste fórum
Você não pode editar suas mensagens neste fórum
Você não pode excluir suas mensagens neste fórum
Você não pode enviar anexos neste fórum

Ir para:  
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
Traduzido por phpBB do Brasil
logo
logo

Copyright © 2000-2010 Fórum PCs - Todos os direitos reservados.
Não nos responsabilizamos por danos de qualquer espécie causados pelo uso das informações aqui divulgadas.