Foto de parte de um cardápio oferecendo Contra filé a brasileira traduzido para against the brazilian beef
Categorias:

A difícil arte de dar significado ao conteúdo na Web

A Web semântica não é novidade há muito tempo e a Inteligência artificial tem nos surpreendido com a forma que constrói um texto complexo. Porém ainda temos dificuldades com coisas simples como a tradução de um termo específico. E essas pequenas coisas mostram como é difícil dar significado ao conteúdo na Web.

Começo dando o exemplo do Google Tradutor (adoro mostrar isso nas aulas). Abra a ferramenta no seu navegador e peça para traduzir “contrafilé” para inglês.Captura de tela de três registros do google tradutor. O primeiro traduz contrafilé (tudo junto) para ribeye. O segundo contra filé (separado) traduz para against fillet e o terceiro contra-filé (com hífen) traduz para kebabs

Na definição da maioria dos dicionários a grafia da palavra é “contrafilé” (tudo junto). Usando esse termo no tradutor o resultado é Ribeye. Há controvérsias nessa tradução, mas ainda apresenta um tipo de corte de carne. Mais adequado seria sirloin steak ou New York strip. O ponto aqui não é o nome da carne, mas a sugestão do Google “você quis dizer contra filé?” (escrito separado). Ai começa a bagunça.

Ao traduzir “contra filé” a ferramenta dá como resposta “against fillet“, que já causou confusão em cardápios e placas em restaurantes no Brasil. Parece mais um movimento contra a carne do que a descrição de um item de cardápio.

Foto de parte de um cardápio oferecendo Contra filé a brasileira traduzido para against the brazilian beef

Mas o que acontece se traduzirmos “contra-filé”, com hífen? Agora a tradução muda para “Kebabs“.

O objetivo desse post não é uma crítica ao Google, mas uma forma de demonstrar a dificuldade de dar significado para palavras isoladas em português. Da mesma forma que as ferramentas de Inteligência Artificial tem atuado com confirmações humanas, as ferramentas de tradução contam com colaboração de voluntários para ajustar esses tipos de problemas. Um exemplo disso é a tradução de “biscoito recheado” que antigamente apresentava o resultado “oreo” e hoje está como “stuffed cookie“.

É muito difícil definir um contexto a partir de um termo isolado. Um bom exemplo disso é pesquisar a palavra “Santana” no Google, que vai apresentar resultados sobre o bairro na zona norte de São Paulo, sobre músicos com esse nome e sobre uma marca de carro antiga.

Adicionar mais contexto a pesquisa ajuda a melhorar os resultados. Quando traduzimos no Google termos como “Por favor, quero um contrafilé” os resultados ficam mais satisfatórios. Mesmo trazendo o “ribeye” como primeira sugestão (e sem dar a mensagem “você quis dizer contra filé?”), quando mudamos a forma de escrever contrafilé a ferramenta já sugere os termos “steake” ou “fillet“. Bem melhor que against fillet!

O fato é que quanto mais informação damos para as ferramentas, mais elas aprendem e apresentam um bom resultado. Quanto mais granularidade nesse contexto é melhor para a interpretação das plataformas. O uso da Web Semântica permite que façamos a marcação de dados de forma que as ferramentas que acessam esses dados compreendam o seu significado. Vale a pena pesquisar e planejar como contemplar isso no seu próximo projeto.

Imagem de uma tela de celular. No topo há um código de campo de formulário com input type=number. Abaixo há o campo de formulário e logo abaixo o teclado numérico do celularAlém da Web Semântica, a marcação semântica traz muitos benefícios para dar significado para a Web. Por exemplo, o HTML5 trouxe novos nomes para campos de formulário. O que antes definíamos como “text“, hoje definimos como “number“, “email“, “url” e assim por diante. Isso possibilita que os navegadores e dispositivos do usuário identifiquem a função desse campo para oferecer um teclado adequado, como na imagem próxima a esse texto, que mostra o uso de input type=”number” e o resultado em um smartphone, que em vez de apresentar o teclado alfanumérico mostra apenas os números (afinal, o campo só exige números).

Quanto mais significado adicionamos ao conteúdo da Web, seja por meio de marcação semântica, Web Semântica ou por colaboração voluntária em sistemas, melhor será o resultado apresentado para o usuário final. Lembre-se disso no próximo projeto antes de publicá-lo.

Enquanto isso, vamos nos divertindo com os resultados absurdos de tradução, como ao pedir para traduzir alguns números (como One hundred fifty five por exemplo) o resultado não é a tradução e sim os numerais.