Tradução Automática - As diferentes estratégias

Apresentação

Introdução

Breve história: anos 40 - 80
- Anos 40 - 60: ascensão e declínio
- Anos 80: uma nova realidade

Metas, estratégias e resultados
- Dos anos 80 até os dias de hoje: novos horizontes
- Os sistemas de tradução automática e seu funcionamento
- Alguns sistemas bem sucedidos
As diferentes estratégias: vantagens e desvantagens
- Presente e futuro

Os programas, na prática
- A questão da comercialização e da propaganda
- Globalink Power Translator Pro: testes visando a tradução profissional

Linhas finais

Bibliografia

Anexo: recursos de tradução automática na Internet

Metas, estratégias e resultados

As diferentes estratégias: vantagens e desvantagens

Restrições para a tradução automática

Os exemplos dos programas vistos acima falam por si sós. A tradução automática é tanto uma possibilidade quanto uma realidade, e está gerando resultados satisfatórios - porém, como pode-se ver claramente através dos sistemas ilustrados acima, para que objetivos práticos sejam efetivamente atingidos e os sistemas alcancem uma boa relação custo-benefício, deixando os usuários satisfeitos e obtendo investimentos, eles devem necessariamente ser limitados. Devem ser feitas restrições no contexto da tradução, seja limitando a estrutura do texto de entrada, seja especializando-se em sub-áreas específicas, seja contando com um tradutor para resolver problemas durante a tradução, seja deixando claro o objetivo de representar apenas um auxílio ao tradutor profissional para que ele não perca tempo com tarefas básicas e repetitivas - ou, muitas vezes, uma combinação destas e outras características. Um de dois aspectos deve ser reduzido: ou a abrangência lingüística e conceitual ou o grau de automação do processo [Nirenburg, S. 1987]. O emprego de uma dessas duas estratégias (ou das duas) dá origem a uma variedade de possibilidades com respeito às etapas, às estratégias e à natureza destas.

No primeiro caso, o texto de entrada deve ter as ambigüidades restritas ao máximo, para que o sistema possa resolvê-las com suas capacidades. Ou seja, o texto de entrada pode ser descrito na realidade por uma sub-língua, uma língua mais restrita voltada especificamente para a tradução automática. Esta é a estratégia utilizada, por exemplo, pelo TAUM-METEO e pelo SYSTRAN da forma como ele é empregado pela Xerox, cujos resultados são amplamente satisfatórios. A principal dificuldade consiste em chegar à sub-língua apropriada para tarefa tão delicada.

A segunda abordagem diz respeito ao envolvimento humano - quanto mais o homem interagir, mais amplo ou profundo poderá ser o texto de entrada. Muitas vezes esta é a única estratégia possível, em casos de áreas em que não se possa chegar a uma sub-língua (que, na prática, são a maioria). Sabe-se que, com o tempo, a intervenção humana poderá diminuir, porém nunca desaparecerá completamente [Nirenburg, S. 1987].

As diferentes técnicas adotadas não são infundadas. A maioria dos sistemas em funcionamento hoje resulta ou de projetos anteriores bem sucedidos, cada vez mais aprimorados, ou das próprias "falhas" dos primeiros programas desenvolvidos - existindo suporte à pesquisa e ao desenvolvimento, mesmo estes podem gerar muito bons resultados. Porém, acima de tudo, os exemplos vistos acima demonstram a vasta gama de possibilidades técnicas que podem ser combinadas na busca constante de melhores resultados.

De modo geral, pode-se perceber que é mais fácil alcançar um bom índice de sucesso se a área de aplicação for muito específica e seu vocabulário limitado - o que facilita o desenvolvimento de um sistema de tradução direta ou através de transferência, por exemplo. Quanto mais direta for a tradução, como no caso do TAUM-METEO, menor a margem de erro. Um sistema dos mais simples pode limitar-se a realizar consultas aos dicionários, fazendo uso de um número limitado de regras morfológicas e sintáticas.

Porém, se a área é um pouco mais complexa - e, de fato, o caso do TAUM-METEO é raríssimo -, um programa baseado nessas mesmas estratégias teria que contar com dicionários bastante vastos e realizar um grande número de consultas. Aqui surgem alguns problemas consideráveis.

Em primeiro lugar, a utilização de dicionários automáticos, feita pelas pessoas de maneira um tanto simples, é algo bastante complexo para um computador. Não se trata de transpor para o sistema um dicionário bilíngüe feito para humanos, que são capazes de utilizar o dicionário nos dois sentidos (ou seja, se virem que A na língua A' se diz B na língua B', concluirão logicamente que B na língua B' se diz A na língua A'), deduzir diversas questões morfológicas, sintáticas, lingüísticas e semânticas não expressas no dicionário e utilizar o bom senso para aplicar o termo corretamente segundo uma série de características do (con)texto - o que um computador não é capaz de realizar [Nirenburg, S. 1987]. Vários destes problemas podem ser resolvidos simplesmente acrescentando-se mais informações e ordenando ao computador que realize um maior número de buscas. Contudo, é importante ter sempre em mente que o tempo de processamento computacional é inversamente proporcional à quantidade de informações que o sistema é capaz de utilizar em cada escolha que deve realizar, ou seja, o processo automático pode tornar-se tão lento e/ou fazer exigências computacionais tão altas que o investimento deixa de valer a pena, já que acaba sendo mais fácil e barato buscar bons tradutores humanos para realizar todo o serviço.

Além disso, os sistemas mais limitados devem necessariamente ser também os mais rígidos, de forma que torna-se muito caro, tanto em termos monetários como computacionais, aumentar, desenvolver ou adaptar esses dicionários e gramáticas - o próprio TAUM-METEO, por exemplo, não pode ser transformado, assim como o seu re-desenvolvimento para outra área não deu certo.

Outro fato bastante óbvio é que as características sintáticas e semânticas mais básicas e reduzidas de qualquer língua (mesmo uma sub-língua) muitas vezes já serão suficientes para que mesmo a simples transferência lexical não seja satisfatória. Assim, faz-se necessário tornar o sistema ao mesmo tempo mais ágil e mais completo e eficiente - eis o grande dilema da tradução automática, vastamente discutido desde os anos 80 e cada vez mais nos dias de hoje.

É aí que entram novas estratégias, como o desenvolvimento de módulos de análise sintática (ou sintático-semântica) mais amplos e sólidos ou a utilização de uma interlíngua.

Análise Sintática

A realidade exige, na maioria dos casos, que seja feita uma análise mais profunda do que a mera tradução direta, e o desenvolvimento de um módulo computacional de análise sintática é bastante viável e capaz de solucionar problemas básicos de grande relevância, sendo um dos grandes responsáveis pela evolução dos sistemas de tradução automática.

Por exemplo, um módulo de análise sintática é capaz de tratar corretamente de situações que implicam em identificação de gênero e número, como no caso do artigo "the" em inglês, que deve ser traduzido de forma diferente em português dependendo da palavra à qual se refere, ou dos pronomes demonstrativos, possessivos, de quantificadores e de partículas introdutórias de interrogações ("what", "which", "whose") [Nirenburg, S. 1987].

Sentenças simples que requerem uma identificação lexical dos componentes das sentenças, como

Não cedo nem mais um milímetro.

He doesn't like the prime minister. ,

que podem causar problemas consideráveis para um sistema que realiza uma tradução automática direta através da mera consulta exaustiva a dicionários, são traduzidas sem maiores dificuldades por um sistema que gere uma estrutura sintática a partir do texto de entrada, pois ele recusará a possibilidade da existência de um advérbio em "não [...] nem mais um milímetro" ou de uma preposição em "he doesn't [...] the prime minister" [Santos, P. 1995].

Da mesma forma, ao ler uma oração como "the coach lost a set", o sistema geralmente atribuirá a "coach" o valor de substantivo (e não de verbo), a "lost" o valor de verbo (e não de adjetivo) e a "set" o valor de substantivo (e não de verbo ou adjetivo) fazendo uso de uma unidade de processamento gramatical.

A grande vantagem da classificação dos itens lexicais é que ela permite que a consulta ao dicionário seja feita rapidamente e com pequena margem de erro [Nirenburg, S. 1987].

É claro que a análise sintática soluciona apenas os problemas mais simples. Em casos em que se requer uma compreensão semântica mínima esse tipo de análise puramente sintática já é insuficiente. É o caso de

White tables and chairs ,

onde é necessário recorrer a um contexto maior para optar entre as duas estruturas possíveis ([White tables] and chairs; White [tables and chairs]), ou ainda de

This is a different issue from the one I bought.

This is a different issue from the one we discussed. ,

onde ambas as ocorrências de "issue" têm a mesma função sintática, porém segundo o contexto da sentença a tradução mais apropriada seria "número", no caso do primeiro exemplo, e "assunto", por exemplo, no caso do segundo. Aqui já estamos falando de um nível sintático-semântico um pouco mais complexo, pois implica no conhecimento de que "assunto" não pode ser objeto direto de "comprar" e de que um "número", em geral, não é objeto de "discutir" - ao menos esse conhecimento eliminaria em grande parte a chance de erro, mesmo para uma pessoa falante natural da língua. No caso de um sistema automático, essa capacidade implica numa série de operações bastante complexas, já que o "conhecimento" implementado em um programa deve chegar a um nível considerável de detalhe e o sistema deve considerar toda a sentença em sua análise sintática. [Santos, P. 1995].

Há ainda casos os mais comuns em qualquer língua natural que passam a representar uma barreira geralmente intransponível para um computador, como

O presidente expulsou o dirigente máximo da Madeira. ,

sentença que apresenta duas leituras possíveis:

1. O presidente expulsou o dirigente máximo madeirense [de um lugar não especificado].

2. O presidente expulsou o dirigente máximo [de um lugar não especificado] para fora da ilha da Madeira. ,

resultando em traduções corretas bem diferentes:

1'. The president expelled Madeira's leader.

2'. The president expelled the top political person from Madeira.

O leitor desta frase, seja uma pessoa ou um programa computacional (considerando-se que este seja capaz de identificar as duas possibilidades sintáticas), deve inevitavelmente recorrer a algum material adicional para eliminar uma dessas possibilidades - ou seja, precisa saber fazer uso de um contexto externo à sentença propriamente dita [Santos, P. 1995].

Em geral, os sistemas analisam apenas sintagmas, ou grupos de três, quatro ou cinco palavras em seqüência - o que possibilita que o sistema seja rápido. São poucos os que realizam uma análise de toda a sentença, e muito raros os que tentam compreender todo o parágrafo. Além do grande custo computacional que esses fatores implicam, a margem de erro acaba sendo ampliada, gerando traduções muitas vezes caóticas - principalmente se, simultaneamente, se buscar uma análise semântica igualmente ampla.

Como será visto a seguir, a análise semântica que um computador é capaz de realizar (nos sistemas em que existe essa tentativa) é extremamente necessária e realmente insuficiente e limitada se a pensarmos a partir da meta ideal de que um computador seja capaz de compreender uma língua humana. E, pelo que foi visto, percebe-se que a análise sintática deixa muito a desejar. Entretanto, esta representa uma ajuda maior do que pode aparentar à primeira vista. No caso de um dos primeiros exemplos citados, "the coach lost a set" (página 19), Nirenburg [1987] mostra que, num dicionário bilíngüe comum (no caso, inglês-russo), as palavras "coach", "lost" e "set", uma vez corretamente identificadas suas categorias gramaticais, possuem seis, dez e 34 leituras possíveis, respectivamente. Isso resulta numa ambigüidade de 2.040 possibilidades e uma margem de erro considerável. Contudo, se a categoria lexical não for corretamente identificada, as palavras passam a ter 11, 15 e 96 traduções, respectivamente, gerando uma ambigüidade de 15.840 possibilidades.

Análise Semântica

Cada vez mais, os sistemas empregam algum tipo de análise semântica em conjunto com a representação sintática dos textos, já que esta é capaz de tratar apenas dos níveis mais básicos das sentenças. Existem sistemas que incluem a análise de contextos maiores ou que recorrem a modelos de textos semelhantes ou pertencentes à área do texto que deve ser traduzido. Logicamente, a consulta correta a qualquer tipo de informação adicional com o objetivo de solucionar problemas semânticos um pouco mais complexos torna o processo muito mais elaborado - logo suscetível a um índice de erros maior - e lento [Santos, P. 1995].

A análise semântica sempre acompanha a representação sintática, sejam elas feitas paralelamente, de forma simultânea, ou a análise semântica após a sintática (o peso ou a ênfase dada a cada uma delas pode variar, porém a maior parte dos sistemas atualmente em uso baseiam-se fundamentalmente na sintaxe). A análise semântica também pode ser realizada em vários níveis: de forma local, fazendo uso de grupos de palavras ao longo da sentença; englobando toda a sentença; ou experimentando fazer uma análise mais global, às vezes recorrendo a bancos de dados externos ao texto a ser traduzido, que podem ser constituídos de outros textos da área, sentenças prontas, modelos de estruturas, etc.

Vejamos alguns exemplos práticos que ilustram a aplicação de uma análise semântica além da sintática. Nas sentenças:

The cleaners dry-cleaned the coat that Mary found at the rummage sale for $10.

The cleaners dry-cleaned the coat that Mary found in the garbage for $10.

pode ser crucial que o sistema identifique a que "for $10" está se referindo - um falante da língua compreende, através de inferências semânticas, que no primeiro caso "for $10" possivelmente se refere a "found at the rummage sale" enquanto que no segundo caso a expressão está certamente associada a "dry-cleaned" [Lytinen, S. 1987]. Um sistema com capacidades semânticas consideravelmente avançadas tem a possibilidade de resolver as ambigüidades dessas sentenças, visto que não há regras sintáticas que as solucionem.

Uma questão muito discutida e de difícil resolução é a da integração entre sintaxe e semântica. Não é possível unir tudo em um único módulo, ao mesmo tempo em que a divisão das tarefas inevitavelmente gera problemas. Se a identificação sintática for realizada primeiro e então for aplicada uma análise semântica, podem surgir problemas (como geralmente ocorre) com ambigüidades não solucionadas pelo módulo sintático, que são passadas já de forma problemática ou equivocada para o módulo semântico. Por outro lado, se for dada grande ênfase a uma análise semântica ampla e global, optando-se por realizar a identificação sintática de forma mais básica e local, o módulo de análise semântica não saberá lidar com uma série de ambigüidades que requerem um conhecimento sintático mais amplo ou profundo. O ideal seria que o sistema fizesse uso paralelo dos dois módulos, em diferentes níveis, e que estes trocassem informações diversas vezes ao longo da análise do texto. Não parece haver indícios de tal programa [Lytinen, S. 1987].

Mais uma vez, percebe-se facilmente que o tipo de informação semântica que pode ser transferida ao computador desta forma é um tanto limitada. Qualquer texto está diretamente associado a determinados atos da fala, a situações de discursos que ainda não puderam ser descritos de maneira suficientemente metódica para, a partir deles, gerar sistemas computacionais. Mesmo a referência a estruturas pré-definidas que podem oferecer diferentes informações contextuais é difícil de ser alcançada de maneira eficiente. Diversos recursos comumente utilizados em qualquer língua, como elipses, referências anafóricas ou mesmo construções retóricas um pouco mais complexas já resultam numa impossibilidade processual para qualquer sistema automático. Para descrevê-los temos que recorrer a teorias sobre a cognição humana - elas próprias muitas vezes insuficientes - e até o presente momento não parece haver nada desenvolvido (sequer de forma experimental) no âmbito da tradução automática nesse sentido [Nirenburg, S. 1987].

Interlíngua

Outra estratégia desenvolvida visando recorrer a informações semânticas relativas ao contexto de um determinado texto é a representação dos seus significados através de uma interlíngua - ou uma linguagem interpretativa semântica, como é conhecida no campo da inteligência artificial. Ela foi criada de forma a representar um sistema de indicadores semânticos extraído do texto de origem, possuindo regras para utilizar corretamente o conhecimento adquirido através dessa representação [Nirenburg, S. 1987].

A principal vantagem da interlíngua é a possibilidade de dispensar o módulo de transferência [Tucker, A. 1987]. Dessa forma, o processo automático da tradução pode consistir da análise de uma língua e da geração de outra - o que refletiria um paralelismo maior com o processo tradutório humano, no qual os procedimentos primordiais seriam a compreensão, em diversos níveis, do texto fonte e a re-criação do texto na língua alvo (alega-se que a transferência lexical seria a parte menos relevante do processo).

A interlíngua está se desenvolvendo quase que exclusivamente no campo da inteligência artificial, de onde a tradução automática a empresta. Basicamente, um texto na língua fonte é analisado e mapeado, gerando uma representação conceitual numa linguagem neutra e independente de qualquer outra língua. Então são feitas inferências através das quais é acrescentado um conhecimento global que torna a representação mais completa. Finalmente, um programa gerador de linguagem natural volta a mapear essa representação conceitual para produzir o texto na língua alvo [Tucker, A. 1987].

Para ilustrar o funcionamento de uma interlíngua, podemos citar o exemplo dado por Nirenburg [1987]: a sentença "Mary hit John" é mapeada e seus elementos preenchem uma série de indicadores e lacunas, da seguinte forma:

(event X

(action PROPEL)
(agent MARY)
(object JOHN)
(instrument *UNKNOWN*)
(force *ABOVE-AVERAGE*)
(intentionality *POSITIVE*)

Então o sistema preencherá esses indicadores, empregando dados previamente armazenados (chamados scripts), que podem estar subdivididos por área.

Na prática, os especialistas ainda se defrontam com uma série de problemas a serem resolvidos; além disso, as inferências semânticas ainda se dão num nível muito básico. Segundo Tucker [1987], para que a interlíngua represente verdadeiramente o significado conceitual de um texto ela deve ser capaz de realizar "semântica composicional", que, juntamente com regras de "semântica inferencial", lhe permitiria fazer deduções lógicas e chegar a uma "compreensão" mais completa do significado do texto de entrada. Contudo, além da inteligência artificial ainda não ter atingido esse estágio, a relação com a sub-área da tradução automática (ainda que esta represente um campo prático de enorme aplicação) ainda não está se dando numa escala razoável.

anterior | topo da página | próximo

ID: J46626