Apresentação

Introdução

Breve história: anos 40 - 80
- Anos 40 - 60: ascensão e declínio
- Anos 80: uma nova realidade

Metas, estratégias e resultados
- Dos anos 80 até os dias de hoje: novos horizontes
- Os sistemas de tradução automática e seu funcionamento

Alguns sistemas bem sucedidos
- As diferentes estratégias: vantagens e desvantagens
- Presente e futuro

Os programas, na prática
- A questão da comercialização e da propaganda
- Globalink Power Translator Pro: testes visando a tradução profissional

Linhas finais

Bibliografia

Anexo: recursos de tradução automática na Internet

Metas, estratégias e resultados

Alguns sistemas bem sucedidos

Para ilustrar estas soluções lingüístico-computacionais, vejamos brevemente alguns dos principais sistemas de tradução automática, o contexto de sua criação, seus objetivos e estratégias adotadas. Foram selecionados apenas alguns sistemas dentre os vários bem sucedidos, que se destacaram por possuírem determinadas características (ou por serem os primeiros a empregá-las) [Slocum, J. 1985; Tucker, A. 1987].

GAT (Georgetown Automatic Translation)

O projeto deste que seria o primeiro sistema de tradução automática realmente bem sucedido teve início em 1952. O sistema entrou em operação em 1964 e, ainda que o projeto tenha sido abandonado em meados dos anos 60, continuou sendo utilizado até meados dos anos 70. Seu objetivo era determinar rapidamente o conteúdo e o interesse de documentos estrangeiros; para isso, fazia uso de uma estratégia direta e local, com substituição palavra por palavra. O sistema não era fundamentado em qualquer teoria lingüística ou computacional, sendo adaptado para cada texto diferente, e o resultado lingüístico era muito pobre. Mesmo assim, foi considerado suficiente para seus objetivos, oferecendo uma maior relação custo-benefício do que os tradutores humanos, mais lentos e caros - o que até então não havia ocorrido. A revisão posterior era uma necessidade (como o continua sendo para a maioria dos programas atuais), porém o processo todo era mais rápido e barato do que se realizado manualmente. Quando o projeto foi encerrado, vários de seus integrantes fundaram novos grupos de pesquisa e desenvolvimento que deram origem a sistemas muito bem sucedidos, utilizados e comercializados até os dias de hoje - como é o caso de Peter Toma, que pouco depois desenvolveu o sistema SYSTRAN.

SYSTRAN

O primeiro programa foi instalado em 1970 e ainda opera (tradução russo-inglês na USAF FTD). Entre outros usuários do sistema incluem-se a NASA, em 1974 (tradução de materiais ligados à colaboração Apollo-Soyuz), e o EURATOM, em 1976, que substituiu o GAT - sempre visando a aquisição de informações e exigindo revisão posterior. Com o tempo foram sendo feitas melhorias, como a inserção de capacidades de processamento de palavras para aumentar a produtividade e a implementação de glossários específicos.

Em 1975, a Comissão das Comunidades Européias adquiriu o SYSTRAN (inglês-francês) para avaliação, porém para a disseminação de informações; buscava-se alcançar um texto com qualidade aceitável para fins de revisão posterior. Os primeiros resultados foram negativos, considerados inúteis para os propósitos desejados. Contudo, continuou-se investindo em pesquisas relacionadas aos dicionários, principalmente pelo fato dos tradutores da Comunidade estarem sobrecarregados. Foram adquiridas outras versões do programa (com outros pares de línguas), e notou-se o entusiasmo e o incentivo demonstrados pelos próprios tradutores. Atualmente, vários tradutores da Comissão utilizam o SYSTRAN para traduções de rotina, com sucesso. Isso se deve a uma série de fatores: o sistema é utilizado em um número restrito de áreas técnicas, com dicionários abrangentes porém muito especializados; além disso, há uma seleção cada vez maior dos textos a serem traduzidos utilizando-se o SYSTRAN.

Posteriormente, outras versões do sistema foram compradas e desenvolvidas. A General Motors do Canadá utiliza a versão inglês-francês para traduzir manuais variados e passou a desenvolver o dicionário inglês-espanhol (o que não é barato). A empresa alcançou um aumento de produtividade dos seus tradutores de 3 a 4 vezes. Já a Xerox, que consegue utilizar o sistema para traduzir cerca de 90% dos seus textos, desenvolveu uma linguagem de entrada (em inglês) restrita, com vocabulário limitado e um estilo determinado, gerando textos em francês, italiano, espanhol, alemão e português até 5 vezes mais depressa. Em termos técnicos, esta aplicação utiliza a estratégia denominada sublíngua - seu sucesso depende da limitação do texto de entrada -, que será discutida em maior profundidade adiante. A eficiência do SYSTRAN baseia-se principalmente nos seus dicionários, na forte análise morfológica, na revisão posterior por parte de tradutores profissionais e nos aplicativos desenvolvidos para auxiliar a pós edição dos textos. A qualidade do sistema por si só é limitada, porém nunca foi expresso o objetivo de se eliminar a dependência da revisão. Por outro lado, há relatórios que tratam de uma relação entre melhoria e degradação funcional do sistema: por exemplo, quando o dicionário se torna volumoso demais, uma nova inserção pode prejudicar dados já existentes.

Em dezembro de 1997, o AltaVista, serviço de busca na Internet, passou a oferecer um serviço de tradução on-line de páginas da World Wide Web através do sistema SYSTRAN, visando principalmente a aquisição de informações - o conhecimento do conteúdo das páginas em outras línguas. Este serviço será discutido em maiores detalhes no capítulo "Os Programas, na Prática".

METAL (Mechanical Translation and Analysis of Languages)

O projeto foi iniciado em 1961 e desenvolvido para realizar traduções do alemão para o inglês. Foi adotado o paradigma transformacional de Chomsky, através de uma interlíngua sintática baseada em estruturas profundas, porém acabou-se concluindo que somente a lingüística transformacional não era suficiente para suportar um sistema operacional, sendo feitas outras adaptações. A tradução indireta e global era realizada através de 14 níveis de análise, o que consumia muito tempo e esforço computacional. Em 1974 os fundos governamentais foram interrompidos e o projeto cancelado, sendo retomado alguns anos depois com novas verbas. O programa foi rescrito e reduzido a três estágios principais - análise, transferência e síntese -, com uma redução de 10 vezes nos requisitos computacionais. Em 1980, com mais um corte de verbas governamentais, a Siemens passou a patrocinar o projeto, que ainda se dedica à tradução alemão-inglês na área de telecomunicações. Apesar da simplificação, o sistema ainda emprega uma estratégia global que visa resolver problemas de anáfora intra e extra-sentenciais e uma gramática com componentes transformacionais - que, por exemplo, tenta traduzir todas as sentenças, mesmo as que contêm termos desconhecidos pelo dicionário. No entanto, esta própria autonomia do sistema pode gerar problemas, pois ele não oferece mais de uma alternativa quando estas existem - o que pode dificultar o trabalho do revisor.

Testes publicados revelam que o sistema traduz entre 45% e 85% dos textos de maneira aceitável. Os números variam segundo a natureza dos textos e dos testes (se estes são preparados ou espontâneos).

TAUM (Traduction Automatique de l'Universtité de Montreal)

Iniciado em 1965, o sistema baseava-se estritamente na estratégia da transferência direta. Após um período de pesquisa, o governo canadense passou a estabelecer metas específicas para o programa. Sua primeira aplicação foi o chamado TAUM-METEO, desenvolvido especialmente para o Centro Meteorológico Canadense, que interessou-se pelo sistema numa tentativa de resolver problemas internos com os tradutores: a tarefa de tradução de previsões meteorológicas do inglês para o francês era tão restrita, repetitiva e simples que os tradutores, entediados, não permaneciam mais do que seis meses no emprego, em média. O programa foi instalado em 1977 e funciona até hoje.

Algum tempo depois buscou-se uma nova aplicação: traduções de manuais de manutenção de aeronaves do inglês para o francês (TAUM-AVIATION). Como a dificuldade sintática era muito grande, o grupo começou a tentar desenvolver análises semânticas; porém, em 1979, após uma série de testes, determinou-se que o sistema não ficaria pronto no tempo necessário e que os custos de elaboração dos dicionários e de efetuação da tradução, somados aos da revisão, não valiam a pena. O projeto foi abandonado.

Assim, restou o TAUM-METEO, o único sistema que pode ser considerado totalmente automático. Ele recebe os textos em inglês por rede e os traduz diretamente para o francês, enviando-os também automaticamente. Não é feita revisão ou pós edição; ao invés disso, quando o sistema reconhece "falhas" no texto de entrada, ele o recusa, passando-o a tradutores humanos. Em outras palavras, seu sucesso baseia-se acima de tudo na limitação do texto de entrada - em uma sublíngua -, de maneira semelhante à aplicação do SYSTRAN pela Xerox. Porém, é importante notar que essas restrições já existiam antes do sistema ser desenvolvido, isto é, os relatores de previsões meteorológicas não precisaram desenvolver uma forma específica de redação, como é o caso da Xerox. Além disso, o TAUM-METEO provavelmente foi o primeiro sistema no qual os tradutores estiveram envolvidos em todas as fases do desenvolvimento, e não é extensível, seus dicionários ou áreas não podem ser ampliados - apenas sistemas semelhantes poderiam ser desenvolvidos.

Por tratar de um número restrito de termos e construções (o dicionário contém apenas 1.500 entradas, incluindo centenas de nomes de cidades, e não lida com verbos tencionados), o sistema pode realizar uma porção considerável de análise semântica, ainda que apenas em cada sentença independente - o que é extremamente difícil em contextos onde a sublíngua não pode ser tão restrita.

O TAUM-METEO é responsável por cerca de 85% das traduções; o restante, mais "interessante", é feito por tradutores que agora permanecem vários anos no emprego, ainda que a maioria dos textos rejeitados pelo programa contenham apenas ruídos de comunicação, palavras mal digitadas e construções lingüísticas que o sistema não consegue identificar no dicionário. O índice de sucesso do sistema é único, e análises indicam que talvez estudos mais profundos sobre esse tipo de estratégia possam representar um bom caminho a ser seguido.

CULT (Chinese University Language Translator)

O CULT é um sistema de tradução assistida por computador dos mais bem sucedidos. Traduz textos acadêmicos de matemática e física de forma altamente interativa, com um alto grau de intervenção humana em tarefas de pré edição e participação durante a tradução, com o objetivo de minimizar a revisão posterior. As técnicas subjacentes do CULT não são muito claras, não se podendo calcular sua eficiência com outros tipos de textos, a possibilidade de expansão ou a relação custo-benefício. No entanto, suas estratégias representam uma grande tendência atual e possivelmente a que mais beneficia a área a longo prazo - como será visto mais adiante.

EUROTRA

O EUROTRA, o maior grupo de pesquisa do ocidente, integrado à Comunidade Econômica Européia e financiado por vários países, é digno de nota. Iniciado a partir dos anos 80, o grupo busca desenvolver um sistema realmente multilíngüe para as línguas da CEE - um programa experimental já está sendo utilizado. Equipes de cada país, num total de cerca de 100 lingüistas, desenvolvem módulos de análise e síntese na sua língua; os módulos de transferência, elaborados por colaboradores bilíngües, visam ser os mais simples possíveis, realizando praticamente substituição lexical - estratégia que visa tanto permitir uma maior liberdade metodológica aos grupos de cada país quanto reduzir o enorme esforço computacional e administrativo conjunto necessário para desenvolver as dezenas de módulos de transferência abrangendo todas as combinações de línguas. Além disso, o desenvolvimento de software é quase independente do trabalho com regras lingüísticas. Em termos lingüísticos, o grupo utiliza a representação dos significados em árvores - o que é realizado com bastante liberdade pelas equipes de cada país. Já o software é baseado em grupos de sub-gramáticas. A grande diferença é que os métodos de análise, transferência e síntese são desenvolvidos por lingüistas em uma linguagem especial, e não por programadores através de algoritmos. Ainda não se sabe até onde essa estratégia funcionará, tanto por questões técnicas de programação quanto pelo grau de liberdade que os grupos têm - o que pode tornar-se incompatível com os requisitos de velocidade e custos computacionais.

Déjà Vu

Possivelmente o sistema mais recente a adquirir repercussão mundial considerável, o Déjà Vu é basicamente um grande banco de dados de auxílio aos tradutores associado a uma boa interface com o usuário e outras funcionalidades práticas (atualmente com base em programas da Microsoft, como o Office e o Access). Ele arquiva as sentenças traduzidas separando e identificando seus componentes e traduções, retomando-os quando da tradução de outro texto semelhante. O sistema foi desenvolvido no âmbito da indústria de software - não é por coincidência que suas melhores aplicações são a tradução de instruções simples e de novas versões de programas antigos. Além da economia de tempo e dinheiro, a grande vantagem do sistema é a garantia de consistência terminológica.

A primeira versão do programa foi lançada em 1993. Seu maior problema era a lentidão conseqüente da expansão do banco de dados - questão presente até hoje em vários outros bancos de dados terminológicos. O Déjà Vu 2, lançado em 1997, traz grandes inovações computacionais e com respeito à interface, como, por exemplo, a possibilidade (rara entre a maioria dos programas de tradução automática) de dividir ou reunir sentenças no decorrer da tradução, a escolha de diferentes níveis de automação com relação à inclusão de termos ou sentenças arquivadas no banco de dados ou a classificação das sentenças analisadas segundo os correspondentes encontrados no banco de dados (100%, parcialmente correspondente ou não correspondente).

As primeiras críticas sobre o Déjà Vu 2 estão começando a aparecer na Internet (mesmo ao longo da redação deste trabalho). Um dos fatores mais destacados com relação ao seu emprego é a restrição do sistema a um tipo de trabalho particular - envolvendo instruções repetitivas, listas terminológicas, atualizações de traduções de um mesmo assunto ou no máximo um texto onde a quantidade e a exatidão requerida dos termos compensarem o tempo gasto para a sua inserção no banco de dados. Caso contrário, a relação custo-benefício não vale a pena [Translation Journal, 25/12/1997].

anterior | topo da página | próximo

 


ID: J46626