Em 2022, a Google incorporou 24 novos idiomas ao Google Tradutor utilizando a técnica de tradução automática ‘zero-shot’. Este método permite que um modelo de aprendizagem de máquina traduza para um novo idioma sem ter exemplos prévios. Na época, a empresa também apresentou a “Iniciativa 1.000 Línguas”, um compromisso de desenvolver modelos de IA para suportar os mil idiomas mais falados globalmente.
Agora, com a ajuda do modelo de linguagem PaLM 2, a Google ampliou a gama de idiomas disponíveis no Google Tradutor. Esta expansão, a maior já realizada, inclui a adição do português de Portugal, diferenciando-o do português do Brasil.
A atualização adiciona 110 novos idiomas, o que representa mais de 614 milhões de falantes em todo o mundo. Entre os novos idiomas, cerca de um quarto são africanos, como Fon, Kikongo, Luo, Ga, Swati, Venda e Wolof, marcando a maior expansão de línguas africanas até agora.
Incluídos também estão idiomas como o afar, falado no Djibouti, Eritreia e Etiópia, que teve o maior número de contribuições voluntárias da comunidade. Outros exemplos são o cantonês, um dos idiomas mais solicitados, o manx, uma língua celta da Ilha de Man que foi revitalizada após quase ser extinta, e o nko, um idioma padrão das línguas Manding daf África Ocidental com um alfabeto único criado em 1949.
Além disso, a expansão inclui o punjabi (Shahmukhi), a variante escrita do punjabi no Paquistão, o tamazight, um idioma berbere do Norte da África, e o tok pisin, uma língua crioula da Papua Nova Guiné.
A Google destaca que as línguas possuem grande variação interna, como dialetos e padrões ortográficos, tornando desafiador escolher uma variedade ‘correta’. Contudo, a prioridade tem sido as variantes mais amplamente utilizadas.
O modelo PaLM 2 desempenhou um papel crucial na aprendizagem de idiomas relacionados, como awadhi e marwadi, próximos do hindi, e os crioulos franceses das Seicheles e Maurícias. A empresa continua a colaborar com linguistas e falantes nativos para expandir ainda mais o suporte a diversas variedades linguísticas e convenções ortográficas no futuro.