Ciência e Tecnologia

Técnico integra projeto de criação do EuroLLM, o large language model que irá funcionar com idiomas europeus

Desenvolvimento do modelo é liderado pela Unbabel, uma spin-off do Técnico, e conta com a participação da Escola e do Instituto de Telecomunicações, entre outras entidades.

A Unbabel, empresa spin-off do Instituto Superior Técnico, anunciou a 2 de dezembro a criação do EuroLLM-9B, um modelo de linguagem criado com o intuito de suportar os 24 idiomas oficiais da União Europeia (incluindo o português europeu com que funcionará o modelo AMALIA, que conta com participação do Técnico). Entre as entidades envolvidas no desenvolvimento do EuroLLM, para além da Unbabel, estão o Técnico e o Instituto de Telecomunicações, bem como instituições de ensino superior europeias, num total de nove parceiros.

A criação do EuroLLM surge com o intuito de contrariar o ‘viés anglófono’ da maioria dos large language models, concebidos para funcionar em inglês e treinados com dados neste idioma. Este modelo será, assim, adaptado à diversidade cultural e linguística do continente europeu.

Adicionalmente, o EuroLLM procura contrariar a tendência de modelos dominados por agentes como OpenAI, Google e Meta, de onde poderão advir riscos relacionados com openness limitada (i.e., transparência no funcionamento do código) e eventuais restrições futuras no acesso.

André Martins, professor do Técnico e vice-presidente de AI of Research na Unbabel, afirma que a equipa “vê este como um entusiasmante primeiro passo para reforçar a soberania digital da Europa, agora mais importante que nunca”. “O objetivo”, acrescenta o investigador que lidera a equipa portuguesa do projeto, “é que o EuroLLM se torne um leme para a inovação, através da oportunidade que dá a qualquer pessoa para construir a partir dele”. Para além disso, esta é “uma história de sucesso para a rede de supercomputação europeia e como esta pode auxiliar no desenvolvimento de inteligência artificial”, defende.

O modelo foi treinado pelo supercomputador MareNostrum 5, instalado em Barcelona. A informação técnica partilhada pela equipa em torno do EuroLLM pode ser consultada no site do projeto.

André Martins recebeu, em 2023, uma bolsa de consolidação do Conselho Europeu de Investigação (ERC), no montante de cerca de 2 milhões de euros. Em 2017 já havia conquistado uma bolsa ERC, no valor de 1,4 milhões de euros, para desenvolver o seu trabalho de investigação.