Uma revisão do AudioPaLM AI do Google, o modelo linguístico de compreensão e geração de linguagem

O Google move a linha da frente da Voicebox da Meta e Elevan Labs com seu AI AudioPaLM.

AudioPaLM é um ótimo modelo linguístico projetado para a compreensão e geração de linguagem. Combina modelos linguísticos baseados em texto e linguagem, PaLM-2 e AudioLM, em uma arquitetura multimodal unificada que pode processar e gerar ambos. As aplicações do AudioPaLM incluem reconhecimento de linguagem e tradução de idioma para idioma.

O modelo herda do AudioLM a capacidade de reter informações para-linguísticas, como identidade e entoação do falante, e conhecimento linguístico presente apenas em grandes modelos linguísticos, como o PaLM-2.

O AudioPaLM supera em muito os sistemas existentes em tarefas de tradução e pode realizar traduções de linguagem para texto sem erros em muitos idiomas. Também é capaz de transferir uma voz de uma língua para outra a partir de uma breve solicitação oral.

Destaques

  • AudioPaLM é um modelo de linguagem e texto generativo multimodal que pode representar linguagem e texto com um número limitado de tokens discretos.

  • O modelo pode ser treinado em uma combinação de tarefas, como reconhecimento de idioma, síntese de texto para palavra e tradução de idioma para idioma.

  • O AudioPaLM pode começar com os padrões de um modelo linguístico pré-treinado em texto, permitindo que você se beneficie do conhecimento linguístico e de senso comum de modelos como PaLM ou PaLM 2.

  • O modelo realiza S2ST com transferência de voz de alto-falantes desconhecidos, superando os métodos existentes em termos de qualidade de linguagem e preservação da voz.

  • O AudioPaLM é capaz de realizar AST com voz de entrada e combinações de idioma alvo que não foram vistas durante a fase de treino

Detalhes do treino

O modelo foi treinado em várias tarefas com base nos mesmos dados subjacentes para melhorar o desempenho. Por exemplo, os dados CoV ou ST2 podem ser usados para tarefas ASR e AST, e adicionar tarefas ASR a esta fase resulta em melhor desempenho em benchmarks AST. Os modelos base são o ponto de verificação PaLM 8B e o tokenizador USM-v1. O modelo foi treinado com as tarefas ASR e AST de CoV ou ST2.

Aplicações Empresariais

Reconhecimento de idioma: o AudioPaLM pode ser usado em aplicativos que exigem conversões de idioma em texto, como serviços de transcrição, assistentes de voz e software de ditado.

Tradução de idioma para idioma: O modelo pode ser usado para tradução em tempo real em aplicações de comunicação, ajudando a quebrar barreiras linguísticas em negócios internacionais.

Clonagem de voz: AudioPaLM é capaz de transferir uma voz de um idioma para outro a partir de um curto prompt falado. Isso pode ser usado em aplicativos como assistentes de voz personalizados ou avatares digitais.

Aplicações multimodais: Como o AudioPaLM pode processar e gerar texto e fala, ele pode ser usado em aplicações que exigem interação com ambas as modalidades, como sistemas de IA interativos ou geração de conteúdo multimodal.

Principais características:

Unified Speech-Text LLM: AudioPaLM é um modelo unificado de linguagem grande (LLM) de fala e texto, capaz de consumir e produzir ambos. Ele aproveita os recursos existentes de PaLM e PaLM-2, provenientes de pré-treino somente texto.

Tarefas multimodais: A abordagem unificada entre modalidades permite treinar o AudioPaLM em uma combinação de tarefas como ASR, AST e S2ST.

Transferência de voz: Aproveitando os prompts de áudio do AudioLM, o modelo executa o S2ST com transferência de voz de alto-falantes desconhecidos, superando os métodos existentes em termos de qualidade de fala e preservação de voz.

Capacidade de erro zero: O modelo é capaz de executar AST com voz alvo e combinações de linguagem que não foram vistas durante o treinamento.

Fine Tuning

Treino do zero erro versus ajuste fino: Os resultados do documento são baseados no ajuste fino de um ponto de controlo PaLM pré-treinado para texto. O artigo investiga o efeito do uso de tal modelo em comparação com começar a treinar do zero na mesma arquitetura.

Para o modelo de ajuste fino, eles começam a partir do ponto de verificação PaLM 8B, que foi modificado adicionando linhas adicionais à matriz de incorporação de token para tokens de áudio, que são inicializados aleatoriamente. Todos os três modelos são treinados nas tarefas ASR e AST de CoV ou ST2. Os resultados mostram que o ajuste fino do ponto de verificação PaLM 8B alcança um desempenho substancialmente maior do que o treinamento do zero em tarefas CoV ou ST2 para ASR e AST.

Discussão de ajuste fino: ajustar um ponto de verificação pré-treinado melhora substancialmente os resultados. Isso não é surpreendente, pois o modelo base é muito capaz de começar; No entanto, é interessante que o ajuste fino seja capaz de se adaptar a estímulos de entrada completamente novos, já que os tokens de áudio são incorporações totalmente novas que o modelo deve aprender a entender. Além disso, os tokens de áudio são muito diferentes dos tokens de texto, apesar da baixa taxa de amostragem, presumivelmente ainda há alguma redundância.

Configurações de treino: em todas as experiências, eles usam as mesmas configurações de ajuste. Especificamente, eles realizam ajustes finos com o otimizador Adafactor com uma taxa de aprendizado constante de 5×10^-5 e uma taxa de abandono de 0,1, e usam “mascaras” de perda nas entradas.

Limitações

O modelo AudioPaLM, embora demonstre capacidades impressionantes no processamento de idioma e texto, tem certas limitações:

  • Dependência do tokenizador de áudio: A capacidade do modelo de produzir áudio nativamente é resultado do uso de áudio tokenizado. Isso introduz uma forte dependência da qualidade do tokenizador de áudio. A qualidade da saída de áudio é diretamente influenciada pelo desempenho do tokenizador.

  • Necessidade de ajuste completo do modelo: Ao contrário de algumas abordagens que congelam a maioria dos pesos durante o ajuste fino, preservando assim as capacidades originais dos componentes do modelo, o AudioPaLM requer ajuste fino de todo o modelo. Isso pode afetar a preservação dos recursos originais dos componentes do modelo.

Fonte: Generativeai