Nova abordagem poderá tornar a geração de voz da Siri mais eficiente

Um novo estudo da Apple apresentou o Principled Coarse-Graining (PCG), uma abordagem desenvolvida para acelerar a geração de fala em grandes modelos de linguagem (LLMs, na sigla em inglês) por meio de uma técnica chamada decodificação especulativa.

Essa nova abordagem tem como objetivo superar algumas limitações existentes na decodificação especulativa tradicional, na qual um modelo rascunho propõe sequências de tokens que são verificadas e corrigidas por um modelo alvo mais preciso.

Posts relacionados

Em modelos de fala, tokens diferentes podem gerar áudios “semelhantes”, mas, como a decodificação especulativa padrão só aceita correspondências exatas, tokens válidos do rascunho acabam sendo rejeitados, o que prejudica o processo.

Com o PCG, essa verificação é baseada em grupos de similaridade acústica (ASGs), os quais reúnem tokens que, apesar de distintos, são acusticamente intercambiáveis — o que permite criar distribuições consistentes para a validação posterior.

No processo de decodificação, o modelo propõe sequências de grupos de forma autoregressiva, enquanto o modelo alvo realiza a verificação por meio de amostragem por rejeição, garantindo exatidão mesmo com a distinção dos tokens iniciais.

Com essa nova abordagem, experimentos mostraram taxas mais altas de aceitação e vazão em comparação com a decodificação especulativa tradicional, bem como uma preservação maior da inteligibilidade e similaridade dos interlocutores.

Olhando para o futuro

Como observado pelo 9to5Mac, a Apple poderá usar esse modelo futuramente para aprimorar e aumentar a eficiência de softwares e recursos que dependem da geração de voz por inteligência artificial generativa, como a Siri.

Esse entendimento é corroborado com um enfoque dado à decodificação diretamente no dispositivo — algo que é facilitado pelo equilíbrio entre velocidade e qualidade do modelo, além do seu baixo consumo computacional.