Apple desenvolve IA capaz de gerar avatares 3D realistas a partir de fotos

Apple desenvolve IA capaz de gerar avatares 3D realistas a partir de fotos

Às vésperas da WWDC26, pesquisadores da Apple apresentaram o HeadsUp, um sistema de inteligência artificial (IA) capaz de gerar renderizações gaussianas 3D de cabeças humanas com alto nível de fidelidade a partir de fotografias capturadas simultaneamente por múltiplas câmeras.

O software também é capaz de animar os modelos 3D com blendshapes (isto é, o ato de “deformar” a malha de um modelo 3D) de expressão. Em um artigo publicado por 23 pesquisadores da Apple, o funcionamento da ferramenta é detalhado tecnicamente.

Esse me parece um pouco “Black Mirror”. 😂

Confira uma parte do resumo do estudo:

O método emprega uma arquitetura eficiente de codificador-decodificador que comprime as imagens de entrada em uma representação latente compacta. Essa representação latente é então decodificada em um conjunto de gaussianas 3D parametrizadas em UV, ancoradas a um modelo neutro de cabeça. Essa representação em UV desacopla o número de gaussianas 3D do número e da resolução das imagens de entrada, permitindo o treinamento com muitas imagens de alta resolução.

O HeadsUp foi treinado com mais de 10 mil participantes, um feito sem precedentes no segmento. O objetivo do projeto era resolver um dos principais dilemas das reconstruções 3D do tipo: a divisão entre qualidade e escalabilidade.

Ferramentas do tipo normalmente levam alguns minutos para mapear cada rosto, enquanto o novo sistema da Apple é capaz de gerar um modelo 3D de um rosto inédito em menos de 1 segundo — até 40 vezes mais eficiente do que o Avat3r, solução utilizada para comparativos de desempenho. Além da diferença de velocidade, o ganho de qualidade em relação ao software concorrente chama atenção.

HeadsUp com o uso de 6 câmeras
Avat3r com o uso de 6 câmeras

Com a NVIDIA A100 (GPU 1 voltada a data centers e aplicações de altíssimo desempenho), foram necessários somente 0,33 segundo para gerar o modelo 3D de uma cabeça humana, enquanto com 4 câmeras o resultado levou incríveis 0,14 segundo.

Ele é capaz de captar detalhes finos, como fios de cabelo, cílios, joias e textura de pele — pontos historicamente sensíveis para esse tipo de reconstrução. A tecnologia ainda é capaz de gerar identidades completamente novas a partir de descrições de texto.

Divulgação/Apple

Não demorou muito para que se iniciassem as especulações da relação dessa tecnologia com as Personas do Apple Vision Pro, hipótese que não parece tão improvável considerando outros acenos da Maçã, como a recente descoberta da aquisição da empresa de avatares de IA Animato.

A Apple acaba de lançar um artigo de pesquisa chamado HeadsUp dias antes da WWDC.

Treinado com mais de 10 mil rostos reais para construir um splat gaussiano 3D totalmente animável que você pode rotacionar e iluminar.

Animado para ver Personas no visionOS 27.

O próprio estudo citou que essa tecnologia reduz as barreiras para a criação de deepfakes convincentes, levantando riscos de desinformação e fraude. A recomendação da Apple é o uso de marcas d’água na veiculação de materiais de demonstração como medida de mitigação.

O estudo pode ser conferido na íntegra em sua página oficial.

Notas de rodapé

1    Graphics processing unit, ou unidade de processamento gráfico.