Modelo da Apple transforma fotos 2D em visualizações 3D em tempo real

A Apple lançou recentemente o Single-image High-Accuracy Real-time Parallax (SHARP), um novo modelo de inteligência artificial cuja proposta nada mais é do que construir, em tempo real, uma representação 3D a partir de uma única imagem estática em 2D passada como fonte.

Treinado com um grande volume de dados com milhões de cenas sintéticas projetadas para simular o mundo real — que deram ao modelo aprendizado de padrões comuns de profundidade e geometria —, o SHARP infere a estrutura 3D possível ao analisar a imagem plana 2D em detalhes.

Posts relacionados

Para fazer essa inferência, o modelo estima mapas densos de profundidade da cena, usa um módulo para fazer um refinamento e, por fim, prevê uma representação de Gaussianas 3D da cena — ou seja, cria milhões de “bolhas” de cor e luz, localizadas em coordenadas 3D precisas.

Essa reconstrução é feita em menos de um segundo em uma GPU 1 de alto desempenho, um salto de velocidade em relação a sistemas tradicionais que demorariam minutos ou até horas — além de fornecer uma qualidade fotorrealista superior e coerente em relação à imagem original para pontos de vista próximos.

O SHARP pode ser bastante útil no contexto de realidade virtual, permitindo que usuários acompanhem, de forma instantânea, mudanças em representações 3D causadas por movimentos feitos por eles (como movimentar a cabeça) — isso com profundidade e paralaxe 2 realistas.

A ideia seria que, ao olhar para uma foto 2D convertida, o usuário possa mover levemente a cabeça ou mudar a sua postura e ver a cena em 3D de forma estável e fotorrealista, como se estivesse olhando para uma cena realmente capturada em 3D — e tudo instantaneamente.

Isso acontece porque, diferentemente de modelos baseados em difusão tradicionais, o SHARP gera a representação 3D em uma única passada pela rede neural e, a partir daí, pode renderizar novas vistas em tempo real, sem custo adicional de inferência.

Como “limitação”, está o fato de que o modelo (disponível para testes no GitHub) não objetiva permitir que o usuário percorra longas distâncias pela cena, mas sim oferecer uma visão próxima o suficiente para movimentos naturais de cabeça e postura.

via 9to5Mac

Notas de rodapé

1 Graphics processing unit, ou unidade de processamento gráfico.2 Mudança aparente na posição de um objeto quando visto de diferentes pontos de vista.