A Apple lançou recentemente o Single-image High-Accuracy Real-time Parallax (SHARP), um novo modelo de inteligência artificial cuja proposta nada mais é do que construir, em tempo real, uma representação 3D a partir de uma única imagem estática em 2D passada como fonte.
Treinado com um grande volume de dados com milhões de cenas sintéticas projetadas para simular o mundo real — que deram ao modelo aprendizado de padrões comuns de profundidade e geometria —, o SHARP infere a estrutura 3D possível ao analisar a imagem plana 2D em detalhes.
Posts relacionados
- Apple revela IA capaz de gerar imagens 3D de ambientes
- Apple lança modelo de IA para vídeos com técnica alternativa à de difusão
- Autores acusam a Apple de treinar modelo de IA com livros pirateados
Para fazer essa inferência, o modelo estima mapas densos de profundidade da cena, usa um módulo para fazer um refinamento e, por fim, prevê uma representação de Gaussianas 3D da cena — ou seja, cria milhões de “bolhas” de cor e luz, localizadas em coordenadas 3D precisas.
Essa reconstrução é feita em menos de um segundo em uma GPU 1 de alto desempenho, um salto de velocidade em relação a sistemas tradicionais que demorariam minutos ou até horas — além de fornecer uma qualidade fotorrealista superior e coerente em relação à imagem original para pontos de vista próximos.
O SHARP pode ser bastante útil no contexto de realidade virtual, permitindo que usuários acompanhem, de forma instantânea, mudanças em representações 3D causadas por movimentos feitos por eles (como movimentar a cabeça) — isso com profundidade e paralaxe 2 realistas.
A ideia seria que, ao olhar para uma foto 2D convertida, o usuário possa mover levemente a cabeça ou mudar a sua postura e ver a cena em 3D de forma estável e fotorrealista, como se estivesse olhando para uma cena realmente capturada em 3D — e tudo instantaneamente.
Isso acontece porque, diferentemente de modelos baseados em difusão tradicionais, o SHARP gera a representação 3D em uma única passada pela rede neural e, a partir daí, pode renderizar novas vistas em tempo real, sem custo adicional de inferência.
Como “limitação”, está o fato de que o modelo (disponível para testes no GitHub) não objetiva permitir que o usuário percorra longas distâncias pela cena, mas sim oferecer uma visão próxima o suficiente para movimentos naturais de cabeça e postura.
via 9to5Mac