Apple lança modelo de IA para vídeos com técnica alternativa à de difusão

Apple lança modelo de IA para vídeos com técnica alternativa à de difusão

A Apple lançou, em seu repositório no Hugging Face, um novo modelo de inteligência artificial de código aberto para geração de vídeos chamado STARFlow-V [PDF]. Concorrente de modelos como o Stable Diffusion, o Sora (da OpenAI) e o Veo (do Google), ele chega com um diferencial importante em relação a essas plataformas.

É que o STARFlow-V não usa a técnica de difusão (que gera vídeos a partir de ruído em pequenos passos extremamente lentos), e sim uma estratégia já bastante conhecida denominada transformer autoregressive flow, que usa funções invertíveis para gerar vídeos mais rapidamente — e com menos mudanças entre quadros.

Posts relacionados

Nos modelos de difusão, como os diversos frames são tratados simultaneamente de uma única vez ou de forma mais misturada, um erro acumulado deixa a imagem estranha ou borrada com o passar dos segundos — algo que tende a não acontecer com o STARFlow-V, que é considerado um modelo do tipo “causal”.

A Apple apresenta o STARFlow-V.
Modelagem generativa de vídeo de ponta a ponta com Normalizing Flow.

Isso porque o modelo da Apple gera o vídeo sequencialmente (com os frames iniciais sendo responsáveis por ditarem os rumos dos futuros). Como esse processo é contínuo, ele também é “invertível” por natureza, podendo ser usado para três tarefas diferentes sem a necessidade de adaptações ou modelos derivados.

Com o STARFlow-V, é possível gerar vídeos a partir de prompts de texto, de uma imagem estática ou de um outro vídeo usando a mesma base, o que o torna um modelo bastante versátil. Como contrapartida, no entanto, ele ainda pode gerar situações fisicamente impossíveis e exige muito poder computacional.