OpenAI lança ChatGPT Images 2.0 com foco em renderização de textos e precisão

OpenAI lança ChatGPT Images 2.0 com foco em renderização de textos e precisão

Após antecipar um novo lançamento com uma captura de tela do macOS criada por inteligência artificial, a OpenAI anunciou hoje o ChatGPT Images 2.0, seu modelo de geração de imagens de última geração. Ele foi projetado para produzir imagens com grande volume de texto, incluindo infográficos, pôsteres científicos, guias de estudo e materiais de marketing.

O novo modelo aprimora naturalmente a tipografia, a iconografia e a composição para produzir imagens mais profissionais, além de gerar texto em vários idiomas.

Apresentando o ChatGPT Images 2.0
Um modelo de imagem de última geração capaz de lidar com tarefas visuais complexas e produzir imagens precisas e imediatamente utilizáveis, com edição mais nítida, layouts mais ricos e inteligência de nível analítico.
Vídeo criado com ChatGPT Images

Você pode criar até oito imagens a partir de um único prompt, como um relatório de três páginas, mantendo a consistência visual em todas elas. Uma desvantagem é que, se você quiser ajustar uma imagem gerada por IA, ainda precisará regenerá-la.

A OpenAI afirmou ainda que está focada em manter seu fluxo de edição iterativo e baseado em instruções para que continue sendo fácil de usar.

Feito com ChatGPT Images 2.0

O novo modelo também possui uma compreensão mais apurada da renderização de textos não latinos em idiomas como japonês, coreano, hindi e bengali.

Mais robusto em diversos idiomas

O ChatGPT Images 2.0 consegue gerar imagens com texto em outros idiomas que não apenas são renderizadas corretamente, mas também apresentam uma linguagem coerente.

Isso torna o modelo mais útil globalmente e ajuda as pessoas a criar recursos visuais que funcionam nos idiomas que elas realmente usam.

Outros destaques do ChatGPT Images 2.0 incluem:

  • Maior precisão e controle: ele é capaz de seguir instruções, preservar os detalhes solicitados e renderizar os elementos sutis que muitas vezes comprometem a qualidade da imagem.
  • Sofisticação estilística e fotorrealismo: ele pode capturar com maior fidelidade as características marcantes de fotos, bem como imagens cinematográficas, pixel art, mangá e outras linguagens visuais distintas, com maior consistência em textura, iluminação, composição e detalhes.
  • Proporções flexíveis: o novo modelo suporta proporções de até 3:1 (largura) e 1:3 (altura). Ele pode gerar imagens prontas para diferentes formatos, desde banners e slides de apresentação até pôsteres e gráficos para redes sociais.
  • Capacidades de raciocínio: quando um modelo de raciocínio é selecionado no ChatGPT, o Images 2.0 pode pesquisar informações em tempo real na web, criar múltiplas imagens distintas a partir de um único estímulo, verificar suas próprias saídas e até mesmo criar códigos QR funcionais.
  • Inteligência do mundo real: o novo modelo possui um limite de conhecimento atualizado que lhe permite lidar com tarefas de ponta a ponta, desde a redação publicitária até a análise e a composição do design.

Os procedimentos de segurança da OpenAI não mudaram significativamente com o novo modelo. Ele ainda inclui metadados por meio do padrão C2PA, permitindo identificar a origem das imagens geradas por IA. Além disso, imagens abusivas e ilegais ainda são proibidas nas políticas da OpenAI.

O Images 2.0 está sendo disponibilizado para todos os usuários — inclusive gratuitos — do ChatGPT e Codex. Assinantes, porém, também podem criar imagens usando modelos Instant e Thinking, que ajudam a pesquisar informações na web, compilá-las em um design legível e verificar seu trabalho.

Já desenvolvedores que usam o modelo na API 1 podem criar imagens em resolução 2K e 4K, embora essas mais altas ainda estejam em versão beta e possam apresentar problemas.

Notas de rodapé

1    Application programming interface, ou interface de programação de aplicações.