Desde 2023, a Apple e pesquisadores associados têm trabalhado em uma tecnologia multimodal de código aberto chamada Ferret, capaz de usar imagens para realizar consultas, como identificar o conteúdo de uma área. Posteriormente, o trabalho foi expandido para uma nova versão, o Ferret-UI, que pode compreender elementos da interface do usuário e potencialmente interagir com aplicativos.
Mais recentemente, a empresa publicou um artigo sobre o Ferret-UI Lite, uma versão do Ferret que busca corrigir um problema das versões anteriores — as quais, em suma, dependiam de processamento a partir de LLMs 1, que eram bastante volumosos e não haviam sido projetados para processamento local em dispositivos.
Levando em conta esse cenário, o Ferret-UI Lite é um agente GUI 2 completo que funciona em múltiplas plataformas, incluindo sistemas móveis, web e desktop — ou seja, é algo que funcionará em um smartphone, como um iPhone, sem grandes limitações.

Para isso, o Ferret-UI Lite foi desenvolvido com 3 bilhões de parâmetros, utilizando dados de interfaces provenientes tanto de fontes reais quanto sintéticas. Ele também aprimorou o desempenho em tempo de inferência por meio de raciocínio baseado em cadeia de pensamento e uso de ferramentas visuais, juntamente com aprendizado por reforço.
Como exemplo do funcionamento do Ferret-UI Lite no processamento local de consultas, um mecanismo de zoom foi incluído para ajudar na análise de interfaces. Assim, o modelo gera uma estimativa inicial e a imagem é recortada em torno da localização esperada com base nela.

Como apontado pelo 9to5Mac, enquanto os modelos anteriores usaram capturas de tela do iPhone e outras interfaces da Apple em suas avaliações, o Ferret-UI Lite foi treinado e avaliado em ambientes de GUI para Android (além da web).
De qualquer modo, os pesquisadores descobriram que, embora o Ferret-UI Lite tenha apresentado bom desempenho em tarefas de curto prazo e baixo nível, seu desempenho não foi tão bom em interações mais complexas e com várias etapas — algo esperado, dadas as limitações do modelo e o fato de ele rodar no dispositivo.
Por outro lado, o Ferret-UI Lite oferece um agente privado (já que nenhum dado precisa ser enviado para a nuvem) que interage autonomamente com as interfaces dos aplicativos com base nas solicitações do usuário — o que, sem dúvida, reforça a filosofia de privacidade da Apple e pode ser adotado na implementação de uma Siri mais pessoal e interativa.