Google Magika 1.0, uma ferramenta open source para detecção de formatos de arquivos

O Magika é a ferramenta de detecção de tipo de arquivo movida a IA da Google. Ele usa um modelo leve de deep learning para “entender” o conteúdo e indicar o tipo com alta precisão, muito útil em pipelines de segurança, CI/CD, varredura de anexos e qualquer fluxo que dependa de classificar arquivos de forma confiável e veloz. Segundo o Google, o projeto já é usado em larga escala em serviços como Gmail e Drive, e alcança ~99% de acurácia em testes com um dataset de ~100 milhões de amostras e mais de 200 classes.

O que há de novo no Magika 1.0

A versão 1.0 marca a primeira “release” estável e chega com um pacote de mudanças importante. A headline é a engine completamente reescrita em Rust, oferecendo melhor desempenho e segurança de memória, além de trazer um cliente de linha de comando nativo que varre centenas de arquivos por segundo por núcleo e escala facilmente em CPUs multi-core, alcançando, por exemplo, ~1.000 arquivos/s em um MacBook Pro com M4. Junto disso, o número de formatos suportado dobrou: 200+ tipos agora são reconhecidos, com melhor granularidade para formatos parecidos (JSON vs. JSONL, CSV vs. TSV, C vs. C++/JavaScript vs. TypeScript).

Além da CLI em Rust, a Google atualizou os módulos de Python e TypeScript para integrações mais simples, e refinou o modelo para acertar melhor formatos de texto desafiadores, como arquivos de código e de configuração. Há também melhorias no pipeline de treinamento, incluindo o uso do SedPack para processar terabytes de dados eficientemente e geração sintética (via Gemini) para suprir formatos raros, tudo para manter a precisão mesmo quando há poucos exemplos reais disponíveis.

Desempenho, segurança e uso prático

O ganho de desempenho não vem só da linguagem: o Magika 1.0 usa ONNX Runtime para inferência e Tokio para paralelismo assíncrono, ajudando a manter a latência de predição de poucos milissegundos por arquivo após o carregamento do modelo, mesmo em CPU. Para quem opera em ambientes sensíveis, a reescrita em Rust e a execução isolada por processos/threads ajudam a reduzir riscos de memória sem prescindir da velocidade.

Na prática, isso significa que você pode apontar a CLI para uma árvore de diretórios (incluindo -r para varredura recursiva), classificar milhares de arquivos rapidamente e usar a saída para acionar scanners específicos, rotinas de compliance ou pipelines de build. Para workloads gráficos, dados e devops, o Magika 1.0 adiciona formatos como Parquet, HDF5, Jupyter/IPYNB, NPY/NPZ, ONNX, Dockerfile, HCL/TOML, Bazel, além de DWG/DXF, PSD, WOFF/WOFF2, entre outros.

Como instalar e começar

A forma mais direta é pela instalação via script (Linux/macOS):

curl -LsSf https://securityresearch.google/magika/install.sh | sh

No Windows (PowerShell):

powershell -ExecutionPolicy ByPass -c "irm https://securityresearch.google/magika/install.ps1 | iex"

Se preferir, dá para usar pipx install magika, o pacote Python inclui o cliente em Rust. A documentação oficial traz guias para integrar a biblioteca em Python, TypeScript/JavaScript e Rust.

Se você mantém pipelines que dependem de identificar arquivo com confiabilidade (segurança, triagem de uploads, repositórios de dados, migrações), o Magika 1.0 resolve o dilema clássico entre velocidade e precisão, agora com um stack moderno e multiplataforma. Para testar, a Google oferece demo web (executa local no navegador) e o repositório no GitHub com exemplos e lançamentos.

Fique por dentro das principais novidades da semana sobre tecnologia e Linux: receba nossa newsletter!