A DeepSeek, laboratório chinês de inteligência artificial, apresentou uma novidade que promete agitar o cenário de modelos de IA de menor escala. Trata-se do DeepSeek-R1-0528-Qwen3-8B, uma versão “destilada” e mais compacta do seu renomado modelo de raciocínio R1. Apesar do foco da comunidade estar no R1 principal, esta versão menor tem se destacado por superar modelos de tamanho comparável em importantes benchmarks.
Desempenho surpreendente em matemática
Construído com base no modelo Qwen3-8B da Alibaba, lançado em maio, o DeepSeek-R1-0528-Qwen3-8B demonstrou uma capacidade notável. Ele superou o Gemini 2.5 Flash do Google no AIME 2025, um conjunto desafiador de problemas matemáticos. Além disso, o modelo da DeepSeek apresentou um desempenho quase equivalente ao do recém-lançado Phi 4 reasoning plus da Microsoft em outro teste de habilidades matemáticas, o HMMT.
Eficiência dos modelos destilados
Os chamados modelos “destilados”, como este novo lançamento da DeepSeek, são tipicamente menos robustos que suas versões completas. No entanto, sua grande vantagem reside na drástica redução da demanda computacional. Enquanto o Qwen3-8B (base do modelo) necessita de uma GPU com 40GB a 80GB de RAM (como uma Nvidia H100), segundo informações contextuais, o modelo R1 completo da DeepSeek exige aproximadamente doze GPUs de 80GB. Essa eficiência torna a tecnologia mais acessível.
Processo de treinamento e aplicações
Para desenvolver o DeepSeek-R1-0528-Qwen3-8B, a DeepSeek utilizou textos gerados pela versão mais potente do R1 para refinar o Qwen3-8B. Conforme descrito na plataforma Hugging Face, o modelo é voltado “tanto para pesquisa acadêmica sobre modelos de raciocínio quanto para o desenvolvimento industrial focado em modelos de pequena escala”.
Disponibilidade e licenciamento aberto
Um dos grandes atrativos do DeepSeek-R1-0528-Qwen3-8B é sua licença permissiva MIT, que permite o uso comercial irrestrito. O modelo já está disponível em diversas plataformas, incluindo o LM Studio, que o oferece via API.
Este lançamento da DeepSeek representa um passo importante na democratização de ferramentas de IA avançadas, oferecendo soluções de raciocínio complexo que são ao mesmo tempo poderosas e computacionalmente mais viáveis para um público mais amplo de pesquisadores e desenvolvedores.
Texto: Filippe Sims
Redação Portal Guavira