DeepSeek abre o código das otimizações de inferência que aceleram geração em até 85%
O DeepSeek liberou o código-fonte do DSpark, conjunto de otimizações de inferência que acelera a geração de tokens em 60 a 85% comparado ao baseline. Entenda o que muda, como funciona e por que isso importa para quem roda modelos locais.