SAN JOSE, Califórnia — GTC — 18 de março de 2025 — A NVIDIA anuncia o NVIDIA Dynamo, um software de inferência de código aberto projetado para acelerar e escalonar modelos de raciocínio em IA em fábricas de IA com o menor custo e máxima eficiência.
Orquestrar e coordenar de forma eficiente as solicitações de inferência de IA em uma grande frota de GPUs é crucial para garantir que as fábricas de IA operem com o menor custo possível, maximizando a geração de receita por token.
À medida que o raciocínio de IA se torna mais comum, cada modelo de IA gerará dezenas de milhares de tokens usados para “pensar” a cada prompt. Aumentar o desempenho de inferência enquanto reduz continuamente seu custo, acelera o crescimento e impulsiona as oportunidades de receita para os provedores de serviços.
O NVIDIA Dynamo, sucessor do NVIDIA Triton Inference Server™, é um novo software de fornecimento de inferência em IA projetado para maximizar a geração de receita por token para fábricas de IA que implantam modelos de raciocínio em IA. Ele orquestra e acelera a comunicação de inferência entre milhares de GPUs e utiliza o fornecimento desagregado para separar as fases de processamento e geração de grandes modelos de linguagem (LLMs) em diferentes GPUs. Isso permite que cada fase seja otimizada de forma independente para suas necessidades específicas e garante a máxima utilização dos recursos da GPU.
“As indústrias ao redor do mundo estão treinando modelos de IA para pensar e aprender de maneiras diferentes, tornando-os mais sofisticados ao longo do tempo”, afirma Jensen Huang, fundador e CEO da NVIDIA. “Para possibilitar um futuro de IA personalizada para raciocínio, o NVIDIA Dynamo ajudará a fornecer esses modelos em escala, gerando economias de custo e eficiências nas fábricas de IA.”
Usando o mesmo número de GPUs, o Dynamo dobra o desempenho e a receita das fábricas de IA que executam modelos Llama na plataforma NVIDIA Hopper™ atual. Ao rodar o modelo DeepSeek-R1 em um grande cluster de racks GB200 NVL72, as otimizações inteligentes de inferência do NVIDIA Dynamo também aumentam o número de tokens gerados em mais de 30 vezes por GPU.
Para alcançar essas melhorias no desempenho de inferência, o NVIDIA Dynamo incorpora recursos que permitem aumentar a taxa de transferência e reduzir custos. Ele pode adicionar, remover e realocar GPUs dinamicamente em resposta a volumes e tipos de solicitações flutuantes, além de identificar GPUs específicas em grandes clusters que podem minimizar os cálculos de resposta e direcionar as consultas. Também pode descarregar dados de inferência para dispositivos de memória e armazenamento mais acessíveis e recuperá-los rapidamente quando necessário, minimizando os custos de inferência.
O NVIDIA Dynamo é totalmente de código aberto e oferece suporte a PyTorch, SGLang, NVIDIA TensorRT™-LLM e vLLM, permitindo que empresas, startups e pesquisadores desenvolvam e otimizem formas de fornecer modelos de IA por meio de inferência desagregada. Ele permitirá que os usuários acelerem a adoção de inferência de IA, incluindo em AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI e VAST.
“Com o NVIDIA Dynamo, estamos ajudando empresas a acelerarem modelos de raciocínio de IA em fábricas, oferecendo maior eficiência e redução de custos. É um grande avanço no desempenho de inferência”, afirma Marcio Aguiar, diretor da divisão Enterprise da NVIDIA para América Latina.
Inferência turbinada
O NVIDIA Dynamo mapeia o conhecimento que os sistemas de inferência mantêm em memória a partir de solicitações anteriores — conhecido como KV cache — em potencialmente milhares de GPUs.
Em seguida, ele direciona novas solicitações de inferência para as GPUs que possuem a melhor correspondência de conhecimento, evitando recomputações caras e liberando GPUs para responder a novas solicitações.
Denis Yarats, diretor de tecnologia da Perplexity AI, comentou: “Para lidar com centenas de milhões de solicitações mensais, contamos com GPUs da NVIDIA e software de inferência para oferecer o desempenho, confiabilidade e escalabilidade que nosso negócio e usuários exigem. Estamos ansiosos para aproveitar o Dynamo, com suas capacidades aprimoradas de fornecimento distribuído, para impulsionar ainda mais a eficiência do fornecimento de inferência e atender às demandas computacionais dos novos modelos de raciocínio em IA.”
Agentes de IA
O provedor de IA Cohere está planejando usar o NVIDIA Dynamo para potencializar as capacidades de agentes de IA em sua série de modelos Command.
Saurabh Baji, vice-presidente sênior de engenharia da Cohere, afirmou: “Escalar modelos avançados de IA exige agendamento sofisticado de múltiplas GPUs, coordenação perfeita e bibliotecas de comunicação de baixa latência que transferem contextos de raciocínio sem problemas entre memória e armazenamento. Esperamos que o NVIDIA Dynamo nos ajude a oferecer uma experiência de usuário de primeira linha para nossos clientes empresariais.”
Fornecimento desagregado
A plataforma de inferência NVIDIA Dynamo também suporta o fornecimento desagregado, que atribui diferentes fases computacionais de LLMs — incluindo a construção de uma compreensão da consulta do usuário e a geração da melhor resposta — a diferentes GPUs. Essa abordagem é ideal para modelos de raciocínio, como a nova família de modelos NVIDIA Llama Nemotron, que utiliza técnicas avançadas de inferência para melhorar a compreensão contextual e a geração de respostas. O fornecimento desagregado permite que cada fase seja ajustada e alocada de forma independente, melhorando a taxa de transferência e proporcionando respostas mais rápidas aos usuários.
A Together AI, a AI Acceleration Cloud, está procurando integrar seu motor de inferência proprietário com o NVIDIA Dynamo para permitir a escalabilidade sem interrupções de cargas de trabalho de inferência entre nós de GPU. Isso também permitirá que a Together AI resolva dinamicamente os gargalos de tráfego em várias etapas do pipeline do modelo.
Ce Zhang, diretor de tecnologia da Together AI, comentou: “Escalar modelos de raciocínio de maneira econômica exige novas técnicas avançadas de inferência, incluindo fornecimento desagregado e roteamento contextual. A Together AI oferece desempenho líder do setor usando nosso motor de inferência proprietário. A abertura e modularidade do NVIDIA Dynamo nos permitirão integrar seus componentes perfeitamente ao nosso motor para fornecer mais solicitações enquanto otimizamos a utilização de recursos — maximizando nosso investimento em computação acelerada. Estamos empolgados para aproveitar as capacidades inovadoras da plataforma para oferecer modelos de raciocínio de código aberto aos nossos usuários de forma econômica.”
NVIDIA Dynamo em detalhes
O NVIDIA Dynamo inclui quatro inovações chave que reduzem os custos de fornecimento de inferência e melhoram a experiência do usuário:
GPU Planner: um motor de planejamento que adiciona e remove GPUs dinamicamente para ajustar-se à demanda flutuante dos usuários, evitando o provisionamento excessivo ou insuficiente de GPUs;
Smart Router: um roteador ciente de LLM que direciona solicitações em grandes frotas de GPUs para minimizar recomputações caras de solicitações repetidas ou sobrepostas — liberando GPUs para responder a novas solicitações;
Low-Latency Communication Library: uma biblioteca otimizada para inferência que suporta comunicação de GPU para GPU de última geração e abstrai a complexidade da troca de dados entre dispositivos heterogêneos, acelerando a transferência de dados;
Memory Manager: um motor que descarrega e recarrega dados de inferência de e para dispositivos de memória e armazenamento de baixo custo sem impactar a experiência do usuário.
O NVIDIA Dynamo estará disponível nos microserviços NVIDIA NIM™ e será suportado em uma futura versão pela plataforma de software NVIDIA AI Enterprise, com segurança, suporte e estabilidade de classe empresarial.
Para saber mais, assista ao keynote do NVIDIA GTC, leia este blogpost sobre o Dynamo e registre-se para sessões da NVIDIA e líderes do setor no evento, que ocorrerá até 21 de março.
Sobre a NVIDIA
Desde sua fundação em 1993, a NVIDIA (NASDAQ: NVDA) tem sido pioneira em computação acelerada. A invenção da GPU pela empresa em 1999 estimulou o crescimento do mercado de games para PC, redefiniu a computação gráfica, iniciou a era da IA moderna e tem ajudado a digitalização industrial em todos os mercados. A NVIDIA agora é uma empresa de infraestrutura de computação full-stack com soluções em escala de data center que estão revolucionando o setor. Mais informações em: https://www.nvidia.com/pt-br/.
Acesse também:
Facebook: @NVIDIABrasil
Twitter: @NVIDIABrasil
YouTube: NVIDIA Latinoamérica
Instagram: @NVIDIABrasil
LinkedIn: @ NVIDIA Brasil
Informações para a Imprensa (NVIDIA):
Sing Comunicação de Resultados
Larissa Nato, Welton Ramos, Isadora Fernandes, Janaína Leme e Vânia Gracio
nvidia@singcomunica.com
(11) 5091-7838
Certas declarações nesta nota de imprensa, incluindo, mas não se limitando a, declarações sobre: os benefícios, impacto, disponibilidade e desempenho dos produtos, serviços e tecnologias da NVIDIA; terceiros adotando os produtos e tecnologias da NVIDIA e seus benefícios e impactos; indústrias ao redor do mundo treinando modelos de IA para pensar e aprender de maneiras diferentes, tornando-os mais sofisticados ao longo do tempo; e para possibilitar um futuro de IA personalizada para raciocínio, o NVIDIA Dynamo ajudando a fornecer esses modelos em escala, gerando economias de custo e eficiências nas fábricas de IA, são declarações prospectivas sujeitas a riscos e incertezas que podem causar resultados materialmente diferentes das expectativas. Fatores importantes que podem fazer com que os resultados reais diferem materialmente incluem: condições econômicas globais; nossa dependência de terceiros para fabricar, montar, embalar e testar nossos produtos; o impacto do desenvolvimento tecnológico e da concorrência; desenvolvimento de novos produtos e tecnologias ou aprimoramentos em nossos produtos e tecnologias existentes; aceitação de mercado de nossos produtos ou dos produtos de nossos parceiros; defeitos de design, fabricação ou software; mudanças nas preferências ou demandas dos consumidores; mudanças nos padrões da indústria e interfaces; perda inesperada de desempenho de nossos produtos ou tecnologias quando integrados a sistemas; bem como outros fatores detalhados periodicamente nos relatórios mais recentes que a NVIDIA apresenta à Securities and Exchange Commission (SEC), incluindo, mas não se limitando ao seu relatório anual no Formulário 10-K e relatórios trimestrais no Formulário 10-Q. Cópias dos relatórios arquivados com a SEC estão disponíveis no site da empresa e podem ser obtidas da NVIDIA gratuitamente. Essas declarações prospectivas não são garantias de desempenho futuro e falam apenas na data deste documento e, exceto quando exigido por lei, a NVIDIA se isenta de qualquer obrigação de atualizar essas declarações prospectivas para refletir eventos ou circunstâncias futuras.
Muitos dos produtos e recursos descritos aqui permanecem em várias fases e serão oferecidos com base na disponibilidade. As declarações acima não têm a intenção de ser, e não devem ser interpretadas como, um compromisso, promessa ou obrigação legal, e o desenvolvimento, lançamento e cronograma de quaisquer recursos ou funcionalidades descritos para nossos produtos estão sujeitos a alterações e permanecem a exclusivo critério da NVIDIA. A NVIDIA não será responsável por falhas em entregar ou atrasos na entrega de quaisquer produtos, recursos ou funcionalidades aqui estabelecidos.
© 2025 NVIDIA Corporation. Todos os direitos reservados. NVIDIA, o logotipo da NVIDIA, NVIDIA Hopper, NVIDIA NIM, NVIDIA Triton Inference Server e TensorRT são marcas registradas e/ou marcas comerciais da NVIDIA Corporation nos Estados Unidos e em outros países. Outros nomes de empresas e produtos podem ser marcas registradas das respectivas empresas com as quais estão associadas. Recursos, preços, disponibilidade e especificações estão sujeitos a alterações sem aviso prévio
Notícia distribuída pela saladanoticia.com.br. A Plataforma e Veículo não são responsáveis pelo conteúdo publicado, estes são assumidos pelo Autor(a):
LUIZ FERNANDO VALLOTO
lvalloto@singcomunica.com.br