Horário de Pequim 6 de janeiro, o CEO da Nvidia, Huang Renxun, mais uma vez aparece no palco principal da CES2026 vestindo a sua icónica jaqueta de couro.
Na CES de 2025, a Nvidia apresentou o chip Blackwell de produção em massa e a pilha completa de tecnologia de IA física. Na conferência, Huang Renxun destacou que uma “Era de IA física” está a começar. Ele descreveu um futuro cheio de imaginação: veículos autónomos com capacidade de raciocínio, robôs capazes de compreender e pensar, e AIAgent (agentes inteligentes) capazes de lidar com tarefas de contexto longo de milhões de tokens.
Passado um ano, a indústria de IA passou por uma enorme transformação evolutiva. Huang Renxun, na apresentação, revisitou as mudanças do último ano, com foco nos modelos de código aberto.
Ele afirmou que modelos de raciocínio de código aberto como o DeepSeek R1 fizeram toda a indústria perceber: quando a colaboração aberta e global realmente começa, a difusão de IA será extremamente rápida. Apesar de os modelos de código aberto ainda serem cerca de seis meses mais lentos em capacidade geral do que os modelos de ponta, eles aproximam-se a cada seis meses, e o volume de downloads e uso já está a crescer de forma explosiva.
Em comparação com 2025, que mostrou mais visões e possibilidades, desta vez a Nvidia começou a abordar sistematicamente a questão do “como fazer”: em torno da IA de raciocínio, preencher as lacunas de capacidade de computação, rede e armazenamento necessárias para operações de longo prazo, reduzir significativamente os custos de raciocínio e incorporar essas capacidades diretamente em cenários reais como condução autónoma e robótica.
Na sua palestra na CES, Huang Renxun abordou três linhas principais:
●Ao nível de sistemas e infraestrutura, a Nvidia reestruturou a arquitetura de computação, rede e armazenamento para atender às necessidades de raciocínio de longo prazo. Com a plataforma Rubin, NVLink 6, Spectrum-X Ethernet e a plataforma de memória de contexto de raciocínio, estas atualizações visam resolver gargalos como altos custos de raciocínio, dificuldades na manutenção de contexto e limitações de escala, resolvendo problemas de “pensar mais um pouco”, “pagar o preço” e “executar por mais tempo” na IA.
●Ao nível de modelos, a Nvidia colocou o raciocínio de IA (Reasoning / Agentic AI) no centro. Com modelos e ferramentas como Alpamayo, Nemotron, Cosmos Reason, impulsiona a IA a evoluir de “gerar conteúdo” para “pensar continuamente”, de “modelos de resposta única” para “agentes inteligentes que podem trabalhar a longo prazo”.
●Ao nível de aplicações e implementação, essas capacidades são diretamente integradas em cenários físicos como condução autónoma e robótica. Seja o sistema de condução autónoma alimentado por Alpamayo, ou o ecossistema de robôs com GR00T e Jetson, todos colaboram com fornecedores de nuvem e plataformas empresariais para promover a implantação em escala.
01 Da roadmap à produção em massa: Rubin revela dados de desempenho completos pela primeira vez
Na CES, a Nvidia revelou pela primeira vez detalhes técnicos completos da arquitetura Rubin.
Na apresentação, Huang Renxun começou por explicar o conceito de Test-time Scaling (expansão no momento do raciocínio), que pode ser entendido como: para tornar a IA mais inteligente, não basta apenas que ela “estude mais”, mas que “pense mais um pouco quando encontrar um problema”.
No passado, a melhoria da capacidade de IA dependia principalmente de treinar com mais poder de cálculo, aumentando o tamanho do modelo; agora, a mudança é que, mesmo que o modelo não continue a crescer, basta dar-lhe mais tempo e recursos de cálculo a cada uso para que os resultados melhorem significativamente.
Como tornar “a IA pensar mais um pouco” economicamente viável? A nova geração de plataformas de computação de IA da arquitetura Rubin foi criada para resolver essa questão.
Huang Renxun explicou que se trata de um sistema completo de próxima geração de computação de IA, que, através da colaboração de Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4 e Spectrum-6, consegue uma redução revolucionária nos custos de raciocínio.
A Nvidia Rubin GPU é o chip central responsável pelo cálculo de IA na arquitetura Rubin, com o objetivo de reduzir significativamente o custo unitário de raciocínio e treino.
Resumindo, a tarefa principal do Rubin GPU é “fazer a IA usar menos recursos e ser mais inteligente”.
A capacidade central do Rubin GPU reside em: uma única GPU consegue fazer mais tarefas. Pode lidar com mais tarefas de raciocínio de uma só vez, lembrar de contextos mais longos, e comunicar-se mais rapidamente com outras GPUs, o que significa que muitos cenários que antes exigiam “múltiplas GPUs” podem agora ser feitos com menos.
O resultado é que o raciocínio fica mais rápido e também mais barato.
Huang Renxun revisitou ao vivo os parâmetros de hardware do NVL72 da arquitetura Rubin: inclui 220 trilhões de transistores, largura de banda de 260 TB/s, sendo a primeira plataforma do setor a suportar computação confidencial em rack.
De uma forma geral, comparando com Blackwell, a GPU Rubin alcança saltos de geração em indicadores-chave: desempenho de raciocínio NVFP4 aumentado para 50 PFLOPS (5 vezes), desempenho de treino para 35 PFLOPS (3,5 vezes), largura de banda de memória HBM4 aumentada para 22 TB/s (2,8 vezes), e a largura de banda de interconexão NVLink de uma GPU duplicada para 3,6 TB/s.
Esses avanços, em conjunto, permitem que uma única GPU processe mais tarefas de raciocínio e contextos mais longos, reduzindo fundamentalmente a dependência de múltiplas GPUs.
Vera CPU é um componente central projetado especificamente para movimentação de dados e processamento agentic, equipado com 88 núcleos Olympus desenvolvidos pela Nvidia, com 1,5 TB de memória do sistema (três vezes a do CPU Grace anterior), e uma tecnologia NVLink-C2C de 1,8 TB/s que garante acesso consistente à memória entre CPU e GPU.
Ao contrário de CPUs genéricas tradicionais, a Vera foca em cenários de raciocínio de IA, na gestão de dados e lógica de múltiplas etapas, sendo essencialmente uma coordenadora de sistema que permite que a “IA pense mais um pouco” de forma eficiente.
O NVLink 6, com largura de banda de 3,6 TB/s e capacidade de computação na rede, permite que os 72 GPUs na arquitetura Rubin trabalhem em conjunto como um “super GPU”, uma infraestrutura fundamental para reduzir custos de raciocínio.
Assim, os dados e resultados intermediários necessários para a IA durante o raciocínio podem fluir rapidamente entre GPUs, sem necessidade de esperas, cópias ou recomputações repetidas.
Na arquitetura Rubin, o NVLink-6 é responsável pela coordenação de cálculo interno das GPUs, o BlueField-4 pela gestão de contexto e dados, e o ConnectX-9 pela conexão de alta velocidade com o sistema externo. Isso garante que o sistema Rubin possa comunicar-se de forma eficiente com outros racks, centros de dados e plataformas de nuvem, sendo a base para operações de treino e raciocínio em larga escala.
Em comparação com a geração anterior, a Nvidia fornece dados concretos e visuais: em relação à plataforma NVIDIA Blackwell, é possível reduzir até 10 vezes o custo de tokens na fase de raciocínio, e diminuir para um quarto o número de GPUs necessárias para treinar modelos de especialistas híbridos (MoE).
A Nvidia afirmou que a Microsoft já comprometeu a implantar dezenas de milhares de chips Vera Rubin na próxima geração da fábrica de IA Fairwater, e provedores de nuvem como a CoreWeave oferecerão instâncias Rubin na segunda metade de 2026. Essa infraestrutura de “pensar mais um pouco” está a passar de demonstração tecnológica para uso comercial em escala.
02 Como resolver o “gargalo de armazenamento”?
Permitir que a IA “pense mais um pouco” ainda enfrenta um desafio técnico crucial: onde colocar os dados de contexto?
Quando a IA lida com tarefas complexas que envolvem múltiplas rodadas de diálogo e raciocínio, gera uma grande quantidade de dados de contexto (KV Cache). As arquiteturas tradicionais ou colocam esses dados na memória cara e limitada da GPU, ou no armazenamento comum (que é muito lento). Se esse “gargalo de armazenamento” não for resolvido, mesmo a GPU mais potente será prejudicada.
Para esse problema, a Nvidia revelou na CES a plataforma completa de armazenamento de memória de contexto de raciocínio (Inference Context Memory Storage Platform), alimentada pelo BlueField-4, cujo objetivo principal é criar uma “terceira camada” entre a memória da GPU e o armazenamento tradicional. Essa camada deve ser rápida o suficiente, ter capacidade suficiente e suportar operações de longo prazo de IA.
Do ponto de vista técnico, essa plataforma não é composta por um único componente, mas por um design colaborativo:
O BlueField-4 acelera a gestão e o acesso aos dados de contexto no hardware, reduzindo movimentações de dados e sobrecarga do sistema;
A Ethernet Spectrum-X fornece uma rede de alto desempenho, suportando partilha de dados rápida via RDMA;
Componentes de software como DOCA, NIXL e Dynamo otimizam a gestão, reduzem a latência e aumentam o throughput geral do sistema.
Podemos entender essa abordagem como a expansão dos dados de contexto, que antes só cabiam na memória da GPU, para uma “camada de memória” independente, rápida e compartilhável. Assim, alivia-se a pressão sobre a GPU e permite-se uma partilha rápida dessas informações entre múltiplos nós e agentes de IA.
Na prática, a Nvidia fornece dados de que, em cenários específicos, essa abordagem pode aumentar até 5 vezes a quantidade de tokens processados por segundo, além de otimizar a eficiência energética na mesma proporção.
Huang Renxun enfatizou várias vezes na apresentação que a IA está a evoluir de “chatbots de diálogo único” para verdadeiros agentes de colaboração inteligente: eles precisam entender o mundo real, raciocinar continuamente, usar ferramentas para completar tarefas, e manter memórias de curto e longo prazo. Essa é a essência do Agentic AI. A plataforma de armazenamento de memória de contexto de raciocínio foi projetada para esse tipo de IA de longo prazo, que pensa repetidamente, expandindo a capacidade de contexto e acelerando o compartilhamento entre nós, tornando as múltiplas rodadas de diálogo e colaboração entre agentes mais estáveis e sem “ficar mais lento a cada rodada”.
03
Nova geração de DGX SuperPOD: 576 GPUs a trabalhar em conjunto
Na CES, a Nvidia anunciou a nova geração de DGX SuperPOD baseada na arquitetura Rubin, expandindo o Rubin de um único rack para uma solução completa de centro de dados.
O que é o DGX SuperPOD?
Se o Rubin NVL72 é um “super rack” com 72 GPUs, o DGX SuperPOD conecta vários desses racks, formando um grande cluster de computação de IA. A versão apresentada é composta por 8 racks Vera Rubin NVL72, totalizando 576 GPUs a trabalhar em conjunto.
À medida que a escala de tarefas de IA continua a crescer, 576 GPUs num único rack podem não ser suficientes. Por exemplo, treinar modelos de escala ultra grande, servir milhares de agentes de IA, ou lidar com tarefas de contexto de milhões de tokens. Nesses casos, é necessário que vários racks trabalhem em conjunto, e o DGX SuperPOD foi criado para esse cenário, como uma solução padronizada.
Para empresas e provedores de nuvem, o DGX SuperPOD oferece uma infraestrutura de IA de grande escala “pronta a usar”. Sem necessidade de desenvolver a conexão de centenas de GPUs, configurar redes ou gerenciar armazenamento.
Os cinco componentes principais do novo DGX SuperPOD:
○8 racks Vera Rubin NVL72 - núcleo de capacidade de cálculo, cada um com 72 GPUs, totalizando 576 GPUs;
○Rede de expansão NVLink 6 - permite que esses 8 racks de 576 GPUs trabalhem como um “super GPU”;
○Rede Ethernet Spectrum-X de alta performance - conecta diferentes SuperPODs, além de conectar ao armazenamento e redes externas;
○Plataforma de armazenamento de memória de contexto de raciocínio - fornece armazenamento compartilhado para tarefas de raciocínio prolongado;
○Software Nvidia Mission Control - gerencia toda a orquestração, monitoramento e otimização do sistema.
Essa atualização faz do núcleo do SuperPOD a arquitetura baseada nos racks Vera Rubin NVL72. Cada rack é uma supercomputador de IA completo, com 72 GPUs conectadas via NVLink 6, capaz de realizar tarefas de raciocínio e treino em grande escala dentro de um único rack. O novo DGX SuperPOD combina múltiplos racks NVL72, formando um sistema de cluster de longa duração.
Quando a escala de cálculo passa de “um único rack” para “vários racks”, surgem novos gargalos: como transferir grandes volumes de dados de forma estável e eficiente entre racks. Para isso, a Nvidia lançou na CES um novo switch Ethernet baseado no chip Spectrum-6, com a tecnologia de “encapsulamento óptico compartilhado” (CPO).
De forma simples, essa tecnologia embala os módulos ópticos removíveis diretamente ao lado do chip de comutação, reduzindo a distância de transmissão de alguns metros para poucos milímetros, o que diminui consumo de energia e latência, além de aumentar a estabilidade do sistema.
04 Open source completo de IA da Nvidia: do dado ao código
Na CES, Huang Renxun anunciou a expansão do seu ecossistema de modelos abertos (Open Model Universe), com uma série de modelos, conjuntos de dados, repositórios de código e ferramentas novas e atualizadas. Este ecossistema cobre seis áreas principais: IA biomédica (Clara), simulação física de IA (Earth-2), IA agentic (Nemotron), IA física (Cosmos), robótica (GR00T) e condução autónoma (Alpamayo).
Treinar um modelo de IA não requer apenas poder de cálculo, mas também conjuntos de dados de alta qualidade, modelos pré-treinados, código de treino, ferramentas de avaliação e toda uma infraestrutura. Para a maioria das empresas e instituições de pesquisa, construir tudo do zero é demasiado demorado.
Especificamente, a Nvidia open-sourçou seis camadas de conteúdo: plataformas de cálculo (DGX, HGX etc.), conjuntos de dados de treino de cada área, modelos básicos pré-treinados, repositórios de código de inferência e treino, scripts completos de fluxo de treino, e modelos de solução end-to-end.
A série Nemotron é o foco desta atualização, cobrindo quatro áreas de aplicação.
Na direção de raciocínio, inclui modelos compactos como Nemotron 3 Nano, Nemotron 2 Nano VL, além de ferramentas de treino de reforço como NeMo RL e NeMo Gym. Na área de RAG (recuperação aumentada por geração), oferece Nemotron Embed VL (modelo de incorporação vetorial), Nemotron Rerank VL (modelo de reordenação), conjuntos de dados relacionados e a biblioteca de recuperação NeMo Retriever. Na área de segurança, há o modelo Nemotron Content Safety e conjuntos de dados associados, além da biblioteca NeMo Guardrails.
Na área de voz, inclui Nemotron ASR (reconhecimento automático de fala), o conjunto de dados de voz Granary Dataset e a biblioteca de processamento de voz NeMo. Isso significa que empresas podem criar sistemas de atendimento ao cliente com IA RAG, usando código treinado e open source da Nvidia, sem precisar treinar seus próprios modelos de incorporação ou reordenação.
05 IA física, rumo à comercialização
Na área de IA física, também há atualizações de modelos — Cosmos, para compreensão e geração de vídeos do mundo físico; Isaac GR00T, modelo universal de robótica; Alpamayo, modelo de visão-língua-ação para condução autónoma.
Huang Renxun afirmou na CES que o “momento ChatGPT” da IA física está próximo, mas há muitos desafios: o mundo físico é demasiado complexo e variável, coletar dados reais é lento e caro, e nunca é suficiente.
O que fazer? Dados sintéticos são uma solução. Assim, a Nvidia lançou o Cosmos.
Este é um modelo de base de IA física de código aberto, treinado com uma vasta quantidade de vídeos, dados reais de condução e robótica, além de simulações 3D. Ele consegue entender como o mundo funciona, conectando linguagem, imagens, 3D e ações.
Huang Renxun afirmou que o Cosmos pode realizar várias habilidades de IA física, como gerar conteúdo, raciocinar, prever trajetórias (mesmo com uma única imagem). Pode gerar vídeos realistas a partir de cenários 3D, criar movimentos que obedecem às leis físicas com dados de condução, e gerar vídeos panorâmicos a partir de simuladores, câmeras múltiplas ou descrições textuais. Mesmo cenários raros podem ser reconstruídos.
Huang Renxun também lançou oficialmente o Alpamayo. É uma ferramenta de código aberto voltada para condução autónoma, e o primeiro modelo de raciocínio de visão-língua-ação (VLA) de código aberto. Diferente de versões anteriores, que apenas disponibilizavam o código, a Nvidia agora open-sourçou recursos completos de desenvolvimento, desde dados até implantação.
A maior inovação do Alpamayo é que é um modelo “de raciocínio” para condução autónoma. Sistemas tradicionais de condução usam uma arquitetura “percepção-planejamento-controle”: frear ao ver um semáforo vermelho, reduzir velocidade ao ver um pedestre, seguir regras predefinidas. O Alpamayo introduz a capacidade de “raciocínio”, entendendo relações causais em cenários complexos, prevendo intenções de outros veículos e pedestres, e tomando decisões que envolvem múltiplas etapas de reflexão.
Por exemplo, na abordagem de um cruzamento, ele não apenas reconhece “há um carro à frente”, mas também raciocina “esse carro pode virar à esquerda, então devo esperar”. Essa capacidade eleva a condução autónoma de “seguir regras” para “pensar como um humano”.
Huang Renxun anunciou que o sistema DRIVE da Nvidia entrou em fase de produção em massa, com o primeiro uso na nova Mercedes-Benz CLA, prevista para estar nas ruas dos EUA em 2026. Este carro terá um sistema de condução autónoma de nível L2++ com arquitetura híbrida de “modelo de IA end-to-end + pipeline tradicional”.
Na área de robótica, também há avanços concretos.
Huang Renxun afirmou que empresas líderes globais como Boston Dynamics, Franka Robotics, LEM Surgical, LG Electronics, Neura Robotics e XRlabs estão a desenvolver produtos baseados na plataforma Isaac da Nvidia e no modelo base GR00T, cobrindo desde robôs industriais, robôs cirúrgicos, até robôs humanoides e de consumo.
No palco, diferentes tipos e usos de robôs estavam expostos em um palco em camadas: desde robôs humanoides, de dois pés e de rodas, até braços mecânicos industriais, máquinas de construção, drones e equipamentos de assistência cirúrgica, formando uma “visão do ecossistema de robótica”.
Desde aplicações de IA física até a plataforma de computação RubinAI, passando pela plataforma de memória de contexto de raciocínio e o ecossistema de IA open source.
As ações da Nvidia na CES representam a narrativa da infraestrutura de IA para a era do raciocínio. Como Huang Renxun repetidamente enfatizou, quando a IA física precisa pensar continuamente, operar a longo prazo e realmente entrar no mundo real, o problema não é apenas se há poder de cálculo suficiente, mas quem consegue montar todo o sistema de forma eficaz.
Na CES 2026, a Nvidia já apresentou uma resposta.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
黄仁勋 CES2026 Último discurso: três tópicos-chave, uma “fera de chips”
Autor: Li Hailun Su Yang
Horário de Pequim 6 de janeiro, o CEO da Nvidia, Huang Renxun, mais uma vez aparece no palco principal da CES2026 vestindo a sua icónica jaqueta de couro.
Na CES de 2025, a Nvidia apresentou o chip Blackwell de produção em massa e a pilha completa de tecnologia de IA física. Na conferência, Huang Renxun destacou que uma “Era de IA física” está a começar. Ele descreveu um futuro cheio de imaginação: veículos autónomos com capacidade de raciocínio, robôs capazes de compreender e pensar, e AIAgent (agentes inteligentes) capazes de lidar com tarefas de contexto longo de milhões de tokens.
Passado um ano, a indústria de IA passou por uma enorme transformação evolutiva. Huang Renxun, na apresentação, revisitou as mudanças do último ano, com foco nos modelos de código aberto.
Ele afirmou que modelos de raciocínio de código aberto como o DeepSeek R1 fizeram toda a indústria perceber: quando a colaboração aberta e global realmente começa, a difusão de IA será extremamente rápida. Apesar de os modelos de código aberto ainda serem cerca de seis meses mais lentos em capacidade geral do que os modelos de ponta, eles aproximam-se a cada seis meses, e o volume de downloads e uso já está a crescer de forma explosiva.
Em comparação com 2025, que mostrou mais visões e possibilidades, desta vez a Nvidia começou a abordar sistematicamente a questão do “como fazer”: em torno da IA de raciocínio, preencher as lacunas de capacidade de computação, rede e armazenamento necessárias para operações de longo prazo, reduzir significativamente os custos de raciocínio e incorporar essas capacidades diretamente em cenários reais como condução autónoma e robótica.
Na sua palestra na CES, Huang Renxun abordou três linhas principais:
●Ao nível de sistemas e infraestrutura, a Nvidia reestruturou a arquitetura de computação, rede e armazenamento para atender às necessidades de raciocínio de longo prazo. Com a plataforma Rubin, NVLink 6, Spectrum-X Ethernet e a plataforma de memória de contexto de raciocínio, estas atualizações visam resolver gargalos como altos custos de raciocínio, dificuldades na manutenção de contexto e limitações de escala, resolvendo problemas de “pensar mais um pouco”, “pagar o preço” e “executar por mais tempo” na IA.
●Ao nível de modelos, a Nvidia colocou o raciocínio de IA (Reasoning / Agentic AI) no centro. Com modelos e ferramentas como Alpamayo, Nemotron, Cosmos Reason, impulsiona a IA a evoluir de “gerar conteúdo” para “pensar continuamente”, de “modelos de resposta única” para “agentes inteligentes que podem trabalhar a longo prazo”.
●Ao nível de aplicações e implementação, essas capacidades são diretamente integradas em cenários físicos como condução autónoma e robótica. Seja o sistema de condução autónoma alimentado por Alpamayo, ou o ecossistema de robôs com GR00T e Jetson, todos colaboram com fornecedores de nuvem e plataformas empresariais para promover a implantação em escala.
01 Da roadmap à produção em massa: Rubin revela dados de desempenho completos pela primeira vez
Na CES, a Nvidia revelou pela primeira vez detalhes técnicos completos da arquitetura Rubin.
Na apresentação, Huang Renxun começou por explicar o conceito de Test-time Scaling (expansão no momento do raciocínio), que pode ser entendido como: para tornar a IA mais inteligente, não basta apenas que ela “estude mais”, mas que “pense mais um pouco quando encontrar um problema”.
No passado, a melhoria da capacidade de IA dependia principalmente de treinar com mais poder de cálculo, aumentando o tamanho do modelo; agora, a mudança é que, mesmo que o modelo não continue a crescer, basta dar-lhe mais tempo e recursos de cálculo a cada uso para que os resultados melhorem significativamente.
Como tornar “a IA pensar mais um pouco” economicamente viável? A nova geração de plataformas de computação de IA da arquitetura Rubin foi criada para resolver essa questão.
Huang Renxun explicou que se trata de um sistema completo de próxima geração de computação de IA, que, através da colaboração de Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4 e Spectrum-6, consegue uma redução revolucionária nos custos de raciocínio.
A Nvidia Rubin GPU é o chip central responsável pelo cálculo de IA na arquitetura Rubin, com o objetivo de reduzir significativamente o custo unitário de raciocínio e treino.
Resumindo, a tarefa principal do Rubin GPU é “fazer a IA usar menos recursos e ser mais inteligente”.
A capacidade central do Rubin GPU reside em: uma única GPU consegue fazer mais tarefas. Pode lidar com mais tarefas de raciocínio de uma só vez, lembrar de contextos mais longos, e comunicar-se mais rapidamente com outras GPUs, o que significa que muitos cenários que antes exigiam “múltiplas GPUs” podem agora ser feitos com menos.
O resultado é que o raciocínio fica mais rápido e também mais barato.
Huang Renxun revisitou ao vivo os parâmetros de hardware do NVL72 da arquitetura Rubin: inclui 220 trilhões de transistores, largura de banda de 260 TB/s, sendo a primeira plataforma do setor a suportar computação confidencial em rack.
De uma forma geral, comparando com Blackwell, a GPU Rubin alcança saltos de geração em indicadores-chave: desempenho de raciocínio NVFP4 aumentado para 50 PFLOPS (5 vezes), desempenho de treino para 35 PFLOPS (3,5 vezes), largura de banda de memória HBM4 aumentada para 22 TB/s (2,8 vezes), e a largura de banda de interconexão NVLink de uma GPU duplicada para 3,6 TB/s.
Esses avanços, em conjunto, permitem que uma única GPU processe mais tarefas de raciocínio e contextos mais longos, reduzindo fundamentalmente a dependência de múltiplas GPUs.
Vera CPU é um componente central projetado especificamente para movimentação de dados e processamento agentic, equipado com 88 núcleos Olympus desenvolvidos pela Nvidia, com 1,5 TB de memória do sistema (três vezes a do CPU Grace anterior), e uma tecnologia NVLink-C2C de 1,8 TB/s que garante acesso consistente à memória entre CPU e GPU.
Ao contrário de CPUs genéricas tradicionais, a Vera foca em cenários de raciocínio de IA, na gestão de dados e lógica de múltiplas etapas, sendo essencialmente uma coordenadora de sistema que permite que a “IA pense mais um pouco” de forma eficiente.
O NVLink 6, com largura de banda de 3,6 TB/s e capacidade de computação na rede, permite que os 72 GPUs na arquitetura Rubin trabalhem em conjunto como um “super GPU”, uma infraestrutura fundamental para reduzir custos de raciocínio.
Assim, os dados e resultados intermediários necessários para a IA durante o raciocínio podem fluir rapidamente entre GPUs, sem necessidade de esperas, cópias ou recomputações repetidas.
Na arquitetura Rubin, o NVLink-6 é responsável pela coordenação de cálculo interno das GPUs, o BlueField-4 pela gestão de contexto e dados, e o ConnectX-9 pela conexão de alta velocidade com o sistema externo. Isso garante que o sistema Rubin possa comunicar-se de forma eficiente com outros racks, centros de dados e plataformas de nuvem, sendo a base para operações de treino e raciocínio em larga escala.
Em comparação com a geração anterior, a Nvidia fornece dados concretos e visuais: em relação à plataforma NVIDIA Blackwell, é possível reduzir até 10 vezes o custo de tokens na fase de raciocínio, e diminuir para um quarto o número de GPUs necessárias para treinar modelos de especialistas híbridos (MoE).
A Nvidia afirmou que a Microsoft já comprometeu a implantar dezenas de milhares de chips Vera Rubin na próxima geração da fábrica de IA Fairwater, e provedores de nuvem como a CoreWeave oferecerão instâncias Rubin na segunda metade de 2026. Essa infraestrutura de “pensar mais um pouco” está a passar de demonstração tecnológica para uso comercial em escala.
02 Como resolver o “gargalo de armazenamento”?
Permitir que a IA “pense mais um pouco” ainda enfrenta um desafio técnico crucial: onde colocar os dados de contexto?
Quando a IA lida com tarefas complexas que envolvem múltiplas rodadas de diálogo e raciocínio, gera uma grande quantidade de dados de contexto (KV Cache). As arquiteturas tradicionais ou colocam esses dados na memória cara e limitada da GPU, ou no armazenamento comum (que é muito lento). Se esse “gargalo de armazenamento” não for resolvido, mesmo a GPU mais potente será prejudicada.
Para esse problema, a Nvidia revelou na CES a plataforma completa de armazenamento de memória de contexto de raciocínio (Inference Context Memory Storage Platform), alimentada pelo BlueField-4, cujo objetivo principal é criar uma “terceira camada” entre a memória da GPU e o armazenamento tradicional. Essa camada deve ser rápida o suficiente, ter capacidade suficiente e suportar operações de longo prazo de IA.
Do ponto de vista técnico, essa plataforma não é composta por um único componente, mas por um design colaborativo:
O BlueField-4 acelera a gestão e o acesso aos dados de contexto no hardware, reduzindo movimentações de dados e sobrecarga do sistema;
A Ethernet Spectrum-X fornece uma rede de alto desempenho, suportando partilha de dados rápida via RDMA;
Componentes de software como DOCA, NIXL e Dynamo otimizam a gestão, reduzem a latência e aumentam o throughput geral do sistema.
Podemos entender essa abordagem como a expansão dos dados de contexto, que antes só cabiam na memória da GPU, para uma “camada de memória” independente, rápida e compartilhável. Assim, alivia-se a pressão sobre a GPU e permite-se uma partilha rápida dessas informações entre múltiplos nós e agentes de IA.
Na prática, a Nvidia fornece dados de que, em cenários específicos, essa abordagem pode aumentar até 5 vezes a quantidade de tokens processados por segundo, além de otimizar a eficiência energética na mesma proporção.
Huang Renxun enfatizou várias vezes na apresentação que a IA está a evoluir de “chatbots de diálogo único” para verdadeiros agentes de colaboração inteligente: eles precisam entender o mundo real, raciocinar continuamente, usar ferramentas para completar tarefas, e manter memórias de curto e longo prazo. Essa é a essência do Agentic AI. A plataforma de armazenamento de memória de contexto de raciocínio foi projetada para esse tipo de IA de longo prazo, que pensa repetidamente, expandindo a capacidade de contexto e acelerando o compartilhamento entre nós, tornando as múltiplas rodadas de diálogo e colaboração entre agentes mais estáveis e sem “ficar mais lento a cada rodada”.
03
Nova geração de DGX SuperPOD: 576 GPUs a trabalhar em conjunto
Na CES, a Nvidia anunciou a nova geração de DGX SuperPOD baseada na arquitetura Rubin, expandindo o Rubin de um único rack para uma solução completa de centro de dados.
O que é o DGX SuperPOD?
Se o Rubin NVL72 é um “super rack” com 72 GPUs, o DGX SuperPOD conecta vários desses racks, formando um grande cluster de computação de IA. A versão apresentada é composta por 8 racks Vera Rubin NVL72, totalizando 576 GPUs a trabalhar em conjunto.
À medida que a escala de tarefas de IA continua a crescer, 576 GPUs num único rack podem não ser suficientes. Por exemplo, treinar modelos de escala ultra grande, servir milhares de agentes de IA, ou lidar com tarefas de contexto de milhões de tokens. Nesses casos, é necessário que vários racks trabalhem em conjunto, e o DGX SuperPOD foi criado para esse cenário, como uma solução padronizada.
Para empresas e provedores de nuvem, o DGX SuperPOD oferece uma infraestrutura de IA de grande escala “pronta a usar”. Sem necessidade de desenvolver a conexão de centenas de GPUs, configurar redes ou gerenciar armazenamento.
Os cinco componentes principais do novo DGX SuperPOD:
○8 racks Vera Rubin NVL72 - núcleo de capacidade de cálculo, cada um com 72 GPUs, totalizando 576 GPUs;
○Rede de expansão NVLink 6 - permite que esses 8 racks de 576 GPUs trabalhem como um “super GPU”;
○Rede Ethernet Spectrum-X de alta performance - conecta diferentes SuperPODs, além de conectar ao armazenamento e redes externas;
○Plataforma de armazenamento de memória de contexto de raciocínio - fornece armazenamento compartilhado para tarefas de raciocínio prolongado;
○Software Nvidia Mission Control - gerencia toda a orquestração, monitoramento e otimização do sistema.
Essa atualização faz do núcleo do SuperPOD a arquitetura baseada nos racks Vera Rubin NVL72. Cada rack é uma supercomputador de IA completo, com 72 GPUs conectadas via NVLink 6, capaz de realizar tarefas de raciocínio e treino em grande escala dentro de um único rack. O novo DGX SuperPOD combina múltiplos racks NVL72, formando um sistema de cluster de longa duração.
Quando a escala de cálculo passa de “um único rack” para “vários racks”, surgem novos gargalos: como transferir grandes volumes de dados de forma estável e eficiente entre racks. Para isso, a Nvidia lançou na CES um novo switch Ethernet baseado no chip Spectrum-6, com a tecnologia de “encapsulamento óptico compartilhado” (CPO).
De forma simples, essa tecnologia embala os módulos ópticos removíveis diretamente ao lado do chip de comutação, reduzindo a distância de transmissão de alguns metros para poucos milímetros, o que diminui consumo de energia e latência, além de aumentar a estabilidade do sistema.
04 Open source completo de IA da Nvidia: do dado ao código
Na CES, Huang Renxun anunciou a expansão do seu ecossistema de modelos abertos (Open Model Universe), com uma série de modelos, conjuntos de dados, repositórios de código e ferramentas novas e atualizadas. Este ecossistema cobre seis áreas principais: IA biomédica (Clara), simulação física de IA (Earth-2), IA agentic (Nemotron), IA física (Cosmos), robótica (GR00T) e condução autónoma (Alpamayo).
Treinar um modelo de IA não requer apenas poder de cálculo, mas também conjuntos de dados de alta qualidade, modelos pré-treinados, código de treino, ferramentas de avaliação e toda uma infraestrutura. Para a maioria das empresas e instituições de pesquisa, construir tudo do zero é demasiado demorado.
Especificamente, a Nvidia open-sourçou seis camadas de conteúdo: plataformas de cálculo (DGX, HGX etc.), conjuntos de dados de treino de cada área, modelos básicos pré-treinados, repositórios de código de inferência e treino, scripts completos de fluxo de treino, e modelos de solução end-to-end.
A série Nemotron é o foco desta atualização, cobrindo quatro áreas de aplicação.
Na direção de raciocínio, inclui modelos compactos como Nemotron 3 Nano, Nemotron 2 Nano VL, além de ferramentas de treino de reforço como NeMo RL e NeMo Gym. Na área de RAG (recuperação aumentada por geração), oferece Nemotron Embed VL (modelo de incorporação vetorial), Nemotron Rerank VL (modelo de reordenação), conjuntos de dados relacionados e a biblioteca de recuperação NeMo Retriever. Na área de segurança, há o modelo Nemotron Content Safety e conjuntos de dados associados, além da biblioteca NeMo Guardrails.
Na área de voz, inclui Nemotron ASR (reconhecimento automático de fala), o conjunto de dados de voz Granary Dataset e a biblioteca de processamento de voz NeMo. Isso significa que empresas podem criar sistemas de atendimento ao cliente com IA RAG, usando código treinado e open source da Nvidia, sem precisar treinar seus próprios modelos de incorporação ou reordenação.
05 IA física, rumo à comercialização
Na área de IA física, também há atualizações de modelos — Cosmos, para compreensão e geração de vídeos do mundo físico; Isaac GR00T, modelo universal de robótica; Alpamayo, modelo de visão-língua-ação para condução autónoma.
Huang Renxun afirmou na CES que o “momento ChatGPT” da IA física está próximo, mas há muitos desafios: o mundo físico é demasiado complexo e variável, coletar dados reais é lento e caro, e nunca é suficiente.
O que fazer? Dados sintéticos são uma solução. Assim, a Nvidia lançou o Cosmos.
Este é um modelo de base de IA física de código aberto, treinado com uma vasta quantidade de vídeos, dados reais de condução e robótica, além de simulações 3D. Ele consegue entender como o mundo funciona, conectando linguagem, imagens, 3D e ações.
Huang Renxun afirmou que o Cosmos pode realizar várias habilidades de IA física, como gerar conteúdo, raciocinar, prever trajetórias (mesmo com uma única imagem). Pode gerar vídeos realistas a partir de cenários 3D, criar movimentos que obedecem às leis físicas com dados de condução, e gerar vídeos panorâmicos a partir de simuladores, câmeras múltiplas ou descrições textuais. Mesmo cenários raros podem ser reconstruídos.
Huang Renxun também lançou oficialmente o Alpamayo. É uma ferramenta de código aberto voltada para condução autónoma, e o primeiro modelo de raciocínio de visão-língua-ação (VLA) de código aberto. Diferente de versões anteriores, que apenas disponibilizavam o código, a Nvidia agora open-sourçou recursos completos de desenvolvimento, desde dados até implantação.
A maior inovação do Alpamayo é que é um modelo “de raciocínio” para condução autónoma. Sistemas tradicionais de condução usam uma arquitetura “percepção-planejamento-controle”: frear ao ver um semáforo vermelho, reduzir velocidade ao ver um pedestre, seguir regras predefinidas. O Alpamayo introduz a capacidade de “raciocínio”, entendendo relações causais em cenários complexos, prevendo intenções de outros veículos e pedestres, e tomando decisões que envolvem múltiplas etapas de reflexão.
Por exemplo, na abordagem de um cruzamento, ele não apenas reconhece “há um carro à frente”, mas também raciocina “esse carro pode virar à esquerda, então devo esperar”. Essa capacidade eleva a condução autónoma de “seguir regras” para “pensar como um humano”.
Huang Renxun anunciou que o sistema DRIVE da Nvidia entrou em fase de produção em massa, com o primeiro uso na nova Mercedes-Benz CLA, prevista para estar nas ruas dos EUA em 2026. Este carro terá um sistema de condução autónoma de nível L2++ com arquitetura híbrida de “modelo de IA end-to-end + pipeline tradicional”.
Na área de robótica, também há avanços concretos.
Huang Renxun afirmou que empresas líderes globais como Boston Dynamics, Franka Robotics, LEM Surgical, LG Electronics, Neura Robotics e XRlabs estão a desenvolver produtos baseados na plataforma Isaac da Nvidia e no modelo base GR00T, cobrindo desde robôs industriais, robôs cirúrgicos, até robôs humanoides e de consumo.
No palco, diferentes tipos e usos de robôs estavam expostos em um palco em camadas: desde robôs humanoides, de dois pés e de rodas, até braços mecânicos industriais, máquinas de construção, drones e equipamentos de assistência cirúrgica, formando uma “visão do ecossistema de robótica”.
Desde aplicações de IA física até a plataforma de computação RubinAI, passando pela plataforma de memória de contexto de raciocínio e o ecossistema de IA open source.
As ações da Nvidia na CES representam a narrativa da infraestrutura de IA para a era do raciocínio. Como Huang Renxun repetidamente enfatizou, quando a IA física precisa pensar continuamente, operar a longo prazo e realmente entrar no mundo real, o problema não é apenas se há poder de cálculo suficiente, mas quem consegue montar todo o sistema de forma eficaz.
Na CES 2026, a Nvidia já apresentou uma resposta.