Huang Renxun CES2026 pidato terbaru: tiga topik utama, "monster chip"

Penulis: Li Hailun Su Yang

Waktu Beijing 6 Januari, CEO Nvidia Huang Renxun kembali tampil di panggung utama CES2026 dengan jaket kulit ikoniknya.

Pada CES 2025, Nvidia menampilkan chip Blackwell yang sudah diproduksi massal dan tumpukan teknologi AI fisik lengkap. Dalam acara tersebut, Huang Renxun menekankan bahwa sebuah “Era AI Fisik” sedang dimulai. Ia menggambarkan masa depan yang penuh imajinasi: mobil otomatis mampu melakukan penalaran, robot dapat memahami dan berpikir, dan AIAgent (agen cerdas) dapat menangani tugas konteks panjang dengan jutaan token.

Seiring berjalannya waktu satu tahun, industri AI mengalami evolusi besar. Huang Renxun menyoroti perubahan tahun ini dalam acara peluncuran, terutama model sumber terbuka.

Dia mengatakan, model inferensi sumber terbuka seperti DeepSeek R1 membuat seluruh industri sadar bahwa: ketika kolaborasi terbuka dan global benar-benar dimulai, penyebaran AI akan sangat cepat. Meskipun model sumber terbuka secara kemampuan masih sekitar setengah tahun lebih lambat dari model terdepan, tetapi setiap enam bulan akan mendekati, dan jumlah unduhan serta penggunaannya sudah mengalami pertumbuhan eksponensial.

Berbeda dari 2025 yang lebih banyak menampilkan visi dan kemungkinan, kali ini Nvidia mulai secara sistematis berusaha menyelesaikan masalah “bagaimana mewujudkannya”: seputar AI inferensi, melengkapi kebutuhan daya komputasi, jaringan, dan infrastruktur penyimpanan jangka panjang, secara signifikan menurunkan biaya inferensi, dan mengintegrasikan kemampuan ini langsung ke dalam skenario nyata seperti otomatisasi mengemudi dan robot.

Dalam pidatonya di CES ini, Huang Renxun membahas tiga garis utama:

●Di tingkat sistem dan infrastruktur, Nvidia merombak arsitektur daya komputasi, jaringan, dan penyimpanan untuk memenuhi kebutuhan inferensi jangka panjang. Dengan platform Rubin, NVLink 6, Spectrum-X Ethernet, dan platform memori konteks inferensi sebagai inti, pembaruan ini langsung mengatasi hambatan seperti biaya inferensi yang tinggi, konteks yang sulit dipertahankan dan skalabilitas terbatas, menyelesaikan masalah AI yang ingin berpikir lebih lama, biaya terjangkau, dan berjalan lebih lama.

●Di tingkat model, Nvidia menempatkan AI inferensi (Reasoning / Agentic AI) sebagai pusatnya. Melalui model dan alat seperti Alpamayo, Nemotron, Cosmos Reason, mendorong AI dari “menghasilkan konten” menuju “berpikir terus-menerus,” dari “model respons sekali pakai” ke “agen cerdas yang bisa bekerja jangka panjang.”

●Di tingkat aplikasi dan implementasi, kemampuan ini langsung diterapkan ke skenario fisik seperti otomatisasi mengemudi dan robot. Baik sistem otomatisasi mengemudi berbasis Alpamayo maupun ekosistem robot GR00T dan Jetson, semuanya bekerja sama dengan penyedia cloud dan platform perusahaan untuk mendorong deployment skala besar.

01 Dari peta jalan ke produksi massal: Rubin pertama kali mengungkapkan data performa lengkap

Di CES ini, Nvidia pertama kali mengungkapkan secara lengkap detail teknis arsitektur Rubin.

Dalam pidatonya, Huang Renxun memulai dari Test-time Scaling (perluasan saat inferensi), yang dapat dipahami sebagai, agar AI menjadi lebih pintar, bukan hanya dengan “belajar lebih keras,” tetapi dengan “berpikir lebih lama saat menghadapi masalah.”

Dulu, peningkatan kemampuan AI terutama bergantung pada pelatihan dengan menambah daya komputasi, membuat model semakin besar; tetapi sekarang, perubahan baru adalah meskipun model tidak lagi membesar, selama setiap kali digunakan diberi waktu dan daya lebih untuk berpikir, hasilnya juga akan jauh lebih baik.

Bagaimana membuat “AI berpikir lebih lama” secara ekonomis? Platform AI generasi baru Rubin adalah solusi untuk masalah ini.

Huang Renxun menjelaskan, ini adalah sistem komputasi AI lengkap generasi berikutnya, melalui kolaborasi Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6, untuk merevolusi biaya inferensi.

Nvidia Rubin GPU adalah chip inti yang bertanggung jawab atas komputasi AI dalam arsitektur Rubin, bertujuan secara signifikan menurunkan biaya per unit inferensi dan pelatihan.

Singkatnya, tugas utama Rubin GPU adalah “membuat AI lebih hemat dan lebih pintar saat digunakan.”

Kemampuan utama Rubin GPU terletak pada: satu GPU mampu melakukan lebih banyak pekerjaan. Ia dapat menangani lebih banyak tugas inferensi sekaligus, mengingat konteks yang lebih panjang, dan komunikasi antar GPU juga lebih cepat, yang berarti banyak skenario yang sebelumnya mengandalkan “multi-GPU keras” kini bisa diselesaikan dengan lebih sedikit GPU.

Hasilnya, inferensi menjadi lebih cepat dan jauh lebih murah.

Huang Renxun secara langsung mengulas parameter hardware NVL72 dari arsitektur Rubin: berisi 220 triliun transistor, bandwidth 260 TB/detik, merupakan platform komputasi rahasia skala rack pertama di industri.

Secara keseluruhan, dibandingkan Blackwell, Rubin GPU mengalami lonjakan besar di indikator utama: performa inferensi NVFP4 meningkat hingga 50 PFLOPS (5 kali lipat), performa pelatihan meningkat hingga 35 PFLOPS (3,5 kali lipat), bandwidth memori HBM4 meningkat hingga 22 TB/detik (2,8 kali lipat), dan bandwidth NVLink antar GPU tunggal menjadi dua kali lipat ke 3,6 TB/detik.

Peningkatan ini secara bersama-sama memungkinkan satu GPU menangani lebih banyak tugas inferensi dan konteks yang lebih panjang, secara fundamental mengurangi ketergantungan pada jumlah GPU.

Vera CPU adalah komponen inti yang dirancang khusus untuk perpindahan data dan pengolahan agen cerdas, menggunakan 88 inti Olympus buatan Nvidia sendiri, dilengkapi 1,5 TB memori sistem (tiga kali lipat dari generasi Grace sebelumnya), dan mengimplementasikan memori konsistensi antara CPU dan GPU melalui NVLink-C2C 1,8 TB/detik.

Berbeda dari CPU umum tradisional, Vera fokus pada skenario inferensi AI, mengatur data dan logika inferensi multi langkah, secara esensial menjadi koordinator sistem yang memungkinkan “AI berpikir lebih lama” secara efisien.

NVLink 6 dengan bandwidth 3,6 TB/detik dan kemampuan komputasi jaringan memungkinkan 72 GPU dalam arsitektur Rubin bekerja sama seperti satu GPU super, ini adalah infrastruktur kunci untuk menurunkan biaya inferensi.

Dengan demikian, data dan hasil sementara yang diperlukan AI saat inferensi dapat dengan cepat mengalir antar GPU, tanpa perlu menunggu, menyalin, atau menghitung ulang berulang kali.

Dalam arsitektur Rubin, NVLink-6 bertanggung jawab atas kolaborasi internal GPU, BlueField-4 mengelola konteks dan penjadwalan data, dan ConnectX-9 menyediakan koneksi jaringan berkecepatan tinggi ke luar sistem. Ini memastikan sistem Rubin dapat berkomunikasi secara efisien dengan rak lain, pusat data, dan cloud, menjadi prasyarat untuk pelaksanaan pelatihan dan inferensi skala besar yang lancar.

Dibandingkan arsitektur generasi sebelumnya, Nvidia juga memberikan data konkret dan langsung: dibandingkan platform NVIDIA Blackwell, biaya token selama fase inferensi dapat dikurangi hingga 10 kali lipat, dan jumlah GPU yang dibutuhkan untuk model MoE (hibrid ahli) berkurang hingga seperempatnya.

Nvidia secara resmi menyatakan, saat ini Microsoft telah berkomitmen untuk menempatkan ratusan ribu chip Vera Rubin di superkomputer AI Fairwater generasi berikutnya, dan penyedia cloud seperti CoreWeave akan menyediakan instance Rubin mulai paruh kedua 2026. Infrastruktur “berpikir lebih lama” ini sedang beralih dari demonstrasi teknologi ke komersialisasi skala besar.

02 “Bottleneck penyimpanan” bagaimana mengatasinya?

Membuat AI “berpikir lebih lama” masih menghadapi tantangan teknologi utama: di mana menyimpan data konteks?

Ketika AI menangani tugas kompleks yang memerlukan banyak putaran dialog dan inferensi multi langkah, akan muncul sejumlah besar data konteks (KV Cache). Arsitektur tradisional harus memasukkan data ini ke dalam memori GPU yang mahal dan terbatas kapasitasnya, atau menyimpannya di penyimpanan biasa (akses terlalu lambat). Jika “bottleneck penyimpanan” ini tidak diatasi, GPU sekuat apapun tetap akan terhambat.

Untuk mengatasi masalah ini, Nvidia pertama kali mengungkapkan di CES platform penyimpanan memori konteks inferensi yang didukung BlueField-4 (Inference Context Memory Storage Platform), yang bertujuan menciptakan “lapisan ketiga” antara memori GPU dan penyimpanan tradisional. Cepat, berkapasitas besar, dan mampu mendukung operasi jangka panjang AI.

Secara teknis, platform ini bukan satu komponen tunggal yang berperan, melainkan hasil dari desain kolaboratif:

BlueField-4 bertanggung jawab mempercepat pengelolaan dan akses data konteks di tingkat perangkat keras, mengurangi perpindahan data dan overhead sistem;

Spectrum-X Ethernet menyediakan jaringan berkinerja tinggi, mendukung berbagi data cepat berbasis RDMA;

Dukungan perangkat lunak seperti DOCA, NIXL, dan Dynamo mengoptimalkan penjadwalan, mengurangi latensi, dan meningkatkan throughput secara keseluruhan.

Kita bisa memahami bahwa platform ini memperluas data konteks yang sebelumnya hanya bisa disimpan di memori GPU, ke dalam sebuah “lapisan memori” yang terpisah, berkecepatan tinggi, dan dapat dibagikan. Di satu sisi, mengurangi beban GPU, dan di sisi lain, memungkinkan berbagi cepat data konteks antar banyak node dan agen cerdas.

Secara nyata, Nvidia menyatakan bahwa dalam skenario tertentu, metode ini dapat meningkatkan jumlah token yang diproses per detik hingga 5 kali lipat, dan mengoptimalkan efisiensi energi secara setara.

Huang Renxun berulang kali menegaskan bahwa AI sedang berevolusi dari “chatbot percakapan sekali pakai” menjadi agen kolaboratif cerdas sejati: mereka perlu memahami dunia nyata, melakukan inferensi berkelanjutan, memanggil alat untuk menyelesaikan tugas, dan sekaligus menyimpan memori jangka pendek dan panjang. Inilah ciri utama Agentic AI. Platform penyimpanan memori konteks inferensi ini dirancang untuk bentuk AI yang berjalan jangka panjang dan berpikir berulang, dengan memperbesar kapasitas konteks dan mempercepat berbagi antar node, membuat dialog berulang dan kolaborasi multi-agen menjadi lebih stabil, tidak lagi “semakin lambat saat berjalan.”

03

Generasi baru DGX SuperPOD: 576 GPU bekerja sama

Nvidia mengumumkan di CES kali ini peluncuran DGX SuperPOD generasi baru berbasis arsitektur Rubin, yang memperluas Rubin dari satu rak ke seluruh pusat data sebagai solusi lengkap.

Apa itu DGX SuperPOD?

Jika Rubin NVL72 adalah “super rack” berisi 72 GPU, maka DGX SuperPOD adalah menghubungkan beberapa rack tersebut, membentuk kluster komputasi AI yang lebih besar. Versi yang diumumkan terdiri dari 8 rack Vera Rubin NVL72, yang setara dengan 576 GPU yang bekerja sama.

Ketika skala tugas AI terus membesar, satu rack dengan 576 GPU mungkin tidak cukup. Misalnya, pelatihan model super besar, melayani ribuan agen cerdas, atau menangani tugas kompleks dengan jutaan token konteks. Pada titik ini, diperlukan kolaborasi banyak rack, dan DGX SuperPOD adalah solusi standar yang dirancang untuk skenario ini.

Bagi perusahaan dan penyedia cloud, DGX SuperPOD menawarkan infrastruktur AI skala besar “siap pakai.” Tidak perlu riset sendiri tentang bagaimana menghubungkan ratusan GPU, mengonfigurasi jaringan, atau mengelola penyimpanan.

Lima komponen inti DGX SuperPOD generasi baru:

○8 rack Vera Rubin NVL72 - inti kemampuan komputasi, setiap rack 72 GPU, total 576 GPU;

○Jaringan ekstensi NVLink 6 - memungkinkan 8 rack ini bekerja sama seperti satu GPU super;

○Jaringan Ethernet Spectrum-X - menghubungkan berbagai SuperPOD dan ke penyimpanan serta jaringan eksternal;

○Platform penyimpanan memori konteks inferensi - menyediakan penyimpanan data konteks bersama untuk tugas inferensi jangka panjang;

○Perangkat lunak Nvidia Mission Control - mengelola penjadwalan, pemantauan, dan pengoptimalan seluruh sistem.

Peningkatan kali ini, fondasi SuperPOD berbasis sistem rack lengkap DGX Vera Rubin NVL72. Setiap NVL72 sendiri adalah super komputer AI lengkap, menghubungkan 72 GPU Rubin melalui NVLink 6, mampu menyelesaikan tugas inferensi dan pelatihan skala besar dalam satu rack. DGX SuperPOD yang baru terdiri dari beberapa NVL72, membentuk kluster sistem yang dapat berjalan jangka panjang.

Ketika skala komputasi diperluas dari “satu rack” ke “banyak rack,” muncul hambatan baru: bagaimana mentransfer data besar secara stabil dan efisien antar rack. Untuk mengatasi ini, Nvidia merilis switch Ethernet generasi baru berbasis Spectrum-6 dan memperkenalkan teknologi “CPO” (co-packaged optics) secara pertama kali.

Secara sederhana, ini adalah mengemas modul optik yang sebelumnya bisa dicabut langsung di dekat chip switch, mengurangi jarak transmisi sinyal dari beberapa meter ke beberapa milimeter, secara signifikan menurunkan konsumsi daya dan latensi, sekaligus meningkatkan stabilitas sistem secara keseluruhan.

04 Nvidia open source “keluarga” AI: dari data ke kode lengkap

Di CES ini, Huang Renxun mengumumkan perluasan ekosistem model sumber terbuka (Open Model Universe), menambahkan dan memperbarui sejumlah model, dataset, basis kode, dan alat. Ekosistem ini mencakup enam bidang utama: AI biomedis (Clara), simulasi fisika AI (Earth-2), Agentic AI (Nemotron), AI fisik (Cosmos), robot (GR00T), dan otomatisasi mengemudi (Alpamayo).

Melatih model AI tidak hanya membutuhkan daya komputasi, tetapi juga dataset berkualitas tinggi, model pra-latih, kode pelatihan, alat evaluasi, dan infrastruktur lengkap lainnya. Bagi kebanyakan perusahaan dan lembaga riset, membangun semua ini dari nol sangat memakan waktu.

Secara spesifik, Nvidia merilis enam lapisan konten: platform daya komputasi (DGX, HGX, dll), dataset pelatihan di berbagai bidang, model dasar pra-latih, kode inferensi dan pelatihan, skrip proses pelatihan lengkap, dan template solusi end-to-end.

Seri Nemotron menjadi fokus pembaruan kali ini, mencakup empat bidang aplikasi.

Dalam inferensi, termasuk Nemotron 3 Nano, Nemotron 2 Nano VL, model inferensi kecil, serta alat pelatihan reinforcement learning seperti NeMo RL dan NeMo Gym. Dalam bidang RAG (retrieval-augmented generation), menyediakan Nemotron Embed VL (model embedding vektor), Nemotron Rerank VL (model re-ranking), dataset terkait, dan NeMo Retriever Library (perpustakaan pencarian). Dalam bidang keamanan, ada model keamanan konten Nemotron Content Safety dan dataset pendukungnya, serta NeMo Guardrails.

Dalam bidang suara, termasuk Nemotron ASR (automatic speech recognition), dataset suara Granary, dan perpustakaan pengolahan suara NeMo. Ini berarti perusahaan yang ingin membangun sistem layanan pelanggan AI berbasis RAG tidak perlu melatih embedding dan model re-ranking sendiri, cukup menggunakan kode yang sudah dilatih dan dirilis Nvidia.

05 Bidang AI fisik, menuju komersialisasi

Bidang AI fisik juga mengalami pembaruan model—Cosmos untuk memahami dan menghasilkan video dunia fisik, model dasar robot umum Isaac GR00T, dan model visual-linguistik-tindakan otomatisasi mengemudi Alpamayo.

Huang Renxun di CES menyatakan bahwa “momen ChatGPT” untuk AI fisik akan segera tiba, tetapi banyak tantangan yang dihadapi: dunia fisik terlalu kompleks dan berubah-ubah, pengumpulan data nyata lambat dan mahal, selalu kurang.

Apa solusinya? Data sintetis adalah salah satu jalan. Nvidia meluncurkan Cosmos.

Ini adalah model dasar dunia AI fisik sumber terbuka, saat ini sudah dilatih dengan volume besar video, data mengemudi dan robot nyata, serta simulasi 3D. Ia mampu memahami bagaimana dunia bekerja, menghubungkan bahasa, gambar, 3D, dan tindakan.

Huang Renxun menyatakan Cosmos dapat mewujudkan banyak kemampuan AI fisik, seperti menghasilkan konten, melakukan inferensi, memprediksi lintasan (bahkan hanya dari satu gambar). Ia dapat menghasilkan video realistis berdasarkan skenario 3D, menghasilkan gerakan sesuai hukum fisika dari data mengemudi, dan bahkan dari simulator, rekaman multi-kamera, atau deskripsi teks, menghasilkan video panorama. Bahkan skenario langka pun bisa direkonstruksi.

Huang Renxun juga secara resmi merilis Alpamayo. Alpamayo adalah alat sumber terbuka untuk otomatisasi mengemudi, dan merupakan model inferensi visual-linguistik-tindakan (VLA) sumber terbuka pertama. Berbeda dari sebelumnya yang hanya open source kode, kali ini Nvidia merilis seluruh sumber daya pengembangan dari data hingga deployment.

Keunggulan utama Alpamayo adalah sebagai model otomatisasi mengemudi “berbasis inferensi.” Sistem otomatisasi mengemudi tradisional adalah arsitektur pipeline “persepsi-perencanaan- kontrol,” yang berhenti saat melihat lampu merah, memperlambat saat melihat pejalan kaki, mengikuti aturan yang sudah diprogram. Tetapi Alpamayo memperkenalkan kemampuan “berpikir,” memahami hubungan sebab-akibat dalam skenario kompleks, memprediksi niat kendaraan dan pejalan kaki lain, bahkan mampu membuat keputusan yang memerlukan banyak langkah berpikir.

Misalnya di persimpangan, ia tidak hanya mengenali “ada mobil di depan,” tetapi juga dapat berinferensi “mobil itu mungkin akan belok kiri, jadi saya harus menunggu.” Kemampuan ini mengangkat otomatisasi mengemudi dari “mengikuti aturan” menjadi “berpikir seperti manusia.”

Huang Renxun mengumumkan bahwa sistem DRIVE Nvidia resmi memasuki tahap produksi massal, dengan aplikasi pertama Mercedes-Benz CLA baru, yang direncanakan akan meluncur di AS tahun 2026. Mobil ini akan dilengkapi sistem otomatisasi mengemudi level L2++ dengan arsitektur hybrid “model AI end-to-end + pipeline tradisional.”

Bidang robotik juga mengalami kemajuan nyata.

Huang Renxun menyatakan bahwa perusahaan robot terkemuka dunia seperti Boston Dynamics, Franka Robotics, LEM Surgical, LG Electronics, Neura Robotics, dan XRlabs sedang mengembangkan produk berbasis platform Isaac Nvidia dan model dasar GR00T, mencakup robot industri, robot bedah, robot humanoid, dan robot konsumen.

Di acara peluncuran, Huang Renxun dikelilingi oleh berbagai robot dengan bentuk dan fungsi berbeda, dipamerkan di panggung berlapis: dari robot humanoid, robot berkaki dua dan beroda, hingga lengan robot industri, mesin konstruksi, drone, dan perangkat bantu bedah, membentuk gambaran ekosistem robot.

Dari aplikasi AI fisik, platform komputasi RubinAI, platform penyimpanan memori konteks inferensi, hingga ekosistem AI sumber terbuka.

Langkah-langkah Nvidia di CES ini membentuk narasi mereka tentang infrastruktur AI era inferensi. Seperti yang selalu ditekankan Huang Renxun, ketika AI fisik membutuhkan pemikiran berkelanjutan, operasi jangka panjang, dan benar-benar masuk ke dunia nyata, masalahnya bukan lagi soal daya komputasi cukup atau tidak, tetapi siapa yang mampu membangun seluruh sistem ini secara nyata.

Di CES 2026, Nvidia telah memberikan jawaban.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • بالعربية
  • Português (Brasil)
  • 简体中文
  • English
  • Español
  • Français (Afrique)
  • Bahasa Indonesia
  • 日本語
  • Português (Portugal)
  • Русский
  • 繁體中文
  • Українська
  • Tiếng Việt