Китайський стандартний час 6 січня, генеральний директор NVIDIA Хуанг Ренгчун знову з’явився на головній сцені CES2026 у своїй фірмовій шкіряній куртці.
На CES 2025 NVIDIA продемонструвала серійний чип Blackwell та повний стек фізичних AI-технологій. На заході Хуанг Ренгчун підкреслив, що відкривається ера «фізичного AI». Він намалював уявне майбутнє: автомобілі з автопілотом матимуть здатність до логічних висновків, роботи зможуть розуміти та мислити, а AIAgent (інтелектуальний агент) зможе обробляти довгі контексти з мільйонами токенів.
Минув рік, і індустрія AI зазнала значних змін і еволюції. Під час огляду змін за цей рік Хуанг Ренгчун особливо зупинився на відкритих моделях.
Він сказав, що відкриті моделі для логічних висновків, такі як DeepSeek R1, змусили всю галузь усвідомити: коли відкритий і глобальний колабораційний процес справді запускається, швидкість поширення AI буде дуже високою. Хоча відкриті моделі в цілому ще поступаються найпередовішим моделям приблизно на півроку, але кожні півроку вони наздоганяють їх, а кількість завантажень і використання вже стрімко зростає.
На відміну від 2025 року, коли більше демонстрували бачення і можливості, цього разу NVIDIA систематично прагне вирішити питання «як це зробити»: навколо логічного AI вони прагнуть забезпечити необхідну обчислювальну потужність, мережеву та сховищну інфраструктуру для довготривалого функціонування, значно знизити вартість логічних висновків і безпосередньо інтегрувати ці можливості у реальні сценарії, такі як автопілот і роботи.
У своєму виступі на CES Хуанг Ренгчун виділив три основні напрями:
● На рівні систем і інфраструктури NVIDIA перебудувала архітектуру обчислювальних ресурсів, мереж і сховищ для довготривалих логічних потреб. В центрі — платформи Rubin, NVLink 6, Spectrum-X Ethernet і платформа внутрішньої пам’яті для логічних контекстів, які спрямовані на подолання вузьких місць у високій вартості логічних висновків, труднощах з підтримкою довгих контекстів і масштабованістю, вирішуючи проблеми «більше думати», «дешевше обчислювати» і «довше працювати».
● На рівні моделей NVIDIA робить логічний AI (Reasoning / Agentic AI) центральним. За допомогою моделей і інструментів Alpamayo, Nemotron, Cosmos Reason тощо вони просувають AI від «генерації контенту» до здатності постійно мислити, перетворюючи його з «одноразової відповіді» у «інтелектуального агента, що працює довго».
● На рівні застосувань і впровадження ці можливості безпосередньо інтегруються у реальні сценарії, такі як автопілот і роботи. Наприклад, система автопілота на базі Alpamayo або екосистема роботів GR00T і Jetson — все це у співпраці з хмарними провайдерами і корпоративними платформами для масштабного розгортання.
01 Від дорожньої карти до масового виробництва: перше повне розкриття характеристик Rubin
На цьому CES NVIDIA вперше повністю розкрила технічні деталі архітектури Rubin.
У виступі Хуанг Ренгчун почав з концепції Test-time Scaling (масштабування під час тестування), яку можна зрозуміти так: щоб AI став розумнішим, потрібно не просто «змушувати його більше читати», а давати йому більше часу для роздумів у момент застосування.
Раніше покращення AI здебільшого залежало від збільшення обчислювальних ресурсів під час тренування — робили модель більшою і більшою; тепер ж новий підхід полягає в тому, що навіть без збільшення розміру моделі, якщо під час кожного застосування давати їй більше часу і обчислювальних ресурсів для роздумів, результати стають значно кращими.
Як зробити «більше думати» економічно вигідним? Нове покоління AI-обчислювальної платформи Rubin створене саме для цього.
Хуанг Ренгчун повідомив, що це цілісна система наступного покоління AI, яка за допомогою Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4 і Spectrum-6 у співпраці забезпечує революційне зниження вартості логічних висновків.
Rubin GPU — це основний чип для AI-обчислень у архітектурі Rubin, його мета — значно знизити вартість одиниці логічних і тренувальних операцій.
Простіше кажучи, основне завдання Rubin GPU — зробити AI більш економічним і розумним.
Головна здатність Rubin GPU — це те, що одна GPU може виконувати більше завдань одночасно. Вона може обробляти більше логічних задач, запам’ятовувати довші контексти, а комунікація з іншими GPU стала швидшою. Це означає, що багато сценаріїв, які раніше вимагали «багато карт», тепер можна виконувати з меншим числом GPU.
Результат — логічні висновки стали швидшими і значно дешевшими.
Хуанг Ренгчун на сцені повторно оглянув технічні характеристики апаратного забезпечення Rubin NVL72: 220 трильйонів транзисторів, пропускна здатність 260 ТБ/с, — це перша у галузі платформа для секретних обчислень у масштабі стійки.
Загалом, у порівнянні з Blackwell, Rubin GPU демонструє міжпоколінний прорив за ключовими показниками: продуктивність логічних висновків NVFP4 зросла до 50 PFLOPS (у 5 разів), тренувальна продуктивність — до 35 PFLOPS (у 3,5 рази), пропускна здатність HBM4 пам’яті — до 22 ТБ/с (у 2,8 рази), швидкість NVLink між GPU — удвічі до 3,6 ТБ/с.
Ці покращення разом дозволяють одній GPU виконувати більше логічних задач і обробляти довгі контексти, що суттєво зменшує залежність від кількості GPU.
Vera CPU — це ключовий компонент, спеціально розроблений для переміщення даних і обробки агентних задач. Вона має 88 ядер власної розробки NVIDIA Olympus і 1,5 ТБ системної пам’яті (у 3 рази більше за попередній процесор Grace), забезпечує єдину пам’ять між CPU і GPU за допомогою NVLink-C2C зі швидкістю 1,8 ТБ/с.
На відміну від звичайних універсальних CPU, Vera зосереджена на сценаріях логічних висновків у AI, обробці багатоступеневих логічних процесів, фактично виступаючи системним координатором для ефективної роботи «більше думати».
NVLink 6 із пропускною здатністю 3,6 ТБ/с і мережею для обчислень дозволяє 72 GPU архітектури Rubin працювати як один суперGPU — це ключова інфраструктура для зниження вартості логічних висновків.
Завдяки цьому дані і проміжні результати, необхідні для логічних висновків, швидко передаються між GPU без зайвих очікувань, копіювань або повторних обчислень.
У архітектурі Rubin NVLink-6 відповідає за внутрішню координацію GPU, BlueField-4 — за управління контекстами і даними, а ConnectX-9 — за високошвидкісне зовнішнє мережеве з’єднання. Це забезпечує ефективну комунікацію системи Rubin з іншими стійками, дата-центрами і хмарами, що є передумовою для масштабних тренувань і логічних висновків.
Порівняно з попередньою генерацією, NVIDIA наводить конкретні дані: у порівнянні з платформою NVIDIA Blackwell, можна знизити вартість токенів під час логічних висновків у 10 разів і зменшити кількість GPU для гібридних MoE моделей у 4 рази.
Офіційно NVIDIA повідомляє, що Microsoft вже пообіцяла розгорнути сотні тисяч чипів Vera Rubin у своєму новому суперкомп’ютері Fairwater AI, а CoreWeave та інші хмарні провайдери планують у другій половині 2026 року запропонувати Rubin-інстанси. Ця інфраструктура «більше думати» вже переходить від демонстраційних технологій до масштабного комерційного застосування.
02 Як подолати «бутліку сховища»?
Ще одним ключовим викликом для AI, щоб «більше думати», є питання зберігання контекстних даних: де їх розміщувати?
Коли AI виконує складні завдання з багатократними діалогами і багатоступеневими логічними висновками, воно генерує велику кількість контекстних даних (KV Cache). Традиційні архітектури або зберігають їх у дорогій і обмеженій у обсязі пам’яті GPU, або в звичайних сховищах (занадто повільно). Якщо цю «бутліку сховища» не подолати, навіть найпотужніший GPU буде обмежений.
У відповідь на цю проблему NVIDIA вперше на CES повністю розкрила платформу для зберігання контекстних даних — Inference Context Memory Storage Platform, яку керує BlueField-4. Головна мета — створити «третій рівень» між пам’яттю GPU і традиційним сховищем. Він має бути швидким, з достатнім обсягом і здатним підтримувати довготривалу роботу AI.
З технічної точки зору ця платформа — не один компонент, а результат спільного проектування:
BlueField-4 відповідає за прискорення управління і доступу до контекстних даних на апаратному рівні, зменшуючи переміщення даних і системні накладні витрати;
Spectrum-X Ethernet забезпечує високопродуктивну мережу для швидкого обміну даними на основі RDMA;
Програмні компоненти DOCA, NIXL і Dynamo оптимізують планування, зменшують затримки і підвищують загальну пропускну здатність системи.
Можна зрозуміти так: ця платформа розширює можливості зберігання контекстних даних, які раніше можна було тримати лише у пам’яті GPU, у незалежний, швидкий і спільний «шар пам’яті». Це знімає навантаження з GPU і одночасно дозволяє швидко ділитися цими даними між кількома вузлами і агентами AI.
За словами NVIDIA, у конкретних сценаріях ця технологія може підвищити швидкість обробки токенів у 5 разів і забезпечити таку ж або кращу енергоефективність.
Хуанг Ренгчун багато разів підкреслював, що AI поступово перетворюється з «одноразового чат-бота» у справжнього інтелектуального співробітника: він має розуміти реальний світ, постійно логічно мислити, викликати інструменти для виконання завдань і зберігати короткострокову і довгострокову пам’ять. Це і є ядро Agentic AI. Платформа для зберігання логічних контекстів — саме для такого довготривалого і багаторазового мислення AI — розроблена для розширення контексту, прискорення обміну між вузлами і забезпечення стабільної роботи багатократних діалогів і колективних агентів, щоб вони не «застрягали» і не «знижували швидкість».
03 Нове покоління DGX SuperPOD: 576 GPU у спільній роботі
На цьому CES NVIDIA оголосила про запуск нового покоління DGX SuperPOD на базі архітектури Rubin, яке розширює Rubin з одного стійкового рішення до повного дата-центру.
Що таке DGX SuperPOD?
Якщо Rubin NVL72 — це «суперстійка» з 72 GPU, то DGX SuperPOD — це з’єднання кількох таких стійок у один великий кластер AI. Новий варіант складається з 8 стійок Vera Rubin NVL72, що разом дає 576 GPU у спільній роботі.
Зі зростанням масштабів завдань, одного стійкового рішення з 576 GPU може бути недостатньо. Наприклад, для тренування дуже великих моделей, одночасної роботи сотень Agentic AI або обробки складних завдань з мільйонами токенів контексту. Тому потрібні кілька стійок у спільній роботі, і саме для таких сценаріїв створено стандартне рішення — DGX SuperPOD.
Для компаній і хмарних провайдерів DGX SuperPOD пропонує «готову до використання» масштабну інфраструктуру AI. Не потрібно самостійно вирішувати, як з’єднати сотні GPU, налаштувати мережу або керувати сховищами.
П’ять ключових компонентів нового DGX SuperPOD:
○ 8 стійок Vera Rubin NVL72 — основа обчислювальної потужності, кожна з 72 GPU, всього 576 GPU;
○ NVLink 6 — розширена мережа, що дозволяє цим 8 стійкам працювати як один суперGPU;
○ Spectrum-X Ethernet — для з’єднання різних SuperPOD і підключення до сховищ і зовнішніх мереж;
○ Платформа зберігання контекстних даних — для довготривалих логічних задач;
○ Програмне забезпечення NVIDIA Mission Control — для управління системою, моніторингу і оптимізації.
Ця модернізація базується на системі DGX Vera Rubin NVL72. Кожна така стійка — це цілком самостійний суперкомп’ютер для AI, з’єднаний через NVLink 6, здатний виконувати масштабні логічні і тренувальні задачі. Новий DGX SuperPOD — це кілька таких стійок у системному кластері для довготривалої роботи.
З розширенням обчислювальної потужності з одного стійкового рішення до багатостійкового виникає нове питання: як стабільно і ефективно передавати величезні обсяги даних між стійками? У відповідь NVIDIA одночасно з цим оголосила новий комутатор Ethernet на базі Spectrum-6 і вперше представила технологію «спільного пакування оптики» (CPO).
Простими словами, це — інтеграція оптичних модулів безпосередньо у комутатор, що зменшує довжину сигналу з кількох метрів до кількох міліметрів, знижуючи енергоспоживання і затримки, а також підвищуючи стабільність системи.
04 Відкриття AI «повного набору»: від даних до коду
На цьому CES Хуанг Ренгчун оголосив про розширення екосистеми відкритих моделей (Open Model Universe), додавши і оновивши низку моделей, датасетів, кодових бібліотек і інструментів. Ця екосистема охоплює шість основних галузей: біомедичний AI (Clara), фізичне моделювання AI (Earth-2), Agentic AI (Nemotron), фізичний AI (Cosmos), роботи (GR00T) і автопілот (Alpamayo).
Навчання моделі AI вимагає не лише обчислювальних ресурсів, а й високоякісних датасетів, попередньо натренованих моделей, коду для тренування, інструментів оцінки тощо. Для більшості компаній і дослідницьких інститутів створення всього цього з нуля — дуже витратна і тривала справа.
Конкретно NVIDIA відкрила шість рівнів контенту: платформи обчислень (DGX, HGX тощо), галузеві датасети, попередньо натреновані базові моделі, кодові бібліотеки для логічних висновків і тренувань, повний сценарій тренування і шаблони рішень.
Особливий акцент зроблено на Nemotron, який охоплює чотири напрямки застосувань.
У логічних висновках — Nemotron 3 Nano, Nemotron 2 Nano VL та інші малі моделі для логічних висновків, а також інструменти для навчання з підсиленням (NeMo RL, NeMo Gym). У напрямку RAG (Retrieval-Augmented Generation) — Nemotron Embed VL (векторне вбудовування), Nemotron Rerank VL (перестановка), датасети і бібліотеки NeMo Retriever. У сфері безпеки — Nemotron Content Safety і відповідні датасети, NeMo Guardrails.
У голосовій сфері — Nemotron ASR (автоматичне розпізнавання мови), датасет Granary і бібліотеки NeMo для обробки голосу. Це означає, що компанії, які хочуть створити AI-сервіс з RAG, можуть використовувати вже натреновані і відкриті NVIDIA моделі без необхідності самостійно тренувати embed і rerank моделі.
05 Фізичний AI: шлях до комерційної реалізації
У фізичному AI також відбулися оновлення моделей — Cosmos для розуміння і генерації відео фізичного світу, універсальні базові моделі робототехніки Isaac GR00T, візуально-мовно-дійова модель для автопілота Alpamayo.
Хуанг Ренгчун заявив, що «момент ChatGPT» у фізичному AI вже близький, але є багато викликів: фізичний світ дуже складний і мінливий, збір реальних даних — повільний і дорогий, і їх все одно не вистачає.
Що робити? Один із шляхів — синтетичні дані. Тому NVIDIA представила Cosmos.
Це відкритий базовий модельний світ фізичного AI, вже натренований на величезних обсягах відео, реальних даних з автопілота і робототехніки, а також 3D-симуляцій. Вона може розуміти, як працює світ, і зв’язувати мову, зображення, 3D і дії.
Хуанг Ренгчун зазначив, що Cosmos здатен реалізувати багато навичок фізичного AI, наприклад, генерувати контент, робити логічні висновки, прогнозувати траєкторії (навіть за однією зображенням). Вона може створювати реалістичне відео з 3D-сцен, генерувати фізично коректний рух за даними автопілота, а також створювати панорамне відео з симуляторів, багатокамерних знімків або текстових описів. Навіть рідкісні сцени можна відтворити.
Хуанг Ренгчун також офіційно представив Alpamayo. Це відкритий інструментарій для автопілота, перша у світі модель для логічного виведення (VLA). На відміну від попередніх відкритих кодів, NVIDIA відкрила повний набір ресурсів — від даних до розгортання.
Головна особливість Alpamayo — це «логічний» автопілот. Традиційні системи автопілота — це «система сприйняття — планування — керування», яка реагує на червоний сигнал світлофора або пішоходів, дотримуючись правил. Alpamayo ж має здатність до логічних висновків: розуміти причинно-наслідкові зв’язки у складних сценаріях, передбачати наміри інших автомобілів і пішоходів, а також ухвалювати рішення, що вимагають багатоступеневого мислення.
Наприклад, на перехресті вона не просто визначає «передо мною машина», а може зробити висновок: «Ця машина, ймовірно, повертає наліво, тому мені краще почекати, щоб вона проїхала». Така здатність підвищує рівень автопілота з «дотримання правил» до «мислення, як людина».
Хуанг Ренгчун оголосив, що система NVIDIA DRIVE офіційно вийшла на серійне виробництво, і перший застосунок — новий Mercedes-Benz CLA, який планується запустити в США у 2026 році. Ця модель матиме систему автопілота рівня L2++ і використовуватиме гібридну архітектуру «енд-ту-енд AI + традиційна лінійка».
У сфері робототехніки також є суттєві досягнення.
Хуанг Ренгчун повідомив, що провідні світові компанії, такі як Boston Dynamics, Franka Robotics, LEM Surgical, LG Electronics, Neura Robotics і XRlabs, вже розробляють продукти на базі платформи NVIDIA Isaac і базової моделі GR00T, охоплюючи сфери промислових роботів, хірургічних роботів, гуманоїдних і побутових роботів.
На сцені за спиною Хуанга стояли різноманітні роботи — від гуманоїдів і двоногих або колісних сервісних роботів до промислових маніпуляторів, будівельної техніки, безпілотників і медичних пристроїв. Це створювало образ «екосистеми роботів».
Від фізичного AI і RubinAI до платформи логічних контекстів і відкритого AI «повного набору».
Ці дії NVIDIA у CES формують її наратив щодо інфраструктури AI у епоху логічних висновків. Як неодноразово підкреслював Хуанг Ренгчун, коли фізичний AI потребує постійного мислення, довготривалої роботи і реального застосування у світі, питання вже не лише у потужності, а у тому, хто зможе побудувати цю систему.
На CES 2026 NVIDIA вже дала відповідь.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
黃仁勳 CES2026 остання промова: три ключові теми, один «чіповий монстр»
Автор: Лі Хайлунь Су Ян
Китайський стандартний час 6 січня, генеральний директор NVIDIA Хуанг Ренгчун знову з’явився на головній сцені CES2026 у своїй фірмовій шкіряній куртці.
На CES 2025 NVIDIA продемонструвала серійний чип Blackwell та повний стек фізичних AI-технологій. На заході Хуанг Ренгчун підкреслив, що відкривається ера «фізичного AI». Він намалював уявне майбутнє: автомобілі з автопілотом матимуть здатність до логічних висновків, роботи зможуть розуміти та мислити, а AIAgent (інтелектуальний агент) зможе обробляти довгі контексти з мільйонами токенів.
Минув рік, і індустрія AI зазнала значних змін і еволюції. Під час огляду змін за цей рік Хуанг Ренгчун особливо зупинився на відкритих моделях.
Він сказав, що відкриті моделі для логічних висновків, такі як DeepSeek R1, змусили всю галузь усвідомити: коли відкритий і глобальний колабораційний процес справді запускається, швидкість поширення AI буде дуже високою. Хоча відкриті моделі в цілому ще поступаються найпередовішим моделям приблизно на півроку, але кожні півроку вони наздоганяють їх, а кількість завантажень і використання вже стрімко зростає.
На відміну від 2025 року, коли більше демонстрували бачення і можливості, цього разу NVIDIA систематично прагне вирішити питання «як це зробити»: навколо логічного AI вони прагнуть забезпечити необхідну обчислювальну потужність, мережеву та сховищну інфраструктуру для довготривалого функціонування, значно знизити вартість логічних висновків і безпосередньо інтегрувати ці можливості у реальні сценарії, такі як автопілот і роботи.
У своєму виступі на CES Хуанг Ренгчун виділив три основні напрями:
● На рівні систем і інфраструктури NVIDIA перебудувала архітектуру обчислювальних ресурсів, мереж і сховищ для довготривалих логічних потреб. В центрі — платформи Rubin, NVLink 6, Spectrum-X Ethernet і платформа внутрішньої пам’яті для логічних контекстів, які спрямовані на подолання вузьких місць у високій вартості логічних висновків, труднощах з підтримкою довгих контекстів і масштабованістю, вирішуючи проблеми «більше думати», «дешевше обчислювати» і «довше працювати».
● На рівні моделей NVIDIA робить логічний AI (Reasoning / Agentic AI) центральним. За допомогою моделей і інструментів Alpamayo, Nemotron, Cosmos Reason тощо вони просувають AI від «генерації контенту» до здатності постійно мислити, перетворюючи його з «одноразової відповіді» у «інтелектуального агента, що працює довго».
● На рівні застосувань і впровадження ці можливості безпосередньо інтегруються у реальні сценарії, такі як автопілот і роботи. Наприклад, система автопілота на базі Alpamayo або екосистема роботів GR00T і Jetson — все це у співпраці з хмарними провайдерами і корпоративними платформами для масштабного розгортання.
01 Від дорожньої карти до масового виробництва: перше повне розкриття характеристик Rubin
На цьому CES NVIDIA вперше повністю розкрила технічні деталі архітектури Rubin.
У виступі Хуанг Ренгчун почав з концепції Test-time Scaling (масштабування під час тестування), яку можна зрозуміти так: щоб AI став розумнішим, потрібно не просто «змушувати його більше читати», а давати йому більше часу для роздумів у момент застосування.
Раніше покращення AI здебільшого залежало від збільшення обчислювальних ресурсів під час тренування — робили модель більшою і більшою; тепер ж новий підхід полягає в тому, що навіть без збільшення розміру моделі, якщо під час кожного застосування давати їй більше часу і обчислювальних ресурсів для роздумів, результати стають значно кращими.
Як зробити «більше думати» економічно вигідним? Нове покоління AI-обчислювальної платформи Rubin створене саме для цього.
Хуанг Ренгчун повідомив, що це цілісна система наступного покоління AI, яка за допомогою Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4 і Spectrum-6 у співпраці забезпечує революційне зниження вартості логічних висновків.
Rubin GPU — це основний чип для AI-обчислень у архітектурі Rubin, його мета — значно знизити вартість одиниці логічних і тренувальних операцій.
Простіше кажучи, основне завдання Rubin GPU — зробити AI більш економічним і розумним.
Головна здатність Rubin GPU — це те, що одна GPU може виконувати більше завдань одночасно. Вона може обробляти більше логічних задач, запам’ятовувати довші контексти, а комунікація з іншими GPU стала швидшою. Це означає, що багато сценаріїв, які раніше вимагали «багато карт», тепер можна виконувати з меншим числом GPU.
Результат — логічні висновки стали швидшими і значно дешевшими.
Хуанг Ренгчун на сцені повторно оглянув технічні характеристики апаратного забезпечення Rubin NVL72: 220 трильйонів транзисторів, пропускна здатність 260 ТБ/с, — це перша у галузі платформа для секретних обчислень у масштабі стійки.
Загалом, у порівнянні з Blackwell, Rubin GPU демонструє міжпоколінний прорив за ключовими показниками: продуктивність логічних висновків NVFP4 зросла до 50 PFLOPS (у 5 разів), тренувальна продуктивність — до 35 PFLOPS (у 3,5 рази), пропускна здатність HBM4 пам’яті — до 22 ТБ/с (у 2,8 рази), швидкість NVLink між GPU — удвічі до 3,6 ТБ/с.
Ці покращення разом дозволяють одній GPU виконувати більше логічних задач і обробляти довгі контексти, що суттєво зменшує залежність від кількості GPU.
Vera CPU — це ключовий компонент, спеціально розроблений для переміщення даних і обробки агентних задач. Вона має 88 ядер власної розробки NVIDIA Olympus і 1,5 ТБ системної пам’яті (у 3 рази більше за попередній процесор Grace), забезпечує єдину пам’ять між CPU і GPU за допомогою NVLink-C2C зі швидкістю 1,8 ТБ/с.
На відміну від звичайних універсальних CPU, Vera зосереджена на сценаріях логічних висновків у AI, обробці багатоступеневих логічних процесів, фактично виступаючи системним координатором для ефективної роботи «більше думати».
NVLink 6 із пропускною здатністю 3,6 ТБ/с і мережею для обчислень дозволяє 72 GPU архітектури Rubin працювати як один суперGPU — це ключова інфраструктура для зниження вартості логічних висновків.
Завдяки цьому дані і проміжні результати, необхідні для логічних висновків, швидко передаються між GPU без зайвих очікувань, копіювань або повторних обчислень.
У архітектурі Rubin NVLink-6 відповідає за внутрішню координацію GPU, BlueField-4 — за управління контекстами і даними, а ConnectX-9 — за високошвидкісне зовнішнє мережеве з’єднання. Це забезпечує ефективну комунікацію системи Rubin з іншими стійками, дата-центрами і хмарами, що є передумовою для масштабних тренувань і логічних висновків.
Порівняно з попередньою генерацією, NVIDIA наводить конкретні дані: у порівнянні з платформою NVIDIA Blackwell, можна знизити вартість токенів під час логічних висновків у 10 разів і зменшити кількість GPU для гібридних MoE моделей у 4 рази.
Офіційно NVIDIA повідомляє, що Microsoft вже пообіцяла розгорнути сотні тисяч чипів Vera Rubin у своєму новому суперкомп’ютері Fairwater AI, а CoreWeave та інші хмарні провайдери планують у другій половині 2026 року запропонувати Rubin-інстанси. Ця інфраструктура «більше думати» вже переходить від демонстраційних технологій до масштабного комерційного застосування.
02 Як подолати «бутліку сховища»?
Ще одним ключовим викликом для AI, щоб «більше думати», є питання зберігання контекстних даних: де їх розміщувати?
Коли AI виконує складні завдання з багатократними діалогами і багатоступеневими логічними висновками, воно генерує велику кількість контекстних даних (KV Cache). Традиційні архітектури або зберігають їх у дорогій і обмеженій у обсязі пам’яті GPU, або в звичайних сховищах (занадто повільно). Якщо цю «бутліку сховища» не подолати, навіть найпотужніший GPU буде обмежений.
У відповідь на цю проблему NVIDIA вперше на CES повністю розкрила платформу для зберігання контекстних даних — Inference Context Memory Storage Platform, яку керує BlueField-4. Головна мета — створити «третій рівень» між пам’яттю GPU і традиційним сховищем. Він має бути швидким, з достатнім обсягом і здатним підтримувати довготривалу роботу AI.
З технічної точки зору ця платформа — не один компонент, а результат спільного проектування:
BlueField-4 відповідає за прискорення управління і доступу до контекстних даних на апаратному рівні, зменшуючи переміщення даних і системні накладні витрати;
Spectrum-X Ethernet забезпечує високопродуктивну мережу для швидкого обміну даними на основі RDMA;
Програмні компоненти DOCA, NIXL і Dynamo оптимізують планування, зменшують затримки і підвищують загальну пропускну здатність системи.
Можна зрозуміти так: ця платформа розширює можливості зберігання контекстних даних, які раніше можна було тримати лише у пам’яті GPU, у незалежний, швидкий і спільний «шар пам’яті». Це знімає навантаження з GPU і одночасно дозволяє швидко ділитися цими даними між кількома вузлами і агентами AI.
За словами NVIDIA, у конкретних сценаріях ця технологія може підвищити швидкість обробки токенів у 5 разів і забезпечити таку ж або кращу енергоефективність.
Хуанг Ренгчун багато разів підкреслював, що AI поступово перетворюється з «одноразового чат-бота» у справжнього інтелектуального співробітника: він має розуміти реальний світ, постійно логічно мислити, викликати інструменти для виконання завдань і зберігати короткострокову і довгострокову пам’ять. Це і є ядро Agentic AI. Платформа для зберігання логічних контекстів — саме для такого довготривалого і багаторазового мислення AI — розроблена для розширення контексту, прискорення обміну між вузлами і забезпечення стабільної роботи багатократних діалогів і колективних агентів, щоб вони не «застрягали» і не «знижували швидкість».
03 Нове покоління DGX SuperPOD: 576 GPU у спільній роботі
На цьому CES NVIDIA оголосила про запуск нового покоління DGX SuperPOD на базі архітектури Rubin, яке розширює Rubin з одного стійкового рішення до повного дата-центру.
Що таке DGX SuperPOD?
Якщо Rubin NVL72 — це «суперстійка» з 72 GPU, то DGX SuperPOD — це з’єднання кількох таких стійок у один великий кластер AI. Новий варіант складається з 8 стійок Vera Rubin NVL72, що разом дає 576 GPU у спільній роботі.
Зі зростанням масштабів завдань, одного стійкового рішення з 576 GPU може бути недостатньо. Наприклад, для тренування дуже великих моделей, одночасної роботи сотень Agentic AI або обробки складних завдань з мільйонами токенів контексту. Тому потрібні кілька стійок у спільній роботі, і саме для таких сценаріїв створено стандартне рішення — DGX SuperPOD.
Для компаній і хмарних провайдерів DGX SuperPOD пропонує «готову до використання» масштабну інфраструктуру AI. Не потрібно самостійно вирішувати, як з’єднати сотні GPU, налаштувати мережу або керувати сховищами.
П’ять ключових компонентів нового DGX SuperPOD:
○ 8 стійок Vera Rubin NVL72 — основа обчислювальної потужності, кожна з 72 GPU, всього 576 GPU;
○ NVLink 6 — розширена мережа, що дозволяє цим 8 стійкам працювати як один суперGPU;
○ Spectrum-X Ethernet — для з’єднання різних SuperPOD і підключення до сховищ і зовнішніх мереж;
○ Платформа зберігання контекстних даних — для довготривалих логічних задач;
○ Програмне забезпечення NVIDIA Mission Control — для управління системою, моніторингу і оптимізації.
Ця модернізація базується на системі DGX Vera Rubin NVL72. Кожна така стійка — це цілком самостійний суперкомп’ютер для AI, з’єднаний через NVLink 6, здатний виконувати масштабні логічні і тренувальні задачі. Новий DGX SuperPOD — це кілька таких стійок у системному кластері для довготривалої роботи.
З розширенням обчислювальної потужності з одного стійкового рішення до багатостійкового виникає нове питання: як стабільно і ефективно передавати величезні обсяги даних між стійками? У відповідь NVIDIA одночасно з цим оголосила новий комутатор Ethernet на базі Spectrum-6 і вперше представила технологію «спільного пакування оптики» (CPO).
Простими словами, це — інтеграція оптичних модулів безпосередньо у комутатор, що зменшує довжину сигналу з кількох метрів до кількох міліметрів, знижуючи енергоспоживання і затримки, а також підвищуючи стабільність системи.
04 Відкриття AI «повного набору»: від даних до коду
На цьому CES Хуанг Ренгчун оголосив про розширення екосистеми відкритих моделей (Open Model Universe), додавши і оновивши низку моделей, датасетів, кодових бібліотек і інструментів. Ця екосистема охоплює шість основних галузей: біомедичний AI (Clara), фізичне моделювання AI (Earth-2), Agentic AI (Nemotron), фізичний AI (Cosmos), роботи (GR00T) і автопілот (Alpamayo).
Навчання моделі AI вимагає не лише обчислювальних ресурсів, а й високоякісних датасетів, попередньо натренованих моделей, коду для тренування, інструментів оцінки тощо. Для більшості компаній і дослідницьких інститутів створення всього цього з нуля — дуже витратна і тривала справа.
Конкретно NVIDIA відкрила шість рівнів контенту: платформи обчислень (DGX, HGX тощо), галузеві датасети, попередньо натреновані базові моделі, кодові бібліотеки для логічних висновків і тренувань, повний сценарій тренування і шаблони рішень.
Особливий акцент зроблено на Nemotron, який охоплює чотири напрямки застосувань.
У логічних висновках — Nemotron 3 Nano, Nemotron 2 Nano VL та інші малі моделі для логічних висновків, а також інструменти для навчання з підсиленням (NeMo RL, NeMo Gym). У напрямку RAG (Retrieval-Augmented Generation) — Nemotron Embed VL (векторне вбудовування), Nemotron Rerank VL (перестановка), датасети і бібліотеки NeMo Retriever. У сфері безпеки — Nemotron Content Safety і відповідні датасети, NeMo Guardrails.
У голосовій сфері — Nemotron ASR (автоматичне розпізнавання мови), датасет Granary і бібліотеки NeMo для обробки голосу. Це означає, що компанії, які хочуть створити AI-сервіс з RAG, можуть використовувати вже натреновані і відкриті NVIDIA моделі без необхідності самостійно тренувати embed і rerank моделі.
05 Фізичний AI: шлях до комерційної реалізації
У фізичному AI також відбулися оновлення моделей — Cosmos для розуміння і генерації відео фізичного світу, універсальні базові моделі робототехніки Isaac GR00T, візуально-мовно-дійова модель для автопілота Alpamayo.
Хуанг Ренгчун заявив, що «момент ChatGPT» у фізичному AI вже близький, але є багато викликів: фізичний світ дуже складний і мінливий, збір реальних даних — повільний і дорогий, і їх все одно не вистачає.
Що робити? Один із шляхів — синтетичні дані. Тому NVIDIA представила Cosmos.
Це відкритий базовий модельний світ фізичного AI, вже натренований на величезних обсягах відео, реальних даних з автопілота і робототехніки, а також 3D-симуляцій. Вона може розуміти, як працює світ, і зв’язувати мову, зображення, 3D і дії.
Хуанг Ренгчун зазначив, що Cosmos здатен реалізувати багато навичок фізичного AI, наприклад, генерувати контент, робити логічні висновки, прогнозувати траєкторії (навіть за однією зображенням). Вона може створювати реалістичне відео з 3D-сцен, генерувати фізично коректний рух за даними автопілота, а також створювати панорамне відео з симуляторів, багатокамерних знімків або текстових описів. Навіть рідкісні сцени можна відтворити.
Хуанг Ренгчун також офіційно представив Alpamayo. Це відкритий інструментарій для автопілота, перша у світі модель для логічного виведення (VLA). На відміну від попередніх відкритих кодів, NVIDIA відкрила повний набір ресурсів — від даних до розгортання.
Головна особливість Alpamayo — це «логічний» автопілот. Традиційні системи автопілота — це «система сприйняття — планування — керування», яка реагує на червоний сигнал світлофора або пішоходів, дотримуючись правил. Alpamayo ж має здатність до логічних висновків: розуміти причинно-наслідкові зв’язки у складних сценаріях, передбачати наміри інших автомобілів і пішоходів, а також ухвалювати рішення, що вимагають багатоступеневого мислення.
Наприклад, на перехресті вона не просто визначає «передо мною машина», а може зробити висновок: «Ця машина, ймовірно, повертає наліво, тому мені краще почекати, щоб вона проїхала». Така здатність підвищує рівень автопілота з «дотримання правил» до «мислення, як людина».
Хуанг Ренгчун оголосив, що система NVIDIA DRIVE офіційно вийшла на серійне виробництво, і перший застосунок — новий Mercedes-Benz CLA, який планується запустити в США у 2026 році. Ця модель матиме систему автопілота рівня L2++ і використовуватиме гібридну архітектуру «енд-ту-енд AI + традиційна лінійка».
У сфері робототехніки також є суттєві досягнення.
Хуанг Ренгчун повідомив, що провідні світові компанії, такі як Boston Dynamics, Franka Robotics, LEM Surgical, LG Electronics, Neura Robotics і XRlabs, вже розробляють продукти на базі платформи NVIDIA Isaac і базової моделі GR00T, охоплюючи сфери промислових роботів, хірургічних роботів, гуманоїдних і побутових роботів.
На сцені за спиною Хуанга стояли різноманітні роботи — від гуманоїдів і двоногих або колісних сервісних роботів до промислових маніпуляторів, будівельної техніки, безпілотників і медичних пристроїв. Це створювало образ «екосистеми роботів».
Від фізичного AI і RubinAI до платформи логічних контекстів і відкритого AI «повного набору».
Ці дії NVIDIA у CES формують її наратив щодо інфраструктури AI у епоху логічних висновків. Як неодноразово підкреслював Хуанг Ренгчун, коли фізичний AI потребує постійного мислення, довготривалої роботи і реального застосування у світі, питання вже не лише у потужності, а у тому, хто зможе побудувати цю систему.
На CES 2026 NVIDIA вже дала відповідь.