Скануйте, щоб завантажити додаток Gate
qrCode
Більше варіантів завантаження
Не нагадувати сьогодні

Гамбіт відкритого вихідного коду штучного інтелекту Америки: дві лабораторії, одне питання — чи може США конкурувати?

image

Джерело: CryptoNewsNet Оригінальна назва: Гамбіт відкритого програмного забезпечення ШІ США: дві лабораторії, одне питання — чи може США конкурувати? Оригінальне посилання: Дві американські лабораторії штучного інтелекту цього тижня представили моделі з відкритим кодом, кожна з яких обрала кардинально різні підходи до однієї і тієї ж проблеми: як змагатися з домінуванням Китаю у відкритих системах штучного інтелекту.

Deep Cogito випустив Cogito v2.1, величезну модель з 671 мільярда параметрів, яку її засновник, Дрішан Арора, називає “найкращою моделлю з відкритими вагами LLM від компанії США.”

Не так швидко, заперечив Інститут Аллена для штучного інтелекту, який щойно випустив Olmo 3, заявивши, що це “найкраща повністю відкрита базова модель”. Olmo 3 хвалиться повною прозорістю, включаючи свої навчальні дані та код.

Іронічно, що флагманська модель Deep Cognito побудована на китайському фундаменті. Арора підтвердив, що Cogito v2.1 “відгалужується від відкритої ліцензії моделі бази Deepseek з листопада 2024 року.”

Це викликало критику та дебати щодо того, чи вважається тонка налаштування китайської моделі досягненням американського штучного інтелекту, чи це просто доводить, як далеко американські лабораторії відстали.

Незалежно від цього, підвищення ефективності, які показує Cogito у порівнянні з DeepSeek, є реальними.

Deep Cognito стверджує, що Cogito v2.1 виробляє на 60% коротші ланцюги міркувань, ніж DeepSeek R1, зберігаючи при цьому конкурентоспроможну продуктивність.

Використовуючи те, що Арора називає “Ітераційною дистиляцією та підсиленням” — навчання моделей для розвитку кращої інтуїції через цикли самовдосконалення — стартап навчав свою модель всього за 75 днів на інфраструктурі від RunPod та Nebius.

Якщо орієнтири вірні, це буде найпотужніша відкрита LLM, яка в даний час підтримується командою з США.

Чому це важливо

Досі Китай задає темп у відкритому штучному інтелекті, а компанії США все більше покладаються — тихо чи відкрито — на китайські базові моделі, щоб залишатися конкурентоспроможними.

Ця динаміка є ризикованою. Якщо китайські лабораторії стануть стандартною інфраструктурою для відкритого ШІ по всьому світу, стартапи США втрачають технічну незалежність, можливості для ведення переговорів та здатність формувати галузеві стандарти.

Відкрита вага ШІ визначає, хто контролює сирі моделі, від яких залежать всі продукти нижнього рівня.

Зараз китайські моделі з відкритим вихідним кодом (DeepSeek, Qwen, Kimi, MiniMax) домінують у глобальному впровадженні, оскільки вони дешеві, швидкі, високоефективні та постійно оновлюються.

Багато стартапів США вже будують на них, навіть коли публічно уникають визнання цього.

Це означає, що американські компанії будують бізнес на основі іноземної інтелектуальної власності, іноземних навчальних програм і іноземних апаратних оптимізацій. Стратегічно це ставить Америку в таку ж позицію, з якою вона раніше стикалася у виготовленні напівпровідників: все більше залежною від ланцюга постачання когось іншого.

Підхід Deep Cogito, який починається з DeepSeek fork, демонструє переваги (швидкої ітерації) та недоліки (залежності).

Підхід Інституту Аллена—створення Olmo 3 з повною прозорістю—показує альтернативу: якщо США хочуть відкритого лідерства в AI, їм потрібно відновити стек самостійно, від даних до рецептів навчання та контрольних точок. Це трудомісткий і повільний процес, але він зберігає суверенітет над основними технологіями.

В теорії, якщо вам вже подобається DeepSeek і ви використовуєте його онлайн, Cogito в більшості випадків дасть вам кращі відповіді. Якщо ви використовуєте його через API, ви будете вдвічі щасливішими, оскільки будете платити менше грошей за отримання хороших відповідей завдяки його ефективності.

Інститут Аллена обрав протилежний підхід. Уся сім'я моделей Olmo 3 постачається з Dolma 3, навчальним набором даних, що складає 5.9 трильйона токенів, створеним з нуля, а також повним кодом, рецептами та контрольними точками з кожного етапу навчання.

Некомерційна організація випустила три моделі—Base, Think та Instruct—з 7 мільярдами та 32 мільярдами параметрів.

“Справжня відкритість у ШІ полягає не лише в доступі — це довіра, відповідальність та спільний прогрес,” - йдеться в повідомленні інституту.

Olmo 3-Think 32B є першим повністю відкритим логічним моделлю такого масштабу, навченою на приблизно одній шостій токенів порівнянних моделей, таких як Qwen 3, досягаючи при цьому конкурентоспроможних результатів.

Deep Cognito забезпечив $13 мільйон доларів у стартовому фінансуванні, яке очолила Benchmark у серпні. Стартап планує випустити фронтові моделі до 671 мільярда параметрів, натреновані на “значно більшій обчислювальній потужності з кращими наборами даних.”

Тим часом Nvidia підтримала розвиток Olmo 3, при цьому віце-президент Кері Бріскі назвала його важливим для “розробників, щоб масштабувати ШІ за допомогою відкритих, побудованих у США моделей.”

Інститут навчався на GPU-кластерах H100 Google Cloud, досягнувши в 2.5 рази менших вимог до обчислень, ніж Llama 3.1 8B від Meta.

Cogito v2.1 доступний для безкоштовного онлайн-тестування. Модель можна завантажити, але будьте обережні: для її запуску потрібна дуже потужна карта.

Olmo доступний для тестування. Моделі можна завантажити. Ці моделі є більш зручними для споживачів, залежно від того, яку ви виберете.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити