DeepSeek makalah baru: Bagaimana arsitektur super koneksi dengan kendala manifold mengatasi tantangan pelatihan jaringan dalam yang mendalam

【链文】DeepSeek baru-baru ini merilis makalah baru yang menarik perhatian komunitas teknologi. Mereka mengusulkan sebuah arsitektur baru bernama Manifold-Constrained Hyper-Connection (mHC), yang tujuannya sangat langsung—mengatasi dua masalah utama dari teknologi Hyper-Connection (HC) yang ada saat ini: ketidakstabilan pelatihan dan keterbatasan skalabilitas.

Akar masalahnya terletak pada fakta bahwa teknologi HC merusak sifat peta identitas. Solusi dari DeepSeek adalah memetakan ruang residual HC ke manifold tertentu, sehingga sifat peta identitas dapat dipulihkan. Kedengarannya agak abstrak, tetapi intinya adalah menggunakan pemetaan matematis yang lebih cerdas agar pelatihan jaringan dalam menjadi lebih stabil dan skalabilitasnya lebih kuat.

Makalah ini juga menggabungkan optimisasi infrastruktur untuk memastikan efisiensi praktis, dan hasil eksperimen menunjukkan peningkatan kinerja yang signifikan serta skalabilitas yang sangat baik. Ini berarti bahwa saat menggunakan struktur jaringan yang lebih dalam, proses pelatihan menjadi lebih terkendali.

DeepSeek berpendapat bahwa mHC adalah perluasan yang fleksibel dan praktis dari teknologi HC. Pekerjaan ini tidak hanya membantu industri memahami lebih dalam tentang desain arsitektur topologi, tetapi juga menunjukkan arah yang sangat menjanjikan untuk evolusi model besar. Makalah ini disusun oleh解振达, 韦毅轩, 曹焕琪, dan 梁文锋 serta lainnya.

Dalam jangka panjang, terobosan dalam infrastruktur semacam ini akan berdampak mendalam pada stabilitas dan skalabilitas model besar.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Posting ulang
  • Bagikan
Komentar
0/400
CantAffordPancakevip
· 01-03 16:48
Ini DeepSeek lagi, dan kali ini benar-benar diluncurkan Dan semua ilmu hitam matematika ini? Terus terang, biarkan pelatihan jaringan tidak menjatuhkan rantai Saya benar-benar tidak mengerti berbagai kendala, tetapi jika data eksperimental terlihat bagus, itu sudah berakhir Apakah jaringan dalam akhirnya stabil untuk pelatihan? Sekarang sekelompok orang akan tersapu sampai mati lagi Tapi sekali lagi, jika skalabilitas benar-benar dapat diselesaikan, aplikasi selanjutnya akan diimplementasikan lebih cepat Makalah ini sangat dapat diandalkan, yang menunjukkan bahwa masih banyak lubang yang harus diisi di lapisan dasar AI Tunggu, seberapa efisien benda ini benar-benar berjalan? Jangan glamor di atas kertas
Lihat AsliBalas0
CryptoPunstervip
· 01-01 16:39
Masalah stabilitas pelatihan jaringan dalam, sejujurnya, DeepSeek lagi pamer keahlian lagi, nama seperti pembatasan manifold pasti terdengar mengesankan, sebenarnya hanya membuat matematika lebih mahir Arsitektur baru terdengar keren, efek sebenarnya harus menunggu pasar untuk membuktikan, bagaimanapun aku dulu tertawa hormat Logika ini sama seperti aku trading koin, teori sempurna, kenyataan hancur, haha DeepSeek kali ini sepertinya sedang membuka jalan untuk pelatihan model besar, jaringan dalam menjadi stabil, kemungkinan munculnya model level monster semakin besar Sejujurnya, jika penelitian dasar semacam ini dilakukan dengan baik, yang diuntungkan tetaplah perusahaan besar, kita para investor ritel hanya bisa makan sisa
Lihat AsliBalas0
DefiOldTrickstervip
· 01-01 10:08
Hei, pembatasan manifold? Bicara begitu rumit, sebenarnya hanya ingin membuat pelatihan jaringan lebih stabil dan berjalan lebih dalam. Kita sudah bertahun-tahun melakukan arbitrase di chain, yang kita tahu hanyalah satu prinsip — solusi yang sederhana dan kasar seringkali paling menguntungkan. Orang-orang dari DeepSeek benar-benar semakin kompetitif.
Lihat AsliBalas0
StakoorNeverSleepsvip
· 01-01 10:08
DeepSeek telah datang dengan trik lagi, kendala beraneka ragam terdengar seperti pencuri, tetapi pada kenyataannya, itu hanya kekacauan menambal HC, dalam analisis terakhir, itu masih merupakan masalah teknik Jika ini benar-benar dapat menstabilkan pelatihan mendalam, Anda harus melihat data eksperimental dengan baik, jangan biarkan kertas terlihat bagus dan benar-benar runtuh Pemulihan Fitur Pemetaan Identitas... Mari kita tunggu umpan balik dari lingkungan produksi sebelum terlambat Makalah Deep semakin tebal, dan benar-benar ada terobosan dalam skalabilitas, yang memang merupakan kabar baik untuk biaya pelatihan model besar Saya harus melihat lebih dekat pada pemetaan matematika, dan saya merasa butuh waktu lama untuk menghubungkan teori dengan praktik
Lihat AsliBalas0
TokenStormvip
· 01-01 10:07
Dari segi teknis terlihat cukup bagus, tetapi apakah optimisasi jaringan mendalam ini benar-benar dapat diubah menjadi nilai token? Bagaimana data backtest-nya, adakah perbandingan throughput yang spesifik? Data on-chain belum ada kabar, kami para investor ritel ini masih akan mengamati dulu, agar tidak menjadi korban penipuan. Tapi kembali lagi, DeepSeek memang berada di pusat badai, orang yang sudah melakukan all-in lebih awal mungkin akan tertawa. Pembatasan manifold terdengar sangat canggih, tetapi seberapa jauh inovasi arsitektur ini dari penerapan nyata? Apakah ada institusi besar yang sudah melakukan arbitrase di bidang ini? Sejujurnya, terobosan teknologi murni sering kali terlalu dipromosikan secara berlebihan, saya sebenarnya bertaruh pada reaksi pasar, bukan pada makalahnya sendiri. Jika biaya penambang mengikuti, saat itulah saatnya saya harus kabur. Kapan data skalabilitas terbaru akan dirilis? Apakah ada perbandingan rinci terhadap solusi pembanding? Ini yang benar-benar saya pedulikan.
Lihat AsliBalas0
SelfMadeRuggeevip
· 01-01 10:07
Oh, ini pembelajaran mendalam lagi, berbagai kendala terdengar menggertak, tetapi mereka benar-benar dapat berjalan --- DeepSeek telah melakukan pekerjaan baru, dan rasanya seperti sedang memperbaiki lubang lama teknologi HC --- Setelah berbicara lama, itu untuk membuat pelatihan lebih stabil, dan seberapa cepat itu benar-benar bisa berjalan? --- Saya tidak mengerti banyak tentang pemetaan isometrik, dan saya merasa bahwa orang yang menulis makalah memperumit hal-hal sederhana --- Skalabilitas yang unggul? Berapa poin persentase lebih cepat dari rencana yang ada, apakah ada tolok ukur? --- Arsitektur "revolusioner" lainnya, menunggu untuk melihat apakah itu dapat digunakan dalam skenario nyata --- Kata batasan manifold terdengar sangat mahal, dan saya tidak tahu berapa biaya untuk menjalankan --- Pengoptimalan algoritma selalu "sangat bagus secara teori, tetapi tergantung pada GPU dalam praktiknya" --- Sepertinya penuh perhatian, tetapi saya merasa bahwa kertas itu penuh dengan bunga, dan detailnya --- Masalah stabilitas pelatihan jaringan dalam telah terpecahkan, jadi bagaimana dengan pekerjaan memori video, solusi ini biasanya memompa angin
Lihat AsliBalas0
GasFeeNightmarevip
· 01-01 09:57
Ini DeepSeek lagi, ngengat macam apa kali ini? Kendala bermacam-macam? Mengucapkan kata-kata manusia adalah untuk mencegah runtuhnya pelatihan jaringan, bagaimanapun, saya tidak memahaminya haha Apakah jaringan dalam lebih stabil, apakah ini membantu penyetelan penambangan? Pemetaan matematika Pemetaan Dapatkah pemetaan secara langsung meningkatkan efisiensi perhitungan biaya gas? DeepSeek sedang membangun model volume lagi, dan kecepatannya benar-benar tidak dapat mengimbangi Saya hanya ingin tahu apakah saya bisa berlari tanpa runtuh pada akhirnya, yang lainnya adalah virtual
Lihat AsliBalas0
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)