DeepSeek nova tese: Como a arquitetura de hiperconexão com restrição de variedades resolve os desafios de treino de redes profundas

【链文】DeepSeek最近发布 da nova publicação chamou a atenção do círculo técnico. Eles propuseram uma nova arquitetura chamada restrição de manifold de hiperconexão (mHC), cujo objetivo principal é bastante direto — resolver dois pontos problemáticos das redes de hiperconexão existentes (HC): instabilidade no treino e escalabilidade limitada.

A raiz do problema está na violação da propriedade de mapeamento de identidade pelas técnicas de HC. A solução da DeepSeek é mapear o espaço de conexões residuais de HC para um determinado manifold, assim podendo recuperar a propriedade de mapeamento de identidade. Parece um pouco abstrato, mas, em resumo, trata-se de usar mapeamentos matemáticos mais inteligentes para tornar o treino de redes profundas mais estável e com maior escalabilidade.

A publicação também combina otimizações de infraestrutura para garantir eficiência prática, e os resultados experimentais mostram melhorias de desempenho evidentes, além de uma escalabilidade bastante superior. Isso significa que, ao usar estruturas de rede mais profundas, o processo de treino se torna mais controlável.

A DeepSeek acredita que o mHC é uma extensão flexível e prática da tecnologia HC, e esse trabalho não só ajuda a indústria a compreender mais profundamente o design de arquiteturas topológicas, como também aponta uma direção promissora para a evolução de grandes modelos. Essa publicação foi realizada em colaboração por 解振达, 韦毅轩, 曹焕琪 e 梁文锋, entre outros.

A longo prazo, avanços nesse tipo de infraestrutura terão impactos profundos na estabilidade e escalabilidade de grandes modelos.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • Republicar
  • Partilhar
Comentar
0/400
CantAffordPancakevip
· 01-03 16:48
Mais uma vez DeepSeek, desta vez realmente a causar sensação Mais esses truques matemáticos obscuros? Na verdade, é só fazer a rede não perder a conexão A restrição de variedades eu realmente não entendo, mas os dados experimentais parecem bons, então tudo bem Finalmente a rede profunda consegue treinar de forma estável? Agora vai ser uma corrida para ver quem consegue acompanhar Mas voltando ao ponto, se a escalabilidade realmente puder ser resolvida, a implementação prática será muito mais rápida no futuro Se esta tese for realmente confiável, isso mostra que ainda há muitos obstáculos a preencher na camada fundamental da IA Espera aí, qual é a eficiência real de rodar isso na prática? Não vai ser só bonito no papel novamente
Ver originalResponder0
CryptoPunstervip
· 01-01 16:39
A estabilidade do treino de redes profundas, para ser sincero, é mais uma demonstração de habilidade do DeepSeek, o nome de restrição de manifold soa impressionante, mas na verdade é só uma forma mais avançada de usar matemática. A nova arquitetura parece incrível, mas o seu desempenho real só será confirmado pelo mercado, de qualquer forma, eu começo a rir com esperança. Essa lógica é igual à minha negociação de criptomoedas, teoria perfeita, realidade desmorona, haha. Esta rodada do DeepSeek está, na verdade, preparando o terreno para o treino de grandes modelos, a estabilidade das redes profundas aumentou, e a probabilidade de surgirem modelos de nível monstro é maior. Para ser honesto, se essa pesquisa fundamental for bem feita, quem vai se beneficiar são as grandes empresas, nós investidores individuais só podemos comer as sobras.
Ver originalResponder0
DefiOldTrickstervip
· 01-01 10:08
Hey, restrição de manifold? Falar tão misterioso, não passa de querer que o treino da rede seja mais estável e mais profundo. Depois de tantos anos fazendo arbitragem na cadeia, a verdade é uma só — soluções simples e diretas costumam ser as mais lucrativas. O pessoal do DeepSeek está realmente ficando cada vez mais competitivo.
Ver originalResponder0
StakoorNeverSleepsvip
· 01-01 10:08
DeepSeek voltou a inovar, a abordagem de restrição de variedades soa muito profissional, mas na verdade é apenas uma forma de consertar a bagunça do HC, no fundo ainda é um problema de engenharia Se realmente conseguir estabilizar o treinamento profundo, então é preciso analisar bem os dados experimentais, para não acontecer de o artigo parecer bom, mas na prática ser um fracasso Recuperação da característica de mapeamento de identidade... aguardemos o feedback do ambiente de produção, não há problema em elogiar depois Os artigos do Deep estão ficando cada vez mais competitivos, se realmente houver um avanço na escalabilidade, isso será uma ótima notícia para o custo de treinamento de grandes modelos Preciso analisar cuidadosamente esse conjunto de mapeamentos matemáticos, parece que mais uma vez vamos precisar relacionar teoria com prática por um bom tempo
Ver originalResponder0
TokenStormvip
· 01-01 10:07
A nível técnico parece bom, mas será que essa otimização profunda de rede realmente consegue se transformar em valor de token? Como estão os dados de backtest, há uma comparação concreta de throughput? Ainda não há novidades nos dados on-chain, nós, investidores de varejo, vamos ficar de olho primeiro para não acabar sendo os últimos a entrar. Mas, falando nisso, essa onda do DeepSeek realmente está no centro da tempestade, quem apostou cedo pode estar rindo agora. A restrição de manifold parece muito avançada, mas quão longe essa inovação de arquitetura está de uma aplicação prática real? Existem grandes instituições já fazendo arbitragem nessa área? Para ser honesto, avanços puramente técnicos muitas vezes são exageradamente promovidos, minha aposta é na reação do mercado, não no próprio artigo. Assim que as taxas de mineração começarem a subir, é hora de eu sair fora. Quando será lançado o último dado de escalabilidade? Há uma comparação detalhada com soluções similares? Isso é o que realmente me interessa.
Ver originalResponder0
SelfMadeRuggeevip
· 01-01 10:07
Ah, é deep learning outra vez, as múltiplas restrições parecem um blefe, mas podem realmente correr --- A DeepSeek fez um novo trabalho e parece que está a reparar o antigo poço da tecnologia HC --- Depois de falar durante muito tempo, é para tornar o treino mais estável, e quão mais rápido pode realmente correr? --- Não percebo muito sobre o mapeamento isométrico, e sinto que a pessoa que escreve o artigo está a complicar coisas simples --- Escalabilidade superior? Quantos pontos percentuais são mais rápidos do que o plano atual, existe um referencial? --- Outra arquitetura "revolucionária", à espera de ver se pode ser usada em cenários reais --- A palavra restrição do coletor soa muito cara, e não sei quanto custa a funcionar --- A otimização de algoritmos é sempre "muito boa em teoria, mas depende da GPU na prática" --- Parece ser atenta, mas sinto que o papel está cheio de flores e dos detalhes --- O problema de estabilidade do treino de redes profundas foi resolvido, então e quanto à ocupação da memória de vídeo? Esta solução normalmente é um grande sucesso
Ver originalResponder0
GasFeeNightmarevip
· 01-01 09:57
Mais uma vez DeepSeek, o que será que estão aprontando desta vez Restrição de manifold? Em linguagem simples, é para evitar que o treinamento da rede colapse, de qualquer forma eu não entendi hahaha Redes profundas ficaram mais estáveis, isso ajuda na otimização de mineração? Mapeamento matemático, mapeamento, mapeamento, isso pode melhorar diretamente a eficiência do cálculo de taxas de gás não? DeepSeek está novamente mexendo na arquitetura do modelo, esse ritmo realmente não dá para acompanhar Só quero saber se no final vai conseguir rodar sem travar, o resto é tudo besteira
Ver originalResponder0
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)