Một bài báo mới được DeepSeek công bố gần đây đã thu hút sự chú ý của cộng đồng công nghệ. Họ đề xuất một kiến trúc mới được gọi là siêu kết nối ràng buộc đa tạp (mHC) và mục đích cốt lõi thực sự đơn giản - để giải quyết hai điểm khó khăn của công nghệ mạng siêu kết nối (HC) hiện có: đào tạo không ổn định và khả năng mở rộng hạn chế.
Gốc rễ của vấn đề này là công nghệ HC phá hủy các thuộc tính của bản đồ nhận dạng. Giải pháp của DeepSeek là ánh xạ không gian kết nối còn lại của HC với một đa tạp cụ thể, khôi phục các thuộc tính ánh xạ nhận dạng. Nghe có vẻ hơi trừu tượng, nhưng nói thẳng ra, đó là làm cho việc đào tạo mạng sâu ổn định hơn và có thể mở rộng hơn thông qua lập bản đồ toán học thông minh hơn.
Bài báo cũng kết hợp tối ưu hóa cơ sở hạ tầng để đảm bảo hiệu quả thực tế và kết quả thử nghiệm cho thấy cải thiện hiệu suất đáng kể và khả năng mở rộng vượt trội. Điều này có nghĩa là với cấu trúc mạng sâu hơn, quá trình đào tạo trở nên dễ kiểm soát hơn.
DeepSeek tin rằng mHC là một phần mở rộng linh hoạt và thiết thực của công nghệ HC, không chỉ có thể giúp ngành công nghiệp hiểu rõ hơn về thiết kế kiến trúc tô pô mà còn chỉ ra một hướng đi rất hứa hẹn cho sự phát triển của các mô hình lớn. Bài báo này được hoàn thành bởi Xie Zhenda, Wei Yixuan, Cao Huanqi, Liang Wenfeng và những người khác.
Về lâu dài, những đột phá trong cơ sở hạ tầng như vậy sẽ có tác động sâu sắc đến sự ổn định và khả năng mở rộng của các mô hình lớn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
23 thích
Phần thưởng
23
7
Đăng lại
Retweed
Bình luận
0/400
CantAffordPancake
· 01-03 16:48
又是DeepSeek,这次真的卷出花来了
又整这些 toán học đen magic? Nói trắng ra là để mạng lưới huấn luyện đừng bị rớt dây chuyền thôi
Hạn chế manifold tôi thật sự không hiểu, nhưng dữ liệu thử nghiệm đẹp mắt là xong chuyện rồi
Mạng sâu cuối cùng có thể huấn luyện ổn định rồi? Lần này lại bị cuốn chết một số người
Nhưng nói đi cũng phải, nếu khả năng mở rộng thật sự có thể giải quyết, sau này ứng dụng sẽ triển khai nhanh hơn nhiều đúng không
Bài báo này thật sự đáng tin cậy, cho thấy nền tảng AI còn nhiều chỗ cần lấp đầy đúng không
Chờ đã, cái này chạy thực tế hiệu quả thế nào? Đừng lại là trên giấy đẹp đẽ nữa chứ
Xem bản gốcTrả lời0
CryptoPunster
· 01-01 16:39
Đối với sự ổn định của đào tạo mạng sâu, nói thẳng ra, DeepSeek lại thể hiện kỹ năng của mình một lần nữa, và cái tên ràng buộc đa dạng thoạt nhìn rất vô tội vạ, nhưng thực tế, sử dụng toán học sẽ trơn trượt hơn một chút
Kiến trúc mới nghe có vẻ tuyệt vời, và hiệu quả thực tế sẽ phải được thị trường xác minh, dù sao, tôi sẽ cười trước
Logic này cũng giống như suy đoán coin của tôi, lý thuyết là hoàn hảo, và thực tế là đẫm máu, haha
Làn sóng của DeepSeek đang mở đường cho việc đào tạo mô hình lớn, mạng sâu đã ổn định và xác suất của các mô hình cấp quái vật lớn hơn một chút
Thành thật mà nói, nếu loại nghiên cứu cơ bản này được thực hiện tốt, thì những nhà máy lớn vẫn sẽ được hưởng lợi, và các nhà đầu tư nhỏ lẻ chúng tôi chỉ có thể ăn thức ăn thừa
Xem bản gốcTrả lời0
DefiOldTrickster
· 01-01 10:08
Này, ràng buộc đa dạng? Nói một cách huyền bí như vậy, chẳng phải là muốn làm cho quá trình huấn luyện mạng ổn định hơn, chạy sâu hơn một chút sao. Chúng ta đã giao dịch chênh lệch giá trên chuỗi nhiều năm rồi, hiểu rõ một điều — các phương án đơn giản, thô sơ thường mang lại lợi nhuận cao nhất. Nhóm DeepSeek thật sự ngày càng cạnh tranh khốc liệt hơn.
Xem bản gốcTrả lời0
StakoorNeverSleeps
· 01-01 10:08
DeepSeek lại có những sáng tạo mới, cách nói về ràng buộc đa dạng nghe rất chuyên nghiệp, nhưng thực chất chỉ là sửa chữa đống rác của HC, về cơ bản vẫn là vấn đề kỹ thuật.
Nếu thật sự có thể ổn định huấn luyện sâu, thì phải xem xét kỹ dữ liệu thực nghiệm, đừng lại là bài báo đẹp mắt nhưng thực tế lại kém cỏi.
Khôi phục đặc tính ánh xạ đồng nhất... chờ phản hồi từ môi trường sản xuất rồi hẵng nói tiếp cũng không muộn.
Các bài báo của Deep ngày càng cạnh tranh hơn, nếu có đột phá về khả năng mở rộng, thì thực sự là tin vui cho chi phí huấn luyện mô hình lớn.
Tôi cần xem kỹ bộ môn ánh xạ toán học này, cảm giác lại phải liên hệ lý thuyết với thực tiễn trong một thời gian dài.
Xem bản gốcTrả lời0
TokenStorm
· 01-01 10:07
Kỹ thuật nhìn có vẻ ổn, nhưng loại tối ưu mạng lưới sâu này có thực sự chuyển đổi thành giá trị token không? Dữ liệu backtest ra sao, có so sánh cụ thể về khả năng xử lý không?
Dữ liệu trên chuỗi vẫn chưa có động thái gì, chúng tôi những nhà đầu tư nhỏ lẻ vẫn cứ theo dõi trước, sợ trở thành người nhận hàng. Nhưng nói đi cũng phải nói lại, đợt này của DeepSeek thực sự nằm trong tâm bão, những người đã sớm đặt cược có thể sẽ cười.
Giới hạn hình dạng nghe có vẻ rất cao cấp, nhưng sáng tạo kiến trúc này còn xa mới có thể ứng dụng thực tế? Có tổ chức lớn nào đã bắt đầu làm lợi thế cạnh tranh trong lĩnh vực này chưa?
Thành thật mà nói, đột phá công nghệ thuần túy thường bị thổi phồng quá mức, tôi đặt cược vào phản ứng của thị trường chứ không phải vào chính bài báo. Một khi phí miner tăng theo, đó là lúc tôi nên rút lui.
Khi nào có dữ liệu mở rộng mới nhất? Có so sánh chi tiết với các phương án đối chuẩn không? Đây mới là điều tôi thực sự quan tâm.
Xem bản gốcTrả lời0
SelfMadeRuggee
· 01-01 10:07
Ồ, đó lại là học sâu, các ràng buộc đa dạng nghe có vẻ vô tội vạ, nhưng chúng thực sự có thể chạy
---
DeepSeek đã thực hiện một công việc mới và có cảm giác như đang sửa chữa cái hố cũ của công nghệ HC
---
Sau một thời gian dài nói chuyện, đó là để làm cho việc tập luyện ổn định hơn, và nó thực sự có thể chạy nhanh hơn bao nhiêu?
---
Tôi không hiểu nhiều về ánh xạ đẳng cự, và tôi cảm thấy rằng người viết bài báo đang phức tạp hóa những điều đơn giản
---
Khả năng mở rộng vượt trội? Nhanh hơn bao nhiêu điểm phần trăm so với kế hoạch hiện có, có điểm chuẩn không?
---
Một kiến trúc "mang tính cách mạng" khác, đang chờ xem liệu nó có thể được sử dụng trong các tình huống thực tế hay không
---
Từ ràng buộc đa tạp nghe có vẻ rất đắt và tôi không biết chi phí để chạy là bao nhiêu
---
Tối ưu hóa thuật toán luôn "rất tốt về lý thuyết, nhưng nó phụ thuộc vào GPU trong thực tế"
---
Nó có vẻ chú ý, nhưng tôi cảm thấy rằng tờ giấy đầy hoa, và các chi tiết
---
Vấn đề ổn định của đào tạo mạng sâu đã được giải quyết, vậy còn việc chiếm bộ nhớ video thì sao, giải pháp này thường bơm gió
Xem bản gốcTrả lời0
GasFeeNightmare
· 01-01 09:57
Lại là DeepSeek, lần này là loại bướm đêm gì?
Ràng buộc đa dạng? Nói lời con người là để ngăn chặn sự sụp đổ của đào tạo mạng, dù sao thì tôi cũng không hiểu haha
Mạng sâu có ổn định hơn không, điều này có giúp điều chỉnh khai thác không?
Lập bản đồ toán học Lập bản đồ có thể trực tiếp cải thiện hiệu quả tính phí gas không?
DeepSeek đang xây dựng một mô hình khối lượng một lần nữa và tốc độ thực sự không thể theo kịp
Tôi chỉ muốn biết liệu cuối cùng tôi có thể chạy mà không gục ngã hay không, mọi thứ khác đều ảo
Bài báo mới của DeepSeek: Cách kiến trúc siêu liên kết hạn chế đa dạng giải quyết vấn đề đào tạo mạng sâu
Một bài báo mới được DeepSeek công bố gần đây đã thu hút sự chú ý của cộng đồng công nghệ. Họ đề xuất một kiến trúc mới được gọi là siêu kết nối ràng buộc đa tạp (mHC) và mục đích cốt lõi thực sự đơn giản - để giải quyết hai điểm khó khăn của công nghệ mạng siêu kết nối (HC) hiện có: đào tạo không ổn định và khả năng mở rộng hạn chế.
Gốc rễ của vấn đề này là công nghệ HC phá hủy các thuộc tính của bản đồ nhận dạng. Giải pháp của DeepSeek là ánh xạ không gian kết nối còn lại của HC với một đa tạp cụ thể, khôi phục các thuộc tính ánh xạ nhận dạng. Nghe có vẻ hơi trừu tượng, nhưng nói thẳng ra, đó là làm cho việc đào tạo mạng sâu ổn định hơn và có thể mở rộng hơn thông qua lập bản đồ toán học thông minh hơn.
Bài báo cũng kết hợp tối ưu hóa cơ sở hạ tầng để đảm bảo hiệu quả thực tế và kết quả thử nghiệm cho thấy cải thiện hiệu suất đáng kể và khả năng mở rộng vượt trội. Điều này có nghĩa là với cấu trúc mạng sâu hơn, quá trình đào tạo trở nên dễ kiểm soát hơn.
DeepSeek tin rằng mHC là một phần mở rộng linh hoạt và thiết thực của công nghệ HC, không chỉ có thể giúp ngành công nghiệp hiểu rõ hơn về thiết kế kiến trúc tô pô mà còn chỉ ra một hướng đi rất hứa hẹn cho sự phát triển của các mô hình lớn. Bài báo này được hoàn thành bởi Xie Zhenda, Wei Yixuan, Cao Huanqi, Liang Wenfeng và những người khác.
Về lâu dài, những đột phá trong cơ sở hạ tầng như vậy sẽ có tác động sâu sắc đến sự ổn định và khả năng mở rộng của các mô hình lớn.