1 DeepSeek-V3的创新架构和低成本高性能训练方法
表1 各种大模型训练成本对比 |
| 模型名称 | Gemini Ultra | Llama-3 | Claude 3 | DeepSeek-V3 | GPT-4o | 讯飞星火X1-13B |
| 训练成本/美元 | 约1.9亿 | 约9000万 | 约1亿 | 约557万 | 约1亿 | 约780万 |
DeepSeek技术创新与通用人工智能发展趋势
|
吴文峻, 教授, 研究方向为可信智能、群体智能、AI for Science, 电子信箱: wwj09315@buaa.edu.cn |
收稿日期: 2025-02-14
网络出版日期: 2025-04-19
版权
DeepSeek: Technological innovations and development trends toward artificial general intelligence
Received date: 2025-02-14
Online published: 2025-04-19
Copyright
概述了DeepSeek在通用人工智能领域的最新进展,重点讨论了其在大语言模型、推理技术方面的创新。DeepSeek-V3引入了新的模型架构和算法设计,基于相对有限的智能硬件,对模型训练方法进行了全面和深入的优化,显著提升了模型训练效率。在推理技术方面,DeepSeek-R1创新性地结合了强化学习(RL)与监督微调(SFT),提升了推理深度和逻辑推理能力。结合DeepSeek的创新工作,讨论了通用人工智能发展趋势,重点涉及3个问题:开源开放生态对发展通用人工智能的作用;依赖于模型规模扩展的“Neural Scaling Law”是否还能发挥作用;如何基于DeepSeek这类基座模型,以“通专结合”的方式实现行业大模型的落地等。
吴文峻 , 廖星创 , 赵金琨 . DeepSeek技术创新与通用人工智能发展趋势[J]. 科技导报, 2025 , 43(6) : 14 -20 . DOI: 10.3981/j.issn.1000-7857.2025.02.00175
表1 各种大模型训练成本对比 |
| 模型名称 | Gemini Ultra | Llama-3 | Claude 3 | DeepSeek-V3 | GPT-4o | 讯飞星火X1-13B |
| 训练成本/美元 | 约1.9亿 | 约9000万 | 约1亿 | 约557万 | 约1亿 | 约780万 |
| 1 |
|
| 2 |
|
| 3 |
|
| 4 |
|
| 5 |
|
| 6 |
|
| 7 |
|
| 8 |
|
| 9 |
|
| 10 |
|
| 11 |
de Moura L, Ullrich S. The lean 4 theorem prover and programming language[C]//Automated Deduction-CADE 28: 28th International Conference on Automated Deduction, Virtual Event. Cham: Springer International Publishing, 2021: 625-635.
|
| 12 |
|
| 13 |
|
| 14 |
|
| 15 |
|
/
| 〈 |
|
〉 |