1. DeepSeek推动AI产业变革,上线以来持续火爆
DeepSeek自成立以来专注于AI大模型的开发。Deepseek(深度求索)公司成立于2023年5月,总部位于浙江杭州。公司由国内量化投资巨头幻方创立,自成立以来专注于大语言模型(LLM)及相关技术的开发,核心技术突破包括自主创新的MLA(多头潜在注意力)机制,在低算力环境下实现高效训练,并采用完全开源策略推动行业协作。公司创始人为梁文峰,在量化投资、高性能计算领域具备丰富的研究背景和行业经验。
公司自成立以来已完成多款大模型迭代,规模、性能和复杂性持续提升。
2024年1月,公司发布DeepSeek Corder,主要用于代码生成领域,可提供智能代码补全、代码生成、调试优化等功能,该模型基于2万亿token的训练数据(87%为多语言代码,13%为自然语言)生成,参数规模涵盖1B到33B版本,支持包括Python、Java、C++在内的80+编程语言;
2024年2月,发布DeepSeek Math,基于一个包含1,200亿个数学标记的高质量预训练语料库进行训练,7B版本在GSM8K数据集上达到64.2%的准确率,性能接近Gemini-Ultra和GPT-4,能够快速解析复杂的数学表达式,通过逐步推理和计算,给出清晰、准确的结果;
2024年5月,发布DeepSeek V2,拥有2,360亿总参数,但在处理每个令牌时仅激活210亿参数,支持长达128K令牌的上下文长度。该模型采用Transformer架构,并在此基础上引入混合专家(MoE)架构,通过将任务分配给多个专家模型来处理,每个专家模型专注于特定的子任务,提高整体模型的性能和效率;2024年9月,发布DeepSeek V2.5,在V2基础上融合通用与代码能力,在写作任务、指令跟随等多个方面实现大幅提升;2024年12月,发布DeepSeek V3,生成速度提升到60 TPS(每秒生成60个token),相比V2.5提升3倍。
2024年11月,公司发布DeepSeek-R1-Lite预览版,在数学、编程和复杂逻辑推理任务上表现出色,推理过程透明,可实时展示Al的思考过程,提高模型的可解释性;2025年1月,发布DeepSeek-R1,在后训练阶段大规模使用强化学习技术,性能对标OpenAl o1正式版。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
