DeepSeek新AI模型发布因华为芯片问题而推迟
中国人工智能公司DeepSeek因使用华为芯片训练其新模型失败而推迟发布,凸显了北京力争取代美国技术的局限性。
据三位知情人士透露,DeepSeek在1月份发布R1型号后,受到当局鼓励,采用华为的Ascend处理器,而不是使用英伟达的系统。
但知情人士表示,这家中国初创公司在使用Ascend芯片进行R2训练过程中遇到了持续的技术问题,促使其使用英伟达芯片进行训练,使用华为芯片进行推理。
一位知情人士表示,这些问题是该大模型从5月份推迟上市的主要原因,导致其在与竞争对手的竞争中失利。
训练涉及从大型数据集中学习模型,而推理是指使用训练模型进行预测或生成响应(例如聊天机器人查询)的步骤。
DeepSeek的困境表明,中国芯片在关键任务上仍然落后于美国竞争对手,凸显了中国在实现技术自给自足方面面临的挑战。
英国《金融时报》本周报道称,北京方面要求中国科技公司解释其订购英伟达H20芯片的合理性,以鼓励它们推广华为和寒武纪生产的替代品。
业内人士表示,与英伟达的产品相比,中国芯片存在稳定性问题、芯片间连接速度较慢以及软件较差等问题。
据两位知情人士透露,华为派了一个工程师团队前往DeepSeek的办公室,帮助该公司使用其AI芯片开发R2模型。然而,尽管团队在现场,DeepSeek仍然无法在Ascend芯片上成功进行训练。
知情人士称,DeepSeek仍在与华为合作,使该模型与Ascend兼容进行推理。
消息人士称,DeepSeek创始人梁文峰在内部表示,他对R2的进展不满意,并一直在努力投入更多时间来构建一个可以维持公司在人工智能领域领先地位的先进模型。
另一位知情人士补充说,R2的发布也因升级版大模型的数据标注时间比预期要长而被推迟。中国媒体报道称,该模型最早可能在未来几周内发布。
加州大学伯克利分校人工智能研究员里特维克·古普塔表示:“模型是可以轻松替换的商品。很多开发者都在使用阿里巴巴的Qwen3,它功能强大且灵活。”
Gupta指出,Qwen3采用了DeepSeek的核心概念,例如其训练算法使模型能够推理,但使其使用起来更高效。
追踪华为人工智能生态系统的古普塔表示,该公司在使用Ascend进行训练时正面临“成长的烦恼”,但他预计这家公司最终会适应。
“即使我们今天没有看到在华为上训练的领先模型,并不意味着将来不会发生这种情况。这只是时间问题,”他说。
英伟达是一家处于北京和华盛顿地缘政治斗争中心的芯片制造商,该公司最近同意向美国政府提供其在中国的收入分成,以恢复向中国销售其H20芯片。
英伟达在谈到使用其芯片的中国公司时表示:“开发者将在构建成功的人工智能生态系统中发挥关键作用。放弃整个市场和开发者只会损害美国的经济和国家安全。”
主编精选,篇篇重磅,请点击订阅“邮件订阅”