DeekSeek靠“蒸馏”出圈?创新还是剽窃
【人民报消息】中国新创公司深度求索(DeepSeek)研发的DeepSeek大型语言模型最近“出圈”爆火。不过有评论指出,DeepSeek是依靠“蒸馏”OpenAI模型的数据来帮助开发自家技术。这其中是否涉及窃取或者抄袭?中国的AI产业是否真的实现了“弯道大超车”,还是靠宣传自嗨了一把?以下请听自由亚洲电台记者凯迪的报导。
据自由亚洲电台报导,本周,科技和外交政策圈都在关注一则消息,即中国开源推理大型语言模型DeepSeek-R1被发现在多项核心任务测试中的表现与OpenAI的模型相当,而其开发成本仅为560万美元,不到竞争对手的十分之一,并且使用的是英伟达相对低端的H800晶元。
依靠“蒸馏”开发自家技术?
不过,美国总统川普的人工智慧沙皇萨克斯1月28日对美国福克斯新闻(Fox News)表示,DeepSeek使用了一种名为“蒸馏”的人工智慧训练方法,即一个新的人工智慧模型透过向一个现有模型提出数百万个问题,从中吸取其知识及模仿其推理过程。
当被问及DeepSeek是否窃取了美国的知识产权时,萨克斯说这是“可能的”。他指出:“有充分的证据表明,DeepSeek在这里所做的就是从OpenAI的模型中提取知识,我认为OpenAI对此不太高兴。”他认为,美国的人工智慧公司将采取措施,以保护他们的模型不被“蒸馏”,而这肯定会减缓山寨模型的发展速度。
美国《华尔街日报》报导指出,“蒸馏”技术已经被人工智慧开发者使用多年,但从未取得像DeepSeek这样的成功。测试显示,DeepSeek创建的模型与OpenAI和谷歌的模型得分几乎一样高,而成本却远比竞争对手低。
窃取技术还是创新?
DeepSeek真的是靠“蒸馏”OpenAI的数据来实现“弯道超车”的吗?据美国彭博社周二(28日)引述知情人士报导,OpenAI和微软正在调查DeepSeek是否以未经授权的方式,获取了源自OpenAI技术的数据输出。去年秋季,微软的安全研究人员观察到可能与DeepSeek有关联的个人,使用OpenAI应用程序编程介面(API)窃取了大量数据。
OpenAI还对英国《金融时报》表示,他们已经看到了“蒸馏”的证据,尽管他们并未公开这些证据。
据日本媒体《日经亚洲》周四(30日)报导,蒸馏并非新技术,也不一定都具有争议性。自2024年以来,随著企业对于使用大型语言模型(LLM)的需求增加,蒸馏变得越来越受欢迎。日本一家AI初创公司的工程师表示,大型语言模型难以处理,这需要大量昂贵的图形处理单元(GPU)。而蒸馏可大大缩短开发时间与成本,开发出比大型模型运行速度更快的模型。
报导指出,DeepSeek的问题在于其低成本模型是否“更多地基于蒸馏而不是创新”。对此,Astris Advisory Japan分析师Kirk Boodry说:“他们是否能够使用现有的大型语言模型来提炼他们的结果是一个问题。这似乎在讨论中出现了很多次。人们说,‘我不知道这其中有多少是真正前沿的。’”
Omdia咨询总监Kazuhiro Sugiyama则指出,DeepSeek的影响只是“暂时且有限的”,业界仍需验证其持久性。分析师也怀疑DeepSeek的开发预算是否真的那么小。Boodry说,当人们谈论DeepSeek的开发时间和费用时,他们谈论的是这个非常具体的模型:“人们随意给出的数字可能太低了。”
DeepSeek是依靠“蒸馏”OpenAI模型的数据来帮助开发自家技术。
展望未来,《日经亚洲》引用专家Sugiyama的预测说,人工智慧模型未来将逐渐“两极分化”,微软和谷歌等大公司将继续投资于更大、更强的模型用于其服务,而较小的公司则开发更小、更便宜而高效的模型,以适合有针对性市场。另一位人工智慧工程师也表示,缩小人工智慧模型的规模是个大趋势:“随著时间的推移,将会有很多方法来实现这一点。”
DeepSeek实现“弯道超车”是媒体炒作?
过去一周,DeepSeek的出现被形容为中国向矽谷投下的一枚震撼弹,令美国在人工智慧领域的主导地位受到空前质疑。投资者一度抛售了一万亿美元的科技股,纳斯达克指数一度下跌超过3%。同时,在中国社交媒体上,DeepSeek引发热议,被视为中国AI能力超越美国的证据,之前美国遏制中国半导体与AI硬体设备的努力似乎付之东流。
DeepSeek真的已经“弯道超车”、站到技术的前沿了吗?据全国广播公司商业频道(CNBC)报导,微软CEO萨蒂亚.纳德拉日前在瑞士达沃斯世界经济论坛上表示:“看到DeepSeek的新模型,真的令人印象非常深刻。他们切实有效地开发出了一款开源模型,在推理计算方面表现出色,且超级计算效率极高……我们必须非常、非常认真地对待中国的这些进展。”
不过,美国国防科技公司Anduril Industries创办人拉奇(Palmer Luckey)29日在福克斯财经(FOX Business)节目专访中指出,媒体铺天盖地引述DeepSeek说法,称其如何以超低成本训练出一个可与美国数十亿美元开发的聊天机器人匹敌的AI模型。但这些消息的炒作成分居多,外界不必过度相信,也不要“上了中共宣传的当”。
拉奇指出,DeepSeek并未完整公布他们开发两种模型的成本,媒体也忽略了DeepSeek仍有很大部分的基础设施成本不为人知。他表示:“症结在于,他们公布这个数字的目的,就是为了重挫美国公司。”
据最新消息,DeepSeek应用已从义大利的谷歌和苹果App商店中下架。虽然官方未解释确切原因,但路透社等媒体注意到,义大利隐私监管机构Garante此前对DeepSeek提出的数据存储地点及隐私问题。白宫新闻秘书日前也提到,官员们正在调查该应用程序对国家安全的影响。
截至发稿,DeepSeek尚未回复自由亚洲电台相关置评请求。△
|