来源:商业周刊
一款来自中国的AI大模型,轰动硅谷。1月27日,纳斯达克100指数重挫3%,科技股暴跌,行业巨头英伟达重挫17%,市值蒸发近6000亿美元,创市场历史之最。DeepSeek让主要基于人工智能热潮的美股行情面临考验,投资者质疑高达数千亿美元的人工智能投资是否会带来足够大的利润,以证明超大型股的估值合理。
1月28日凌晨,DeepSeek 再放大招:开源视觉多模态模型Janus-Pro-7B。
Janus在 GenEval和DPG-Bench 基准测试中击败了Stable Diffusion和OpenAI的DALL-E 3。Janus的表现超越了传统的统一模型,并且在与任务特定模型的比较中也同样表现出色。凭借其简洁、高灵活性和高效性的特点,Janus-Pro 成为下一代统一多模态模型的有力竞争者。
Janus-Pro 是先前工作 Janus 的进阶版本。具体来说,Janus-Pro 整合了优化的训练策略、扩展的训练数据,以及更大模型规模的扩展。通过这些改进,Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进展,同时还增强了文本到图像生成的稳定性。
Deepseek来自国产大模型公司深度求索(DeepSeek)。作为一家成立仅一年多的人工智能(AI)初创公司,DeepSeek凭借突破性的AI模型在硅谷收获了惊叹和错愕:该模型的性能不亚于全球最强的那些聊天机器人,而成本看起来只有它们的一个零头。
DeepSeek的异军突起,或对AI向前发展将需要越来越多电力和能源的普遍看法构成挑战。月20日,该公司正式发布推理大模型DeepSeek-R1。一经推出,DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动。据称R1模型开发成本只是竞争对手的一小部分。
DeepSeek表示,它使用了没那么先进的英伟达H800芯片打造了一个看上去与OpenAI最好的产品不相上下的模型,这种芯片在2023年10月前尚被美国政府允许出口至中国。据DeepSeek介绍,R1的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成。
在AI领域,巨头们往往推行的是“大力出奇迹”的“烧钱”模式,花大价钱购买硬件和数据。GPT-4的训练成本高达 7800 万美元。就在1月24日,Meta CEO扎克伯格表示,为了实现公司在AI领域的目标,2025年年底,公司将拥有130万块GPU,资本支出将达到600亿~650亿美元。而根据此前财报的统计,谷歌的2024年资本支出或超480亿美元。微软和亚马逊也预计2025年资本支出将继续上行。
“DeepSeek显示开发成本较低的强大AI模型是可能的,”Union Bancaire Privee董事总经理Vey-Sern Ling表示。“这可能会冲击目前由少数科技巨头高额支出来驱动整个AI供应链的投资逻辑。”
分析师Holger Zschaepitz表示:“中国的DeepSeek可能代表了对美国股市最大的威胁,因为他们似乎花极少的钱建立了一个突破性的AI模型,而且无需依赖最先进的芯片,这引发了质疑:在这个行业里对数百亿美元资本支出是否有用?”
长期以来,科技股的涨势一直由英伟达和人工智能概念股引领。DeepSeek是一个开源模型,似乎可以在较低规格的GPU上运行,可能会对英伟达的主导地位以及ChatGPT等其它热门人工智能提供商构成挑战。
英伟达等现有的行业领导者虽然享有优势,但也不能对AI主导地位想当然。中国的DeepSeek的出现暗示,竞争正在加剧,尽管现在可能并不构成重大威胁,但未来的竞争者会更快地变革,更快地挑战老牌公司。英伟达1月27日称DeepSeek模型是“出色的人工智能进步”。