都说资本市场从来不缺故事讲,最近 A 股大神们讲的故事那都绕不开 Deepseek ,各种小作文全方面吹了一波国产大模型的技术路线,想必各位也已经快听吐了。眼瞅着 Deepseek 的底裤都快被人扒下来了,我心想着这下总归不会有新东西可以拿出来了罢,各家上市公司的股价也可以消停一波了。结果这两天又在微博刷到几篇震惊体作文,说“ Deepseek 已经是前菜啦, LPU 才是真正的氢弹级突破!”一听氢弹都来了,还是点进去看看吧。我也好奇,这号称能扼杀 NVIDIA 前程的 LPU 芯片到底是什么来头。
不过在连续看了几篇文章、读了几篇研报之后,我觉得这芯片真没股票专家们吹得那么美好。首先给大家介绍一下“ LPU ”到底是个啥。它并不是什么新东西,特指去年美国 Groq 公司发布的一款 AI 处理器,的中文名字叫做“语言处理单元”,给大语言模型做推理计算用的。值得一提的是目前暂时没有任何国产的消息,说实话这概念就算用在炒 A 股上也是有点超前了。

真能替代NVIDIA? 我看这玩意够呛
它如今又被大家拿出来炒,还是因为有人研究了 Deepseek 的低成本方案,发现他们仅仅在 CUDA 驱动的 PTX 层做了一些优化,就实现了内存和通信效率的大幅提升。
那么如果再“为算法单独设计硬件”,效率的提升会更加可观。

真能替代NVIDIA? 我看这玩意够呛
于是大伙儿突然想开了,之前干 AI 就往上堆显卡的做法是自己把路走窄了。现有的硬件和软件都能再压榨压榨,能起到事半功倍的效果。
这软件 Deepseek 干了,硬件嘛,研究员们翻箱倒柜找出来的玩意就是 LPU 了。
作为针对大语言模型推理专门设计出的硬件,在发布之初,官方宣称它的推理速度是 NVIDIA GPU 的十倍,成本却仅有 NVIDIA 的十分之一。
它的高效率实现原理其实不复杂,LPU把通用GPU里头的高带宽内存(HBM)换成了容量更低、但速度更快的静态随机内存(SRAM),对于大语言模型这种需要频繁读取内存的计算来说,推理速度就会快不少。

真能替代NVIDIA? 我看这玩意够呛
给大家举个例子吧, HBM 就好比是原本的双向八车道,虽然很宽但什么车都能跑、红绿灯也多,反而很容易堵在一起;而 SRAM 就像是双向两车道、只能跑公交的快速路,虽然车道变少了,但通行效率却更高。
听起来有点意思是吧?
众所周知,这显卡是原本是给游戏佬们打游戏用的,误打误撞整了个 CUDA 之后被人发现很适合算 AI ,老黄也顺水推舟布局了一下通用 GPU 和 AI 运算,结果就造就了如今的万亿帝国;
这 LPU 听名字就是给大模型准备的,这岂不是比 NVIDIA 的起点还要高?

真能替代NVIDIA? 我看这玩意够呛
好了,说到这里我要开始泼冷水了:事实上当前 LPU 的局限性可能比你想象的要多,未来怎么样不好说,至少现在看来想替代通用 GPU 还差点意思。
为了解释这个问题,我们首先得讲一个看起来表面没什么关联的故事——关注币圈的老哥们可能都知道,有个东西叫做 ASIC 矿机。
这里所谓的“ ASIC ”是一种专为某种用途定制的芯片。用于挖矿的 ASIC 直接在硬件层面就实现了某种挖矿算法,这样一来挖矿的效率要比显卡高上不少,费用也要便宜一些。
你看,更低成本、更高效率、专用芯片,听起来跟 LPU 好像是一个路子呀?

真能替代NVIDIA? 我看这玩意够呛
但是直到最后,显卡都没有被“矿场”淘汰,还是老黄自己出手自废武功,禁了 40、 50系显卡挖矿时的 HASH 算力。
这是为什么呢?因为 ASIC 矿机的计算效率确实是高,但代价就是--- “专用”。
前面说到了, ASIC 芯片在硬件设计层面就匹配了挖矿的算法,所以就导致挖比特币的 ASIC 矿机能且只能挖比特币、挖以太坊的能且只能挖以太坊。
矿主们要是想换个币挖挖,那得连机器一块换了才行。
这就有点抽象了哇:要是哪天比特币不值钱了,哥们囤的比特币矿机不就都成了矿渣了?
后来加密货币逐渐井喷,一天发一个新币种不难,但是一天设计一款新的 ASIC 挖矿芯片可就没那么容易了。

真能替代NVIDIA? 我看这玩意够呛
现在大伙应该明白了,显卡相比矿机看似毫无优势却能经久不衰,主要原因就在于显卡更“通用”。
即使 NVIDIA 40系开始已经不再能挖矿了,矿场上还是有很多 30系的显卡在发光发热。
而 LPU 这边儿也是差不多道理,正因为它是专用于大语言模型推理的芯片,所以要是让它处理个图片视频之类的就没有优势了。
可如今人们都想让 AI 干更多的事儿,除了能推理还需要它能识别物品、听懂语言,全靠 LPU 撑起 AI 算力的一片天显然不现实。
而且在 AI 训练这方面,内存较小的 SRAM 也难堪大用,还是得显卡出手。
而且,“ASIC矿机”能够引爆市场还有一个原因——它不仅仅是比显卡高效那么简单,它是比显卡的效率高了一千多倍!比特币 ASIC 矿机发展到最后,挖矿效率甚至比显卡高了上万倍!
但如今的 LPU 芯片远没有这么夸张的效率提升:Groq 官方说效率提升一百多倍,也有新闻说提升十几倍。但不论是哪个信源的结论,都比当年 ASIC 矿机的成绩差远了,谁能保证 LPU 会不会成为更不值钱的矿渣?

真能替代NVIDIA? 我看这玩意够呛

真能替代NVIDIA? 我看这玩意够呛
还有各家资本侃侃而谈的成本,其实去年的这个时候,我们的同行《芯东西》也写过 LPU 芯片的报道,其中引用了前阿里副总裁贾扬清做过的一个粗略的测算。按照三年时间的运营成本来计算, Groq LPU 的采购成本会是 NVIDIA H100的 38 倍,运营成本则达到了 10倍。

真能替代NVIDIA? 我看这玩意够呛
看到这里, LPU 芯片目前是个什么水平相信大家也都比较清楚了。
我并不认为 LPU 是个没用的东西,毕竟当年 NPU 刚推出的时候,小伙伴们普遍也都不太看好——但是如今几乎只要是个消费级的处理器芯片,里面就会集成一个小型 NPU 。
但我觉得,如今吹LPU还是有点儿为时过早,尤其是各路A股大神借着LPU就开始“荐股”,搞得我也挺纳闷儿的,不知情的还以为 LPU 是中国公司造的。
这可真是有点儿不厚道了。

真能替代NVIDIA? 我看这玩意够呛
更何况,当下的 AI 行业还是有很多的不确定性—— Deepseek 的低成本模式会不会是昙花一现?现在的 AI 模型会不会被更高效的取代?下一代 GPU 会不会有划时代的技术突破?这些谁也说不准。当然了,未来的不确定性也有可能是对 LPU 有利的。但现阶段咱还是别听 A 股大神们胡吹,他们要是能压准,早就不在这儿给你推荐 LPU 概念股了。
评论列表