CC读书 通过搜索各大小说站为您自动抓取各类小说的最快更新供您阅读!

提到AI芯片,不少人可能觉得“离自己很远”,但其实咱们平时用的AI聊天、刷的短视频推荐,背后都靠AI芯片“算”出来的。现在AI芯片正在快速升级,其中有两个方向特别关键:Fp8精度和多芯互联。这俩词听着挺专业,其实用大白话拆解开特别好懂——简单说,Fp8精度是让芯片“算得又快又省电”,多芯互联是让芯片“组队干活,力大无穷”。今天就从这两个方向入手,跟大家聊明白AI芯片是怎么升级的,以及对咱们用AI、对国产芯片发展有啥影响。

一、先搞懂基础:AI芯片为啥要“升级”?核心是解决“算力不够、电费太贵”的问题

在聊具体技术之前,得先弄明白一个事儿:AI芯片为啥非得升级?答案很简单——现在的AI越来越“能吃算力”了。

比如训练一个像Gpt-4这样的大模型,需要处理几十万亿条数据,要是芯片算得慢,可能得花好几个月才能训练完;而且芯片算的时候特别费电,一个大模型训练一次,电费可能就好几百万。以前的芯片技术,要么算得慢、要么电费高,根本跟不上现在AI的“胃口”。

就像咱们做饭,以前用小煤炉,做一大锅饭又慢又费煤;现在换成大燃气灶,又快又省气。AI芯片的升级,就相当于从“小煤炉”换成“大燃气灶”,核心是解决“算力不够用、能耗太高”这两个痛点。而Fp8精度和多芯互联,就是解决这两个痛点的“两把钥匙”。

二、第一个升级方向:Fp8精度——让芯片“算得准、跑得快、省电费”,大模型训练直接受益

先来说第一个关键技术:Fp8精度。这里的“精度”不是指芯片的制造精度,而是指芯片“计算数据时的精细程度”。咱们可以把芯片计算想象成“用尺子量东西”:以前的芯片用“厘米尺”量,现在Fp8精度相当于用“毫米尺”量,既能量得更准,还能更快量完,同时还不费“力气”(也就是省电)。

1. 先拆“Fp8精度”:不是“精度降低”,而是“精准控耗”,该细的地方细,该省的地方省

可能有人看到“Fp8”里的“8”会疑惑:以前不是有Fp16、Fp32吗?数字变小了,是不是精度变低了?其实不是这么回事。

简单说,“Fp+数字”代表芯片存储和计算数据的“格式”,数字越大,能存储的数据越精细,但需要的存储空间和计算资源也越多。比如Fp32就像“高清电影”,画面特别细,但占内存大、播放时费电;Fp16像“标清电影”,画面稍粗一点,但占内存小、播放快;而Fp8是“优化后的标清”——在保证画面(计算精度)够用的前提下,把没用的“像素”(冗余数据)去掉,既不影响观看(计算结果),还能省内存、省电费。

举个例子:比如计算“1. + 2.”,用Fp32能算出“3.”,精确到小数点后8位;用Fp8算,能算出“3.5802”,精确到小数点后4位。对咱们日常用的AI来说,小数点后4位的精度完全够用——比如AI推荐短视频,不用精确到小数点后8位,只要能判断“你喜欢这个视频的概率是85%”就行,没必要算成“85.%”。

所以Fp8精度不是“降低精度”,而是“精准控耗”——把算力和电量用在“刀刃上”,该精细的地方不马虎,没必要精细的地方省资源。

2. Fp8精度的核心好处:算力密度翻2倍、能耗降30%,大模型训练直接“提速又省钱”

搞懂了Fp8精度的原理,再来看它的实际好处,主要有两个:一是“算力密度提升2倍”,二是“能耗降低30%”。这俩好处对大模型训练来说,简直是“及时雨”。

先解释“算力密度”:就是同样大小的芯片,能提供的计算能力翻了2倍。以前一块芯片每秒能算100次,现在用Fp8精度,每秒能算200次。这意味着训练大模型时,需要的芯片数量能减半——比如以前要100块芯片,现在50块就够了,不仅省了芯片采购钱,还省了机房空间(放芯片的地方也需要成本)。

再看“能耗降低30%”:就是算同样多的数据,电费能省三成。举个直观的例子:以前训练一个大模型,用老芯片需要100万度电,电费按工业用电1元\/度算,得花100万;现在用支持Fp8精度的芯片,只要70万度电,电费直接省30万。对那些经常训练大模型的企业来说,这可不是小数目——比如某AI公司一年训练10个大模型,光电费就能省300万。

而且这两个好处加起来,还能“缩短训练周期”。比如训练Gpt-4这样的大模型,以前用老技术需要3个月,现在用Fp8精度,算力翻2倍、能耗降30%,算下来训练周期能缩短25%,也就是只要2个多月就能训练完。对企业来说,训练周期缩短意味着能更快推出新的AI产品,比如别人还在训练,你已经把新的AI聊天工具上线了,自然能抢占市场先机。

3. 国产芯片的动作:寒武纪、壁仞科技已跟上,bR100芯片算力达1000topS,专门对标“超大规模训练”

可能有人会问:国外芯片早就支持Fp8精度了,国产芯片能跟上吗?答案是“当然能”,而且已经有不少国产企业拿出了实实在在的产品。

首先是大家比较熟悉的寒武纪,它的思元系列芯片早就支持Fp8精度了,比如思元590芯片,用Fp8精度计算时,算力比用老格式提升1.8倍,能耗降低28%,已经能满足不少中小规模AI模型的训练需求。

除了寒武纪,还有一家叫壁仞科技的企业,推出的bR100芯片更是“重量级选手”——它支持Fp8精度,算力能达到1000topS(1topS相当于每秒算1万亿次)。这个算力有多强?简单说,用bR100芯片训练一个百亿参数的AI模型,可能只要几天时间;要是用来训练超大规模的大模型(比如千亿、万亿参数),也能轻松应对。

现在不少国内的大模型企业已经开始用这些国产芯片了。比如某互联网公司,以前训练大模型用国外芯片,一次要花500万;现在换成壁仞bR100芯片,因为支持Fp8精度,算力够、能耗低,一次训练只要300万,成本直接降了40%。而且国产芯片不用受国外政策限制,不用担心“断供”,用起来更放心。

三、第二个升级方向:多芯互联——让芯片“组队干活”,解决“单芯片算力不够用”的难题

聊完了Fp8精度,再来说第二个关键技术:多芯互联。这个技术的思路特别简单——既然单颗芯片的算力有限,那不如把多颗芯片“连起来”,组成一个“虚拟大芯片”,让它们一起干活,算力自然就上去了。

就像咱们搬东西,一个人搬不动100斤的箱子,要是8个人一起抬,就能轻松搬起来。多芯互联就是让芯片“组队抬箱子”,核心是解决“单芯片算力跟不上大模型需求”的问题。

1. 为啥需要多芯互联?单芯片“再牛也有上限”,大模型需要“集体力量”

可能有人会问:既然能把单颗芯片做得更厉害,为啥还要搞多芯互联?答案是“单芯片的算力有上限”。

就像一个人再强壮,最多能举200斤,不可能举2000斤;单颗芯片不管怎么升级,算力也有天花板——比如现在最厉害的单颗AI芯片,算力也就1000多topS,而训练一个千亿参数的大模型,需要的算力至少是8000topS,单颗芯片根本不够用。

而且单颗芯片做得太复杂,成本会飙升。比如想把单颗芯片的算力从1000topS提升到8000topS,需要的研发成本可能是原来的10倍,售价也会贵得离谱,没几个企业能买得起。

这时候多芯互联的优势就体现出来了:不用把单颗芯片做得“神乎其神”,只要把多颗普通芯片连起来,就能达到超高算力。比如用8颗1000topS的芯片,通过多芯互联组成“虚拟大芯片”,总算力就能达到8000topS,成本只要单颗“超级芯片”的1\/3,性价比一下子就上来了。

2. 多芯互联咋实现?靠“高速互联接口”,让芯片之间“说话不卡顿”

要让多颗芯片“组队干活”,关键得解决一个问题:芯片之间得能快速“传递数据”。就像8个人一起抬箱子,得喊着“一二一”同步发力,要是有人慢半拍,箱子就会歪;芯片之间要是数据传得慢,有的芯片算完了等着要数据,有的芯片还没传完,整体算力就会浪费。

而多芯互联技术,核心就是靠“高速互联接口”解决这个问题。这个接口就像“超高速网线”,能让芯片之间每秒传递几十Gb甚至上百Gb的数据,延迟特别低(比如只有几微秒,1微秒等于百万分之一秒)。

举个例子:比如把8颗芯片连起来,第一颗芯片算完一部分数据,通过高速接口瞬间传给第二颗,第二颗接着算,中间几乎没有停顿;要是没有这个接口,用普通网线传数据,可能需要几毫秒(1毫秒等于千分之一秒),8颗芯片算下来,光等数据的时间就会浪费一半,算力自然上不去。

现在国产芯片企业在高速互联接口上做得很到位。比如中科曙光的“海光芯云”平台,用的就是自主研发的高速互联接口,能让芯片之间的数据传输速度达到每秒100Gb,延迟只有3微秒,几乎实现了“零卡顿”。

3. 国产案例:中科曙光“海光芯云”平台,8颗芯片组出8000topS算力,能搞定千亿参数大模型

聊完原理,再看国产芯片的实际应用——中科曙光的“海光芯云”平台,就是多芯互联技术的典型代表。

这个平台是怎么做的呢?简单说,就是把8颗海光dcU芯片(海光dcU是国产AI芯片的一种,单颗算力大概1000topS),通过高速互联接口连起来,组成一个“算力节点”。这样一来,这个节点的总算力就是8x1000topS=8000topS,刚好能满足千亿参数大模型的“推理需求”(推理就是大模型训练完后,给它输入问题,它算出答案的过程)。

可能有人会问:千亿参数大模型的推理,需要这么高的算力吗?答案是“需要”。比如咱们用AI聊天,问一个复杂问题(比如“帮我写一份1000字的产品方案”),大模型需要在几秒内处理几十万条数据,要是算力不够,可能得等十几秒甚至几十秒才能出答案,体验就会很差。而8000topS的算力节点,能让千亿参数大模型的推理速度提升到“秒级响应”,比如输入问题后,2-3秒就能出答案,跟咱们平时聊天一样流畅。

现在这个平台已经在不少地方用起来了。比如某科研机构,用“海光芯云”平台跑千亿参数的医疗大模型,给它输入患者的ct影像和病历数据,几秒内就能给出初步诊断建议,比以前用单颗芯片快了6倍,大大提升了科研效率;还有某互联网公司,用这个平台做短视频推荐,能更快分析用户的观看习惯,推荐的视频更精准,用户停留时间比以前增加了20%。

而且多芯互联还能“灵活扩展”——要是需要更高的算力,比如要处理万亿参数的大模型,只要再增加芯片数量就行。比如把16颗海光dcU芯片连起来,就能组成topS的算力节点,完全能满足更高需求。这种“按需扩展”的特性,对企业来说特别友好,不用一开始就买最贵的设备,后期根据需求加芯片就行,能省不少钱。

四、技术迭代的实际意义:国产AI芯片“又强又便宜”,给大模型企业更多选择

聊完了Fp8精度和多芯互联的技术细节,咱们得回到一个更实际的问题:这些技术升级,到底有啥用?对国产芯片、对咱们用AI有啥影响?

总结下来,有三个核心意义:

1. 国产AI芯片“性能追上了”,不用再依赖国外芯片

以前国产AI芯片最大的短板就是“性能不够”,比如算得慢、不支持大模型训练。但通过Fp8精度和多芯互联的升级,国产芯片的性能已经能跟上需求了——比如壁仞bR100芯片支持Fp8精度,能训练超大规模大模型;中科曙光的多芯互联平台,能满足千亿参数大模型的推理。

这意味着国内的大模型企业,不用再盯着国外芯片了。以前国外芯片一断供,企业就慌了;现在有了国产芯片的选择,就算国外芯片买不到,也能靠国产芯片继续做研发、搞业务。比如某AI创业公司,以前一直用国外芯片,去年因为政策限制买不到了,换成壁仞bR100芯片后,发现性能完全够用,训练成本还降了30%,现在已经把所有业务都换成国产芯片了。

2. 算力成本“降下来了”,中小企业也能用得起AI

以前AI是“大企业的游戏”,因为算力成本太高,中小企业根本负担不起。比如训练一个中小规模的AI模型,用国外芯片可能要花100万,很多小企业想做都不敢做。

但现在不一样了:Fp8精度让芯片能耗降30%,多芯互联让企业不用买昂贵的单颗芯片,两者结合直接把算力成本拉低了40%-50%。比如以前训练一个中小模型要100万,现在用国产芯片只要50-60万,不少中小企业也能负担得起了。

就像以前只有大企业能买得起豪车,现在普通家庭也能买得起经济适用车一样。算力成本的降低,让更多企业能参与到AI研发中,比如小的创业公司能做垂直领域的AI(比如AI教育、AI医疗),这会让整个AI行业更有活力。

3. 形成“国产产业链闭环”,发展更稳

以前国产芯片的产业链不完善,比如芯片设计软件靠国外、互联接口靠国外,很容易被“卡脖子”。但现在Fp8精度和多芯互联的核心技术,都是国产企业自主研发的——比如寒武纪、壁仞的Fp8精度技术,中科曙光的高速互联接口,都是自己做的,不用依赖国外技术。

这意味着国产AI芯片已经形成了“设计-生产-应用”的闭环,从技术到产品再到落地,都能自己搞定。这种闭环特别重要,就像一个人有了完整的消化系统,不用靠别人喂饭,能自己吸收营养成长。以后就算国外技术封锁,国产芯片也能自己迭代升级,发展会更稳。

五、总结:AI芯片的升级,不是“炫技”,而是“解决真问题”

最后咱们再总结一下:Fp8精度和多芯互联这两个技术方向,不是芯片厂家在“炫技”,而是实实在在解决AI发展中遇到的“算力不够、成本太高”的问题。

Fp8精度让芯片“算得快、省电费”,多芯互联让芯片“组队干活、算力翻倍”,两者结合让国产AI芯片实现了“性能提升、成本下降”的双重突破。对咱们普通人来说,这意味着以后用AI会更流畅(比如聊天响应更快、推荐更精准),而且会有更多贴近生活的AI应用(比如中小企业做的AI教育、AI养老工具);对国产芯片来说,这意味着终于能在全球AI芯片市场中“站稳脚跟”,不再被国外牵着鼻子走。

当然,咱们也得客观看待:国产AI芯片虽然进步快,但在某些细节上(比如超大规模芯片的稳定性、极端场景的适配),跟国外顶尖芯片还有一点差距。但这并不可怕,毕竟技术升级是个循序渐进的过程——就像咱们学走路,先学会站稳,再学会走,最后才能跑。现在国产AI芯片已经“站稳了”,也“会走了”,相信再给点时间,一定能跑得更快、更远。

总的来说,AI芯片的这波技术迭代,对国产芯片是“机遇”,对AI行业是“助力”,最终受益的还是咱们每一个用AI的人。以后再听到“Fp8精度”“多芯互联”,不用觉得陌生,知道它们是让AI更好用、更便宜的“幕后功臣”就行啦。

CC读书推荐阅读:百亿豪门穿兽世,投喂对象抢疯了边疆小卒的逆天崛起以死谢罪?重生后全宗门跪求原谅晚来情谊深二次元之斩神调包后,狼山小公主大杀四方宠爱太多太难选离婚吧,别耽误我泡小鲜肉万界保管员:开局穿梭机被曝光修为尽废后,我被逼退出宗门处处找茬?侯府小姐我不当了婚礼当天,老公朋友圈官宣白月光了穿越古代,我被团宠了瘸腿大师姐带着宗门飞升了海贼:这个海军强到离谱黑神话西游:神佛!吃俺老孙一棍圣子大人没有心我到民国当间谍周易哲学渣了腹黑女后我的诸天无限流,从要你狗命开始气运被夺后,她虐哭宗门所有人医妃归来:重生嫡女杀疯了!断亲单开族谱,柔弱表小姐不好欺神医娘亲一出门,各地大佬追着宠斗罗:穿成唐三姐姐后我封神了长相思之寒柳依依九叔:简化金光咒,晒太阳就变强女神异闻录:书与命运的彼方废材巫女的鬼怪们港综:称霸香江从庙街开始娱乐:息影五年!我的女粉丝全是一线明星?港综:普通道士?随手就是五雷咒超兽武装:轮回者的系统无拘无束游走诸天快穿:病娇反派又被宿主撩迷糊了斗罗:趁雪帝落难,忽悠她做老婆被宗门诬陷后大师姐杀疯了武夫借剑无限之我的金主真难哄爱与租约快穿:满级大佬,在线追夫爱情公寓:我的幸福生活烧火丫鬟嫁东宫:太子,求你疼我薅光系统羊毛后,她飞升了古墓新娘,冥王宠得心慌慌你人皇幡都冒邪气了,还装赘婿?AI说:卷什么?躺平才可能躺赢特种姐妹穿七零,给列强亿点震撼
CC读书搜藏榜:这个宗门大有问题承光集亮剑:团长听我解释,我真是群演穿书:救赎疯批男主后,剧情崩了什么?我和二狗子杀遍了诸天hp:和德拉科相爱相杀的那些年快穿:宿主为远离小黑屋一路狂奔网游之幻兽使一吻定情,总裁的天价影后穿书后踢开男主,抱紧反派大腿重生复仇:我与夫人分天下红色王座圣骑士编年史1961刚刚入职的我获得了系统报告帝君,您的下属又想搞恋爱脑药神,从我不是药神开始蜜之仇九尾灾荒年:娘子有空间,婆家宠上天仙缘无双传晚来情谊深游云惊凤不求长生,只为称帝几度夕阳生HP:救世主今天又在消极怠工我隔着月亮,慢慢回头望火影:岩石巨人吊打高达兔兔生存记夜夜笙歌,公主殿下专宠暗卫白描情书邪修师妹拯救了全宗门赛博朋克:战争步行者插翅难逃,又被疯批世子逮回去了为君倾心绝世冥王妃网游——屠龙巫师八零大佬别虐了,夫人才是白月光美漫:从疯人院毕业后做蝙蝠侠凤朝华快穿之女配咸鱼人生皇女请回家偏执!疯批!真千金是朵黑莲花重生清冷貌美少年练习生后去选秀我在相声社团当团宠千户待嫁幸好正当时重生之千金小姐养成系你已进入选择模式刘一的仙途奇缘反派他每天都想欺师灭祖HP:掠夺者们有被迫害妄想症
CC读书最新小说:落寞千金终成凰大白话聊透人工智能男主男配又看上普女啦!一睁眼,成了资产过亿的富婆!熊出没之森林生存大挑战加入寰宇巨企的我太爽了重生替嫁:千亿妈咪携四宝炸全球心剑破道:独尊九天毒煞七玄医妃携系统,废柴世子宠上天冷面大佬的致命偏宠盗墓:穿越盗笔当神仙魔修兵王共闯恐游,双向救赎和亲公主靠吃瓜为生我的通透活法轨怨:打工夫妻的异地生活觉醒指南从一碗粥到一朵花成语认知词典:解锁人生底层算法我的治愈游戏成真了宝可梦:开局毒贝比成就大师遇见陈宇白蛇:小青,小白:我有玄蛇弟弟重生孤鸿子,我在峨眉练神功神探驸马从选择钟晓芹开始获得老婆的能力星雨落寒江你惹她干嘛?她敢徒手揍阴天子四合院:淮茹晓娥,我全都要!综影视:死后入编角色扮演部短篇合集系列3原来我是情劫啊求竹马们贴贴,我有皮肤饥渴症电力设计院的日常锦衣卫:从小捕快杀到锦衣卫头子穿成檀健次低谷期的路人甲乙丙穿越之女尊我左拥右抱港综:左零右火,雷公助我南波万的无限流游戏遭了!我男朋友好像是个恋爱脑!大胤夜巡司快穿:心机恶女上位实录凤栖深宫:废后归来明日方舟,全员魔法少女?!说书人还是救世主?末法贷仙三角洲求生,开局招募年轻德穆兰江山劫,揽月明绿茶病美人私底下烟酒都来啊入间同学入魔了之没有存在感就会缠娇鸾