“有用”的算力“不好用”?

【导(dǎo)语(yǔ)】国(guó)产(chǎn)算(suàn)力(lì)芯(xīn)片(piàn)以(yǐ)“能(néng)用(yòng)、好(hǎo)用(yòng)”为(wèi)评(píng)价(jià)标(biāo)杆(gān),但(dàn)“高(gāo)性(xìng)能(néng)”与(yǔ)“易(yì)用(yòng)”间(jiān)似(shì)存(cún)鸿(hóng)沟(gōu)。业(yè)内(nèi)人(rén)士(shì)指(zhǐ)出(chū),国(guó)产(chǎn)算(suàn)力(lì)为提升使用率,在软件栈设计上“有意”平衡,既要简化操作降低用户成本,又因场景多样、代际和异构差异面临挑战,实现“更好用”仍需突破。

对于(yú)国(guó)产(chǎn)算(suàn)力(lì)芯(xīn)片(piàn)来(lái)说(shuō),“纸(zhǐ)面(miàn)上(shàng)的(de)指(zhǐ)标(biāo)不(bù)重(zhòng)要(yào),真(zhēn)正(zhèng)能(néng)用(yòng)、好(hǎo)用(yòng)才(cái)重(zhòng)要(yào)”,几(jǐ)乎(hu)成(chéng)为(wèi)业(yè)界(jiè)默(mò)认(rèn)的(de)评(píng)价(jià)标(biāo)准(zhǔn)。然(rán)而(ér),近(jìn)日(rì)记(jì)者从产业活动中了解到,算力的“高性能”和“易用”之间似乎存在着一道“看不见的鸿沟”。

好算力不易用,厂商有意为之?

“好用和用得好似乎是天然的矛盾。”摩尔线程联合创始人首(shǒu)席(xí)技(jì)术(shù)官(guān)张(zhāng)钰(yù)勃(bó)表(biǎo)示(shì)。对(duì)于(yú)用(yòng)户(hù)而(ér)言(yán),“好(hǎo)用(yòng)”首(shǒu)先(xiān)意(yì)味(wèi)着(zhe)使(shǐ)用(yòng)和(hé)迁(qiān)移(yí)成(chéng)本(běn)低(dī)。要(yào)实(shí)现(xiàn)“好(hǎo)用(yòng)”,让(ràng)用(yòng)户(hù)先(xiān)在(zài)自(zì)己(jǐ)的(de)平(píng)台(tái)上(shàng)“用(yòng)起(qǐ)来(lái)”,算(suàn)力(lì)芯(xīn)片(piàn)企(qǐ)业(yè)就(jiù)得(de)将(jiāng)自(zì)己(jǐ)的(de)计算平台包装得非常简单,非常标准化,甚至做得跟CUDA一模一样。“这样开发者确实不需要做太多的额外学习,能够最小化学习和迁移成本。”张钰勃说。

小(xiǎo)2.j

国(guó)产(chǎn)算(suàn)力(lì)芯(xīn)片(piàn)用(yòng)于(yú)数(shù)字(zì)人(rén)

然(rán)而(ér),单(dān)纯与国际主流保持一致,国产算力的创新性如何体现?国产卡又如何真正实现在诸多应用场景的部署,成为“有用”算力呢?

针对这一问题,北京硅基流动科技有限公司创始人、首席执行官袁进辉解释道:算力芯片中往往会设计很多细节,存在很多复杂的结构和功能,充分调用其功能需要一定的经验和技巧。如果想让更多的人尽快地用起来,芯片就要尽可能地把细节隐藏起来,用简单而抽象的指令,尽可能让使用的方式简单一些。也就是说,把软件接口做简单,使用户能“傻瓜式”地把芯片用起来,便实现了芯片的“好用”。

但算力芯片应用的场景是多(duō)样(yàng)化(huà)的(de),场(chǎng)景(jǐng)覆(fù)盖(gài)AI、图(tú)形(xíng)处(chù)理(lǐ)、科(kē)学(xué)计(jì)算(suàn)等(děng)等(děng)诸(zhū)多(duō)类(lèi)型(xíng),每(měi)一(yī)种(zhǒng)任(rèn)务(wu)的(de)工(gōng)作(zuò)负(fù)载(zài)不(bù)尽(jǐn)相(xiāng)同(tóng),对(duì)底(dǐ)层(céng)芯(xīn)片的使用方式也各不相同。在不同的场景中,工程师如果发现了需要解决的问题,需要从上到下,逐层把一些工作负载细化、分解,以匹配硬件上的规格。

因此,所谓算力芯片“好用的没用”“有用的不好用”的争论,其实一定程度上是算力芯片企业为提升本品牌芯片使用率,“有意为之”的结果。

“好用不好用”,软件栈很重要

为了使用户先“用起来”而故意隐藏部分信息,既反映出算力芯片企业对用户的重视,也反映出用户习惯仍然在国产算力芯片普及化过程中扮演着相当重要的角色。软件栈的成熟度和“好用”程度,也很大程度上决定了开发者对算力芯片品牌的信赖度。

当前,用户期待算力基础设施能够承载包括大规模训练、推理在内的诸多职能。与此同时,国产算力芯片存在代际迭代,超智融合的算力中心还存在异构情况。上述这些需求,都对底层软件栈的稳定性带来很大的挑战。

“我们期待的状态是,上层应用跑得好。”启元实验室助理研究员王豪杰在接受采访时表示。英伟达的芯片之所以受到欢迎,稳定、高效且简易的软件栈发挥了很大的作用。王豪杰举例,一个在A100芯片上训练的模型,可以部署在4090显卡上,整个过程非常顺利,不需要对软件做任何修改。“这是英伟达好用的本质核心。”王豪杰说。

小.j

国产算力用于远程作业平台

反观国产芯片生态:一方面,同一品牌的产品存在代际差异;另一方面,不同品牌之间、底层软件栈之间也存在差异。在某一款产品上进行训练,再到另一款算力芯片上推理,模型在不同的软件和底层硬件迁移之后,精度损失会非常严重。甚至可能出现,某些接口在一款产品上适配了,但在另一款产品上没有适配,模型跑不(bù)起(qǐ)来(lái)的(de)可(kě)能(néng)。

“在(zài)单(dān)点(diǎn)算(suàn)力(lì)不(bù)足的情况下,为了满足算力规模需求,我们需要调用异构算力。底层软件的是支撑实现这一切的基础。”王豪杰称。

基于此,国产算卡要实现“更好用”,就得使任务能够轻易地调用不同品牌的算力卡。如果存在严格的适配机制和验证机制,能够通过中间层统一的架构,保障在上层代码不作修改的情况下,任务也能够在不同品牌的算力芯片上运转起来,便能推动我国智能算力进一步朝着产业化、规模化方向拓展。