SFC2021
SFC2021 总版主

275枚
铜币

350点
威望

0个
银元

RISC-V二号狂想曲: 掰开开源硬件的大饼?(2)

2021-03-17 16:43

4300

技术封锁

从18年开始的芯片制裁,大家都懂的:

  • 为此RISC-V基金会将总部搬去了瑞士,以彰显保持中立的决心。
  • 再比如最近英伟达(Nvidia)收购安谋控股(ARM Ltd),便遭到了全球产业链的反对。

而摆脱技术限制最好的方法就是:拥抱开源。

| 行业可能从未像如今如此需要开放的技术。

制程迭代难题

近五年买过手机或电脑的读者,都或多或少可以感受到处理器性能提升速度在减慢。尤其是英特尔的用户。

蓼岸风多橘柚香,江边尽是牙膏厂。

那么性能增速减缓的主要原因是什么呢?

我们来看看AMD CEO苏妈(Dr. Lisa Su)在Hot Chips 2019上的演讲:

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?8.jpg

Dr. Lisa Su, Hot Chips 2019

可以发现,过去十年,处理器性能的提升60%来自于半导体制造工艺的提升:
  • 提高芯片热功耗(TDP 8%)
  • 增加芯片大小(Die Size 12%)
  • 提升芯片制程(Process Technology 40%)

这个自下而上的芯片制程升级,是人类继续摩尔定律的关键,可惜它的迭代正在变慢:

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?9.jpg


Dr. Lisa Su, Hot Chips 2019

英特尔更是因为无法攻克制程难题,丢失了自己性能领导者的地位。

为了更好的理解制程瓶颈,让笔者先带领大家简单体会一下让英特尔马失前蹄、将中国芯片行业脖子卡得死死地高端芯片制造的大概流程和技术难点。

| 芯片的光刻难题


降低芯片的制程(让晶体管更小),可以带来多方面的好处:
  • 更小的晶体管(Transistor),只需更少的能量便可以更快地完成状态转换(0 <=> 1),降低能耗,提高性能
  • 同样的面积,可以放下更多的晶体管,实现更多的功能,提高性能
  • 同样的功能,电流走过更短的距离,速度更快,热损耗更低

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?10.jpg


Engadget Upscaled: Are Intel's 10nm CPUs worth the wait?

所以降低制程可以同时带来更快的速度,更多的功能,更低的功耗。

它唯一的问题是工程上难度大、成本高。

我们来简单看看芯片从设计到光刻有哪些技术挑战。

设计

我们先来看看芯片设计阶段:

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?11.jpg



制程的降低,晶体管数量越来越多,大大提升了设计的难度:
  • 2020年5nm制程的苹果M1处理器和华为麒麟9000处理器,晶体管数量已经超过150 亿个,芯片设计必须在这样的数量级下完成严密的设计、模拟、验证,并生成出完美的模具。
  • 由于芯片的生产成本非常高,所以芯片设计必须要在软件系统中严格测试验证芯片的功能。一旦有错,可能便是几百万、几亿美金打水漂。
  • 英特尔14nm制程的处理器,需要制作50+张不同的模具(Photomask),每张模具的数据量达到5Pb(5 Petabits = 5000 Terabits = 625 TB = 625000 GB),这31250 TB数据量的模具必须“完美无瑕”。

光刻

目前由于芯片尺寸极小,内部结构又极其复杂,工业界主要是使用光刻的方法加工,具体原理与相机类似:

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?12.jpg

Engadget Upscaled: EUV, the sci-fi tech that will make chips faster

  • 将处理器的设计图制作到放大的模具(Photomask)上
  • 利用光学系统将大的模具缩小曝光到涂有特定光刻胶(Photoresist)的晶圆(Wafer)上
  • 生产过程中,往往需要利用多重曝光,通过反复的光刻,蚀刻,镀膜,打磨等过程,提高成像精度或者制作特殊的3D结构。最后才可以切割晶圆,封装测试,交付使用。

| 光刻的精度,直接决定芯片的制程,是决定处理器性能最关键的工艺。实现光刻的机器,就是中国人耳熟能详的光刻机。

目前全球最先进的光刻机,来自于ASML的极紫外(EUV)光刻机,全球独此一家。大概是是下面这样:

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?13.jpg

Zeiss: How Photolithography works

笔者大概总结几个极紫外光刻的工程难点,读者可以体会一下:
  • TRUMPF为ASML提供了世界上最强的激光系统,可以每秒发射55000次,轰击滴下的锡元素,产生温度高达22万度(40倍于太阳表面温度)的等离子体,从而生成极紫外光(Extreme UltraViolet)。
  • 极紫外光很容易被吸收,系统必须处于真空环境。
  • 玻璃也会吸收极紫外光,光学系统不能使用透镜,而需要使用最高质量的反射镜(Mirror),但是依然会损失96%的光。
  • 蔡司提供的光学系统的精度极其苛刻:”如果把镜片放大到德国这么大,不光滑处只能有0.1毫米。“
  • “带上月球拍照的镜头可以解析6千万像素的照片不会有像差(Aberration),EUV的光学系统可以做到一万亿像素。”
  • 晶圆在纳米程度都会类似果冻胶体(Jell-O),并不平整,多重曝光时的对准必须极其精确,否则芯片就可能报废。
  • 整个生产环境必须无尘。
  • 等等等等

芯片生产是个大系统工程,成百上千道工序,每一步都要接近完美。英特尔可以获得所有关键设备,但是依然只有台积电实现了商业化的5nm制程。

正是因为如此变态的工程要求,在制程进步的路上,制造成本节节攀升:

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?14.jpg

Dr. Lisa Su, Hot Chips 2019

除了成本攀升,还有其他的大坑在前面等着。

| 芯片的制程瓶颈


在光刻的理论模型上,有两个简化的公式:

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?15.jpg


降低制程,就是要得到更小的CD,运用初中数学知识,可知:
  • 将 k1 优化到最小的0.25
  • 寻找波长更小的光源
  • 寻找折射率更大的介质
  • 正弦函数想办法趋近1

光刻技术路线也正如此:

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?16.jpg

Zeiss: How EUV lithography works

  • 本世纪初的技术变革正是台积电与ASML一起攻克浸润光刻(在光刻机里使用某种折射率大的液体作为工作介质),实现了 NA > 1。
  • 近几年台积电7nm和5nm制程的实现,则是靠极紫外光的短波长(13.5nm)实现。
  • 由于极紫外光极易被吸收,实现浸润式光刻将很困难,下一代的High NA光刻也只能将 NA 提升到 0.55。

想要继续提升制程工艺只能:
  • 继续使用多重曝光,进一步提升工艺的复杂程度,降低良品率,增加制造成本
  • BEUV(Beyond EUV),寻找更短的光源

而比极紫外光波长更短的,只剩下X射线和Gamma射线了。

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?17.jpg


面对如此众多的局限,人类还在做着以下的努力,尝试延缓制程瓶颈的到来:
  • 使用新一代的半导体材料,比如用性质更加优秀的碳化硅(SiC)取代硅(Si),目前还受制于产能和造价的限制
  • 进一步改变晶体管的结构,比如使用更加复杂的三维结构

但残忍的现实是,随着晶体管继续变小,将不可避免的碰到量子遂穿(Quantum Tunnelling)的问题,使得晶体管的半导体性质不再稳定,从而彻底终结半导体制程工艺的进阶之路。

| 计算平台的发展方向


所以,目前的现状是:
  • 一方面,利用降低制程提升处理器性能的速度正在逐步减缓(并可能终将停止),但制造成本却节节攀升;
  • 另一方面,大数据+人工智能的崛起,计算需求指数增长,每三个半月便翻一倍。

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?18.jpg

David Patterson: A New Golden Age for Computer Architecture

必须要寻找新的方法,解决海量的计算需求。

笔者总结下来,巨头们的应对方案,大概是:
  • 定制化的多计算单元混合硬件体系
  • 软硬件的深度整合优化

让我们分别从个人计算平台和云计算平台来看看具体的案例分析。

个人计算

2020年底,苹果发布了第一款自研的桌面处理器M1,引起市场轰动。

苹果M1处理器

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?19.jpg

Apple M1 SoC

  • 苹果第一次将移动平台上成熟的片上系统(SoC: System on a Chip)带到了桌面平台,将不同的元件:大小核搭配的通用计算单元(big.Little CPU),图形计算单元(GPU),人工智能计算单元(Nerual Engine),甚至是系统内存(DRAM)全部集成在一起,用以提高不同元件之间的沟通效率。
  • 软件硬件系统深度整合,针对不同的计算任务,调用最适合任务的计算单元,提高计算效率。好比喝粥时给你勺子,喝水时给你杯子,专用工具干特定的事情。
  • 自研芯片不再受制于英特尔的制程劣势,使用上了最先进的台积电5nm制程。

而这次升级,更大的变动是:
  • 苹果的桌面硬件系统,从x86指令集迁移到了ARM指令集
  • 前文介绍过指令集的定义,硬件规范的改变,意味着苹果桌面平台上所有软件都需要重新“翻译”或者重新开发才可以使用。

苹果为什么费这么大的力气都要做这个事情呢?
  • 在通用计算硬件的性能迭代进入瓶颈时,苹果必须要、不断通过定制硬件系统、深度软硬件体系整合,来提高计算性能,保证产品竞争力。
  • x86完全垄断封闭的商业模式,使苹果并没有办法直接定制x86硬件。

抛弃x86,M1开了第一枪,且好评如潮,苹果更是承诺两年完成所有迁移。

另外一个行业大佬微软,既有资源又有生态话语权,为了保持竞争力自然也会跟随(虽然会比苹果慢很多)。所以ARK基金对桌面市场的预测也就不奇怪了:

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?20.jpg



那么,在遥远的未来,当RISC-V的工业化生态更加成熟时,当个人计算平台的软硬件定制需求进一步提高、ARM也无法满足的时候,开放的 RISC-V 是不是也有机会走上我们的手机,电脑和汽车呢?

说不定未来并没有想象的那么远,比如:

2019 年,阿里巴巴发布了玄铁 C910:一款AI向量加速引擎的高性能RSIC-V架构多核处理器,着眼于物联网、自动驾驶的应用。

云计算

在服务器端,我们也来看谷歌,微软和赛灵思(Xilinx)分别做了些什么。

谷歌TPU云
  • TPU(Tensor Processing Unit)张量处理器,是谷歌开发的专用芯片(ASIC)。
  • TPU专门为谷歌自己的人工智能软件框架TensorFlow而设计,无法做通用计算,但可以为 CPU 和 GPU 集群提供极强的 AI 计算加速。
  • 2015年的第一代TPU的 AI 计算性能是CPU的83倍,GPU的29倍。
  • 打遍天下无敌手的AlphaGo便是由TPU训练的。

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?21.jpg

David Patterson: A New Golden Age for Computer Architecture

微软的Catapult项目
  • 2013年微软在计算硬件体系中引入FPGA(可硬件编程芯片);CPU+FPGA的硬件组合将微软Bing搜索的决策树算法速度提升了40倍。
  • 2015年微软将FPGA大规模部署在Bing和Azure云计算平台。FPGA硬件加速的引进,提高了Bing搜索排序系统50%的系统吞吐量,减少了25%的延迟。
  • 微软对FPGA的成功商业应用,引的亚马逊云服务(AWS)和阿里云纷纷跟进。
赛灵思ACAP平台
  • 灵思提出了可适应计算加速平台(Adaptive Compute Acceleration Platform),想法是将CPU,FPGA和 GPU进行深度整合,并提供统一的编程接口。
  • 此产品还比较新,仍需要大量的市场检验。

图片:RISC-V二号狂想曲 掰开开源硬件的大饼?22.jpg


我们可以看到云计算平台与个人计算平台在发展思路上非常类似:
  • 整合不同特定功能的硬件元件,比如TPU或者FPGA,到计算系统架构里
  • 软硬件深度优化,特定的软件功能使用特定的硬件元件加速微软甚至直接将软件的特定算法通过FPGA直接实现在了硬件


返回顶部