Nvidia发布下一代GPU架构 芯粒技术成为新亮点
Nvidia不久前发布了下一代GPU架构,架构名字为“Hopper”(为了纪念计算机科学领域的先驱之一Grace Hopper)。
根据Nvidia发布的具体GPU规格,我们认为Nvidia对于Hopper的主要定位是进一步加强对于人工智能方面的算力,而其算力升级依靠的不仅仅是硬件部分,还有不少算法和软件协同设计部分,本文将为读者做详细分析。
我们认为,在Nvidia更下一代的GPU中,我们有望看到芯粒技术成为新的亮点来突破其瓶颈。
Hopper的性能有多强
根据Nvidia公布的数据,基于Hopper架构的GPU(H100)使用TSMC的4nm工艺设计,将会是Ampere架构(使用TSMC 7nm工艺)之后的又一次重大升级,其16位浮点数峰值算力(FP16)将会由之前的312 TFLOPS增加到1000 TFLOPS,INT8峰值算力则由之前的624TOPS增加到2000TOPS。
由此可见FP16(常用于人工智能训练)和INT8(常用于人工智能推理)的峰值算力基本上都是翻了三倍,这个H100相对A100峰值算力提升的比例基本符合A100和再上一代GPU V100的提升数字。
而根据Nvidia官方公布的具体任务性能提升,我们也可以看到大多数人工智能相关任务的性能提升基本在2-4倍之间(尤其是使用transformer类模型的性能提升较为突出,接近4倍),初看也和峰值算力提升三倍基本吻合。
但是如果我们仔细分析Nvidia H100具体芯片指标,我们认为在人工智能任务中,H100的提升不仅仅是来自于一些硬件指标(例如核心数量,DRAM带宽,片上存储器)的提升,更是来自于Nvidia做了算法硬件协同设计。
例如,Nvidia在Hopper架构中引入了为Transformer系列模型专门设计的八位浮点数(FP8)计算支持,并且还加入了专门的Transformer engine硬件模块来确保transformer模型的运行效率。因此,我们看到在Nvidia公布的人工智能任务性能提升中,使用transformer的任务(如GPT-3)的性能提升要高于传统的基于CNN(如Mask R-CNN)的性能提升。
存储方面提升相对较小
在人工智能等高性能计算中,存储(包括DRAM接口带宽和片上存储容量)和计算单元一样重要,在很多时候存储甚至会成为整体性能的瓶颈,例如峰值算力无法持续,导致平均计算能力远低于峰值算力。
在Hopper架构中,我们看到了峰值算力提升大约是Ampere的三倍,然而在DRAM带宽和片上存储方面,Hopper相对于Ampere的提升较小,只有1.5倍和1.25倍。
在DRAM带宽方面,我们看到H100有两个版本,其中使用最新一代HBM3的版本的内存带宽是3TB/s,相比于A100(2TB/s)的提升为1.5倍,相比峰值算力的三倍提升相对较小。
反观A100相对更上一代V100的内存带宽提升为2.2倍,因此我们认为H100的HBM3内存带宽提升幅度确实相对上一代来说较小。我们认为,HBM3带宽提升较小可能和功耗有关。
仔细分析Hopper发布的GPU,我们发现Hopper架构的GPU目前有两个品类,一个是使用HBM3内存的版本,而另一个是仍然使用HBM2e的版本。
HBM3版本的H100相对于使用HBM2e版本的H100在其他芯片架构上(包括计算单元)的差距不过10%(HBM3版本的计算单元较多),但是在功耗(TDP)上面,HBM3版本的H100的TDP比HBM2e版本H100整整高出两倍(700W vs. 350W)。即使是相对于上一代使用7nm的Ampere架构,其功耗也提高了近两倍,因此能效比方面提升并不多,或者说即使更先进的芯片工艺也没法解决HBM3的功耗问题。
因此,我们认为H100 HBM3版本DRAM内存带宽增加可能是受限于整体功耗。而当DRAM带宽提升较小时,如何确保DRAM带宽不成为性能瓶颈就是一个重要的问题,因此Nvidia会提出FP4和Transformer Engine等算法-硬件协同设计的解决方案,来确保在执行下游任务的时候仍然效率不会受限。
除了DRAM带宽之外,另一个值得注意的点是Hopper GPU的片上存储增长仅仅是从A100的40MB增长到了H100的50MB;相对来说,A100的片上存储相对于更上一代V100则是增加了6倍。
我们目前尚不清楚H100上片上存储增长这么少的主要原因,究竟是因为Nvidia认为40-50MB对于绝大部分任务已经够用,还是因为工艺良率的原因导致再加SRAM会大大提升成本。
但是,无论如何,随着人工智能模型越来越复杂, 对于片上存储的需求越来越高,片上存储容量较小就会需要有更好的人工智能模型编译器和底层软件库来确保模型执行过程中能有最高的效率(例如,确保能把模型数据更好地划分以尽量在片上存储中执行,而尽可能少地使用DRAM)。
Nvidia在这一点上确实已经有了很深厚的积累,各种高性能相关的软件库已经有很好的成熟度。
我们估计Nvidia有强大的软件生态作为后盾也是它有能力在设计中放较少片上存储(以及较小的DRAM带宽)的重要原因。
这一点结合之前Nvidia在Hopper引入的新模型-芯片结合设计技术,例如能大大降低内存需求的FP4技术,以及为了Transformer模型专门设计的Transformer Engine,这些其实从正反两面论证了我们的观点,即Hopper架构很多的性能提升事实上是来自于软硬件结合设计,而并非仅仅是芯片/硬件性能提升。
Nvidia下一步突破点在哪里?
如前所述,Nvidia的Hopper架构GPU的芯片领域的突破相比上一代Ampere架构并没有特别大,而是主要由软硬件结合设计实现性能提升。
我们看到在存储领域(包括DRAM接口和片上存储容量)的提升尤其小,而这可能也会是Nvidia进一步提升GPU性能的一个重要瓶颈,当然突破了之后也会成为一个重要的技术壁垒。
如前所述,HBM3的功耗可能是一个尚未解决的问题,而如何在芯片上放入更多的片上存储器则将会被良率和成本所限制。
在存储成为瓶颈的时候,芯片粒(chiplet)将会成为突破瓶颈的重要技术。正如之前所讨论的,当片上存储容量更大时,GPU对于DRAM等片外存储的需求就会越来越少,而片上存储的瓶颈则是良率和成本。
一般来说,芯片的良率和其芯片面积成负相关,当芯片面积越大时,则芯片良率会相应下降,尤其是在先进工艺中,良率更是一个重要考量。
而芯片粒则是可以大大改善这个问题:芯片粒技术并不是简单地增加芯片的面积(例如更多片上存储),而是把这些模块分散在不同的芯片粒中,这样一来整个芯片粒的芯片面积就会大大下降,从而改善良率。
此外,随着GPU规模越来越大,为了能更好地控制整体良率,使用芯片粒技术也是一个自然地选择。
我们认为,在今天HBM3技术的功耗遇到瓶颈的时候,或者说HBM技术整体从功耗上遇到挑战的时候,下一步的重要方向一定是从简单地增加DRAM带宽和在单个芯片上放更多晶体管变到更精细地设计架构和片上存储,这也就让芯片粒占到了舞台中央。
事实上芯片粒和GPU的结合对于业界来说并不陌生。事实上Nvidia最有力地竞争对手AMD已经把芯片粒技术使用在GPU上,此外在片上存储部分AMD也发布了3D V-Cache,可望成为下一代继续增加片上存储的重要技术。
Nvidia在芯片粒方面也有相关布局,这次与Hopper同时间发布的用于芯片粒互联的UCIe标准也意味着Nvidia在芯片粒领域的投资。
我们认为,在Nvidia未来公布的GPU中,非常有可能可以看到芯片粒技术的大量应用,而这结合Nvidia的软硬件协同优化技术有可能会成为下一代Nvidia GPU的最大亮点。
推荐
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
苹果iPhone14ProMax模组满血状态 像素首次提升至4800万
今天,业内人士@酸数码表示,今年的iPhone 14 Pro Max也是大底Sensor,模组满血状态,到时候可以看看...
来源: -
-
-
-
-
-
-
-
-
-
-
-
-
财富更多》
-
性价比最高的骁龙870平板 realmePad本月发布
今天,博主@数码闲聊站爆料,realme Pa...
-
市场监管总局:公布2022年国家计量比对项目 涉及食品安全、生物制药等领域
市场监管总局:公布2022年国家计量比对...
-
调动更多金融“活水” 纾困滋养小微企业发展
调动更多金融“活水”纾困滋养小微企业...
-
网络市场监管与服务示范区创建办法实施 助力网络经济发展
网络市场监管与服务示范区创建办法实施...
-
市场监管总局:网络市场监管与服务示范区创建管理办法发布实施
市场监管总局:网络市场监管与服务示范...
动态更多》
热点
- 小米12SUltra将搭载徕卡专业光学镜头 透光率高达93%
- 小米12S主摄升级为索尼IMX707 拥有1.28英寸超大底
- 小米12SUltra主摄将采用定制 索尼IMX989定制传感器
- 三星新机可拆卸电池设计曝光 搭载骁龙778G处理器
- 小米12Lite官方渲染图曝光 中置挖孔直屏和直角边框设计
- 联想拯救者新款笔记本即将发布 升级压感键盘带来更好的游戏体验
- 微信又出新功能 可以快速识别图片上文字信息
- 华硕ROG将发布新款散热背夹 后壳采用半透明拼接设计
- 新日全铝锂电自行车发布 号称采用人体工学骑行姿态优化
- 小米笔记本Pro2022官宣 屏幕面板采用新一代E4自发光材料
- 环球今亮点!俄油供销两旺!埃及意外跃升为沙特主要燃油供应国
- 三星新机可拆卸电池设计曝光 搭载骁龙778G处理器
- 小米12Lite官方渲染图曝光 中置挖孔直屏和直角边框设计
- ROG幻16翻转本正式开售 秒杀到手价18999元
- 小米笔记本Pro2022海报曝光 纤薄机身工艺新突破
- 首周立减20 黑鲨冰封制冷背夹3专业版正式发布
- 黑鲨新机参数曝光 首批搭载骁龙8+处理器性能提升10%
- 中期改款奥迪A6L实车亮相 外观内饰升级有望近期上市
- 当前消息!空头又有新目标?稳定币“一哥”USDT被对冲基金们盯上了!
- 全球今亮点!专家暗示消费者对美元失去信心,看好黄金长期前景
- 全球消息!Shopify以10-1进行拆股后 股价跌逾6%
- 每日速看!美银美林看空欧元下半年走势,背后有何原因?
- 当前热文:俄油价格上限不管用?分析师预计油价飙升至200美元 白宫沙盘模拟
- 看热讯:6月30日财经数据和大事件前瞻
- 焦点消息!德国股市收低;截至收盘DAX 30下跌1.73%
- 天天热门:埃克森美孚(XOM.US)法国一炼油厂发生罢工!炼油产能占全法10%
- 天天最资讯丨传Nexstar Media Group(NXST.US)即将收购CW Network多数控股权
- 当前热门:美最高法院大法官布雷耶将于30日退休 继任者为拜登提名的杰克逊
- 环球速看:巴西股市收低;截至收盘巴西IBOVESPA股指下跌0.96%
- 【全球速看料】美国股市涨跌不一;截至收盘道琼斯工业平均指数上涨0.27%
- 环球精选!加拿大股市收低;截至收盘加拿大多伦多S&P/TSX 综合指数下跌0.75%
- 环球今亮点!巴菲特重仓的食品巨头与连锁超市闹掰:不让涨价?下架!
- 悠长暑假“神兽”出笼?家长请备好这件“神器”
- 大额存单一个月和六个月哪个合适呢 大额存单提前支取利息怎么算
- 定期存款五万元是大额存款吗 定期存款可以提前取出来吗
- 农村养老保险要怎么去交?农村养老保险档次有几档
- 大额存单到期后会自动转为活期吗?大额存单多少起存?
- 建设银行大额存单可以存在存折上吗 建行电子回单在哪里找
- 大额存单会被银行内部人员盗取吗 大额存单到期后会自动转存吗
- 电脑没声音该怎么恢复呢 电脑声音小怎么调大点
- 电脑每次开机都弹出广告怎么删除 电脑广告弹窗太多怎么彻底关闭
- 电脑启动文件夹消失该怎么解决 电脑启动文件夹无权限怎么办
- 电脑桌面一刷新就闪屏该怎么解决呢
- 电脑发热嗡嗡响是怎么回事呢 电脑发热严重会不会烧坏
- 笔记本键盘失灵怎么办 笔记本键盘进水该怎么处理呢?
- 电脑有信号却不能上网怎么回事?显示器显示信号无输入怎么办
- 电脑无法关机该怎么办呢 电脑无法关机怎么解决
- 电脑玩游戏卡顿的原因是什么呢 电脑玩游戏码总是错误怎么办
- 电脑老死机是怎么回事呢 电脑经常死机是什么原因呢
- 电脑蓝屏自动重启怎么解决呢 电脑蓝屏重启后显示器没反应
- 电脑读卡器无法读取怎么办?电脑读卡器插上去没反应怎么办
- 搜狗输入法状态栏不见怎么解决 搜狗输入法怎么打字生成表情包
- 电脑经常蓝屏是什么原因呢 Windows安全模式无法进入怎么解决
- 电脑自动开启故障是什么原因 电脑出现节能模式怎么办
- 屏幕两边出现黑屏是怎么回事呢 屏幕黑屏打不开怎么办
- 电脑看视频时突然黑屏是怎么回事 电脑黑屏却开着机是怎么回事呢
- 电脑开机快关机慢是什么回事呢 电脑开机慢连不上网络怎么办
- 电脑无法关机的原因是什么呢 电脑关机键点了没反应怎么办
- 笔记本蓝牙在哪打开呢 笔记本蓝牙连接不上怎么回事
- c盘不能分区和系统盘有关系吗 硬盘分区后可以合并吗
- 驱动更新失败问题该怎么解决呢 驱动更新失败是什么原因呢
- 电脑出现假死该怎么办呢 电脑假死机按什么键恢复
- 主板电源线该怎么解决呢 主板电源接口是几针呢?
- 移动硬盘退不出来该怎么办呢 移动硬盘一直插在电脑上会坏吗
- 电脑usb无法识别该怎么办呢 电脑没有声音了怎么恢复
- u盘提示无法识别的原因是什么 u盘文件删除如何恢复
- 电脑故障应急该怎么处理呢 电脑故障问题有哪些呢?
- 笔记电脑超频是什么?笔记本超频损害大吗?笔记本超频是什么意思?
- 网络不稳定的常见原因有哪些呢 网络不稳定跟路由器有关系吗
- 鼠标右键失灵该怎么办呢 鼠标右键不好使了怎么办
- 蓝牙搜索不到设备该怎么解决呢 蓝牙搜索不到音响设备怎么办
- 解决电脑蓝屏的技巧有哪些呢 电脑蓝屏修复按哪个键
- 电脑开机没反应该怎么解决呢 电脑按开机键没反应该怎么办
- 电脑打字很慢的原因是什么 电脑打字慢怎么提高速度
- 电脑不停地重启是怎么回事呢 电脑不停地重启怎么办
- 系统文件损坏该怎么解决呢?系统文件误删了怎么修复?
- 电脑提示无法访问光驱怎么办呢 光驱弹不出来怎么办呢
- 鼠标有时候连点是怎么回事呢 鼠标连点器哪个最好用
- lnk格式文件该如何删除呢 lnk是什么格式文件
- 电脑自动注销该怎么解决呢 电脑自动注销关机是怎么回事
- 电脑常见的几种故障都有哪些呢 电脑故障的诊断原则是什么
- 机箱风扇接主板还是电源 机箱风扇有必要装吗
- 电脑CPU温度过高经常死机 电脑cpu负载过高怎么解决
- 电脑运行越来越慢怎么办 电脑运行内存怎么扩大
- 电脑exe文件打不开怎么办 exe文件怎么转换格式
- 光标乱跑的原因是怎么?光标乱跑怎么办?光标不能移动怎么办?
- 出海IT企服品牌OgCloud获数千万A轮融资,引领跨境SaaS平台创新
- 英格威推出X26电动自行车 专为城市和越野旅行设计
- 尼尔机械纪元年度版10月6日登陆Switch平台 和前作几乎没有关联
- 联想ThinkBook预热两款笔记本新品 32GB大内存即将发布
- 小米徕卡旗舰即将发布 支持8K电影大师徕卡视频滤镜
- 逆水寒将推出全新渲染技术 游戏即将迎来全面画质升级
- 苹果正在准备iPadmini新版 新机型配置大幅升级
- 苹果手机再添新成员 iPhone14系列将独享息屏显示功能
- 育碧全境封锁2国服首测即将上线 配置要求大量信息
- HTC发布元宇宙手机 搭载高通骁龙695处理器
- 苹果或将推出iPhone14Plus 只有Pro版升级至A16处理器
- 联想拯救者新款笔记本即将发布 升级压感键盘带来更好的游戏体验
- 微信又出新功能 可以快速识别图片上文字信息
- 华硕ROG将发布新款散热背夹 后壳采用半透明拼接设计
- 新日全铝锂电自行车发布 号称采用人体工学骑行姿态优化
- 天天快消息!专家预测欧银7月加息50基点,债券收益率讨论影响欧元前景
- 小米笔记本Pro2022官宣 屏幕面板采用新一代E4自发光材料
- 【世界聚看点】高盛:布伦特油价可能升至每桶140美元
- 热消息:港股异动:蔚来汽车股价下挫6%,遭海外机构做空
- 小米12S系列外观首度公布 搭配金色边框整机气质非常独特
- 奇瑞捷途全新硬派越野车内饰设计图曝光 和路虎卫士有不少相似之处
- 时隔5年回归 苹果全新6.7寸大屏手机可能名为iPhone14Plus
- 小米12S系列官方预热海报泄密 可能采用黑色陶瓷机身+金色镜头的设计
- 小米12S系列官宣 与徕卡达成全球影像战略合作
- 速递!推进裁员计划!特斯拉“炒了”加州自动驾驶团队近200人
- 【环球速看料】中金公司首席信息官程龙:让敏捷组织成为数字化转型的生命体,改变业务与技术两张皮,破局立足五个“转”
- 世界今头条!券商“赚钱能力”指标排行:华福ROE排名第一成黑马,中信提升16位到第七,东财、建投、中金排名居前
- 全球快消息!谷歌商务总裁Bill Ready接任Pinterest(PINS.US)CEO
- 焦点热议:埃克森美孚(XOM.US)及帝国石油(IMO.US)以19亿加元出售XTO Energy Canada
- 天天即时看!巴菲特再次加仓西方石油 将持股比例提升至16.4%
- 天天看点:主要产油国或达产能上限,API库存大降300万桶,油价连涨三天
- 焦点精选!海外做空机构指责蔚来搞“会计游戏” 公司股价波动有限
- 深入了解复星集团郭广昌于湖畔大学的授课,感触匪浅
- 电脑用户账户密码该怎么修改呢 电脑用户删除了怎么恢复
- 电脑用久了会变卡该怎么办呢 电脑蓝屏该怎么修复呢
- 电脑用VR配置要求高吗 vr眼镜看小电影效果好么
- 强制关闭电脑对电脑有什么影响吗 电脑强制关机危害究竟有多大
- 游戏垂直同步是什么意思 游戏垂直同步对帧数影响是什么
- 电脑自动关机快捷方式怎么设置呢 电脑自动关机是什么原因
- 百度百科编辑的时候需要注意什么呢 百度百科要怎么创建词条呢
- 虚拟现实与元宇宙的关系是什么呢 虚拟现实技术的三大特征是什么
- 网站优化都包含哪些呢 网站优化主要工作是什么呢
- win7系统减少电脑内存占用率有什么方法吗 win7系统密码忘了怎么解除呢
- Win10系统怎么开启夜灯模式呢 win10系统更新怎么关闭呢
- Windows10驱动无法使用是怎么回事 win10的无线网络设置在哪里
- win7系统删除木马病毒文件的方法是什么呢 win7系统的设置功能在哪
- 电脑屏幕怎么设置亮度保护眼睛呢 电脑屏幕闪烁不停是怎么回事呢
- 台式电脑一天能用几度电呢 台式电脑怎么连wifi
- 内存卡最大内存是多少?内存卡损坏了怎么办