如何实现科技创新创新的6种方法
信息来源:互联网 发布时间:2023-10-10
9 月 14 日 ~15 日,2023 全球 AI 芯片峰会(GACS 2023)在深圳市南山区举行
9 月 14 日 ~15 日,2023 全球 AI 芯片峰会(GACS 2023)在深圳市南山区举行。在 9 月 14 日 AI 芯片架构创新专场上,芯至科技联合创始人、首席芯片架构师兼副总裁尹文分享了主题为《AI 计算新时代催生芯片架构走向 算力统一场 》的主题演讲。
尹文认为,进入 AI 新时代,算力创新不再仅仅是单个处理器微架构和芯片工艺的创新,而需要软硬件全栈的系统架构全面创新,未来的创新机会来自以下方面:开放的通用指令架构,高效的融合加速器,异构互线和芯片工程,开源算子库、工具链和软件。
1、AI 大模型落地到推理侧的新机会与 RISC-V 架构创新不谋而合,RISC-V 不仅可以做标量通用计算,也可以做线程级并行的 AI 计算。Scaler 小标量 +SIMT 大算力的指令集 / 微架构融合将是未来 RISC-V 发力的重点,能以相对低的成本,为 AI 推理侧应用提供高效支持。
2、SoC 芯片系统的有效算力依赖于计算核心或计算 Die 之间的高效互联,通用算力和异构算力需要在整个系统的内存从逻辑上可以被统一为一个更大的具有一致性的空间。低时延大带宽的一致性总线互联可以让异构计算芯片更好更紧密的协同,从而提高整个系统的性能和能效。
3、WoW (Wafer on Wafer)混合键合在新型芯片工程技术领域有重大价值。在他看来,WoW 可将 AI Die 和 Memory Die 垂直堆叠,以低于 HBM 一个量级的成本提供数倍于 HBM 的带宽;对于大模型推理来说,4~6GB 的 Memory Die 完全满足 Transformer 一层网络权重的存储和层内高带宽需求。
基于此,芯至科技围绕RISC-V 开源指令架构、自研一致性总线DIC的架构创新,可以带来10 倍性价比的大模型 AI 推理芯片。
展望更长期的未来,尹文相信基于RISC-V 开源指令同构和微架构异构,开源软件工具链及自主一致性总线和芯片工程创新,未来有机会推进到算力统一场。算力统一场将更利于形成更大的自主可控软件新生态,并符合计算架构的原始特征,助力我国在计算体系方面换道超车。
首先谢谢主办方的邀请,还有各位同行、各位嘉宾的参与。自从今年上半年大模型层出不穷,从芯片架构领域,各位同行都在一起讨论,未来芯片在 AI 领域的架构怎么做、未来新的机会在哪里。今天我给大家带来的演讲就是我们团队在这一方面的思考。
进入 AI 计算的新时代,怎么催生芯片架构不停地往前推?推向一个什么样的地方?我们提出了一个 算力统一场 的概念。
首先看芯片架构的创新,摩尔定律的一个根本特征就是单位性能的成本在线性下降,但最近几年,单纯凭工艺,到 5nm、3nm 之后,成本下降并不是线性的。我们怎么样去延续这个线性的性价比的降低?更多地是要靠软硬件重构。重构的一个顶层思想其实是来自第一性原理,要把原来的架构不停地分解,再不停地重构。
第一个是开放的通用指令架构,上个月(8 月份)在北京的 RISC-V 峰会,各位同行有很多的讨论,RISC-V 就是开源开放架构的典型代表。
第二个是怎样做一个高效融合的加速器。大模型应用需要底层适应这些模型的算力架构,算力架构怎样融合在通用指令架构上,这是我们所面临的机会,也是一个技术难题。
另外,现在处理器核越来越多,多 Die 互联、异构互联、存储的连接越来越复杂,怎样有一个异构互联的高效总线,还有高效互联的 I/O 设备的一个新架构,是未来 AI 芯片架构的一个新方向。
最后,芯片的晶圆和 Die 越来越大,功耗越来越大,在提升它的性价比、能效上需要一个非常强大的、可演进的一个芯片工程的支持,以及整个算子库、工具链和软件的发展。
大模型和 RISC-V 在最近几年有很好的结合,算法、算力、数据三架马车要齐步往上推,我们看到,在微架构和模型方面是同步发展的。
左边的图是大模型在快速发展,云端训练的大模型有点类似于一个人,首先从 0 到 1,经过九年义务教育,形成完整的世界观。未来这些大模型要在各行各业去应用,就好比大家上了大学,选定一个专业,进入到一个行业。有句话叫 学好数理化 ,数理化就是基础,未来模型要不停地增加行业知识创新的6种方法,那是一个 fine-tuning(微调)阶段,意味着更多的机会,大模型在各个行业能够不停部署,产生真正的市场价值。
举个例子,大家可能不知道对 OpenAI 的 Triton 是否熟悉,现在有很多年轻的朋友正在利用 Triton 这个工具来做 AI 算子自动化的开发。
Triton 有全开源的优势如何实现科技创新,另外它可以通过自动化的生成工具,来生成特定的一些算子,比如说浮点的卷积或者是矩阵乘。基本上它的效率和手写的算子库效率是相当的,比如说一个 FP16 的矩阵乘,一个 Python 的代码可能就 20 多行创新的6种方法,大家可以在网上找到很多例子。
它支持像 Python 这样的高级语言,可以极大降低通过自定义指令学习类似 CUDA 这样编程框架的成本。按照现在 Triton 的发展,相比 CUDA,它在自动化算子生成、内存优化、SM 核心的 scheduling 等方面有很好的效果。
我们基于传统的 GPGPU 方案会有大量自定义的算子,并且要开发自己的编译器。作为一个芯片公司,其实我们在软件的投入上反而会更大,包括在工具链、算子库的开发,很多软件开发团队可能高达 70%~80% 的规模。
如果采用开源指令和开源工具链这样的技术路线,首先 RISC-V 可以复用整个编译器的开放成果,另外在客户支持、算子开发这方面,有类似于像 Triton,还有未来会发展更多的开源工具,可以自动化地生成第三方算子,极大降低软件开发的人力成本。
算力效率方面,我们提到了 有效算力 概念,跟芯片效率是非常相近的概念。现在我们做芯片架构的时候,在关注单核的算力创新的6种方法、主频、流水线的能力。并且我们还要看在一张晶圆上可以做多少 Chiplet 的 Die,Chiplet 集成得越多,算力、核数也会越多越大。
但大家可能忽略了一点,就是我们的 SoC,把那么多核互联起来,包括 die-to-die 的 Chiplet 互联,还有 CPU 和 GPU 这样类似于 NVLink、CXL 这样的异构互联,它的效率问题。
我们要关注这么几个指标,包括总线的时延、带宽、一致性的能力。可能大家对一致性的理解不是特别多,它就好比部门越来越多,虽然团队的实力和规模越来越大,但是并不代表这么多团队产生的有效绩效能够越来越强,需要各部门的互联互通、能够目标一致。这个一致性也是一样的,我们有那么多的 CPU 核、AI 核,包括同构、异构的核,怎么保证处理任务的一致性。最后是功耗,它的能效也非常重要。
刚才很多同行也介绍了 die-to-die(D2D)、Chiplet、并行、UCIe 等各种 D2D 互线,怎么样提高它的效率,以及我们在一个大的集群里面怎么样把异构的芯片通过 Switch 互联起来创新的6种方法,这更多是一个系统上的概念。
说完互联墙,接下来就是大家谈论比较多的内存墙。在 AI 芯片,我们当前的方案更加依赖于 HBM 这种大带宽的内存。HBM 跟 CoWoS 相结合,在扩展带宽的时候,线性扩展带来成本的极大增长。怎么样把 AI 的逻辑 Die 跟内存 Die 有更紧密的连接,把带宽成本降下来?
现在我们可以看到,Hybrid Bonding 异构键合技术在快速发展。基于 Hybrid Bonding 技术,我们可以实现 Wafer-on-Wafer(WoW)的垂直互联,就像从三楼到四楼可以有上万部电梯,这样我们会场这么多人,吞吐率就会非常大。
我们芯至科技和合作伙伴一起,现在已经可以做到在两个 Die 有 70000 多个 pins 互联,相当于有这么多部电梯互联互通,容量可以做到 6GB,相当于我的 AI 逻辑 Die 和内存 Die 可以实现非常短距的、大带宽的互联互通。
可以看右边的表格,刚才提到大模型未来进入行业部署更多是微调,它的模型参数并没有像 ChatGPT 或者 GPT-4、5 未来指数级的增长如何实现科技创新,单层参数量可以放在 WoW 这样一个 DRAM 存储空间上。在容量够的情况下,实际上就可以体现 WoW 这样一个大带宽的巨大优势。
一方面,开放的指令架构。我们可以重新来认识一下 RISC-V创新的6种方法,它可以做 CPU,大家可能熟知的是 x86 指令、Arm 指令,RISC-V 就是下一代新生的 CPU 指令架构。但我们基于 RISC-V 也可以做 SIMT 的架构,实现 GPGPU 的功能。在通过 RISC-V 做 GPGPU 的过程中,我们可以最大地复用 RISC-V 这个开源指令,包括它的开源工具、整个软件复用度,就可以极大降低在做自定义芯片的情况下,我们要有大量的人力成本。
第二,高效的异构互联,在自研一致性总线方面,我们更多要有一个系统框架,怎么样把 Die 内的互联、D2D Fabric、整个 Chip-to-Chip 的互联纳入到一个完整的一致性框架下,并且在物理上、在芯片工程上降低时延,提升带宽,这是我们要发力的重点。
第三,新型的芯片工程,在内存墙方面,我们怎么样把 AI Die 通过 WoW、Hybrid Bonding 这样的技术,把带宽做上去,未来是能够替代 HBM、CoWoS 封装等高成本方式的最佳途径。
所以我们团队现在在考虑,在当前的大模型推理芯片架构上,在软硬件结合还有芯片工程上的创新,来打造具有 10 倍性价比以上的创新芯片。
中长期愿景,算力统一场。首先可以看到中间这个图,在整个 RISC-V 指令规划基础下,我们在这个圆圈的内部可以做很多事情。
另外一点,开源工具链,就像我刚才给大家介绍的 OpenAI 所做的 Triton 的例子,大家可以多去看看,Triton 在整个社区非常活跃。未来会有更多像 Triton 这样的开源工具发展,结合 RISC-V 微观指令的发展,在整个指令、自定义算子、编译器方面,有很大的性价比提升。
从微架构异构和指令集同构、开源工具链、在 SoC 层面的一致性总线还有芯片工程方面,我们有机会在未来打造一个软硬件同构的新生态。
这个新生态更加有利于在国内形成一个更大的、自主可控的软件生态,并且在芯片架构领域更加符合计算架构本身原生态的架构,有助于在计算领域帮助我国在计算体系方面做到换道超车。
大家知道当前的 CPU、GPU 的计算架构和生态是建立和发展主要在国外,国外特别是硅谷有很多行业前辈奠定了在传统计算架构上面的基础。在未来算力统一场的新方向,我们可以做很多自主可控的架构创新。在 AI 新时代新机遇的引领下,希望我们团队和整个芯片行业同仁一起,能够把算力同一场的愿景不断地做好、做远,共同实现计算新生态。谢谢大家!
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186