笼绞机厂家
免费服务热线

Free service

hotline

010-00000000
笼绞机厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

谈古论今看计算机两大运算器融合之势

发布时间:2020-01-14 18:18:25 阅读: 来源:笼绞机厂家

第1页:融合这事儿"大家"都在做

IBM、创新、高通、Intel、AMD、NVIDIA、Imagination Technologies,相信比较关心或者了解信息技术发展的网友们对这些名字都耳熟能详。有业界的元老、泰斗;有某些市场的绝对BOSS;有处于夕阳产业的公司;有和净资产世界第一的公司关系很好的卖授权的公司……

当然上面这些公司为什么会同时出现在这篇文章里面?一个词,处理器!这个处理其不仅仅是传统意义上的CPU,而是指PUProcessor Unit这部分。显然GPU也是处理器,只是它更多的时候和图形一起出现。

未来CPU流行“一大多小”

在这里要让这些公司一起出现不只是因为它们都有处理器这么简单,而是它们的处理器具有一些共性融合或者说融聚。

要具体说明的话就是:用在PS3上面的IBM、东芝、索尼一起开发的Cell芯片、创新的Zii处理器、高通的SnapDragon、Intel的Larrabee、AMD的APU、NVIDIA的Tegra以及可以预见的Maxwell……

性能实用功耗更低 HD7700综合评测

2999夸张定价 HD7800系列全球首发测试

第2页:故事起源于IBM的Cell

CELL曾经蕴含着IBM的巨大心血,21世纪初期“模拟地球”的伟大梦想就是基于它的,计划的目标是单颗芯片实现万亿次/秒的运算速度,虽然最终我们看到的那颗Cell只实现了原计划1/4的目标,但是Cell所带来的概念以及其绝对性能还是非常的轰动。

CELL处理器

CELL处理器是IBM、东芝、索尼共同开发的基于RISC构架的处理器,有一组负责管理控制以及整数处理的PPU单元和8组具有独立cache的专司浮点处理的SPE单元组成,整个处理器体系拥有恐怖的吞吐和浮点处理能力。

CELL处理器构架

Cell构架由1枚负责管理的PPE和8个负责运算的SPE组成,PPE为一颗常规的64bit CPU,专门负责线程的发放和任务的管理,同时负责相对简单的整数操作处理。8个独立的SPE是向量浮点处理单元,除大量寄存器之外每个SPE还独享256K Cache。Cell的这种通过将管理单元和运算单元剥离开来的做法既让管理过程统一在了PPE旗下,提高效率的同时又解开了SPE单元的束缚,使其能够尽可能专一的从事更大规模的浮点和向量运算及操作。

通过上面的构架图我们可以看到其经典的1+8,9个核心的构架,当然在这里说到Cell是因为其“一大多小”的构架或者说“少整数、多浮点”的构架模式和我们现在所经常听到的SNB、APU之间的联系……

第3页:更加接近完美融聚的APU

其实AMD很早就提出Fusion这个概念,也就是在AMD收购ATi不久之后,只是无奈由于各种原因不断的跳票,不断的等待。当然可能也是伴随着技术的发展APU的理念也在不断的改变的原因,最终在DirectX 11中加入了Computer Shader之后让APU有了更大的资本。

Fusion构架由一颗标准CPU和一颗标准的支持DX11的GPU组成,这种构架表面上看起来和INTEL早先发布的Sandy bridge构架没什么区别,但是观察细部,就会发现fusion构架与Sandy bridge构架之间本质性的不同,那就是对CPU和GPU的连接。

APU构架特点

其实硬件内部的互联问题一直是AMD和INTEL争论以及口水的焦点,其实和当年的“胶水双核”之争颇有一些相似。但站在客官的角度来说,AMD的硬件设计确实比竞争对手更早的进入到更深层次的互联水平上。不论是MC的引入还是通用共享式cache,甚至是内核任务广播机制方面,Nehalem出现之前的INTEL一直都维持着于AMD相差一代的互联层次。

AMD在构架直连方面一直处在领先位置

与Intel通过北桥进行连接的方式不同,AMD在Fusion中通过crossbar直接将GPU和CPU连接在了MC上。GPU本身无须具备独立的内存控制单元,它只需通过crossbar直接使用CPU的MC即可,这不仅节约了在GPU体系中即为占用晶体管资源的内存管理机制,而且还大幅改变了GPU对本地显存的操作方式。

当然这种构架也不是完美的,从现在具体上市的APU来看,现在的APU构架本身理念还是很不错的,只是它的问题有以下几点:

“融合”级别不够深,仅仅是共用MC单元而已。如果能在L2缓存上实现共享以及GPU与CPU的互相访问和操作将会非常好

现阶段APU的CPU和GPU还是两个独立的单元

我们更多的感觉到APU像是集成了性能比较强大的GPU单元的处理器

AMDHD6000系列以及之前的GPU在构架灵活性上较之NVIDIA要差,其理论浮点运算性能很强大,实则想要发挥出来还有难度

所以在构架上融合层次更深、以及构架灵活度提升很多的GCN配合之下的下一代APU表现会好很多。当然也是在软件优化的情况下,相信构架灵活的GCN在优化的难度上要小很多……

第4页:Maxwell会给我们惊喜吗?

就在坊间传闻NVIDIA代号Maxwell的GPU将集成ARM核心作为线程调度单元的不久之后,微软宣布Windows 8将会推出无差别的ARM版操作系统,这种巧合让我们不得不将两者结合在一起进行幻想……

随后我们看到NVIDIA似乎改主意了,又忽然之间出现了“Project Denver”计划。64bit高性能ARM构架处理器,8核心……高性能还8核心,我们不得不怀疑这根本就是CPU。

Denver的核心照

从路线图上来看,Maxwell大约在2013年末出现,在此之前任何传闻都不是非常的可信。

但是NVIDIA对手机芯片市场也有涉足,也就是Tegra,Tegra可是一年一代,而且目前关于Tegra4我们或多或少的能够知道一些信息。代号为"Wayne"的Tegra4可能具有4-8个ARM核心,应该是Cortex-A15构架;图形部分集成24-64个CUDA核心。

Tegra发展路线

这让我们不得不联想到“Project Denver”。也是ARM,也会有CUDA……ARM核心和CUDA会迸发出怎样的火花?

我们也注意到NVIDIA对于CUDA本身的投入,CUDA不仅仅是图形运算单元的核心,它是一套完整的解决方案,CUDA有自己的通用编程环境。NVIDIA GPU的构架、尤其在Fermi这一代上面,我们越来越多的看到了它在向着通用化方向发展,它灵活的构架本身也就是为了更加方便的释放其潜在的强大的浮点运算能力。

CPU靠的是其通用性,什么活都能干,当然也是因为其通用运算以及流水线式的处理方式,使得它难以提供非常夸张的运算性能。而GPU则因为数量巨大的运算单元和其并行化的处理方式、使得它在特定任务中能够爆发出非常夸张的吞吐能力……

如果未来CPU和GPU能够合理的融合,软件上也尽量多的使用到浮点运算能力,那么CPU和GPU的融合将带来巨大的运算性能的提升。上游厂商们已经在行动了,我们期待具体产品吧……

名医汇

在线医生

名医汇