前往业界动态栏目前往脑场特工栏目暂未开通前往IN评测栏目暂未开通前往大家的PCINLIFE暂未开通

赞助商广告

官方活动宣传

发新话题
打印

[体系架构] NVIDIA 下一代 GPU 体系架构猜测、讨论专题

本主题由 Edison 于 2008-9-12 02:01 提升
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧,除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。

“They’re the world’s leading designers and manufacturers of CPUs – how hard could it be to build a GPU? I mean, come on, how hard could it be? That crummy little company down the road builds them – we could build them in our sleep. Come on, how hard could it be?” ——NVIDIA David Kirk

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

GT300会继续强化分支

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Prescott 于 2008-8-12 12:20 发表
其实我想说的就是,很多App并不适合CUDA这种模型
我現在講的和CUDA無關啊,現在Larrabee一樣透過add-in board的方式以直接連結取得大頻寬。
除非3D stack memory,否則CPU的頻寬無法與板卡對抗,而版卡的記憶體容量上限則大概是一般的單一module的容量。
(16個chip x 最大單一顆粒上限)
所以只要GPU板上的memory達到某種實用範圍,CPU就會一直遇到記憶體頻寬差距的問題,所以才要靠AVX來衝高運算密度、或者是Larrabee掛LNI之類的指令集。
其實這都是先前free lunch is over遲來造成的。

這與CUDA與否無關,單純是GPU這種板卡存在的模式,和CPU的socket之間的一點形態差異罷了,分離的針腳、模組和焊接住的記憶體可達時脈當然會有差距。
能跨越這點的,要等到3D stack memory,要能提供與同時期GPU 在on-board上同等的容量、但是遠超過板卡的頻寬,否則3D stack memory只會變成另一個記憶體階層(因為GPU也會拿它來加速)而已,那就沒辦法取代GPU了。

[ 本帖最后由 Eji 于 2008-8-13 02:28 编辑 ]

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Edison 于 2008-8-12 12:56 发表
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧,除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。
當通訊頻寬是瓶頸的時候,我認為就不值得搬運到GPU上了。
與CPU的數據進行密集而細小的數據修改,這根本就是程式有問題。

當然覺得自己寫的都是對的、別人的方法都不對似乎是業界的常態....

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

当PCIE2.0出现瓶径的时候离PCIE3.0就不远了

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

NV什么时候能上GDDR5啊?

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

http://s08.idav.ucdavis.edu/olic ... lelism-in-games.pdf

这份 siggraph 08 slide 非常有意思,虽然不一定和 NVIDIA 的下一代 GPU 有直接关系,但是其中 page 118 的部分提到了未来的光栅器会是两个或者更多(4个?),当然这部分其实也是可以用 shader 来完成,如果这样的话,被认为是 Crysis 的潜在重要瓶颈 primitive setup 问题可能会得到较大的缓解。

“They’re the world’s leading designers and manufacturers of CPUs – how hard could it be to build a GPU? I mean, come on, how hard could it be? That crummy little company down the road builds them – we could build them in our sleep. Come on, how hard could it be?” ——NVIDIA David Kirk

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

回复 88# Edison 的帖子

未来的光栅器会是2个或者更多(4个?)???
GTX280都有32个光栅器了,难道未来的GPU还会减少光栅器?

[ 本帖最后由 32nm 于 2008-8-15 21:37 编辑 ]

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

这个倒是和Larrabee很有关系。Larrabee是目前唯一一个多光栅器的"GPU"。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Prescott 于 2008-8-12 12:20 发表

其实我想说的就是,很多App并不适合CUDA这种模型
APP更适合LBB?

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

GPU的最大优势就是线程,LBB的最大优势是什么就不得而知了

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

为什么GTX280晶体管数量超过RV770约5亿左右而FP32与FP64的计算加速性能却不如后者呢? GTX280 0.933T  RV770 1.2T

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

GT300的亮点在于标量处理单元的效能媲美向量处理单元的效能,而在效率方面继续领先于SIMD

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Edison 于 2008-8-12 12:56 发表
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧,除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。
如果投资办个生物制药厂的话,购买Telsa  4GB版够不够用?

[ 本帖最后由 G81 于 2008-8-17 00:59 编辑 ]

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

我也想问几个光栅器是什么意思?另外标量单元的效能怎样能媲美向量单元?除非是4倍的频率。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

现在没有gpu是标量单元。即便是G80, 也是内部使用SIMD单元,然后使用横向shuffle给人以标量单元的感觉。
Larrabee也是这种设计。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 shu0202 于 2008-8-17 10:16 发表
我也想问几个光栅器是什么意思?另外标量单元的效能怎样能媲美向量单元?除非是4倍的频率。
同问E大

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 RacingPHT 于 2008-8-17 10:28 发表
现在没有gpu是标量单元。即便是G80, 也是内部使用SIMD单元,然后使用横向shuffle给人以标量单元的感觉。
Larrabee也是这种设计。
对于这种说法我问过 NVIDIA 的人,但是他们非常肯定地否定了这个说法,坚持 NV50 的 SP 是 scalar 架构,当然我倒是觉得更像是 super-scalar(MAD+MUL)。

如果只是把 SIMD 指令做水平/垂直的更动达到类似 scalar 的样子,我记得 Intel 的 GMA 就支持这样的方式。

“They’re the world’s leading designers and manufacturers of CPUs – how hard could it be to build a GPU? I mean, come on, how hard could it be? That crummy little company down the road builds them – we could build them in our sleep. Come on, how hard could it be?” ——NVIDIA David Kirk

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Edison 于 2008-8-17 14:01 发表


对于这种说法我问过 NVIDIA 的人,但是他们非常肯定地否定了这个说法,坚持 NV50 的 SP 是 scalar 架构,当然我倒是觉得更像是 super-scalar(MAD+MUL)。
NV50的SP是SCALAR架构可能吗?底层应该还是SIMD吧!

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Edison 于 2008-8-17 14:01 发表


对于这种说法我问过 NVIDIA 的人,但是他们非常肯定地否定了这个说法,坚持 NV50 的 SP 是 scalar 架构,当然我倒是觉得更像是 super-scalar(MAD+MUL)。

如果只是把 SIMD 指令做水平/垂直的更动达到类似 sc ...
我的说法可能有误,即G80也许根本不需要进行shuffle, 而是直接就对象素组进行scalar操作。
SP确实scalar, 但是SP根本就不是一个独立的处理器, 即没有独立的PC。既然一组SP共享一个PC, 那么这完全就是Vector SIMD的特征。
G80这种SIMD和SSE这种SIMD的不同只是他们拥有SIMD gather/scatter。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 RacingPHT 于 2008-8-17 22:16 发表


我的说法可能有误,即G80也许根本不需要进行shuffle, 而是直接就对象素组进行scalar操作。
SP确实scalar, 但是SP根本就不是一个独立的处理器, 即没有独立的PC。既然一组SP共享一个PC, 那么这完全就是Vector SIM ...
是啊,sp彻底独立了的话还分什么组?所以我也不认为G80是完全的标量体系。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

很早就有人讨论过了

G8X/G9X的底层是SIMD的,但是是gather-scatter的SIMD

gather是指load的时候可以load四个不同位置

scatter是指store的时候可以store到四个不同位置

虽然这样性能会有一定损失,但理论上来说已经可以看成是MIMD了

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

这样看的话,什么都可以看成是MIMD了,包括R600 :P
所谓MIMD, 既是Multi-Instruction-Multi-Data。这个Multi-instruction不实现的话,什么理论都是白搭。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界