前往业界动态栏目前往脑场特工栏目暂未开通前往IN评测栏目暂未开通前往大家的PCINLIFE暂未开通

赞助商广告

官方活动宣传

 1/112 123››
发新话题
打印

[体系架构] 最近越看越有趣的R600 vs G8x

本主题由 Edison 于 2008-9-12 02:01 提升

最近越看越有趣的R600 vs G8x

Edison扔的
Experiencing Various Massively Parallel Architectures and Programming
Models for Data-Intensive Applications
這篇文章實在太有趣...從這篇可以看得出來,R600是每個core164D+1DALU256KB register file、整個GPU192wavefront、每個wavefront則剛好是64thread,整個GPU12288 threads(RV670R600)
G80的每個SM24warp、共計16SM,即384warp、但每個warp由於只有32threads,所以總計其實也是12288thread
但是在此同時,G80只有512KBtotalregister fileR600/RV6701MB
G80每個SM只有32KB register file,每個TPC只有64KBR600的每個ALU array256KB
当然大家仔细看可以看出来:G80的每个SM只有81D、每个TPC只有161DR600164D+1D
所以双方的registerfile规模,几乎就是1Dvs 4D的规模,只是G80的结构因为SIMT的复杂度,所以thread规模可变;R600规模比较大,做得没那么细致,灵活性比较低,但是资源仍然充分。

----
这篇真正的意义在于,
GPU绘图用途上,双方其实是几乎同等的:TMUALU都是成对分开,变成数个小core,然后以crossbar来和ROP连接。
ROP再以其他的方式(G80crossbarR600ring-bus)來和memorycontroller連接。

問題就在於此了:其實RV670RV770的關係,正好就是G94G92的關係。
G94推出前,光比较RV670G92就会显得R600结构效率很差,运算密度很低,然后G92的成本很高;G94推出时就会看到G8x的结构比R6x0可以更小些....

RV770推出后则把R6x0的运算密度提高,达到和G92可以对抗的程度。也就是其实双方的core(TPCvs ALU array)几乎是可以单位上相对比的。

现在的问题就是ATI有没有办法已以现在RV770的方式拿出和GT200可以对抗的品?
这代表的是10core (= 16way SIMD ALU array+4way TMU array),与10core (=TPC = 3x8way SIMT + 8way TMU array)是否对等。

GT200顯示NVIDIA認為8TPC-256bit是適當,所以往上做就是16TPC-512bit(16TPC整合到10TPCx1.5,以縮小crossbar規模)
RV770可以看得出來,其實TMUROPR6x0裡面也是占較大規模,所以只增加20%就可以達成不刪減registerfile增加一倍的總運算量。

那么,
RV770之后谣传会到2000SP,可能是从10array变成25array;但是在此同时TMU的数量也跟着增加到100个,这时候还会是16ROP + 256bit(GDDR5)吗?
要不然的话NVIDIA也可以拿更多TPC来搭配256bit,就可以快速地缩小看起来很巨大的GT200了。

也就是其實這只是一些coding style、現有application對運算量以及頻寬的平衡觀念而已。
我忽然覺得Larrabee其實機會不小了啊.....XD
那也不過只是把每個TPC or ALU array加上個小小的x86 core而已。


[ 本帖最后由 Eji 于 2008-6-25 20:07 编辑 ]

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

老大,你为什么不用简体中文……?!

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

哇靠

EJI大大的沙发

ORZ

顶完再看

沙发没了,板凳上看.

[ 本帖最后由 melissa 于 2008-6-25 20:10 编辑 ]

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

amd aa能力翻倍,就算256bit都能和gt200对抗

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

中心思想貌似是NA2家都会最终败在Intel手里。。。。

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 xreal 于 2008-6-25 20:08 发表
amd aa能力翻倍,就算256bit都能和gt200对抗
ATI AA以前一直贏NVIDIA,是R600的時候太妄想靠shader資源省錢啦....XD

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

以后intel在显卡界的地位会像CPU界的地位一样吗?

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 fmer 于 2008-6-25 20:10 发表
中心思想貌似是NA2家都会最终败在Intel手里。。。。
這是什麼標題黨XD
----
這意思是說,Register file + TMU 之類的規模,和一個CPU core相比大得多了。
那麼加上CPU core,不論是x86還是ARM,成本也不會高到哪去.... 除非想做得很複雜很快,但是這意義就不大了。
一定是類似Atom一樣的簡易core,然後cache不大。

在這個狀況下,所有的運算資源都是靠ALU和TMU在撐,就像引入了新指令集的x86 core一樣,這沒有好好花功夫寫是不會比較快的

[ 本帖最后由 Eji 于 2008-6-25 20:19 编辑 ]

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 superbad 于 2008-6-25 20:15 发表
RV770 也还是shader AA吧?有什么改进性能提升这么多?E大讲解一下
就我所知RV770這回不是shader AA了?

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Eji 于 2008-6-25 20:17 发表


就我所知RV770這回不是shader AA了?
?真的么?

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

回复 11# Eji 的帖子

不是shader AA是什么,望告知?

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

RV770 也还是shader AA

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 logitechMX518 于 2008-6-25 20:20 发表
?真的么?
CFAA大部分都可以由ROP完成了,所以可以這麼說(大半不是shader AA)。
ATI 自己也這麼說、那麼能變快應該就是這個原因吧。

----
回過頭來說,很多人很關心的是R870 or RV770X2能不能打倒GT200之類的勝負,我是很想說我們就回頭看GT200 vs G92GX2吧....

[ 本帖最后由 Eji 于 2008-6-25 20:28 编辑 ]

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

想请教Eji大一个问题,就是R770在1680X1050 以下低分辨率NO AA的时候效能依然不是非常突出,请问这是和N的Shader频率较高有关系吗?谢谢。

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Eji 于 2008-6-25 20:26 发表


CFAA大部分都可以由ROP完成了,所以可以這麼說(大半不是shader AA)。
ATI 自己也這麼說、那麼能變快應該就是這個原因吧。

----
回過頭來說,很多人很關心的是R870 or RV770X2能不能打倒GT200之類的勝負,我 ...
意思是伯仲之间?

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界


久违的技术贴,顶了再看

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

最低难得好贴,顶啊!

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

X86 的核可不是小小的,去掉SSE支持,去掉out of order,大致可以缩小到1/3 左右,压缩流水线,简化部分指令,再缩小一些。也许Larrabee 的核可以比较小,和GPU 的SP比,会大很多。

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

rv770的Double Z似乎是在开启AA的情况才有效的,不开AA仍然和G92不分上下

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

我到觉得这样下去,笑的会是intel

Larrabee机会确实是大大的,毕竟intel领先一代制程,至少可以多塞一倍的执行资源进去

从RV670的4array扩充到RV770的10array,扩大了规模可以掩盖分支能力不足的缺点

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

技术含量高的帖子   绝不能够视而不见。。。顶。。

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界


根据这张图显示RV770的一个core,包括16个ALU和4个TMU了的像素是206*19=3914
GT200的一个core,也就是一个TPC同样包括了ALU和TMU,数量是24个与8个,像素是165*65=10725

虽然我不清楚G80那样同样是16ALU与4TMU的这么一个TPC做到65nm该是多少,就按60%算吧,然后面积考虑两者的工艺差是70%。结果10725*60%*70% = 4504.5,还是大了一些。
所以真比不顾MC纯堆SP core,还是NV成本更大一些的吧。

[ 本帖最后由 AFXIF 于 2008-6-25 21:22 编辑 ]

附件: 您所在的用户组无法下载或查看附件

TOP

[广告] 银欣 Raven 乌鸦 金百度 限量特价预售! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界