返回列表 发帖

替RV770說點好話

雖說友站YY許久,提到RV770有個號稱理論上2.5倍浮點性能的提升。不過其實我們必須要說,當初R5x0、R6x0沿用到現在R7x0的Ultra Threading Dispatch Processor,是ATI這幾代價夠裡面最主要,也最不容易更改的部分。2 F( c! E( y0 |+ i, F( V8 L% C. L

; Y6 @) C) }  F! ?# r它的核心觀念就是:把一整塊資料(thread、NVIDIA稱為warp),分配給一份(可變大小的)硬體資源。如果硬體資源因為各種狀況(材質讀取、條件分支等等)因素出現暫時停止的狀態,則記憶住硬體資源目前的執行狀態,然後分配另一份資料讓硬體來處理。/ c5 L: z. R& h4 ^/ k
8 e# |) m4 Z1 z  i% J4 d
所以這可以有兩個特性:
" S" d% U7 m; Z# C: X1. 硬體資源(ALU、TMU、ROP)的擴充變得相對容易,但是記憶體在階層面的擴充則變得困難5 i7 X+ i2 C0 Z' ^1 e
2. Ultra Threading Dispatch Processor本身的擴充會大幅影響晶片本身規模,但是周邊的擴充則不會# _2 h: J: {; {- r# W# \% b

" s' ^% G- A/ }( E% }這兩個特性使得ATI演出了當初R520到R580的大逆轉,這次R600->RV670->RV770的狀況也類似:目前傳出的數字是"160個texture sampler"、"800個SP"。. x, a  F  g; [  f; j/ w9 ~% P" e
但是由於先前ATI使用的是5way VLIW、以及5D的texture unit,所以我們把數字還原一下,並且與R600/RV670做個比較-實際上RV770的規模應該是32個texture unit、160個shader,亦即材質資源放大了2倍、shader資源放大了2.5倍,和本來R600的tex/ALU資源比例為1:4相較之下,RV770的比例變成了1:5。; o/ [' p) }: N' Q/ \
, K+ n6 [, i  X7 V+ Q3 g
從1:1(R520)變成1:3(R580)再轉到1:4(R600/RV670),現在看起來,RV770做出的1:5這個數字還蠻有說服力的,至少一直維持他們對數學運算資源的重視。
: H, ?4 [" F: |- W; R/ T% q5 p
5 {% \1 s2 s7 m' I----
' [( t) s% h! u  S/ S' M* }$ ^然後問題來了,我們知道由於分支資源的需求,記憶體延遲隱蔽的必需性,過度大幅擴充的sp無法得到充分的利用,而且分支的頻率從DX9引入之後只有越來越高(因為分支可以用來結合shader、減少material load overhead、減少drawcall,這都是減少記憶體頻寬壓力),所以導入的sp很難達到性能比例提升,這在當初R520->R580的時候已經得到了印證。: Q8 i2 I6 T8 y) g9 A/ ?2 I
' g- [$ U7 P) J- ?! C, J; k3 Y
不過在純執行資源上,這些sp並非無用武之地。R580導入的shader資源有一個有效活用的方式:修補fp16 texture filter,這是因為R520只提供fp16 blending卻沒有提供texture filtering之故,所以R580在分支資源無法支撐的sp,其實仍然透過texture filtering的形式,做出了性能上的貢獻。3 m$ Z* b/ q3 u( x6 N

% y8 x0 L3 ]4 ^1 P1 [所以,其實我們也可以說,RV770提供的大量SP,也可以拿來修補R600/RV670在管線執行資源上的"缺憾"。我們記得R600的CFAA....就是透過shader來作AA sample reslove的,這使得CFAA會出現占用shader資源的問題,而讓AA性能低落。
' n. ?) K# ~& m% x; X1 S3 {* V2 e1 R- l9 P  m& W% ?* t$ j; r
在這個狀況下,選擇有兩個:4 m; W  t" x6 u4 O6 H6 O  f
1. 修改AA unit
/ F5 D% l; e6 F" g' ?. t$ f2. 增加shader資源2 x" w* B/ `( ~/ [( m% L( Z
前者需要面對比較複雜的ASIC修改過程,較為困難;後者的話則較為合理。所以R600的兩大弱點,AA/AF性能的部分,以SP與TMU增設來作為應對之道,是目前我對RV770規格傳聞上的解釋。
( i6 W. H& J2 Y( H8 a' T' I) i. F' a6 E
這些增設都不會對電晶體造成很大的負擔(TMU增設的負擔較SP數量增加要來得大),如果抓好平衡度的話,會大幅改善整個架構的電晶體效率(電晶體增加25%左右,但預估性能可以提高50%),當初G94的性能幾乎與RV670類似,使得ATI在電晶體效率方面以接近30%(505M vs 666M)的狀況落後於NVIDIA,可望於RV770得到改善(800M vs 754M);而且RV770的CFAA有機會成為較為實用的功能,這點個人是樂觀其成。
1

评分人数

  • Edison

補充:2 Q- Q. F' {. w$ G8 P
我的確是覺得NVIDIA的64sp直接硬撼ATI的64shader....XD
1 v& e7 ~. i; y8 k1 D所以我寫160shader和G92的128sp不相上下或稍微好些 _A_

TOP

提示: 作者被禁止或删除 内容自动屏蔽

TOP

原帖由 天下18 于 2008-3-11 17:15 发表
# r( K) [  K% r7 p: g7 oRV770提供的大量SP,也可以拿來修補R600/RV670在管線執行資源上的"缺憾,这个能成立的话,RV770还是可取的

7 M. X' I0 C' O; v: R" q+ w/ Z1 v) i" D; ]3 |2 I
現在的問題是,CFAA很可能"就是需要這麼多shader"才能實用化,那麼R600/RV670就真的和R520一樣了。

TOP

虽然看的有点晕乎,还是要顶

TOP

提示: 作者被禁止或删除 内容自动屏蔽

TOP

CSAA,R6XX没有可能做到

TOP

800个SP:funk: :funk:

TOP

“但是記憶體在階層面的擴充則變得困難”0 |$ W+ o; X+ B& c. {" B
什么叫阶层面??:huh:( d7 x  b6 A4 s$ m' \2 e
因为台湾话与大陆话不太一致,还是用英文同步一下吧,什么“记忆体、韧体、汇流排”的,好怕怕:p
: U2 R) T+ U& G7 }! @9 c  T6 t8 L1 O$ I) i
[ 本帖最后由 287381906 于 2008-3-11 17:35 编辑 ]

TOP

A卡四年来头一次有望增强TMU:lol:

TOP

原帖由 287381906 于 2008-3-11 17:34 发表 + J; a2 Z7 s6 F. l4 u
“但是記憶體在階層面的擴充則變得困難”
8 O8 ~- D5 ~4 p9 z  m: L什么叫阶层面??:huh:) p# Z) N) ^1 v  d# V! L3 G
因为台湾话与大陆话不太一致,还是用英文同步一下吧,什么“记忆体、韧体、汇流排”的,好怕怕:p
8 W, a8 K/ k& L/ V% s( j' Y: p
memory, firmware, bus .
“They’re the world’s leading designers and manufacturers of CPUs – how hard could it be to build a GPU? I mean, come on, how hard could it be? That crummy little company down the road builds them – we could build them in our sleep. Come on, how hard could it be?” ——NVIDIA David Kirk

TOP

原帖由 Elwin 于 2008-3-11 18:26 发表 ; g& f  _7 [4 w' L1 M# I
A卡四年来头一次有望增强TMU:lol:
' |2 W8 n" p" l0 u9 d" x: W6 M
从比例上来看,应该是进一步削弱了TMU:sweatingbullets:

TOP

原帖由 287381906 于 2008-3-11 17:34 发表 ( {4 B5 H; V' P" G
“但是記憶體在階層面的擴充則變得困難”9 ^, I2 _( A: p" P4 p. W$ W- m% a
什么叫阶层面??:huh:! R& S6 s  y% ?  ^3 u& o
因为台湾话与大陆话不太一致,还是用英文同步一下吧,什么“记忆体、韧体、汇流排”的,好怕怕:p
, R, u4 _* \3 _# f+ q" K
( {1 Q8 q) s  C, d1 G2 B2 ]0 h
這邊講的是memory hierarchy,G80在這方面有在TPC裡面擺一組scratch pad memory(16KB share memory),還有constance register、temp register都已經有做到virtualize了,所以理論上G8x的資源是無限的;, D' }  d  a+ K5 F- G( g7 U
R6x0這方面比較欠缺和不完整,由於R7x0目前看來和R4x0一樣是前一代的架構延伸版,要有更大的擴充要等到R8x0比較有機會。

TOP

原帖由 haifengx88 于 2008-3-11 18:14 发表 5 o2 t# n4 @8 U+ s
就是R520到R580的翻版...0 U9 a6 w; f! }
幅度还小一些...
6 e+ i' l  `# b6 v: y- L
4 I4 l7 C+ S3 Q1 r! a
根據目前傳說的數據,TMU和ROP都加了100%(16TMU、16ROP to 32TMU、32ROP)、然後ALU加了150%(64 to 160 shaders)。
; x/ ~$ X5 G$ Q" W考慮TMU和ROP的transistors count應該比ALU還多得多,實際增加的幅度應該是相當大(和R520 to R580相比,ALU少加了50%、但是TMU和ROP都加了100%)。6 q  a; d( |# }  x3 [; C* x
) @# A. b+ B; [+ {( G) S- ~
但是在整個結構上占的幅度還沒有比較大,這可以知道從DX9到DX10,其實Ultra Threading Dispatch Processor的規模、以及其內部資源的成長比例都很大。(當然這可以從DX10/DX10.1本身的spec看得出來就是)

TOP

提示: 作者被禁止或删除 内容自动屏蔽

TOP

提示: 作者被禁止或删除 内容自动屏蔽

TOP

160个US啊……两代前的R520也才16管线……

TOP

原帖由 1empress 于 2008-3-11 19:39 发表
2 r9 s1 L4 O7 f9 Q  A: D总算把TMU加上去了+ i2 F7 I. U8 S' G  T) l
0 b8 G" T5 o  ^0 I
不过执行单元加了一倍,才只做到和G94一样的面积6 ^. T, w7 T( r+ h$ z
2 x$ C! n' `8 ^5 J7 b9 n
AMD在制程成本上的功力真是很可怕
6 l" V4 A% k# y4 l/ s5 w& A

3 w9 I& L" h: c5 EN社这点的确吃亏,AMD有自己顶尖的晶圆厂,N社只能等TSMC它们更新制程

TOP

原帖由 1empress 于 2008-3-11 19:51 发表4 J- t/ z" G5 X
这个未必吧,如果1:4不够的话,很难相信1:5的比例就可以做得好,但从R520一路看下来,这种ALU增加起来很容易,面积也很小.
" q' n8 E% p. W8 R  w6 {- r# Q6 _7 G! I' [/ o# }: r+ r
这样持续增加Pixel Shader的ALU比例,在我看来是以最少成本尽可能获得更大效能的方式,而不是为了追求效率而增加晶体管.
7 \' j9 ^$ @' w# x6 T% n) U. A' y+ d0 r
说起来MS的DX10真是害人哪....NV连主流方案都做到240mm了,想当年横扫一切的NV40也只有260mm而已。我是很不看好G9X系列的寿命的
" k7 `1 s/ W% ?8 J: f3 Z/ o# J
+ D8 c1 n; Z- x8 j; w
唔,我既然這篇寫要說好話,我就很不希望作出"批評"....不過要寫的話還是可以寫一些。- B/ M) }6 ~" R# u
6 P3 [+ o7 K+ X  C$ p7 E# T
今天我們可以從G94看到,NVIDIA的結構效率是高得多的,而且電晶體的數量也比較少。* N2 m/ t$ c4 ^5 @
die size會比較大,單純是因為NVIDIA在製程面上相對地保守;ATI衝製程衝比較快,有很大的原因和結構效率、設計能力有關,並不能說是好事。: u+ [* z4 f- d) R! P
& D9 E5 Q- V) v# A$ X! E$ G7 v# S2 F% s
如果RV670的良率很好,為什麼初期會供貨不順?那這個良率數字能夠相信嗎?同理可以套用到RV770上。4 z% C6 H4 t2 F- V

* A- Y' f4 t* w5 K9 z" J8 I此外,我們回到ALU追加的"性能",這並不是沒有成本的:從R520開始,它的分支粒度隨著ALU的追加不斷地放大,因為所有的設計都集中在Ultra Threading Dispatch Processor上,所以相對的更改也很困難。& @0 n0 h& J8 x& r
8 r% L; S1 g' a$ Y, I& A2 h5 _
比方說,RV770到底是4bank x 40個shader,還是5bank x 32個shader?還是8bank x 20個shader、甚至是10bank x 16個shader?毫無疑問地,更改幅度必然會受到bank數影響而越來越大,而以盡量不更改設計來考量的話,4x40顯然是最可能的;而且不管是哪種更改,分支變化其實都是一樣的(成長到160個pixel or vertex per branch)....' |5 U( U4 t' Z; ~
  A9 f; J* \7 D5 N* y, l$ Z
然後NVIDIA目前的分支粒度,還是維持在32個pixel or 16個vertex。因為register file是成對的,所以G8x/G9x的規模其實光看電晶體數量就已經讓人覺得要比ATI R5x0目前的延伸好上太多,因為它的規模每一份的效率都是一定的,ATI的強化卻總是會把架構上的缺陷越挖越大,你要維持分支粒度、提升性能的同時又不提升規模,唯一的方式就是從memory hierarchy來下工夫,天下沒有白吃的午餐啊。, M# A( \' r* z# V
0 G, X+ p' t+ u, I: {& E$ G$ j5 t
來個以前思考問過的問題:我們什麼時候可以做到dynamic branch per pixel....XD
7 y( k; k* N, E, \, ~- \3 B3 y2 ^+ U, x6 |2 o6 C8 H$ C' i
----
1 }' s/ y6 q) N# x& p; DNVIDIA從G7x到G8x的更新,包含電晶體效率、結構改進,能夠如此是因為memory hierarachy的變更、引入倍速shader(並不是為了無限制提升時脈,而是改善電晶體效率)、ALU的free swizzle(隱藏底層的SIMD ALU),這些複雜的設計都在NV3x到G7x的這段時間一口氣達成,所以ATI也必須在R5x0~R7x0的這段時間應該要做出徹底的架構革新,否則R7x0只是試圖延伸一個傳統想法的壽命而已,如果這個延伸不是替一個革命的架構爭取時間的話,那麼就只是苟延殘喘而已了。0 ]' C  k+ b: }1 f3 Z8 `% n
+ ]- Z. V% j  v" V
[ 本帖最后由 Eji 于 2008-3-11 21:41 编辑 ]

TOP

照AMD自己的说法,每80sp执行同一类指令,要么全速运行,要么全部歇菜。看来AMD是要用大量增加执行单元来掩盖架构的缺陷,相对性的提升执行效率,也许能从60%提升到80%?

TOP

原帖由 Eji 于 2008-3-11 21:33 发表 8 e& I+ N! o% o6 e: D
+ H* \! \4 E6 @5 s
" E/ {& M' x  J( K
唔,我既然這篇寫要說好話,我就很不希望作出"批評"....不過要寫的話還是可以寫一些。
2 f; d6 g. b6 j4 _8 c7 b$ K; ?' v5 K6 N; l, }( o* l2 ]  B8 d' C
今天我們可以從G94看到,NVIDIA的結構效率是高得多的,而且電晶體的數量也比較少。
+ ?# `- W9 m( k/ u0 Y' Zdie size會比較大,單純是因為NVIDI ...
2 `( ^% f/ T% P# g  \

! B8 Q9 U0 }4 K5 D( S) u. [G80的革命性是有目共睹的,说实在的从G7X到G8X算是令人瞠目的推倒重来。NV的魄力和实力都让人叹服!
' t; V, r: m( u* Y/ VR700做不到这一点,只能算是挖潜。核心的东西不变,只靠外部的改善来维持。AMD这一块恐怕还来不及搞创新。

TOP

ATI卡向来设计很好,理论性能很好很强大,但实际上除了9800P基本上没有什么好货,关键是驱动太烂,一流的技术,二流的销售,三流的驱动也就这样了

TOP

原帖由 Eji 于 2008-3-11 21:33 发表
, s! F: ~, D) @, C& L! {: c1 J; T  O; P) r
' C6 a' z% ^5 y6 b6 W
唔,我既然這篇寫要說好話,我就很不希望作出"批評"....不過要寫的話還是可以寫一些。* d' |9 D, }: t% C. P9 h" ~

" J# M5 w# [7 h  z2 H( f今天我們可以從G94看到,NVIDIA的結構效率是高得多的,而且電晶體的數量也比較少。
, p4 H! f: _7 \% E( `. E  r$ [die size會比較大,單純是因為NVIDI ...
ati-amd有制程上的优势,设计上的劣势,资金上的劣势。她拿什么去革命呢?  `4 [0 N" }9 o( j" a- B: k/ [
( {, E- Q1 L% Q9 I' v- H
rv770,光看名字大概就知道ati对这枚芯片的期望了。- P' e8 C3 N6 l# v
9 i% S7 w# L7 p! C
rv做多chip又不现实,你做一片multi-chip的卡才仅仅追上对手的single-chip卡,而要承担驱动难开发,兼容性,功耗等各方面风险,这看起来实在是……

TOP

提示: 作者被禁止或删除 内容自动屏蔽

TOP

提示: 作者被禁止或删除 内容自动屏蔽

TOP

返回列表