|

- UID
- 12048
- 帖子
- 972
- i贡献值
- 52 点
- We用劵
- 0 张
- 注册时间
- 2003-9-22
- 最后登录
- 2009-7-1
|
1#
发表于 2008-3-11 17:04
| 只看该作者
雖說友站YY許久,提到RV770有個號稱理論上2.5倍浮點性能的提升。不過其實我們必須要說,當初R5x0、R6x0沿用到現在R7x0的Ultra Threading Dispatch Processor,是ATI這幾代價夠裡面最主要,也最不容易更改的部分。
3 A L) @9 W! [# d3 \$ F9 T4 C- I/ \9 h& D$ r, Q: n W2 a, ?. S
它的核心觀念就是:把一整塊資料(thread、NVIDIA稱為warp),分配給一份(可變大小的)硬體資源。如果硬體資源因為各種狀況(材質讀取、條件分支等等)因素出現暫時停止的狀態,則記憶住硬體資源目前的執行狀態,然後分配另一份資料讓硬體來處理。6 ^5 M8 D; X( j3 W7 ~+ l6 \
7 u' f; x. h. H/ {; o0 e3 u+ b+ O# I8 P所以這可以有兩個特性:2 j0 ^" K- x: g6 q: e
1. 硬體資源(ALU、TMU、ROP)的擴充變得相對容易,但是記憶體在階層面的擴充則變得困難- z4 s) H) J* h" r9 T: B
2. Ultra Threading Dispatch Processor本身的擴充會大幅影響晶片本身規模,但是周邊的擴充則不會) q8 W% f5 u& {; T, U
: x' u; W6 w: R# i5 {6 w" O/ G9 s
這兩個特性使得ATI演出了當初R520到R580的大逆轉,這次R600->RV670->RV770的狀況也類似:目前傳出的數字是"160個texture sampler"、"800個SP"。
, y$ a, e' u' q( s7 P但是由於先前ATI使用的是5way VLIW、以及5D的texture unit,所以我們把數字還原一下,並且與R600/RV670做個比較-實際上RV770的規模應該是32個texture unit、160個shader,亦即材質資源放大了2倍、shader資源放大了2.5倍,和本來R600的tex/ALU資源比例為1:4相較之下,RV770的比例變成了1:5。4 D: [+ |% |1 G D& u
( u: u- J& y9 Y; k
從1:1(R520)變成1:3(R580)再轉到1:4(R600/RV670),現在看起來,RV770做出的1:5這個數字還蠻有說服力的,至少一直維持他們對數學運算資源的重視。$ O# S0 A2 c9 G
& X( b2 v6 V. M
----
( m2 r/ H! n+ o$ ?+ R8 ^然後問題來了,我們知道由於分支資源的需求,記憶體延遲隱蔽的必需性,過度大幅擴充的sp無法得到充分的利用,而且分支的頻率從DX9引入之後只有越來越高(因為分支可以用來結合shader、減少material load overhead、減少drawcall,這都是減少記憶體頻寬壓力),所以導入的sp很難達到性能比例提升,這在當初R520->R580的時候已經得到了印證。3 P& ?: n1 t- A/ M* j3 Q
; {, C0 r& ~+ C J, P. A3 O1 P
不過在純執行資源上,這些sp並非無用武之地。R580導入的shader資源有一個有效活用的方式:修補fp16 texture filter,這是因為R520只提供fp16 blending卻沒有提供texture filtering之故,所以R580在分支資源無法支撐的sp,其實仍然透過texture filtering的形式,做出了性能上的貢獻。) y$ @, B1 J- b' d
7 [6 [, x+ E1 o: h* j( @/ K所以,其實我們也可以說,RV770提供的大量SP,也可以拿來修補R600/RV670在管線執行資源上的"缺憾"。我們記得R600的CFAA....就是透過shader來作AA sample reslove的,這使得CFAA會出現占用shader資源的問題,而讓AA性能低落。
5 n2 M9 f; @9 X% m+ i+ {5 @0 \& w1 r6 ^* O: o! ?) g" v m
在這個狀況下,選擇有兩個:1 G% M5 l! V Z3 \6 F) g; {2 E
1. 修改AA unit 3 x' w+ q, Y( j: C
2. 增加shader資源
4 q& {. f5 W7 R: x' \9 H8 V& i5 j前者需要面對比較複雜的ASIC修改過程,較為困難;後者的話則較為合理。所以R600的兩大弱點,AA/AF性能的部分,以SP與TMU增設來作為應對之道,是目前我對RV770規格傳聞上的解釋。/ s3 S/ r" }! O
, h Y. `: E) Q0 n0 B9 s這些增設都不會對電晶體造成很大的負擔(TMU增設的負擔較SP數量增加要來得大),如果抓好平衡度的話,會大幅改善整個架構的電晶體效率(電晶體增加25%左右,但預估性能可以提高50%),當初G94的性能幾乎與RV670類似,使得ATI在電晶體效率方面以接近30%(505M vs 666M)的狀況落後於NVIDIA,可望於RV770得到改善(800M vs 754M);而且RV770的CFAA有機會成為較為實用的功能,這點個人是樂觀其成。 |
-
1
评分次数
-
|