前往业界动态栏目前往脑场特工栏目暂未开通前往IN评测栏目暂未开通前往大家的PCINLIFE暂未开通

赞助商广告

官方活动宣传

发新话题
打印

[体系架构] NVIDIA 下一代 GPU 体系架构猜测、讨论专题

本主题由 Edison 于 2008-9-12 02:01 提升
架构方面,
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
    FooA()
else
    FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率。动态分支的性能将达到像素级别。但是不知道这个东西要用掉多少晶体管。
G80已经实现了一个数据重排, 在vector unit上给人做到scalar unit的假象。下一步如果实现这个动态分支重排, 就可以真正做到即使存在大量分支跳转下的高效硬件利用率。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

显存带宽利用率也需要提高,由于GDDR5的关系GPU需要更深化的流水线来遮掩延迟.......

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面,
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
    FooA()
else
    FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...
能详细说说什么叫Simd横向重分配么?你下面那个例子,我假设如Thread1和Thread2之间有关系,即Thread1中的分支可能关联到Thread2,那么能按照你所说的Fooa和Foob重排来避免麽?

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

GT300肯定是45nm工艺的产物.

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 aeondxf 于 2008-7-21 21:27 发表
不是说DX11有OOO的么?
没必要OOO

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

新近的一个专利,06年3月23日提出申请的,08年7月22日发出。

http://patft.uspto.gov/netacgi/n ... IA&RS=AN/NVIDIA

BACKGROUND

Conventional graphics processors are exemplified by systems and methods developed to reduce aliasing using supersampling or multisampling techniques that use fixed positions for sub-pixel samples. However, conventionally each pixel has the same fixed sub-pixel position, i.e., the sub-pixel positions are periodic. The human perception system is tuned to detect regular patterns, appearing as aliasing artifacts. To reduce aliasing, the sub-pixel positions should be non-periodic or vary over a region larger than a pixel. Furthermore, the sub-pixel sample positions should be programmable rather than fixed to allow an application to select a specific pattern, including a pattern that varies of several pixels.

There is thus a need for allowing flexibility in determining the positions of sub-pixel samples, including the ability to specify non-periodic sub-pixel positions to reduce aliasing.

看样子可以直接控制取样点的jitter位置,而这个offset动作是有专门的硬件来完成。

请注意,专利的申请可能与未来的产品并无任何直接关系。

附件: 您所在的用户组无法下载或查看附件
“They’re the world’s leading designers and manufacturers of CPUs – how hard could it be to build a GPU? I mean, come on, how hard could it be? That crummy little company down the road builds them – we could build them in our sleep. Come on, how hard could it be?” ——NVIDIA David Kirk

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 feel囝 于 2008-7-26 18:34 发表

能详细说说什么叫Simd横向重分配么?你下面那个例子,我假设如Thread1和Thread2之间有关系,即Thread1中的分支可能关联到Thread2,那么能按照你所说的Fooa和Foob重排来避免麽?
所以gpu没有stack, 所以所有涉及的操作只是增加一个register index layer(例如TLB, 但是肯定很不一样)
所有涉及的指令是在simd vector unit中以in order的方式来执行的, 即先以SIMD的方式执行完所有FooA, 再执行所有的FooB.

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面,
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
    FooA()
else
    FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...
嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題是PCIE 不能運算和雙向傳輸同時的問題,不過PCIE老實說成為瓶頸的機會太低了,似乎不是很急迫。

[ 本帖最后由 Eji 于 2008-7-27 02:14 编辑 ]

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

但愿不是N牌天骄二代~

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

就算是天骄二代  还有CUDA
不过R600有HDMI就没有这种待遇了

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Eji 于 2008-7-27 02:06 发表


嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題 ...
OOOE对图形性能的提高有帮助没?

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Eji 于 2008-7-27 02:06 发表


嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題 ...
Warp内的oooe? 我个人不大相信。SP肯定是in-order的结构啦。而且Warp应该是以pipeline的方式在sp内4 cycle完成的,如果其中再去打散,我不知道有什么意义。反正warp多得是...

另外,貌似DX11的compute shader功能十分强大(超过cuda1.1的规格),届时scatter应该是标准操作了。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

scatter应该就是compute shader基本线了,否则很多东西都干不了,不过gamefest的paper要下个月才公布,你现在有资料了吗?

“They’re the world’s leading designers and manufacturers of CPUs – how hard could it be to build a GPU? I mean, come on, how hard could it be? That crummy little company down the road builds them – we could build them in our sleep. Come on, how hard could it be?” ——NVIDIA David Kirk

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Eji 于 2008-7-27 02:06 发表

嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題是PCIE 不能運算和雙向傳輸同時的問題,不過PCIE老實說成為瓶頸的機會太低了,似乎不是很急迫。
OOO完全没有可能性,图形处理上OOO完全是脑子积水行为。
PCI-E在GPGPU里边是最容易成为瓶颈的地方。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 Edison 于 2008-7-29 11:51 发表
scatter应该就是computer基本线了,否则很多东西都干不了,不过gamefest的paper要下个月才公布,你现在有资料了吗?
http://forum.beyond3d.com/showthread.php?t=49164

"First at all. Things may still change until the tech preview will be delivered with the November SDK and still then there are changes possible.

HLSL 5.0 will include operations to do random read/writes to resources from inside the shader. While all shaders can read they write operation may be limited to compute and pixel shaders. The communication between threads is done with atomic memory operations. You can build a mutex with this if you want. The compute shader will additional provide a fast special shared memory area inside the chip for this purpose. There would be an additional sync operation."

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

这个HLSL 5.0不知道会不会是AMD的IL。

“They’re the world’s leading designers and manufacturers of CPUs – how hard could it be to build a GPU? I mean, come on, how hard could it be? That crummy little company down the road builds them – we could build them in our sleep. Come on, how hard could it be?” ——NVIDIA David Kirk

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

不知道。我觉得其实和CUDA也比较像。
其实应该是业界都采纳了shared memory这种做法而已。其实idea也已经出现很久了, 以前似乎是某篇ATI的paper提到shared memory能大量减少一些filter的bandwidth,后来是nv硬件先做出来,不过却没有办法很方便地用在Rendering中,直到cuda2.0。

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 stcshy 于 2008-7-22 17:58 发表

你家造的GT200那shader频率能达到9800GTX的水平?
RV770无论是高清还是通用计算还是API还是性能都领先于9800GTX,用某些人的说法就是很多晶体管是“看不见”的~
而且很明显的事实就是RV770在NO ...
Rv770通用计算领先9800GTX

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 stcshy 于 2008-7-29 15:14 发表

光一个DP就让NV彻底闭嘴
GT200也没法和RV770比
从F@H里性能看和现有的软件数量来看,NV是可以闭嘴了

桃李不言,下自成蹊

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 RacingPHT 于 2008-7-29 15:04 发表
不知道。我觉得其实和CUDA也比较像。
其实应该是业界都采纳了shared memory这种做法而已。其实idea也已经出现很久了, 以前似乎是某篇ATI的paper提到shared memory能大量减少一些filter的bandwidth,后来是nv硬件先做 ...
filter的时候应该比较容易做到tex cache的优化,scratch-pad能起的帮助很小吧。

我找不到你说的paper,不过Michael C. Houston有篇可能有关的文章,今年3月份的:
http://graphics.stanford.edu/%7E ... mhouston-thesis.pdf

“They’re the world’s leading designers and manufacturers of CPUs – how hard could it be to build a GPU? I mean, come on, how hard could it be? That crummy little company down the road builds them – we could build them in our sleep. Come on, how hard could it be?” ——NVIDIA David Kirk

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

引用:
原帖由 RacingPHT 于 2008-7-29 10:54 发表


Warp内的oooe? 我个人不大相信。SP肯定是in-order的结构啦。而且Warp应该是以pipeline的方式在sp内4 cycle完成的,如果其中再去打散,我不知道有什么意义。反正warp多得是...

另外,貌似DX11的compute shader ...
那么DX11的compute shader会不会淘汰掉CUDA呢?

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界

DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了 除非用上40nm ~
至于架构 nv的超标量流处理器架构本来就是适合通用计算的 对于显卡来说其实矢量架构更加适合 这个其实很早以前就知道 只不过A之前的R600由于工艺原因不得不削减 导致性能低下
40X40=1600  65X65=4225  如果是40nm的话同等核心大小的情况下应该晶体管可以增加2倍多
我觉得nv做一个将近一半于现阶段GT200大小的核心 采用矢量架构 然后主流卡用一个核心
高端卡用两核心是最明智的做法 良品率比单核心容易控制 成本也会低一点~不过就怕nv不敢用40nm
如果nv继续使用标量架构的话也许性能也不一定会差 40nm的估计很容易上高频 但是标量架构不容易扩展SP数量是不争的事实 对比G92~GT200 和 RV670~RV770的晶体管数量和核心尺寸的变化就能看出了 下一代RV870要是真有2K的SP的话估计其高倍AA的性能会相当恐怖 甚至有可能单核心搞定Crisis 4XAA

TOP

[广告] 买猫头鹰CPU散热器特价,还送i7 扣具一套! | Vista降临,PC够强吗?远景带您进入绚烂的美化世界