引用:
原帖由 Prescott 于 2008-8-12 12:20 发表 
其实我想说的就是,很多App并不适合CUDA这种模型
我現在講的和CUDA無關啊,現在Larrabee一樣透過add-in board的方式以直接連結取得大頻寬。
除非3D stack memory,否則CPU的頻寬無法與板卡對抗,而版卡的記憶體容量上限則大概是一般的單一module的容量。
(16個chip x 最大單一顆粒上限)
所以只要GPU板上的memory達到某種實用範圍,CPU就會一直遇到記憶體頻寬差距的問題,所以才要靠AVX來衝高運算密度、或者是Larrabee掛LNI之類的指令集。
其實這都是先前free lunch is over遲來造成的。
這與CUDA與否無關,單純是GPU這種板卡存在的模式,和CPU的socket之間的一點形態差異罷了,分離的針腳、模組和焊接住的記憶體可達時脈當然會有差距。
能跨越這點的,要等到3D stack memory,要能提供與同時期GPU 在on-board上同等的容量、但是遠超過板卡的頻寬,否則3D stack memory只會變成另一個記憶體階層(因為GPU也會拿它來加速)而已,那就沒辦法取代GPU了。
[
本帖最后由 Eji 于 2008-8-13 02:28 编辑 ]