无标题文档
前言
提到低端显卡,也许很多玩家会为之不屑。认为价格低于500元人民币的显卡不过是低价低质的东西或者仅仅是OEM厂商提供给普通商用机对3D图形性能基本没有要求的GPU而已。
然而事实却不是这样。事实上,大多数不懂电脑的普通消费者都不会去关注那些500元以上的GPU产品,很大一部分普通游戏玩家、系统集成用户(比如一般的学校多媒体用机或者网吧用户)以及OEM(品牌机),所使用的都是这些卖价500人民币以下的显卡。小熊在线www.beareyes.com.cn
随着Vista的慢慢普及,即使是不玩游戏的用户,也会对GPU的3D性能有一定程度的要求,因此市面上低端显卡将面临越来越多的需求。但是对于这些用户来讲,很少有人会有专门的时间或兴趣去研究这些每天都在变动的GPU信息。因此,小熊在线策划了这篇当今最炙手可热的低端GPU——G84和RV610的对比测试,希望能给那些无法确定自己选择方向的人一些帮助。小熊在线www.beareyes.com.cn
高清HTPC也是最近的一个热点,不论是G84也好,或者是RV610都能提供非常不错的高清解码加速方案。小熊在线www.beareyes.com.cn
不过,有不少朋友十分看不起这种64bit显存位宽的显卡,换算一下64bit,这不禁令我们想起大概是4,5年前的Geforce MX,那个时代的低端卡也在用着128bit sd和64bit ddr。时间这么久过去了,64bit显存是否还能搭当得起重任呢,我们下面会为大家解疑。小熊在线www.beareyes.com.cn
对低端显卡认识的一个误区
也许是因为低端显卡的实际用户多而关注度较少,现在很多人对低端显卡的认识上还存在一定的误解。也许是因为在TNT/GeForce 2时代就深受其害,很多人对现在低端GPU仍然搭配64bit的显存总线感到深恶痛绝。有不少人甚至只要见到显卡规格表上标识的64bit显存位宽,就再也不会对这款显卡感兴趣。而实际上,在当今的游戏环境下,对于低端GPU来说显存位宽的重要性已经大不如前,理由如下:
1. 显存本身高速发展,低位宽不意味着低带宽。小熊在线www.beareyes.com.cn
显存本身近年来发展迅速,工作在1GHz的64bit GDDR3显存系统,实际带宽与工作在500MHz的128bit GDDR1是一样的,而且频率优势可以带来更好的读写效能。
2. 目前的3D游戏,对GPU的着色器性能提出的要求更高,瓶颈实际上在核心部分
上图是ATI所给的一份游戏中像素指令所占的比例的坐标。可以看到,未来的游戏将逐步加大Pixel Shader的实用,对于统一渲染架构的GPU来说, 就是整个Shader的运算负载都要增加,随着Shader指令比例的增加,而与显存带宽直接相关的纹理拾取等已经不是瓶颈所在了,因此对于运算能力有限的低端GPU,过大的显存带宽没有意义,反而会带来成本的增加。小熊在线www.beareyes.com.cn
3. 当今GPU的带宽节约技术早已不同当年,而过高的AA或者分辨率设置对于低端显卡来说并不适用
如果您是一名老游戏玩家,就会发现一直到GF2时代,显存的规格对于整个显卡来说都是重要因素,因为那个时候的GPU是没有HDR(隐面剔除)和Crossbar MC(交错显存控制器)技术的,GPU进行的无效渲染太多,而且即使是读取零碎数据也将占用大量带宽,因此显存是最大瓶颈,几乎成了决定GPU速度的标准。但是自从ATi Radeon引入HSR,NV GeForce3引入交错显存控制器以来,每一代GPU的更新,各种带宽节约技术都随之更新换代。举个简单的例子,即使是RV610这种低端GPU,它的Z/Stencil缓存也具备强大的压缩技术,能够实现8:1无损压缩,我们知道,在MSAA开启的时候,只有Z(深度)数据是运算于更高的分辨率上,因此这样的数据压缩能有力的降低带宽需求,提高利用率。小熊在线www.beareyes.com.cn
因此,虽然显存带宽在高分辨率和抗锯齿开启的情况下依然会对GPU造成影响,但对于低端产品来说这个部位已经不是瓶颈所在,单纯因为64bit显存位宽的问题就饱受批评,它们实在是比较冤枉。小熊在线www.beareyes.com.cn
DX10浪潮袭来
06年底,微软公司新一代操作系统Windows Vista发布。为了增加Vista的吸引力,新一代API——DirectX 10被微软定义为Vista独占。PC市场近年来的持续疲软,业界的确非常需要Vista和DX10这两针强心剂。对于在图形市场酣战的Nvidia和ATi-AMD来说同样如此。不过,Vista带来的操作系统和图形渲染API双重换代也将整个战场大大复杂化。在Vista和DX10提出的新一代标准的刺激下,图形市场面临新一轮洗牌。小熊在线www.beareyes.com.cn
[图1 VISTA发布给饱受PC市场疲软困扰的硬件厂商带来了新的契机]
NV第一款基于G80架构的DX10旗舰产品GeFoece 8800已经不再需要谁来证明它的强大,甚至连ATi-AMD最近发布的新一代高端产品也选择避开G80家族中旗舰的锋芒,转而进攻高阶玩家市场。市场调查报告表明,GeForce 8800四兄弟已经称霸高端市场有半年之久。小熊在线www.beareyes.com.cn
最近,正如微软公司所承诺的,陆续有几款DX10游戏的试玩DEMO放出,随着时间的推移,DX10游戏必将大行其道。玩家的注意力焦点也转移到了DX10硬件身上。小熊在线www.beareyes.com.cn
VISTA发布给饱受PC市场疲软困扰的硬件厂商带来了新的契机
Nvidia第一款基于G80架构的DX10旗舰产品GeFoece 8800已经不再需要谁来证明它的强大,甚至连ATi-AMD最近发布的新一代高端产品也不得不避开G80家族中旗舰GTX和Ultra的锋芒,转而进攻由GTS把持的高阶玩家市场。市场调查报告表明,GeForce 8800四兄弟已经称霸高端市场有半年之久。小熊在线www.beareyes.com.cn
最近,正如微软公司所承诺的,陆续有几款DX10游戏的试玩DEMO放出,随着时间的推移,DX10游戏必将大行其道。玩家的注意力焦点也转移到了DX10硬件身上。小熊在线www.beareyes.com.cn
DX10每一个细节的改变都为未来的游戏打下了坚实的基础
不过,对国内的主流消费者而言,超过1500元以上的显示卡不具太多吸引力。目前国内主流游戏玩家图形卡市场的价格,仍停留在700与1500元之间。在这个价位,Nvidia旗下的GeForce 7系列面对ATi-AMD Radeon X1000系列的竞争并不占有太多优势。而Vista的发布又再次对PC的图形子系统提出了新的要求,改朝换代已经迫在眉睫。为了抢先一步在即将到来的DX10大战中站稳脚跟,Nvidia在今年4月就抢先于对手宣布了自己旗下基于GeForce8架构的新一代DX10中端产品线。这是一个庞大的家族,它们包括:针对中高端游戏玩家的GeForce 8600GTS,针对主流玩家的GeForce 8600GT,针对HTPC和家庭数字用户的8500GT,以及针对OEM市场的8400GS。NVIDIA不仅仅要用这一GeForce8系列产品作为廉价芯片杀入主流市场,成为即将退出的的GeForce 7家族的替代者,而且它还要以这款产品巩固这部分市场,建立低价DX10解决方案新的性能标准。更重要的是,要向市场中注入包含DX10特性和统一渲染体系的主流GPU。对于消费者而言,这些并不是很重要,关键的问题是:它的是否能像NVIDIA所宣称的那样好?
DX10硬件走向成熟
在API和操作系统更新换代的情况下,代表了大部分市场份额的主流玩家又急切希望能有一款合适他们的主流DX图形芯片问世,因此人们自然对新一代产品寄予了很高的期望。或许是因为上一代DX9中端硬件的表现实在是太出色,在G84/G86发布之初,各大媒体的测试表明,它们在那些较老的游戏中似乎不能对自己的前辈们树立绝对的优势,这未免让这些人感到失望。很多人发出了这样的疑问:第一代DX10主流硬件,到底能否适应DX10游戏的需求?
目前以公布的几个支持DX10的游戏中,最具王者风范的毫无疑问当属《孤岛危机》。相信该作也是大部分玩家升级到DX10硬件的动力。《孤岛惊魂》的Cryengine2引擎可以说是集当今即时演算图形技术之大成于一身,真正做到将real-time跟offline之间的界限模糊化。它的大量先进特性诸如实时光照和动态柔和阴影系统、容积化、多层次以及远视距雾化技术、2.5D地形环境光照遮蔽贴图、法线贴图和视差映射、次表面散射、视觉适应和高动态范围光照以及面向DX10统一shader架构的高级着色器技术,能够实现诸如海洋shader、河流shadr、容积雾化shader等等甚至初具“电影画质”的影子。小熊在线www.beareyes.com.cn
《World in Conflict》,这是由Massive娱乐公司以DirectX 10 API开发的一款RTS即时战略大作。众多的D10游戏中的一款。从这些截图中可以看到DX10游戏惊人的效果。小熊在线www.beareyes.com.cn
在最近出现的一些要求较高的新DX9游戏或者新DX10游戏的试玩demo里,我们已经发现了一些有意思的变化。例如刚发布试玩demo的科林麦克雷:尘埃(简称DiRT)这个游戏。我们发现如果将阴影特效设置到最高,它会对shadow map使用大小为4096×4096的纹理。这超过了最大支持2048×2048的DX9 SM2.0硬件的要求,DX9 SM3.0的GPU也有些勉为其难。只有新一代支持最大纹理尺寸为8192×8192的DX10硬件,才能比较好的以最高设置来跑这个DEMO。实际上,DiRT这个DEMO并不是特例。随着时间的推移,那些老旧的游戏终究会慢慢淘汰,而真正适合新一代硬件发挥的舞台正在慢慢新城。那么,新一代的GF8中端家族,在这些最新适合它们的环境的考验下,能够背负大家的期望吗?为了得到答案,我们特意挑选了最近发布的2个热门DX10游戏的试玩DEMO——刚刚推出DX10画质强化补丁的英雄连(Company of Heroes)和正宗DX10游戏失落星球(Lost Planet)来对新一代DX10主流图形芯片进行测试。
DX10的中流砥柱——GeForce 8600/8500简介
在开始测试之前,了解一下新一代主流DX10硬件的规格和架构是非常有必要的。小熊在线www.beareyes.com.cn
用红线标出的就是G84的渲染架构
从核心代号就能够看出,G84/G86继承了高端G80的血统,属于NV的主流DX10产品线。简单的说,新的GeForce 8600/8500芯片使用了GeForce 8800的设计,拥有全新的统一渲染单元(Unified Shader), 同样能够支持DX10。但针对多功能性、价格和主流消费者的需要作了一些改动。G84/G86由新的TSMC 80nm工艺制造,拥有较高的核心频率,渲染单元上相对高端的G80做了精简。这减少了耗电量和生产成本,但同时也削弱了GPU的性能。小熊在线www.beareyes.com.cn
我们已经知道,G80具有128个1D scalar流处理单元 ,每16个一组构成一个TPC,每个TPC搭配8个浮点纹理过滤单元(Texture Filtering Unit)和4个浮点纹理寻址单元(Texture address Unit)。单元的工作频率为1.35GHz,外围的TF和TA以及L2 Cache以低于一半的速度(575MHz)工作。所有这些单元配合设计合理的Cache和管理仲裁架构结合在一起就成为一个强力渲染引擎。不过,到了G84身上,负责主要算术运算功能的流处理单元被削减为32个,与之搭配的TFU和TAU分别为16个和8个,都只有G80的1/4。它们一共被分成2个TCP,工作在1.45GHz。面向最低端和OEM市场的G86在这个基础上将所有的资源再度减半,也就是说它只有G80的1/8,SP/TF/TA/ROP分别是16、8、4、8个。不过G86依然保持了128bit的显存位宽。小熊在线www.beareyes.com.cn
让我们感到欣慰的是,与运算单元方面的缩水不同,G84和G86都完全继承了G8X在流水线管理和运算单元效率方面的优秀基因。GeFoecr 8家族最重要的4个特性:基于多执行诸体系(Multi-Threading)控制的统一渲染单元(Unified Shader)、标量化ALU、大规模的片内缓存(Shared Memory)、双倍速动态逻辑电路(也就是Shader相对于核心频率加倍),一个都没有少。G84和G86是按G80等比例缩水而已,功能并没有减少。这样它们等于也都继承了G8X高效出色的架构设计。小熊在线www.beareyes.com.cn
G84 G86的TCP结构与G80是一样的
G84/86最大的特色还是在中低端GPU上提供了对DX10的支持。也许有人会指出它们本身的处理能力限制将导致它们难以运行那些要求极高的DX10游戏,但必须明白DX10带来的不只是特效的升级。DX10引入的很多新特性都将为游戏推波助澜。比如更多的临时寄存器(Temp Register)能让程序员使用更长更复杂的shader的时候减少性能损失;DX10丰富的浮点纹理格式支持,使HDR效果能更加广泛的被使用;更加灵活、可编程度更高的流水线让在DX9时代受到限制的各种shader都能顺利运行。即使是DX9游戏,也会因为DX10硬件更加丰富的辅助资源而受益。而G8X系列本身的新特性也对性能提升有所帮助。如硬件化的通用渲染架构平衡了流水线中不同指令的分布,全新的1D scalar流处理单元能减少指令之间的依存性,提高指令的执行效率。更强的分支新性能让通用计算受益,等等。一个典型的例子就是,理论浮点运算能力相近的G80和R580图形芯片,在执行一些新游戏,如彩虹6号拉斯维加斯,上古卷轴4等游戏时产生了巨大差别。小熊在线www.beareyes.com.cn
DX10提供更多的通用寄存器能显著提高流水线效率
不过,DX10的引入也为主流芯片带来了一些麻烦。微软在DX10重新定义了很多标准,比如新的几何着色器(Geometry shader),硬件化的RGBE浮点纹理格式,每个shader支持最多4096个Temp Register,渲染流水线能支持8MRT的多重渲染目标(Multiple Render Targets),等等。这些都会挤占不少晶体管。另外,DX10所要求的通用化的着色单元虽然本身不会增加多少晶体管,但传统流水线模式因此改变而带来的调度控制体系的改变却要吃掉很大一部分晶体管资源。这意味着,对于成本受到限制的产品来说,工艺制程进步所带来的好处将会被DX10 API的改变所抵消一部分。说白了,就是性能/晶体管比下降。为了支持DX10并保持较高的性能,G84塞进了大约2.9亿个晶体管,G86也大概有2亿个晶体管,这已经接近了上一代高端产品的规模。小熊在线www.beareyes.com.cn
而G84/G86正是在这样的环境背景下诞生的新一代GPU,成本和性能这两方面折中的结果将体现在它的身上。
好了,现在回到正题,因为受到主流市场的成本限制,G84和G86的运算能力提相比前辈提高确实不多,但继承自当今最优秀的GeFoecr 8架构的它们依然拥有最高的运算效率。当以新一代硬件为开发平台的游戏越来越多,外围环境逐渐成熟的时候,它们能向翘首以待的玩家们证明自己为了DX10而多花费的那些晶体管是值得的吗?下面的测试会说明一切。小熊在线www.beareyes.com.cn
RV610和G86
与它们的中端兄弟一样,RV610和G86也都是分别源自大哥R600和G80的衍生物。为了适应成本方面苛刻的要求,它们相比中高端产品在核心渲染单元方面做了大量缩水。不过功能上没有任何缩减,DX10,SM4.0,统一渲染体系以及各种进化版本的细节优化技术一个都没有少,它们甚至还针对中低端用户的需求增加了硬件视频解码单元,这个是期间产品所没有的功能。小熊在线www.beareyes.com.cn
规格方面,GeForce 8400GS(G86)是一款完全支持DirectX 10的低阶显示芯片。设计上它大部分基于G80核心,不过删掉了大部分3D渲染单元。它也是NVIDIA第三款使用TSMC 80nm low-k制程的产品,具备约2.1亿个晶体管(高端的G80拥有6.8亿个晶体管,依然使用较老的90nm线宽的TSMC工艺),因此它的耗电量较低,时钟频率上限较高,发热量也低许多。它的通用标量流处理单元从G80的128个缩减至16个,纹理单元从32组减掉3/4成了8组,并且只有2个光栅化输出单元(ROP)搭配64bit的显存界面。就指标规格上来看,G86似乎比旧的GeForce 7600系列还来得差,幸好G86依然从强力老大哥G80那里继承了无与伦比的流水线执行效,提供了这个规格下难以想象的3D加速能力。G86具备G80的所有功能,包括G80的模块化频率异步架构,标量化通用渲染单元,Gigathread线程调度管理器, 覆盖取样抗锯齿(CSAA)等。另外它的Z优化功能也和G80一样,提供16:1无失真Z轴压缩。小熊在线www.beareyes.com.cn
在NVIDIA推出GeForce 8主流产品线二个月之后的6月27日,ATi-AMD才拿出了新款的DX10主流市场产品。之前市场上原本只支持到DirectX 9的入门级产品Radeon X1300/X1550系列将会被支持DirectX 10的Radeon HD 2400(RV610)系列产品取代。一开始RV610将会有两种不同的版本上市,分别是Radeon HD 2400Pro和Radeon HD 2400XT。Radeon HD 2400Pro将是我们这次讨论的对象,因为它与G86一样,面对的是最低阶的几乎要跟集成显示芯片抢地盘的市场。小熊在线www.beareyes.com.cn
RV610源自R600架构,核心约具备1.8亿个晶体管,采用TSMC 65nm G+制程,die size只有76平方毫米。从配置规格来看,RV610很明显主攻的不是游戏玩家市场。它的核心仅仅具备2组SIMD通用着色器阵列,每组有4个5D流处理单元,共计40个ALU,这些指标只有R600的1/8。RV610具备一个渲染后端操作阵列(RBE Array),也搭配了64bit显存总线,在H-Z等带宽优化方面与R600是一样的。小熊在线www.beareyes.com.cn
规格简介
在纹理单元的设计方面,RV610的Texture单元从R600的4个减少到一个,包含了有8个Texture address Unit。,每组Texture address Unit都可以进行Geometry Shader,或Pixel Shader的Texture Fetches,另外还附带了免费的顶点纹理拾取功能。小熊在线www.beareyes.com.cn
此外,RV610还拥有20个Texture Samplers,每個Texture Samples在单个周期内能进行一个FP32的单通道拾取操作。RV610拥有4个FP32纹理过滤单元(Texture Filiter Units),4个周期能进行一次64Bit的Bilinear Filtering。总体来看,RV610的纹理部分规格偏弱。RV610保留了16KB的L2 纹理缓存,这个些SRAM将帮助RV610挽回一些规格上的劣势。小熊在线www.beareyes.com.cn
相比之下,G86的纹理单元部分的规格要强不少。G86具备拥有8个TMU,每个TMU内有两个可以做双线性纹理过滤的纹理拾取单元,并且也提供了免费的顶点纹理拾取功能。功能明显比RV610的要强大。小熊在线www.beareyes.com.cn
在统一着色单元方面,双方都引入了完全不同于DX9硬件的新一代技术。G86集成了G80的TPC结构。所谓的TPC指的是Texture Processor Cluster(纹理着色集群)结构。它将传统的4D SIMD ALU拆分成了最基本的1D Sca模式的ALU,每8个1D ALU位一个阵列,称为Streaming Multiprocessor(多线程流着色引擎),每个SM内部都有自己的线程仲裁/控制机构,独立的Reg file(寄存器资源),和各种Cache,通过内部的shared memory和crossbar总线可以自由的交换数据。整个体系强调的是线程级别的并行度(
Thread Level Parallelism)。每2个SM构成一个TPC,G86一共具备一个这样的TPC,相比之下G80是8个。小熊在线www.beareyes.com.cn
RV610走的是完全相反的道路。RV610的流处理器数量比G86要多,但是控制部分比较简单,也没有类似G86的shared memory这样的高速片内缓存,因此必须依靠驱动编译器位代码做最佳化,才能完全发挥出SIMD着色单元的性能。这个体系被称为VLIW(Very Large Instruction Word)。小熊在线www.beareyes.com.cn
ATi RV610
Nvidia G86
工艺
65nm
65nm
晶体管
180M
210M
核心频率
525-700MHz
450MHz
Shader频率
525-700MHz
900MHz
流处理单元
40
16
显存规格
800-1400MHz GDDR2/3
800MHz GDDR2
显存位宽
64bit
128/64bit
显存带宽
6.4-11.2GB/s
6.4-12.8GB/s
显存容量
256MB
256MB
纹理拾取单元
4
4
纹理过滤单元
4
8
总体来看,G86的硬件比较占优势,而RV610如果要发挥自身能力,需要软件的特别优化。小熊在线www.beareyes.com.cn
参测显卡索泰(zotac)8400GS介绍
今天进入我们小熊评测室的是一款索泰(zotac)8400GS显卡,首先我们先对它的整体外观有个初步的了解。小熊在线www.beareyes.com.cn
富有视觉冲击力的精美包装
显卡正面图,从图中我们可以看到这款索泰(zotac)8400GS
512MB的风扇图案延续了其包装的风格,风扇的覆盖面积很大,正面核心、显存、供电部分全在其笼罩之下。小熊在线www.beareyes.com.cn
背部图式,我们可以看到显卡背部走线情况,另外背部还有两颗奇梦达1.4ns显存。小熊在线www.beareyes.com.cn
提供了标准的DVI+VGA+TV-OUT输出接口,可以满足大部分用户的需求。小熊在线www.beareyes.com.cn
测试成绩以及总结
CPU
Intel Core 2 Duo E6850
主板
ASUS COMMANDO P965
内存
镁光 DDR2 800 1GB×2
硬盘
希捷 7200.10 320GB SATA
显卡
GeForce 8400GS
Radeon HD 2400Pro
电源
SilverStone ST85F
驱动
NVIDIA Forceware 163.11
Catalyst 8.38.9.1-RC2_48912
操作系统
Windows Vista Ultimate 32bit 简体中文版
结果并不出人意料,实际上8400GS的胜利完全在我们的预料之中。不过即使搭配最高端的CPU,双方跑英雄连这种要求较高的DX9游戏的时候,最低帧数依然降低到了20以下。小熊在线www.beareyes.com.cn
我们选择的一些其他DX9游戏,虽然缩水太多,新一代终端都能够胜任。总体来看,399元的价位能获得这个性能,用户应该是没有什么怨言的。小熊在线www.beareyes.com.cn
正像上面我们所说,8400GS相当于1/8个G84,然而2400相当于1/8个R600,当这两块显卡站在一起时对决时,其结果就像当初G80VSR600一样。小熊在线www.beareyes.com.cn
版权作品 未经许可 请勿转载