高阶行动装置对多媒体等视觉体验的要求愈来愈高,促使行动处理器开发商大举整合更多GPU核心,期借助平行运算能力,分散CPU运算负担,进而强化绘图与视觉表现。
在全球消费性市场中,智慧手机与平板装置无疑是最热门的产品,根据顾能(Gartner)所发布的最新预测指出,2013年手机出货量将超过十八亿支,较2012年成长3.7%;平板的出货量将上看一亿八千四百万台,成长42.7%,呈现高速增长态势。
尤其值得关注的是高阶行动装置产品更不断推陈出新,给用户的视觉性应用体验已接近个人电脑(PC)、电视等级,即可提供丰富、流畅的二维(2D)或三维(3D)使用者绘图介面(GUI)、视网膜(Retina)级的高画质、快速的网页呈现及摄影功能,以及更逼真的3D游戏等。
在一台小小的行动装置上要达到这些使用体验,对于开发者而言,设计门槛已愈来愈高。以3D游戏为例,要让行动装置达到与PC、电视同级的游戏体验,须提升的视觉效果包括实体表现、动态照明、高动态范围材质(HDRTexture)、先进阴影效果、几何细节、次表面散射(SubsurfaceScattering),以及动态反射(DynamicReflection)等。
所幸,最关键的行动处理器架构不断升级,除出现整合中央处理器(CPU)和绘图处理器(GPU)的异质多核心架构外,GPU的数量及处理能力也大幅提升,成为实现流畅、长时效视觉体验的最大功臣。以下将剖析先进GPU在架构上的变化与最新进展。
实现更酷炫绘图功能异质多核心SoC势不可当
愈来愈多中高阶行动装置配置四核心CPU的行动处理器,以辉达(NVIDIA)的Tegra系列来说,自Tegra3开始,就已进入4+1的多核心架构,即四颗效能核心加一颗省电核心,而最新一代的Tegra4,同样采用4+1的多核心架构,但处理器核心从前代的Cortex-A9提升为Cortex-A15;至于Tegra4i则仍采用Cortex-A9(r4)CPU。
虽然CPU的数目愈多,意味着处理效能也跟着提升,但因CPU的序列处理特性,愈多核心意味着应用程式撰写亦愈困难;相较之下,由于GPU具备平行处理特性,能以近线性化来扩充效能,因此增加GPU数目所提升的效益,会比CPU显著许多。
在此情况下,整合CPU与GPU的异质多核心架构,就成了必然之势。而当GPU核心更多,也让开发者有更大空间和弹性去做出更酷的绘图效果、更细腻的细节表现及更生动的情境塑造,让行动视觉与游戏的体验大幅提升。
Tegra4的GPU子系统就是很好的例子,它从前代的十二颗GeForceGPU核心,一举提高到七十二颗,六倍的核心数也带来六倍于Tegra3的绘图效能。Tegra4及Tegra3在GPU效能表现上的差异,请参考表1。在系统配置上,其架构中有所谓的顶点着色器(VertexShader)和画素着色器(PixelShader);前者让工程师可自订场景(Scene)中顶点的转换过程,后者则是用来控制画面上每个画素的着色计算。
整合更多GPU核,移动处理器大开“眼”界
更进一步来看,Tegra4的作法是将七十二颗GeForce核心拆分为二十四颗VertexShader与四十八颗PixelShader。其中每四颗VertexShader组成一组顶点处理引擎(VertexProcessingEngine,VPE),所以有六颗VPE,分别具有16KB、96-entry快取记忆体,能够有效降低向外部晶片存取资料的需求。在相同时脉下,新的GeForce核心可以带来1.5倍于Tegra3的效能,而前后代VertexShader数量相差六倍,相乘之下差距达九倍之多。此外,Tegar4总共具有四组画素管线(PixelFragmentShaderPipeline),每组画素管线可细分为三组算术逻辑单元(ALU),每个ALU则是由四颗GeForce核心(即PixelShader)组成。在实际运作时,会以ALU做为最小层级的单元,并称为多功能处理单元(Multi-FunctionUnit,MFU),因此Tegar4总共具有十二组MFU,MFU可执行函数、三角函数、对数、倒数、平方根及MOV等指令(组合语言中的复制)(图1、2)。
图1 Tegra4的逻辑性绘图处理管线流程图
图2 Tegra 4的GPU架构方块图