|
编译自: http://pc.watch.impress.co.jp/docs/2008/0716/kaigai453.htm |
●来自Intel的压力
Intel公司目前正在为推出数据并列+任务并列型处理器产品“Larrabee(LARAB)”的推出而进行着准备。现在已经明确今年夏天将会明确处理器的架构,而明年(2009年)则将会正式推出相关产品。Intel公司在起初表示Larrabee更适合high-performance处理(HPC),不过实际上是一款图形处理器产品。目前NVIDIA公司为了提高显示芯片的出货量也在推行通用处理器的普及。
Intel公司在推行Larrabee战略的起初并不是将其作为显卡产品进行普及。而现在转成显卡产品也并不算是转换了发展战略,而只是最初计划作为显示芯片进行出售。据说为了让其它GPU厂商放松警惕,intel在一开始的时候还放出烟雾表示Larrabee将会用于HPC产品上。这个实际上是Intel公司的宣传战略。
Intel公司在推出最初版本的Larrabee之后就会马上投入Larrabee 2的研发工作。据说新产品将会面向笔记本电脑。总之Larrabee将会完全与GeForce系列产品进行竞争。由于有
Intel公司在后面拼命追赶,NVIDIA公司的屁股后面就好像着了火一样。目前NVIDIA正在向GPU的通用性处理前进,并且想在Intel赶上来之前,巩固自己在GPU市场上的地位。因此该公司目前重点在于“CUDA (:compute unified device architecture)”的普及上,但是这个对于NVIDIA来说将会是一个困难的路程。
目前NVIDIA力推的CUDA正在深入到各个领域。实际上CUDA正在以成为HPC等领域的一部分而受到欢迎并且已经取得了一定的成果,但是目前的实际状态离普及还有相当远的路要走。
●GPU面临最优化难题
这里我需要指出的是目前只有一小部分程序员在尝试着使用CUDA进行编程。而这些人也正面对着与CPU不同的多种多样的性能瓶颈。因此CUDA代码的移植是很困难的。在推出CUDA之后也就是去年(2007年)8月的CPU峰会上“HotChips 19”,与NVIDIA公司进行合作并且开设了CUDA程序编制路线的伊利诺斯大学发表了由学生编制的程序。在当时看到了很多性能提升方面的表现但是也有性能不如意的部分。对此NVIDIA公司的David B. Kirk先生(Chief Scientist)表示“这是由于目前程序还没有习惯并列处理的算法”。
现在已经过去了1年,而CUDA程序编制团队也有了一个的扩张,应用软件也有推出,并且实现了相当高的性能。不过尽管如此NVIDIA CUDA还面临着难以实现最优化的指责。而作为NVIDIA的GT200系列的“GeForce GTX 200”和“Tesla T10P”也是面临着这样的问题,而对此NVIDIA公司也作出了一定的回答。
●解决通用处理的瓶颈
NVIDIA的CUDA难以实现最优化是由于GPU独特架构所导致。这里我认为困难是很难描述的,这是由于程序模型需要考虑硬件的隐藏。同时硬件本身确实也需要实现通用处理的最优化。
在HotChips 19大会上已经指出寄存吕以及显存访问的等待时间、共离内存容量(Shared Memory)、命令发出比率是主要的瓶颈。同时也存在单体GPU以及CPU和GPU之间数据传输的瓶颈。不过大部分情况很明显是GPU在架构上的瓶颈。
在HotChips上展示的基于GPU的各个应用软件的性能提高幅度
HotChips表示GPGPU应用软件制作的注意点
NVIDIA在去年11月召开了有关GPU在天文学以及天体物理学方面应用的大会“AstroGPU 2007”,会上NVIDIA介绍了CUDA实现最优化的关键点。