Bootstrap

深度学习中GPU的作用

英伟达推出的“霸王条款”:GeForce产品禁止用于深度学习。

英伟达的禁令

众所周知,英伟达是显卡界的老大,2017年英伟达的GPU芯片在全球市场的占有率为70%左右,无论是人工智能、自动驾驶,甚至搞电竞、区块链都绕不开英伟达的阴影。上周,英伟达悄然修改了用户许可协议,其中特别要求消费者级显卡GeForce允许做区块链处理,但禁止在数据中心使用GeForce显卡做深度学习。

这句话该怎么理解呢?英伟达旗下的显卡产品大致有三大系列:GeForce、Quadro与Tesla。严格来说这三大系列的架构很相似,只是封装和功能侧重有所不同,价格差距也很大,GeForce用于打游戏,Quadro用于作图,Tesla用于服务器。

三款产品中最物美价廉的就是GeForce系列产品,它不仅仅只用于打游戏,性能上与其他两类产品区别不大,有些服务器企业处于成本的考虑,会大量使用GeFoce显卡,尽管Tesla是服务器专用的 GPU加速器,但8-10倍的价格差距,使得很多服务器和专注深度学习的企业宁愿选择GeForce显卡。

此次英伟达的禁令,就是明确划分旗下产品的边界,说得通俗一些,Geforce系列的GPU芯片就是用来打游戏的,如果想建数据中心,并且搞挖矿以外的事情的话,请买别的产品。这对于那些财大气粗的巨头企业来说也许影响不大,但对于中小机构或是个人开发者而言,相当于变相提高了深度学习的门槛。

GPU的作用

深度学习是人工智能技术的一种算法,即使在安防领域中,深度学习出现的频率也在不断提升。这种算法对于运算量的要求很高,但是对计算精度的要求不高。

在CPU与GPU的取舍中,CPU虽然每个处理器计算精度比GPU更高,但是运算单元一般不多,而且做简单运算的速度上并没什么优势,GPU则可以用一些工具让大量处理器做并行运算,在面对简单而又大量的运算时,有设计上的优越性。

在英伟达的GPU芯片中,有一种名为CUDA的架构,主要负责处理器的并行运算,后来又衍生出了cuDNN架构,据深度学习的开发者反馈,这种架构在开发起来比较好使,目前全球大部分深度学习框架都对 cuDNN 支持的比较好,比如谷歌的TensorFlow。

可以说,GPU芯片在人工智能领域基本处于垄断地位,因此英伟达才希望通过霸王条款来提升Tesla显卡的出货量,限制服务器企业和系统集成商使用成本低廉的GeForce 显卡。想要提高网络服务、云端运算,以及专注深度学习的企业与研究机构来说,设备费用将会明显上涨。

那我不用英伟达的产品呗?

AI+安防

近几年AI+安防的概念风靡全国,各种智能解决方案先后落地。通常AI+安防的方案分成两种:前端方案和中后端方案,前端方案是通过人工智能摄像头的芯片,实现智能化采集,而中后端则是将普通摄像头采集到的视频数据,通过GPU等板卡的智能服务器进行汇总分析。

不过从现状来看,选择英伟达的显卡产品已经成为整个AI+安防领域的最优解。

比如说2016年以来,海康威视推出从前端到后端全系列的AI产品,包括“深眸”摄像机、“超脑”NVR、“脸谱”人脸分析服务器等,全部是基于英伟达的GPU作为技术基础。2017年,大华推出了“睿智”系列前端和后端智能设备,在相关平安城市项目建设中功勋卓著,其核心正是英伟达的Tesla系列的GPU作为核心负载。

再比如说刷爆互联网圈子阿里云ET大脑、华为的人脸识别和视频结构化算法、甚至商汤科技的安防监控和人脸识别系统中,都离不开英伟达的平台和技术基础。去年秋季,英伟达的黄仁勋更是霸气宣布要用Tesla产品为10亿摄像头提供GPU。

人工智能领域的竞争不仅仅是技术的竞争,也是速度的竞争,使用英伟达的产品必然会比选择其他品牌的GPU产品跑得更快。

如果说在AI+安防领域,甚至整个人工智能的风口中,谁是最幸运的企业?除了英伟达以外,帮尼很难想到其他竞争者。

几种显卡品牌

笔记本上的独立显卡大部分来自NVIDIA(英伟达)和AMD
作为一个深度学习的初学者,你可能会遇到这样的问题:“我该如何训练我自己或者别人的Model?”“我该如何配置一台合适的主机?”“目前有哪几种训练模型的方式?”
接下来,我将会对此进行详细的介绍,当然,这只是我个人的一些观点,如有不对的地方还希望大家能够体谅!

一、 目前有哪几种训练模型的方式?
方案一:配置一个“本地服务器”–通俗来说就是一台“高配”电脑。
优点:比较自由,不受约束。
缺点:价格昂贵,需要考虑金钱问题。(配置一台初级的深度学习主机大概需要1.5w左右,具体细节请看下文)
适用情况:
1)你本人有充足的的资金;
2)需要发表论文,多次训练自己的Model;
3)尝试运行别人的Model;
4)想要从事深度学习领域的研究;

方案二:配置一台自己的“云服务器主机”
优点:可以按照项目的需要选择合适的配置,比较灵活。
缺点:针对个人来讲,价格还是比较贵的。
适用情况:
1)由于项目的需要,需要使用到深度学习,需要训练Model;
2)初创企业
注:根据我个人的了解,当前云服务器的计费方式主要有两种:按时计费、按月计费和按年计费。国内有的公司提供了相应的GPU服务器和FPGA服务器平台,但是还处于测试阶段。详细的介绍请看下文。

方案三:配置一个“深度学习集群”
优点:更快更高效的获得自己的Model,即加快开发的效率;
缺点:对于个人来讲不太现实,一般是大公司的选择;
适用情况:
1)具有雄厚基金的大公司,如BAT等都有自己的深度学习集群平台和自己的深度学习框架;
2)深度学习领域的初创公司;以上就是3种训练Model的方式,下面我将会给出一些有用的云服务器连接,感兴趣的同学可以自己探索。

百度AI云服务器,支持PaddelPaddel和Tensorflow
腾讯云服务器,支持GPU云服务器和FPGA云服务器,后者处于内测阶段
阿里云服务器,支持GPU云服务器和FPGA云服务器,后者处于内测阶段
华为机器学习云服务器
微软云服务器,国内不支持GPU服务器,北美支持
联众集群,一个专业的GPU集群解决方案提供商

二、 我该如何配置一台自己主机呢?
要配置一台深度学习主机,你需要选择合适的CPU、GPU、内存条、固态硬盘、电源、散热、机箱、主板等(最好支持PICE,应用于多GPU的其概况下)。下面进行详细的解读:

GPU:即图像处理单元,最为一个并行处理器,起初是专门用来处理图像的,但是由于大数据的驱动,如今的它已经广泛的应用到了多个领域中,包括“深度学习”“智能驾驶”“VR”等。

由于它可以利用多个线程来进行高速的矩阵运算,而深度学习中会涉及到很多的矩阵运算。这正是它的用武之地。因此选择一个合适的GPU变得“至关重要”。

深度学习中常用的GPU包括:GTX960,GTX970,GTX1080, TiTan x,GTX1080Ti等,以上的GPU都属于GeForce系列,进行“单浮点运算”,都是一些比较新的型号具有很强的性能,按照以上的顺序性能依次提升,最主要的改变是在“架构和SM(线程个数)”方面,960,970都属于“Maxwell架构”,而后三者都是“Pascal架构”。当然他们的价格也是逐渐升高,你需要根据自己的资本选择合适的GPU。总之“一个好的GPU可以将你的训练时间从几周缩减成几天”。

如果资金充足,建议选择后三者。

CPU:作为一个高速的串行处理器,常用来作为“控制器”使用,用来发送和接收指令,解析指令等。

深度学习为什么需要CPU?期初的我也不明白原因。但是阅读了一些资料以后,我开始有了自己的见解。最主要的原因是:由于GPU内部结构的限制,使得它比较适合进行高速的并行运算,而并不适合进行快速的指令控制,而且许多的数据需要在GPU和CPU之间进行存取,这就需要用到CPU,因为这是它的强项。

总之,对于深度学习来说,对CPU的要求不是特别高,你需要记住一个原则是“你需要选择一个好的GPU,一个较好的CPU”,这样可以节约一部分成本,同时有相似的性能。

内存条:大家对它都很熟悉,主要进行CPU和外设之间的数据交换,它的存取速度要比硬盘快好几倍,但是价格比较昂贵,通常会和容量成正比。

在深度学习中,会涉及到大量的数据交换操作(例如按batch读取数据)。当然你也可以选择将数据存储在硬盘上,每次读取很小的batch块,这样你的训练周期就会非常长。常用的方案是“选择一个较大的内存,每次从硬盘中读取几个batch的数据存放在内存中,然后进行数据处理”,这样可以保证数据不间断的传输,从而高效的完成数据处理的任务。

这里还有一个不成文的规定:即你的内存大小最起码要大于你所选择的GPU的内存的大小。那个根据这个规定你很块就可以确定你可以选择的内存的容量,通常选择16GB,如果你有足够的资金,可以考虑购买一个32GB的内存,这会在训练较大的模型时展现它的优势。这里值的你去投资。

固态硬盘:作为一个“本地存储器”,它是每个电脑不可或缺的一部分。你需要在它上面存储一些重要的信息。由于其速度较慢,价格自然也比较便宜。根据市场的价格,1T的硬盘也就300多。

在深度学习中,硬盘可以用来“保存代码”“保存Model”“保存中间结果”“保存数据集”等。建议你选择一个较大容量的硬盘,通常会选择1T/2T。因为你可能会发现一般的数据集就是几个G,同时深度学习本身就是基于“大数据”的,它需要许多的数据来获得较好的性能。这也是众所周知的。一个好的方法是:“你可以利用上一些旧的硬盘,因为硬盘的扩展十分简单,这样可以节省一部分资金。”

散热:由于电子设备的运转会产生大量的热,而每个电子元件都有一个可承受的温度范围,过高或者过低的温度通常会导致元器件不能处于正常的工作状态,导致这个主机的性能变差。

由于深度学习设计到很大的计算量,通常需要几小时或者几十或者几百个小时的训练,在这期间要保证元器件的正常工作,就需要做好相应的散热措施。这样既可以保证主机的效率,同时也可以延长主机的使用寿命。
常用的散热措施主要有4种:
1)通过设置BIOS选项,具体的细节在网上搜索。
2)添加散热片。它通常由铝或铜制成,通常安装在CPU或者GPU等原件的周围或者上面。铜制品通常会有更好的散热效果。
3)添加散热风扇。如今每台台式电脑或者笔记本电脑可能都会配有一个或者多个风扇来进行扇热,正是由于风扇的原因,你通常会听到一部分噪声。
4)添加水冷。如果你是一个游戏狂热者,你可能会对它比较熟悉。它通常用在高配的游戏主机上面,不仅具有很好的散热效果,同时基本上没有什么噪声。但是它的价格会比较高。如果你的主机配置了多个GPU,强烈建议你配置水冷,这可以持续的保持你的设备处于高速的运转中。

主板:现在应该轮到它啦。这个东西对于电子专业的人来说都很熟悉。就是一个用来组装电路的PCB板。你需要将很多个元器件组装在它上面,然后通过焊锡来连接它。

对于深度学习来讲,最重要的就是内存和PCIE的卡槽啦。它会涉及到后期的拓展。如果你后期可能会扩展你的设备,那你就需要考虑主板的可拓展性。如果你不需要进行后期的拓展,那么你可以买一个相对便宜的主板,只需要满足你当前的需求即可。为什么要强调PCIE,作为一个高速的传输接口,它常常用来设备之间的通信,例如CPU和GPU或者GPU与GPU。如果你后期可能会拓展你的GPU个数,那么建议你选择带有PCIE3.0 x8和x16接口的主板。

常用的主板有“超星微的X10SRA、C602、C612”等,总之,选择主板时需要在满足你的最低要求的同时考虑到拓展性。

机箱:欧,差点都把它给忘啦。有了以上的硬件之后,你还需要一个东西将它们组合成为一个整体,从而便于携带。哈哈,这个东西就是“机箱”。机箱上面会有各种卡槽和接口,包括硬盘、主板、电源等。

它的选择比较简单,只需要考虑硬盘和主板的尺寸即可。即要能将硬盘安装进去,这也是最低的要求啊。

好啦,以上就是你需要选择的一些设备。相信你应该明白啦。我的目目标是“让你知其然,而且知其所以然”。我更想让你知道的是为什么需要这些东西,而且说明了它们的作用,以及深度学习对它们的要求。

学习机器学习相关的算法和演练流行的平台或框架,不需要特别强大的设备。

这对大多数人来说都不难,深度学习对CPU要求不是很高,多是数据的预处理和给GPU输送数据,普通的i7就差不多,最便宜的E3也可以。如果手上的电脑没超过五年,简单的升级一下自己手上的电脑即可。

一般就四步:

1.加显卡: 1050ti 4G<省钱,入门>,1070ti<性价比最高,价格还不错>,高端可选1080ti。

主流显卡性价对比

勿买3G显存版本,好多CNN的sample 都跑不起来。买个大厂的公版即可,没必要买那些超频的版本。

很多论坛上面说,GTX1080性价比很高,刚出来的GTX1080ti性价比也不错。

  1. 加内存: 买来插上即可/当然,

内存至少16GB,如果有富裕的钱差不多可以上32或者64GB。

  1. 有个SSD硬盘效果更佳,换装SSD后,数据准备/生成时间从需要隔夜到半天以内,效果显著。SSD还是要搞一个大一点的,如果你用了比较优秀的快速简洁高效深度学习平台比如MXnet dmlc/mxnet · GitHub 很可能会发现磁盘IO会是瓶颈。当然了,如果是TensorFlow这样慢的,那随意了如果预算2W,普通SATA 3的SSD买个大点的就可以了,不需要PCI-E的SSD。配一些普通机械硬盘存储不常用数据。

3.换电源:单显卡>400W,双显卡>700W。也有人说电源需要850瓦以上的,650W其实不够,加显卡的话650W捉襟见肘很不稳定。

基本来说这样就足够了。

破除几个误区:

1.所谓深度学习机器:没有这种特殊的机器,有带CUDA显卡的机器就是可以拿来学深度学习的,在售的多数所谓的科学计算机只是CPU和显卡比较多而已(超算机和类似TPU的专用平台不在讨论之列)。

2.为了深度学习组专用平台: 没有这个必要,只是学习的话,随便找个电脑加一片显卡即可。

3.深度学习是不是要特别高的配置:我见过有个兄弟用笔记本(MBP)玩RCNN也玩得很high。

选购

即将进入 2018 年,随着硬件的更新换代,越来越多的机器学习从业者又开始面临选择 GPU 的难题。正如我们所知,机器学习的成功与否很大程度上取决于硬件的承载能力。在今年 5 月,我在组装自己的深度学习机器时对市面上的所有 GPU 进行了评测。而在本文中,我们将更加深入地探讨:

为什么深度学习需要使用 GPU

GPU 的哪种性能指标最为重要

选购 GPU 时有哪些坑需要避免

性价比

每个价位的最佳选择 

GPU + 深度学习

深度学习(DL)是机器学习(ML)的一个分支。深度学习使用神经网络来解决问题。神经网络的优点之一是自行寻找数据(特征)模式。这和以前告诉算法需要找什么不一样。但是,通常这意味着该模型从空白状态开始(除非使用迁移学习)。为了从头捕捉数据的本质/模式,神经网络需要处理大量信息。通常有两种处理方式:使用 CPU 或 GPU。

计算机的主要计算模块是中央处理器(CPU),CPU 的设计目的是在少量数据上执行快速计算。在 CPU 上添加数倍的数字非常快,但是在大量数据上进行计算就会很慢。如,几十、几百或几千次矩阵乘法。在表象背后,深度学习多由矩阵乘法之类的操作组成。

有趣的是,3D 电子游戏同样依赖这些操作来渲染那些美丽的风景。因此,GPU 的作用被开发出来,它们可以使用数千个核心处理大量并行计算。此外,它们还有大量内存带宽处理数据。这使得 GPU 成为进行 DL 的完美硬件。至少,在用于机器学习的 ASIC 如谷歌的 TPU 投入市场之前,我们还没有其他更好的选择。

总之,尽管使用 CPU 进行深度学习从技术上是可行的,想获得真实的结果你就应该使用 GPU。

对我来说,选择一个强大的图形处理器最重要的理由是节省时间和开发原型模型。网络训练速度加快,反馈时间就会缩短。这样我就可以更轻松地将模型假设和结果之间建立联系。

选择 GPU 的时候,我们在选择什么?

和深度学习相关的主要 GPU 性能指标如下:

内存带宽:GPU 处理大量数据的能力,是最重要的性能指标。

处理能力:表示 GPU 处理数据的速度,我们将其量化为 CUDA 核心数量和每一个核心的频率的乘积。

显存大小:一次性加载到显卡上的数据量。运行计算机视觉模型时,显存越大越好,特别是如果你想参加 CV Kaggle 竞赛的话。对于自然语言处理和数据分类,显存没有那么重要。

常见问题

多 GPU(SLI/交火)

选择多 GPU 有两个理由:需要并行训练多个模型,或者对单个模型进行分布式训练。

并行训练多个模型是一种测试不同原型和超参数的技术,可缩短反馈周期,你可以同时进行多项尝试。

分布式训练,或在多个显卡上训练单个模型的效率较低,但这种方式确实越来越受人们的欢迎。现在,使用 TensorFlow、Keras(通过 Horovod)、CNTK 和 PyTorch 可以让我们轻易地做到分布式训练。这些分布式训练库几乎都可以随 GPU 数量达成线性的性能提升。例如,使用两个 GPU 可以获得 1.8 倍的训练速度。

PCIe 通道:使用多显卡时需要注意,必须具备将数据馈送到显卡的能力。为此,每一个 GPU 必须有 16 个 PCIe 通道用于数据传输。Tim Dettmers 指出,使用两个有 8 个 PCIe 通道的 GPU,性能应该仅降低「0—10%」。

对于单个 GPU 而言,任何桌面级处理器和芯片组如 Intel i5 7500 和 Asus TUF Z270 需要使用 16 个通道。

然而,对于双 GPU,你可以使用 8x/8x 通道,或者使用一个处理器和支持 32PCIe 通道的主板。32 个通道超出了桌面级 CPU 的处理能力。使用 Intel Xeon 组合 MSI—X99A SLI PLUS 是可行的方案。

对于 3 个或 4 个 GPU,每个 GPU 可使用 8x 通道,组合支持 24 到 32 个 PCIe 通道的 Xeon。

如果需要使用 3 到 4 个有 16 个 PCIe 通道的 GPU,你得有一个怪兽级处理器。例如 AMD ThreadRipper(64 个通道)和相应的主板。

总之,GPU 越多,需要越快的处理器,还需要有更快的数据读取能力的硬盘。

英伟达还是 AMD

英伟达已经关注深度学习有一段时间,并取得了领先优势。他们的 CUDA 工具包具备扎实的技术水平,可用于所有主要的深度学习框架——TensorFlow、PyTorch、Caffe、CNTK 等。但截至目前,这些框架都不能在 OpenCL(运行于 AMD GPU)上工作。由于市面上的 AMD GPU 便宜得多,我希望这些框架对 OpenCL 的支持能尽快实现。而且,一些 AMD 卡还支持半精度计算,从而能将性能和显存大小加倍。

今年夏天,AMD 还发布了 ROCm 平台提供深度学习支持,它同样适用于主流深度学习库(如 PyTorch、TensorFlow、MxNet 和 CNTK)。目前,ROCm 仍然在不断开发中。

然而目前而言,如果想做深度学习的话,还是选择英伟达吧。

其它硬件

你的 GPU 还需要以下这些硬件才能正常运行:

硬盘:首先需要从硬盘读取数据,我推荐使用固态硬盘,但机械硬盘也可以。

CPU:深度学习任务有时需要用 CPU 解码数据(例如,jpeg 图片)。幸运的是,任何中端现代处理器都能做得不错。

主板:数据需要通过主板传输到 GPU 上。单显卡可以使用几乎任何芯片组都可以使用。

RAM:一般推荐内存的大小至少和显存一样大,但有更多的内存确实在某些场景是非常有帮助的,例如我们希望将整个数据集保存在内存中。

电源:一般来说我们需要为 CPU 和 GPU 提供足够的电源,至少需要超过额定功率 100 瓦。

我们总体上需要 500 到 1000 美元来获得以上设备,当然如果买一个二手工作站会更加省钱。

GPU 性能对比(2017 年 11 月)

下面是截止目前英伟达产品线主要 GPU 的性能对比,每个 GPU 的 RAM 或内存带宽等信息都展示在图表中。注意 Titan XP 和 GTX 1080 Ti 尽管价格相差非常多,但它们的性能却非常相近。

Titan XP

参数:

显存(VRAM):12 GB

内存带宽:547.7 GB/s

处理器:3840 个 CUDA 核心 @ 1480 MHz(约 5.49 亿 CUDA 核心频率)

英伟达官网价格:9700 元

Titan XP 是目前英伟达消费级显卡的旗舰产品,正如性能指标所述,12GB 的内存宣示着它并不是为大多数人准备的,只有当你知道为什么需要它的时候,它才会位列推荐列表。

一块 Titan XP 的价格可以让你买到两块 GTX 1080,而那意味着强大的算力和 16GB 的显存。

GTX 1080 Ti

参数:

显存(VRAM):11 GB

内存带宽:484 GB/s

处理器:3584 个 CUDA 核心 @ 1582 MHz(约 5.67 亿 CUDA 核心频率)

英伟达官网价格:4600 元

这块显卡正是我目前正在使用的型号,它是一个完美的高端选项,拥有大容量显存和高吞吐量,物有所值。

如果资金允许,它是一个很好的选择。GTX 1080 Ti 可以让你完成计算机视觉任务,并在 Kaggle 竞赛中保持强势。

GTX 1080

参数:

显存(VRAM):8 GB

内存带宽:320 GB/s

处理器:2560 个 CUDA 核心 @ 1733 MHz(约 4.44 亿 CUDA 核心频率)

英伟达官网价格:3600 元

作为目前英伟达产品线里的中高端显卡,GTX 1080 的官方价格从 1080 Ti 的 700 美元降到了 550 美元。8 GB 的内存对于计算机视觉任务来说够用了。大多数 Kaggle 上的人都在使用这款显卡。

GTX 1070 Ti

参数:

显存(VRAM):8 GB

内存带宽:256 GB/s

处理器:2432 个 CUDA 核心 @ 1683 MHz(约 4.09 亿 CUDA 核心频率)

英伟达官网价格:3000 元

11 月 2 日推出的 GTX 1070 Ti 是英伟达产品线上最新的显卡。如果你觉得 GTX 1080 超出了预算,1070 Ti 可以为你提供同样大的 8 GB 显存,以及大约 80% 的性能,价格也打了八折,看起来不错。

GTX 1070

参数:

显存(VRAM):8 GB

内存带宽:256 GB/s

处理器:1920 个 CUDA 核心 @ 1683 MHz(约 3.23 亿 CUDA 核心频率)

英伟达官网价格:2700 元

现在很难买到这款 GPU 了,因为它们主要用于虚拟货币挖矿。它的显存配得上这个价位,就是速度有些慢。如果你能用较便宜的价格买到一两个二手的,那就下手吧。

GTX 1060(6 GB 版本)

参数:

显存(VRAM):6 GB

内存带宽:216 GB/s

处理器:1280 个 CUDA 核心 @ 1708 MHz(约 2.19 亿 CUDA 核心频率)

英伟达官网价格:2000 元

相对来说比较便宜,但是 6 GB 显存对于深度学习任务可能不够用。如果你要做计算机视觉,那么这可能是最低配置。如果做 NLP 和分类数据模型,这款还可以。

GTX 1050 Ti

参数:

显存(VRAM):4 GB

内存带宽:112 GB/s

处理器:768 个 CUDA 核心 @ 1392 MHz(约 1.07 亿 CUDA 核心频率)

英伟达官网价格:1060 元

这是一款入门级 GPU。如果你不确定是否要做深度学习,那么选择这款不用花费太多钱就可以体验一下。

值得注意的问题

上代旗舰 Titan X Pascal 曾是英伟达最好的消费级 GPU 产品,而 GTX 1080 Ti 的出现淘汰了 Titan X Pascal,前者与后者有同样的参数,但 1080 Ti 便宜了 40%。

英伟达还拥有一个面向专业市场的 Tesla GPU 产品线,其中包括 K40、K80、P100 和其他型号。虽然你或许很少能够接触到,但你可能已经通过 Amazon Web Services、谷歌云平台或其他云供应商在使用这些 GPU 了。

我在之前的文章中对 GTX 1080 Ti 和 K40 进行了一些基准测试。1080 的速度是 K40 的 5 倍,是 K80 的 2.5 倍。K40 有 12 GB 显存,K80 有 24 GB 的显存。

理论上,P100 和 GTX 1080 Ti 应该性能差不多。但是,之前的对比(https://www.reddit.com/r/NiceHash/comments/77uxe0/gtx_1080ti_vs_nvidia_tesla_p100_xpost_from/)发现 P100 在每个基准中都比较落后。

K40 售价超过了 13,000元,K80 售价超过 20,000 元,P100 售价约 30,000 元。它们的市场正被英伟达自家的桌面级 GPU 无情吞噬。显然,按照现在的情况,我不推荐你去购买它们。

一句话推荐

如果你不设定自己的预算,装配电脑就成了一件困难的事。在这里,我将给出不同预算区间下 GPU 的最佳选择。

4600-6000 元区间:首推 GTX 1080 Ti。如果你需要双显卡 SLI,请购买两块 GTX 1070(可能不太好找)或两块 GTX 1070 Ti。Kaggle 排行榜,我来了!

2600-4600 元区间:可选 GTX 1080 或 GTX 1070 Ti。如果你真的需要 SLI 的话或许两块 GTX 1060 也是可以的,但请注意它们的 6GB 内存可能会不够用。

2000-2600 元区间:GTX 1060 可以让你入门深度学习,如果你可以找到成色不错的 GTX 1070 那就更好了。

2000 元以下:在这个区间内,GTX 1050 Ti 是最佳选择,但如果你真的想做深度学习,请加钱上 GTX 1060。

;