极力GPU-极致算力租赁平台欢迎您!
您当前位置:首页>技术资讯>行业新闻

2023「炼丹」GPU选购指南来了:英伟达3080和4070Ti成性价比之王燃爆了

至于谁是性价比之王,不卖关子,这里先放上Tim哥的结论:对于16位训练过程,RTX 3080的性价比最高;..

18584883263 立即咨询

快速申请测试

称       呼 :
手机号码 :
备       注:
分享:

2023「炼丹」GPU选购指南来了:英伟达3080和4070Ti成性价比之王燃爆了

发布时间:2025-09-04 热度:1

Alex 发自 凹非寺

量子位 | 公众号 QbitAI

春暖花开,各位深度学习er想不想给自己的“丹炉”升级一波?

“炼丹”爱好者们应该知道,在该领域中,**GPU的总体表现完胜CPU。

那么GPU应该怎么选?不妨来看看这篇超级详尽的“2023版GPU选购指南”。

知名测评博主、华盛顿大学在读博士Tim Dettmers亲测后,写下万字长文,手把手教你Pick性价比最高的显卡,避免踩雷。

△光是目录就有这么长……

至于谁是性价比之王,不卖关子,这里先放上Tim哥的结论:

对于16位训练过程,RTX 3080的性价比最高;对于8位和16位推理,RTX 4070Ti的性价比最高。

有意思的是,不只这俩,他在本文推荐的显卡全是英伟达家的——Tim哥觉得,对于深度学习,“AMD GPU+ROCm”目前还打不过“NVIDIA GPU+CUDA”。

手把手教你挑GPU

Tim哥自制了一张表格,展示出在训练和推理过程中,一美元能买到多少算力;这在一定程度上体现了英伟达众显卡的性价比。

△蓝色-16位训练;红色-16位推理;黄色-8位推理

看到这个,你可能一脸问号:从表格来看,不是RTX 4080在8位和16位推理上的性价比更高吗?

其实,咱们开头说的是“综合性价比”——

除了看一美元能买多少算力,还要结合显卡的运行成本,比如电费。所以总的来说,还是RTX 4070Ti的性价比更高。

虽然RTX3080和RTX 4070 Ti性价比高,但这俩的内存是个明显短板:

Tim哥指出,12GB在很多情况下都不够用,要运行Transformer模型的话,至少需要24GB。

于是,Tim哥又贴心地做了一个小程序,帮你根据不同的任务选择最合适的GPU。

其背后的核心思想是:不管干啥,一定要保证GPU的内存满足你的需求。

首先,要弄清楚这个GPU是个人用还是公用,还有就是要处理什么任务——比如,是要训练语言大模型(LLM)吗、参数量有没有超过130亿?还是就做点小项目?

然后再根据自己的钱包情况,参考上面的表格,选择最合适的GPU。

举个例子:

如果要训练LLM且参数量超过130亿,不差钱的可以选择支持Azure公有云的A100或者H100;追求性价比的话,可以选支持AWS的A100或者H100。

但如果预算实在有限,建议放弃……

(在亚马逊上,40GB的英伟达Tesla A100售价为11769美元起,约合人民币79529元。当然这都是针对国外的情况,在国内炼丹仅供参考)

另外,Tim哥还支了一招:最好用云GPU(比如Lambda云)来估测一下所需的GPU内存(至少12GB用于图像生成,至少24GB用于处理Transformer)。

其实假如GPU仅偶尔使用(每隔几天用几小时),甚至都不用去买个实体的,用云GPU就可以了。

对了~如果你真的不在乎这点(?)钱,就要追求极致性能,那可以看看这张表,即GPU的原始性能排行。

那如果实在钱不够,即使是Tim哥推荐的最便宜的GPU也买不起,还有办法吗?

那可以考虑二手呀!

先去买个便宜的GPU用于原型设计和测试,然后在云端进行全面的实验和测试。

关键性能点有哪些?

盘点完英伟达的一堆GPU后,再来叙一叙关乎深度学习速度的几大GPU性能关键点。

(如果你想稍微深入了解一些,请接着往下看。)

Tim哥指出,重点有四:GPU的内存、核心、Tensor Core和缓存。

而其中最重要的是Tensor Core。

Tensor Core是英伟达为其高端GPU开发的一项技术,本质上,就是加速矩阵乘法的处理单元。其中Tensor即张量,是一种能表示所有类型数据的数据类型。

Tim表示,在所有深度神经网络中,最昂贵的部分是矩阵乘法,而有了Tensor Core,运算速度会变得非常快,有助于大大减少成本。

就拿一个入门级的32×32矩阵乘法来说,通过Tensor Core,将矩阵乘法的运算时间从504个周期,降低到235个周期,直接减半。

而且即便是超大规模的矩阵运算,Tensor Core也能轻松处理。在规模堪比GPT-3的训练中,Tensor Core的TFLOPS利用率也就约为45-65%。

而当两个GPU都有Tensor Cores时,要比较它们性能,最佳指标之一就是内存带宽。

例如,A100 GPU的内存带宽为1555GB/s,而V100为900GB/s。因此,A100和V100相比,运算速度大概是后者的1555/900=1.73倍。

由此可见,内存带宽会影响到Tensor Core的性能发挥。于是研究人员开始寻找其他GPU属性,使内存数据传输到Tensor Core的速度更快。

然后,他们发现,GPU的一级缓存、二级缓存、共享内存和使用的寄存器数量也都是相关因素。

对于缓存来说,数据块越小,计算速度越快;所以需要把大的矩阵乘法,划分成小的子矩阵乘法。研究者们把这些小的子矩阵乘法称为“内存碎片”*(memory tiles)。

一部分“碎片”被加载到Tensor Core中,由寄存器直接寻址。

根据英伟达Ampere架构的规则,举个例子~

把每一个权重矩阵都切成4个“碎片”,并假设其中两个为零——于是就得到了一堆稀疏权重矩阵。

然后把这些稀疏权重矩阵与一些密集输入相乘,Tensor Core功能启动,将稀疏矩阵压缩为密集表示,其大小为下图所示的一半。

在压缩之后,密集压缩的“碎片”被送入Tensor Core,计算的矩阵乘法是一般大小的两倍。这样,运算速度就成了通常的2倍。

Tim哥表示,上述性能点,他在统计英伟达GPU性能时都考虑在内了。

如果你把这些东西吃透了话,以后就能完全靠自己配置出最合适的“炼丹炉”了。

原文传送门:

https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

关键词:

关闭窗口
上一篇:RTX 30系默认矿?英伟达RTX 3080矿卡评测墙裂推荐
下一篇:闪“曜”夺目,影驰 GeForce RTX 3080 金属大师这都可以?

相关阅读

一文看懂英伟达的产品体系和命名规则不要告诉别人
一文看懂英伟达的产品体系和命名规则不要告诉别人

英伟达这几年很火。因为AI的带动,它几乎成为全球最受关注的公司。 我们总是会在网上看到和英伟达有关的一些名词,例如: A100、B100、H100、GH200、GB200、NVLINK、NVSwitch、DGX、H···...

H20解禁,英伟达地位动摇?这都可以
H20解禁,英伟达地位动摇?这都可以

本文来自微信公众号:王智远,作者:王智远,原文标题:《H20解禁,中美AI闭环竞赛开启》,题图来自:AI生成 黄仁勋又来了。 今年第三次来中国,北京35度的大热天,他居然还穿着那件标志性的“黄夹克”,站在小米汽车前···...

H20没人买了,英伟达要推高端AI芯片,来打压中国芯?一看就会
H20没人买了,英伟达要推高端AI芯片,来打压中国芯?一看就···

不得不说,英伟达专门为中国市场定制的H20芯片,最近算是彻底卖不动了。原因其实挺直接——性能拉胯还可能有安全隐患,中国用户自然不买账。 先说性能问题。H20是基于英伟达高端芯片H100“阉割”而来的,但阉割得实在太狠,性能···...

英伟达的季报显示中国专用芯片H20销售收入为零这都可以
英伟达的季报显示中国专用芯片H20销售收入为零这都可以

2025 年 7 月 17 日,英伟达首席执行官黄仁勋离开北京中国国际供应链博览会 (CISCE) 时向人群挥手致意。 看点英伟达的最新盈利数据显示其芯片销售持续强劲,但有一个缺项却格外引人注目···...

关于英伟达H20芯片的情况,确实涉及到一些复杂的技术和安全问题原创
关于英伟达H20芯片的情况,确实涉及到一些复杂的技术和安全问···

你提到的关于英伟达H20芯片的情况,确实涉及到一些复杂的技术和安全问题。下面我将根据目前的信息,为你梳理一下事件的来龙去脉和可能的影响。 网信办约谈英伟达的原因 国家互联网信息办公室(网信办)在2025年···...

或将退出历史舞台?英伟达被传暂停生产H20芯片奔走相告
或将退出历史舞台?英伟达被传暂停生产H20芯片奔走相告

导语 当地时间8月21日下午,科技媒体《The Information》援引知情人士消息披露,英伟达(NVIDIA)已通知韩国三星电子、美国安靠科技等核心供应链企业,暂停H20芯片的相关生产工作。这款曾支撑起英伟达中国市场···...

H20芯片后门的冷思考难以置信
H20芯片后门的冷思考难以置信

近日,英伟达销售给我国的算力芯片H20,因被曝出存在严重安全问题,被我国网信办约谈。 人民日报锐评道:英伟达,让我怎么相信你? 简单捋下事件脉络。 2023年底,英伟达推出H20芯片,陆续向中国客户供货。今···...

H20芯片解禁,怎么看?学会了吗
H20芯片解禁,怎么看?学会了吗

日前,英伟达CEO黄仁勋在北京访问期间宣布,美国政府已批准H20芯片恢复对华出口。 H20芯片,是英伟达按照美国对华技术出口管制要求专为中国市场设计的AI芯片,性能远不及其国际市场主流GPU芯片H100。今年4月,该芯片被···...

英伟达H20芯片背后的暗战:「15%保证金」能守住我国AI安全吗?这都可以
英伟达H20芯片背后的暗战:「15%保证金」能守住我国AI安···

(来源:即梦AI ) 朋友们,今天接着聊AI芯片的话题。 据“观察者网”报道,8月22日,外媒援引知情人士的消息称,英伟达已经告知安靠科技、三星等供应商,暂停H20相关生产。而在此前的7···...

H20一块没卖出!黄仁勋想卖中国厂商英伟达新GPU 谁会/敢买没想到
H20一块没卖出!黄仁勋想卖中国厂商英伟达新GPU 谁会/敢···

快科技8月30日消息,英伟达刚刚发布的财报显示,本财季中国厂商没有采购一块H20芯片,黄仁勋都看在眼里,他也非常着急。 H20被质疑可能存有后门风险后,虽然黄仁勋和英伟达多次回应,但也仅仅停留在语言层面,而没有拿出什么有利···...

英伟达AI芯片A100 、A800、 H100 、H800 、B200满满干货
英伟达AI芯片A100 、A800、 H100 、H800 ···

今年3月份,英伟达发布了Blackwell B200,号称全球最强的 AI 芯片。它与之前的A100、A800、H100、H800有怎样的不同? 英伟达GPU架构演进史 我们先回顾一下,历代英伟达AI加速···...

¥9.99租英伟达H800!双十一算力羊毛真香,闲置卡也能挂机变现学会了吗
¥9.99租英伟达H800!双十一算力羊毛真香,闲置卡也能挂···

小明 发自 凹非寺 量子位 | 公众号 QbitAI 双十一大促没有羊毛可薅? 不如来看看算力吧(doge)。 A800价格低至5.88元/卡时,H800价格低至9.99元/卡时。限量开抢,先到先得···...

DeepSeek开源大餐来了!解锁H800,带飞GPU推理速度,1小时10万观看深度揭秘
DeepSeek开源大餐来了!解锁H800,带飞GPU推理速···

作者|程茜编辑|心缘 智东西2月24日报道,刚刚,DeepSeek开源周第一天重磅更新来了,开源首个代码库——FlashMLA,发布一小时GitHub Star数冲上1700。 FlashMLA指的是De···...

太震撼!DeepSeek用226台H800服务器,日赚409万!这样也行?
太震撼!DeepSeek用226台H800服务器,日赚409···

大周末的,DeepSeek悄么声放了个大招。 他们知乎官号发了一篇雄文,披露了【如何对DeepSeek V3/R1的推理系统进行优化】,文章有2大核心内容↓ 一、如何通过优化架构,让模型推理获得更大的吞吐和更低的延···...

A800、H800都低到这个价了,这个暑假搞了点算力福利万万没想到
A800、H800都低到这个价了,这个暑假搞了点算力福利万万···

这个暑假,在学校搞 AI 的你是不是还在卷研究? 是不是还缺点算力? 是不是想要点折扣? 它来了!面向高校用户,英博云特别推出「暑期现金消耗返券活动」。 满足规则,A800 低至 4.26 元 / ···...



客服微信号

24小时热线18584883263

安徽合肥高新区