极力GPU-极致算力租赁平台欢迎您!
您当前位置:首页>技术资讯>行业新闻

DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版干货分享

西风 发自 凹非寺量子位 | 公众号 QbitAI仅用不到1200行代码,实现最小化且完全可读的vLLM!DeepSeek研究员俞星凯搞了个开源项目引得大伙拍手叫绝。..

18584883263 立即咨询

快速申请测试

称       呼 :
手机号码 :
备       注:
分享:

DeepSeek研究员1200行代码复刻vLLM,H800硬件实测性能反超原版干货分享

发布时间:2025-09-12 热度:1

西风 发自 凹非寺

量子位 | 公众号 QbitAI

仅用不到1200行代码,实现最小化且完全可读的vLLM!

DeepSeek研究员俞星凯搞了个开源项目引得大伙拍手叫绝。

项目名为Nano-vLLM(纳米级-vLLM),有三大特点:

快速离线推理:推理速度可与vLLM相媲美可读性强的代码库:基于不到1200行Python代码实现,简洁干净优化套件:包含前缀缓存、Torch compilation 、CUDA graph等

下面是vLLM与Nano-vLLM在不同硬件和模型配置下的基准测试情况。

在RTX 4070硬件、Qwen3-0.6B模型环境中,设置了256个序列的总请求数,输入和输出长度均在100-1024个 token间随机采样。

测试结果be like:

vLLM略微领先。

二者输出token量相同,vLLM耗时98.95秒、吞吐量为1353.86 tokens/s,Nano-vLLM耗时101.90秒、吞吐量1314.65tokens/s。

接着在H800硬件、Qwen3-8B模型环境中,总请求数为1024个序列,输入输出长度同样随机采样。

此时Nano-vLLM甚至反超原框架。

二者输出token量依旧相同,vLLM耗时98.67秒、吞吐量5916.89 tokens/s ,Nano-vLLM耗时86.73秒、吞吐量 6731.42 tokens/s。

这一成果来自于DeepSeek研究员俞星凯。

他2021年获得南京大学计算机科学与技术系学士学位,同年又被南京大学免试录取为硕士研究生,在校他同时也是由周志华教授领导的LAMDA团队的成员。

vLLM是什么?

vLLM是一款专为LLM推理与部署优化的高性能框架,最初由加州大学伯克利分校的Sky Computing Lab开发,现已发展成为一个汇聚学界与业界贡献的社区驱动项目。

该项目在GitHub目前已累计49.5k+ Star。

其核心技术灵感源自操作系统虚拟内存分页机制。此前LLM服务系统因采用连续内存存储KV缓存,导致内部/外部碎片化严重,且无法有效共享内存,极大限制了批处理规模。

针对这一问题,团队提出PagedAttention算法,允许将连续的键(key)值(value)对存储在非连续内存空间中,通过将KV缓存划分为固定大小的块(Block),利用块表动态映射逻辑块与物理块地址。

在注意力计算过程中,PagedAttention内核会分别识别和获取不同的KV块。

下面是一个示例,键和值向量分布在三个块中,且这三个块在物理内存中并不连续。

基于PagedAttention算法,团队构建了vLLM服务系统,其架构下图所示:

vLLM采用集中式调度器来协调分布式GPU工作节点的执行。

借助PagedAttention,KV缓存管理器以分页方式有效管理KV缓存。具体而言,KV缓存管理器通过集中式调度器发送的指令来管理GPU工作节点上的物理KV缓存内存。

vLLM实现了KV缓存内存近乎零浪费,请求内及请求间KV缓存的灵活共享进一步降低内存使用。

评估显示,与FasterTransformer和Orca等此前最先进系统相比,vLLM在相同延迟水平下将流行LLM的吞吐量提升2-4倍,且在更长序列、更大模型和更复杂解码算法场景中改进更为显著。

总结来说,vLLM灵活且易于使用,具备以下特点:

与流行的Hugging Face模型无缝集成,包括类Transformer模型、混合专家模型、嵌入模型、多模态模型;支持通过各种解码算法实现高吞吐量服务,包括并行采样、波束搜索等;支持张量并行和pipeline并行,以实现分布式推理;支持流式输出;兼容OpenAI的API服务器;支持NVIDIA GPU、AMD CPU和GPU、Intel CPU和GPU、PowerPC CPU、TPU以及AWS Neuron;支持前缀缓存;支持多LoRA。

值得一提的是,在实现层面,vLLM前端基于FastAPI,后端是基于GPU的推理引擎。vLLM引擎由8500行Python代码和2000行C++/CUDA代码构成。

而这次DeepSeek研究员仅用不到1200行代码就实现了轻量级vLLM,性能和原版相媲美。

参考链接:[1]https://github.com/GeeeekExplorer/nano-vllm/tree/main[2]]https://www.lamda.nju.edu.cn/yuxk/[3]https://arxiv.org/pdf/2309.06180[4]https://github.com/vllm-project/vllm

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

关键词:

关闭窗口
上一篇:10个月内租金猛降50%,英伟达H100为何不香了?丨焦点分析不看后悔
下一篇:A800、H800都低到这个价了,这个暑假搞了点算力福利万万没想到

相关阅读

一文看懂英伟达的产品体系和命名规则不要告诉别人
一文看懂英伟达的产品体系和命名规则不要告诉别人

英伟达这几年很火。因为AI的带动,它几乎成为全球最受关注的公司。 我们总是会在网上看到和英伟达有关的一些名词,例如: A100、B100、H100、GH200、GB200、NVLINK、NVSwitch、DGX、H···...

H20解禁,英伟达地位动摇?这都可以
H20解禁,英伟达地位动摇?这都可以

本文来自微信公众号:王智远,作者:王智远,原文标题:《H20解禁,中美AI闭环竞赛开启》,题图来自:AI生成 黄仁勋又来了。 今年第三次来中国,北京35度的大热天,他居然还穿着那件标志性的“黄夹克”,站在小米汽车前···...

H20没人买了,英伟达要推高端AI芯片,来打压中国芯?一看就会
H20没人买了,英伟达要推高端AI芯片,来打压中国芯?一看就···

不得不说,英伟达专门为中国市场定制的H20芯片,最近算是彻底卖不动了。原因其实挺直接——性能拉胯还可能有安全隐患,中国用户自然不买账。 先说性能问题。H20是基于英伟达高端芯片H100“阉割”而来的,但阉割得实在太狠,性能···...

英伟达的季报显示中国专用芯片H20销售收入为零这都可以
英伟达的季报显示中国专用芯片H20销售收入为零这都可以

2025 年 7 月 17 日,英伟达首席执行官黄仁勋离开北京中国国际供应链博览会 (CISCE) 时向人群挥手致意。 看点英伟达的最新盈利数据显示其芯片销售持续强劲,但有一个缺项却格外引人注目···...

关于英伟达H20芯片的情况,确实涉及到一些复杂的技术和安全问题原创
关于英伟达H20芯片的情况,确实涉及到一些复杂的技术和安全问···

你提到的关于英伟达H20芯片的情况,确实涉及到一些复杂的技术和安全问题。下面我将根据目前的信息,为你梳理一下事件的来龙去脉和可能的影响。 网信办约谈英伟达的原因 国家互联网信息办公室(网信办)在2025年···...

或将退出历史舞台?英伟达被传暂停生产H20芯片奔走相告
或将退出历史舞台?英伟达被传暂停生产H20芯片奔走相告

导语 当地时间8月21日下午,科技媒体《The Information》援引知情人士消息披露,英伟达(NVIDIA)已通知韩国三星电子、美国安靠科技等核心供应链企业,暂停H20芯片的相关生产工作。这款曾支撑起英伟达中国市场···...

H20芯片后门的冷思考难以置信
H20芯片后门的冷思考难以置信

近日,英伟达销售给我国的算力芯片H20,因被曝出存在严重安全问题,被我国网信办约谈。 人民日报锐评道:英伟达,让我怎么相信你? 简单捋下事件脉络。 2023年底,英伟达推出H20芯片,陆续向中国客户供货。今···...

H20芯片解禁,怎么看?学会了吗
H20芯片解禁,怎么看?学会了吗

日前,英伟达CEO黄仁勋在北京访问期间宣布,美国政府已批准H20芯片恢复对华出口。 H20芯片,是英伟达按照美国对华技术出口管制要求专为中国市场设计的AI芯片,性能远不及其国际市场主流GPU芯片H100。今年4月,该芯片被···...

英伟达H20芯片背后的暗战:「15%保证金」能守住我国AI安全吗?这都可以
英伟达H20芯片背后的暗战:「15%保证金」能守住我国AI安···

(来源:即梦AI ) 朋友们,今天接着聊AI芯片的话题。 据“观察者网”报道,8月22日,外媒援引知情人士的消息称,英伟达已经告知安靠科技、三星等供应商,暂停H20相关生产。而在此前的7···...

H20一块没卖出!黄仁勋想卖中国厂商英伟达新GPU 谁会/敢买没想到
H20一块没卖出!黄仁勋想卖中国厂商英伟达新GPU 谁会/敢···

快科技8月30日消息,英伟达刚刚发布的财报显示,本财季中国厂商没有采购一块H20芯片,黄仁勋都看在眼里,他也非常着急。 H20被质疑可能存有后门风险后,虽然黄仁勋和英伟达多次回应,但也仅仅停留在语言层面,而没有拿出什么有利···...

英伟达AI芯片A100 、A800、 H100 、H800 、B200满满干货
英伟达AI芯片A100 、A800、 H100 、H800 ···

今年3月份,英伟达发布了Blackwell B200,号称全球最强的 AI 芯片。它与之前的A100、A800、H100、H800有怎样的不同? 英伟达GPU架构演进史 我们先回顾一下,历代英伟达AI加速···...

¥9.99租英伟达H800!双十一算力羊毛真香,闲置卡也能挂机变现学会了吗
¥9.99租英伟达H800!双十一算力羊毛真香,闲置卡也能挂···

小明 发自 凹非寺 量子位 | 公众号 QbitAI 双十一大促没有羊毛可薅? 不如来看看算力吧(doge)。 A800价格低至5.88元/卡时,H800价格低至9.99元/卡时。限量开抢,先到先得···...

DeepSeek开源大餐来了!解锁H800,带飞GPU推理速度,1小时10万观看深度揭秘
DeepSeek开源大餐来了!解锁H800,带飞GPU推理速···

作者|程茜编辑|心缘 智东西2月24日报道,刚刚,DeepSeek开源周第一天重磅更新来了,开源首个代码库——FlashMLA,发布一小时GitHub Star数冲上1700。 FlashMLA指的是De···...

太震撼!DeepSeek用226台H800服务器,日赚409万!这样也行?
太震撼!DeepSeek用226台H800服务器,日赚409···

大周末的,DeepSeek悄么声放了个大招。 他们知乎官号发了一篇雄文,披露了【如何对DeepSeek V3/R1的推理系统进行优化】,文章有2大核心内容↓ 一、如何通过优化架构,让模型推理获得更大的吞吐和更低的延···...

A800、H800都低到这个价了,这个暑假搞了点算力福利万万没想到
A800、H800都低到这个价了,这个暑假搞了点算力福利万万···

这个暑假,在学校搞 AI 的你是不是还在卷研究? 是不是还缺点算力? 是不是想要点折扣? 它来了!面向高校用户,英博云特别推出「暑期现金消耗返券活动」。 满足规则,A800 低至 4.26 元 / ···...



客服微信号

24小时热线18584883263

安徽合肥高新区