Welcome to my blog!

vllm-GDN-forward

vllm-GDN-forward简单记录一下vllm对于GDN模型的优化，下边这里是来自Qwen3-Next模型的GDN部分的结构： QKV-Proj和nano-vllm中qkv的行为一直，可以看到图中的hidden_state分别经过了6个linear，这里也采用了一个增加吞吐量的手段，即这几个linear层被合并成了一个，去看模型safetensors文件发现他是这样保存的。 12model.

2026-06-01

#vllm

vllm的kv_cache_manager

vllm的kv_cache_manager allocate_slots()在先前的schedule()中执行请求的踢出/加入前，kv_cache_manager首先根据request的new_tokens信息尝试分配新的显存block，本节主要看一下这个kv_cache_manager都做了什么事情。 12345new_blocks = self.kv_cache_manager.al

2026-06-01

#vllm

vllm的scheduler

vllm的scheduler经过前面LLM启动流程源码阅读，知道了实际的token处理是在EngineCore的scheduler中被一个个调度的，今天来看一下Scheduler.schedule方法的具体逻辑。 Scheduler在process_engine_step()中，内部调用了scheduler的schedule()方法，schedule()中处理了一个个实际的request，在sch

2026-06-01

#vllm

FA2与Flash Decoding

FA2与Flash Decoding在学习LLM Infer的时候，总是会提到FLash_Decoding这个概念，这里对比一下FA2和Flash_Decoding(FD)的一点区别。 FlashAttention2在学习了Flash Attention V1的过程中，FA的矩阵遍历顺序是外层遍历KV，内部依次遍历Q tile，那么这样会带来一个问题，在计算Attention的时候，最后其实是要

2026-06-01

#vllm

vllm的启动流程

vllm的启动流程记录一下阅读源码时发现的问题 GPUModelRunner.py“FIXME(woosuk): Fix warmup for LoRA.”现在似乎这个model runner还没有对LoRA Adapter做Graph Capture 1. LLMEngine的初始化从一个/root/autodl-tmp/vllm/examples/basic/offline_inferen

2026-06-01

#vllm

vllm的model_executor

vllm的model_executor经过前面scheduler一部分代码的解读，了解到scheduler会对当前的batch_requests打包成一整个SchedulerOutput传递给Engine中的ModelExecutor，本节我们继续沿着EngineCore中的step()方法进入模型推理阶段。 1future = self.model_executor.execute_model(

2026-06-01

#vllm

hg-store-node-note

store-node阅读笔记在看store-node的源码之前，首先需要知道这个包是做什么的：这个包主要启动了Raft的节点服务，负责节点生命周期的管理、分区/Raft任务的提交(主要)、扫描/聚合查询流水线、TTL 清理任务、以及 RocksDB/JRaft/系统层指标采集等能力。向外提供了grpc(供内部组件使用)和一些Rest API(用户来管理

2026-01-22

hg-store-core-refactor

hg-store-core 重构代码阅读这个模块主要是增删改查一些功能的实现方法，属于在RocksDB的上层封装。 graph LR B[hg-store-rocksdb] -->|封装| A[RocksDB] C[hg-store-core] -->|封装| B /bussiness 增删改查的主要实现新增了很多iterator定义，都实现了ScanIte

2026-01-22

completable-future学习笔记

CompletableFuture 学习笔记文章链接：https://tech.meituan.com/2022/05/12/principles-and-practices-of-completablefuture.html 利用java8的CompletableFuture 12345678910111213141516171819202122import java.util.concurre

2026-01-22

Qwen&GPT2 模型架构

GPT2/Qwen2 模型架构Transformer在介绍GPT2与Qwen2的模型架构前，首先需要简单的回顾一下Transformer架构，这里就默认读者已经基本了解Transformer了，贴出一个图。左侧是Encoder部分而右侧是Decoder部分。至于为什么需要将Encoder的输出输入到Decoder当中，以一个机器翻译任务举例。我爱你 -> I love you 首

2026-01-19

#Transformer