DL Notes
一个聚焦于现代深度学习系统的知识库,覆盖硬件基础、LLM 推理服务与神经图形学。
建议阅读顺序
如果你是第一次阅读本笔记,建议按以下顺序:
- 硬件 - GPU/NPU 基础、显存类型与 GPU 配置
- 张量操作 - 常见张量维度操作、激活函数与 CUDA Graph
- AI Infra 总览 - 端到端推理系统的分层结构
- 推理请求生命周期 - 一条请求如何穿过整个在线系统
- AI Infra 指标 - TTFT、TPOT 与 TPS
- KV Cache - KV 内存语义、paged blocks 与 prefix 复用
- 推理运行时 - chunked prefill、准入控制与运行时稳定性
- 并行策略 - 从显存、吞吐与通信理解 DP/TP
- 解码与采样 - 采样策略与 speculative decoding
- 训练目标 - 自回归预训练目标
- 位置编码 - 从 RoPE、M-RoPE 到 TM-RoPE 的建模演进
- 模型笔记 - Qwen3-Omni 与 DFlash 的结构和实践命令
- 神经图形 - NeRF 与 Flow Matching 基础
文档目录
系统与基础设施
AI Infra
模型
图形与生成建模
说明
本项目强调实践导向:
- 用简洁理论解释核心机制
- 提供可复用的代码片段与配置示例
- 关注真实推理负载下的性能与工程权衡