DeepSeek V4 技术细节解读:共享 K=V 后为什么还要 inverse RoPE
聚焦 DeepSeek V4 的一个很小但关键的注意力细节:在 CSA 中共享 K=V 以后,为什么还要用 inverse RoPE 把位置信息从 value 路径里“拿掉”。
Baiyuan Qiu
I keep one continuous writing trail for complete arguments, working notes, study records, and the pieces that sit somewhere in between.
Writing log
聚焦 DeepSeek V4 的一个很小但关键的注意力细节:在 CSA 中共享 K=V 以后,为什么还要用 inverse RoPE 把位置信息从 value 路径里“拿掉”。
为什么我把博客的蓝色换成了琥珀色,把无衬线标题换成了衬线体,以及这些选择背后的设计思考

一个 AI Native 的高性能 Rust Agent 框架,提供统一的 LLM API 抽象和完整的执行环境

Larry 自研的层级记忆压缩架构,解决 AI Agent 的长期记忆问题

Larry 的高可用架构:多层 Fallback 保障服务稳定