fix: Update recurrent cache for changes to remove intermediate kv_cache interface

gabe-l-hart · gabe-l-hart · commit 85d2917ff572 · 2025-06-05T14:07:07.000-06:00
Branch: HybridRecurrentCache

Signed-off-by: Gabe Goodhart &lt;ghart@us.ibm.com&gt;
diff --git a/src/llama-kv-cache-hybrid-recurrent.cpp b/src/llama-kv-cache-hybrid-recurrent.cpp
@@ -49,50 +49,6 @@ llama_kv_cache_hybrid_recurrent::llama_kv_cache_hybrid_recurrent(
         n_seq_max
     )) {}
 
-void llama_kv_cache_hybrid_recurrent::clear() {
-    kv_attn     ->clear();
-    kv_recurrent->clear();
-}
-
-bool llama_kv_cache_hybrid_recurrent::seq_rm(llama_seq_id seq_id, llama_pos p0, llama_pos p1) {
-    // Try removing from the recurrent cache first since it may fail. If it does
-    // fail, the cache will not have been mutated.
-    if (!kv_recurrent->seq_rm(seq_id, p0, p1)) {
-        return false;
-    }
-    return kv_attn->seq_rm(seq_id, p0, p1);
-}
-
-void llama_kv_cache_hybrid_recurrent::seq_cp(llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) {
-    kv_attn     ->seq_cp(seq_id_src, seq_id_dst, p0, p1);
-    kv_recurrent->seq_cp(seq_id_src, seq_id_dst, p0, p1);
-}
-
-void llama_kv_cache_hybrid_recurrent::seq_keep(llama_seq_id seq_id) {
-    kv_attn     ->seq_keep(seq_id);
-    kv_recurrent->seq_keep(seq_id);
-}
-
-void llama_kv_cache_hybrid_recurrent::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos shift) {
-    kv_attn->seq_add(seq_id, p0, p1, shift);
-    kv_recurrent->seq_add(seq_id, p0, p1, shift);
-}
-
-void llama_kv_cache_hybrid_recurrent::seq_div(llama_seq_id seq_id, llama_pos p0, llama_pos p1, int d) {
-    kv_attn     ->seq_div(seq_id, p0, p1, d);
-    kv_recurrent->seq_div(seq_id, p0, p1, d);
-}
-
-llama_pos llama_kv_cache_hybrid_recurrent::seq_pos_min(llama_seq_id seq_id) const {
-    // the min of the total cache is the max of the two caches' min values
-    return std::max(kv_attn->seq_pos_min(seq_id), kv_recurrent->seq_pos_min(seq_id));
-}
-
-llama_pos llama_kv_cache_hybrid_recurrent::seq_pos_max(llama_seq_id seq_id) const {
-    // the max of the total cache is the min of the two caches' max values
-    return std::min(kv_attn->seq_pos_max(seq_id), kv_recurrent->seq_pos_max(seq_id));
-}
-
 llama_memory_state_ptr llama_kv_cache_hybrid_recurrent::init_batch(const llama_batch & batch, uint32_t n_ubatch, bool embd_pooled, bool logits_all) {
 
     // since this includes a recurrent cache, we cannot use split_simple
@@ -135,23 +91,59 @@ llama_memory_state_ptr llama_kv_cache_hybrid_recurrent::init_full() {
     return std::make_unique<llama_kv_cache_hybrid_recurrent_state>(this);
 }
 
-bool llama_kv_cache_hybrid_recurrent::update(llama_context & lctx) {
-    bool res = false;
+llama_memory_state_ptr llama_kv_cache_hybrid_recurrent::init_update(llama_context * lctx, bool optimize) {
+    return std::make_unique<llama_kv_cache_hybrid_recurrent_state>(
+        this,
+        static_cast<llama_kv_cache_unified_state *>(  kv_attn     ->init_update(lctx, optimize).release()),
+        static_cast<llama_kv_cache_recurrent_state *>(kv_recurrent->init_update(lctx, optimize).release()));
+}
+
+bool llama_kv_cache_hybrid_recurrent::get_can_shift() const {
+    // Shifting is trivially supported for recurrent
+    return kv_attn->get_can_shift();
+}
+void llama_kv_cache_hybrid_recurrent::clear() {
+    kv_attn     ->clear();
+    kv_recurrent->clear();
+}
 
-    res = res | kv_attn     ->update(lctx);
-    res = res | kv_recurrent->update(lctx);
+bool llama_kv_cache_hybrid_recurrent::seq_rm(llama_seq_id seq_id, llama_pos p0, llama_pos p1) {
+    // Try removing from the recurrent cache first since it may fail. If it does
+    // fail, the cache will not have been mutated.
+    if (!kv_recurrent->seq_rm(seq_id, p0, p1)) {
+        return false;
+    }
+    return kv_attn->seq_rm(seq_id, p0, p1);
+}
 
-    return res;
+void llama_kv_cache_hybrid_recurrent::seq_cp(llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) {
+    kv_attn     ->seq_cp(seq_id_src, seq_id_dst, p0, p1);
+    kv_recurrent->seq_cp(seq_id_src, seq_id_dst, p0, p1);
 }
 
-void llama_kv_cache_hybrid_recurrent::defrag_sched(float thold) {
-    kv_attn     ->defrag_sched(thold);
-    kv_recurrent->defrag_sched(thold);
+void llama_kv_cache_hybrid_recurrent::seq_keep(llama_seq_id seq_id) {
+    kv_attn     ->seq_keep(seq_id);
+    kv_recurrent->seq_keep(seq_id);
 }
 
-bool llama_kv_cache_hybrid_recurrent::get_can_shift() const {
-    // Shifting is trivially supported for recurrent
-    return kv_attn->get_can_shift();
+void llama_kv_cache_hybrid_recurrent::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos shift) {
+    kv_attn->seq_add(seq_id, p0, p1, shift);
+    kv_recurrent->seq_add(seq_id, p0, p1, shift);
+}
+
+void llama_kv_cache_hybrid_recurrent::seq_div(llama_seq_id seq_id, llama_pos p0, llama_pos p1, int d) {
+    kv_attn     ->seq_div(seq_id, p0, p1, d);
+    kv_recurrent->seq_div(seq_id, p0, p1, d);
+}
+
+llama_pos llama_kv_cache_hybrid_recurrent::seq_pos_min(llama_seq_id seq_id) const {
+    // the min of the total cache is the max of the two caches' min values
+    return std::max(kv_attn->seq_pos_min(seq_id), kv_recurrent->seq_pos_min(seq_id));
+}
+
+llama_pos llama_kv_cache_hybrid_recurrent::seq_pos_max(llama_seq_id seq_id) const {
+    // the max of the total cache is the min of the two caches' max values
+    return std::min(kv_attn->seq_pos_max(seq_id), kv_recurrent->seq_pos_max(seq_id));
 }
 
 void llama_kv_cache_hybrid_recurrent::state_write(llama_io_write_i & io, llama_seq_id seq_id) const {
@@ -173,13 +165,24 @@ llama_kv_cache_recurrent * llama_kv_cache_hybrid_recurrent::get_kv_recurrent() c
 }
 
 llama_kv_cache_hybrid_recurrent_state::llama_kv_cache_hybrid_recurrent_state(llama_memory_status status)
-    : status(status), state_attn(status), state_recurrent(status) {}
+    : status(status),
+      state_attn(new llama_kv_cache_unified_state(status)),
+      state_recurrent(new llama_kv_cache_recurrent_state(status)) {}
 
 llama_kv_cache_hybrid_recurrent_state::llama_kv_cache_hybrid_recurrent_state(llama_kv_cache_hybrid_recurrent * kv)
     : status(LLAMA_MEMORY_STATUS_SUCCESS),
       kv(kv),
-      state_attn(status, kv->get_kv_attn()),
-      state_recurrent(status, kv->get_kv_recurrent()) {}
+      state_attn(new llama_kv_cache_unified_state(kv->get_kv_attn())),
+      state_recurrent(new llama_kv_cache_recurrent_state(status, kv->get_kv_recurrent())) {}
+
+llama_kv_cache_hybrid_recurrent_state::llama_kv_cache_hybrid_recurrent_state(
+        llama_kv_cache_hybrid_recurrent * kv,
+           llama_kv_cache_unified_state * state_unified,
+         llama_kv_cache_recurrent_state * state_recurrent)
+    : status(LLAMA_MEMORY_STATUS_SUCCESS),
+      kv(kv),
+      state_attn(state_unified),
+      state_recurrent(state_recurrent) {}
 
 llama_kv_cache_hybrid_recurrent_state::llama_kv_cache_hybrid_recurrent_state(
     llama_kv_cache_hybrid_recurrent * kv,
@@ -194,8 +197,8 @@ llama_kv_cache_hybrid_recurrent_state::llama_kv_cache_hybrid_recurrent_state(
       // NOTE: these child states are only used as wrapper APIs for the
       //    const methods, so we use the "init full" signature since the
       //    actual state is not used.
-      state_attn(LLAMA_MEMORY_STATUS_SUCCESS, kv->get_kv_attn()),
-      state_recurrent(LLAMA_MEMORY_STATUS_SUCCESS, kv->get_kv_recurrent()) {}
+      state_attn(new llama_kv_cache_unified_state(kv->get_kv_attn())),
+      state_recurrent(new llama_kv_cache_recurrent_state(LLAMA_MEMORY_STATUS_SUCCESS, kv->get_kv_recurrent())) {}
 
 
 bool llama_kv_cache_hybrid_recurrent_state::next() {
@@ -232,10 +235,10 @@ const llama_ubatch & llama_kv_cache_hybrid_recurrent_state::get_ubatch() const {
     return ubatches[i_next];
 }
 
-const llama_kv_cache_unified_state * llama_kv_cache_hybrid_recurrent_state::get_state_attn () const {
-    return &state_attn;
+const llama_kv_cache_unified_state * llama_kv_cache_hybrid_recurrent_state::get_state_attn() const {
+    return state_attn.get();
 }
 
 const llama_kv_cache_recurrent_state * llama_kv_cache_hybrid_recurrent_state::get_state_recurrent() const {
-    return &state_recurrent;
+    return state_recurrent.get();
 }
diff --git a/src/llama-kv-cache-hybrid-recurrent.h b/src/llama-kv-cache-hybrid-recurrent.h
@@ -2,9 +2,10 @@
 
 #include "llama-batch.h"
 #include "llama-graph.h"
-#include "llama-kv-cache.h"
 #include "llama-kv-cache-recurrent.h"
 #include "llama-kv-cache-unified.h"
+#include "llama-kv-cells.h"
+#include "llama-memory.h"
 
 #include <memory>
 #include <vector>
@@ -16,7 +17,7 @@
 // utilizes instances of llama_kv_cache_recurrent and llama_kv_cache_unified to
 //   support models where each layer may be either attention-based or recurrent
 
-class llama_kv_cache_hybrid_recurrent : public llama_kv_cache {
+class llama_kv_cache_hybrid_recurrent : public llama_memory_i {
 public:
     llama_kv_cache_hybrid_recurrent(
             const llama_model & model,
@@ -42,21 +43,6 @@ class llama_kv_cache_hybrid_recurrent : public llama_kv_cache {
     // llama_memory_i
     //
 
-    void clear() override;
-
-    bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) override;
-    void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) override;
-    void seq_keep(llama_seq_id seq_id)                                                          override;
-    void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos shift) override;
-    void seq_div (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, int d) override;
-
-    llama_pos seq_pos_min(llama_seq_id seq_id) const override;
-    llama_pos seq_pos_max(llama_seq_id seq_id) const override;
-
-    //
-    // llama_kv_cache
-    //
-
     llama_memory_state_ptr init_batch(
             const llama_batch & batch,
             uint32_t n_ubatch,
@@ -65,12 +51,21 @@ class llama_kv_cache_hybrid_recurrent : public llama_kv_cache {
 
     llama_memory_state_ptr init_full() override;
 
-    bool update(llama_context & lctx) override;
-
-    void defrag_sched(float thold) override;
+    llama_memory_state_ptr init_update(llama_context * lctx, bool optimize) override;
 
     bool get_can_shift() const override;
 
+    void clear() override;
+
+    bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) override;
+    void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) override;
+    void seq_keep(llama_seq_id seq_id)                                                          override;
+    void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos shift) override;
+    void seq_div (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, int d) override;
+
+    llama_pos seq_pos_min(llama_seq_id seq_id) const override;
+    llama_pos seq_pos_max(llama_seq_id seq_id) const override;
+
     // state write/load
 
     void state_write(llama_io_write_i & io, llama_seq_id seq_id = -1) const override;
@@ -92,12 +87,21 @@ class llama_kv_cache_hybrid_recurrent : public llama_kv_cache {
 
 class llama_kv_cache_hybrid_recurrent_state : public llama_memory_state_i {
 public:
+    using llama_kv_cache_unified_state_ptr   = std::unique_ptr<llama_kv_cache_unified_state>;
+    using llama_kv_cache_recurrent_state_ptr = std::unique_ptr<llama_kv_cache_recurrent_state>;
+
     // init failure
     explicit llama_kv_cache_hybrid_recurrent_state(llama_memory_status status);
 
     // init full
     explicit llama_kv_cache_hybrid_recurrent_state(llama_kv_cache_hybrid_recurrent * kv);
 
+    // init update
+    explicit llama_kv_cache_hybrid_recurrent_state(
+        llama_kv_cache_hybrid_recurrent * kv,
+           llama_kv_cache_unified_state * state_unified,
+         llama_kv_cache_recurrent_state * state_recurrent);
+
     // init success
     llama_kv_cache_hybrid_recurrent_state(
         llama_kv_cache_hybrid_recurrent * kv,
@@ -116,7 +120,7 @@ class llama_kv_cache_hybrid_recurrent_state : public llama_memory_state_i {
     const llama_ubatch & get_ubatch() const override;
 
     //
-    // llama_kv_cache_hybrid_recurrent_state_i
+    // llama_kv_cache_hybrid_recurrent_state
     //
 
     const llama_kv_cache_unified_state   * get_state_attn     () const;
@@ -135,6 +139,6 @@ class llama_kv_cache_hybrid_recurrent_state : public llama_memory_state_i {
     std::vector<uint32_t>     heads_attn;
     std::vector<llama_ubatch> ubatches;
 
-    const llama_kv_cache_unified_state   state_attn;
-    const llama_kv_cache_recurrent_state state_recurrent;
+    const llama_kv_cache_unified_state_ptr   state_attn;
+    const llama_kv_cache_recurrent_state_ptr state_recurrent;
 };