server : fix default draft model parameters #10586

ggerganov · 2024-11-29T17:34:25Z

Use F16 KV cache for the draft model
Set draft context equal to slot context
Do not speculate during prompt processing

ggml-ci

* server : force F16 KV cache for the draft model ggml-ci * server : fix draft params ggml-ci * server : various params fixes ggml-ci

server : force F16 KV cache for the draft model

150d6e9

ggml-ci

github-actions bot added examples server labels Nov 29, 2024

ggerganov mentioned this pull request Nov 29, 2024

Misc. bug: [server] Using q8_0 for KV cache reduces performance when also using a draft model #10552

Closed

server : fix draft params

f325205

ggml-ci

ggerganov marked this pull request as ready for review December 3, 2024 08:47

server : various params fixes

11b4d58

ggml-ci

ggerganov changed the title ~~server : force F16 KV cache for the draft model~~ server : fix default draft model parameters Dec 3, 2024

ggerganov merged commit 70b98fa into master Dec 3, 2024
43 of 50 checks passed

ggerganov deleted the gg/server-force-draft-kv-f16 branch December 3, 2024 09:20

This was referenced Dec 3, 2024

Eval bug: issues with draft model and Cline+VSCode #10547

Closed

server : add speculative decoding support #10455

Merged

sammcj mentioned this pull request Dec 4, 2024

Enable speculative decoding ollama/ollama#5800

Open

tinglou pushed a commit to tinglou/llama.cpp that referenced this pull request Dec 7, 2024

server : fix default draft model parameters (ggml-org#10586)

a6cc3c5

* server : force F16 KV cache for the draft model ggml-ci * server : fix draft params ggml-ci * server : various params fixes ggml-ci

arthw pushed a commit to arthw/llama.cpp that referenced this pull request Dec 20, 2024

server : fix default draft model parameters (ggml-org#10586)

180d8d0

* server : force F16 KV cache for the draft model ggml-ci * server : fix draft params ggml-ci * server : various params fixes ggml-ci

BrickBee mentioned this pull request Jan 12, 2025

KV cache bug: llama-speculative and llama-server choose different kv cache quantization when cache quantization specified #11200

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

server : fix default draft model parameters #10586

server : fix default draft model parameters #10586

ggerganov commented Nov 29, 2024 •

edited

Loading

server : fix default draft model parameters #10586

server : fix default draft model parameters #10586

Conversation

ggerganov commented Nov 29, 2024 • edited Loading

ggerganov commented Nov 29, 2024 •

edited

Loading