Sync values yaml file for 1.3 release (opea-project#1524)

yongfengdu · web-flow · commit b7a04bfc44cb · 2025-04-08T22:25:44.000+08:00
* Sync values yaml file for 1.3 release

Signed-off-by: Dolpher Du &lt;dolpher.du@intel.com&gt;
diff --git a/comps/agent/deployment/kubernetes/gaudi-values.yaml b/comps/agent/deployment/kubernetes/gaudi-values.yaml
@@ -4,8 +4,21 @@
 # Accelerate inferencing in heaviest components to improve performance
 # by overriding their subchart values
 
+tgi:
+  enabled: false
+
 vllm:
   enabled: true
+  accelDevice: "gaudi"
   image:
     repository: opea/vllm-gaudi
+  resources:
+    limits:
+      habana.ai/gaudi: 4
+  LLM_MODEL_ID: "meta-llama/Llama-3.3-70B-Instruct"
+  OMPI_MCA_btl_vader_single_copy_mechanism: none
+  PT_HPU_ENABLE_LAZY_COLLECTIVES: true
+  VLLM_SKIP_WARMUP: true
+  extraCmdArgs: ["--tensor-parallel-size", "4", "--max-seq_len-to-capture", "16384", "--enable-auto-tool-choice", "--tool-call-parser", "llama3_json"]
+
 llm_endpoint_url: http://{{ .Release.Name }}-vllm
diff --git a/comps/dataprep/deployment/kubernetes/qdrant-values.yaml b/comps/dataprep/deployment/kubernetes/qdrant-values.yaml
@@ -0,0 +1,20 @@
+# Copyright (C) 2024 Intel Corporation
+# SPDX-License-Identifier: Apache-2.0
+
+tei:
+  enabled: true
+redis-vector-db:
+  enabled: false
+milvus:
+  enabled: false
+qdrant:
+  enabled: true
+  tag: "v1.13.1"
+  config:
+    cluster:
+      enabled: false
+
+DATAPREP_BACKEND: "QDRANT"
+# QDRANT_HOST: ""
+QDRANT_PORT: 6333
+COLLECTION_NAME: "rag_qdrant"
diff --git a/comps/llms/deployment/kubernetes/docsum-values.yaml b/comps/llms/deployment/kubernetes/docsum-values.yaml
@@ -0,0 +1,16 @@
+# Copyright (C) 2024 Intel Corporation
+# SPDX-License-Identifier: Apache-2.0
+
+image:
+  repository: opea/llm-docsum
+  tag: "latest"
+
+LLM_MODEL_ID: "Intel/neural-chat-7b-v3-3"
+MAX_INPUT_TOKENS: 2048
+MAX_TOTAL_TOKENS: 4096
+
+tgi:
+  LLM_MODEL_ID: "Intel/neural-chat-7b-v3-3"
+  enabled: true
+  MAX_INPUT_LENGTH: 2048
+  MAX_TOTAL_TOKENS: 4096
diff --git a/comps/llms/deployment/kubernetes/faqgen-values.yaml b/comps/llms/deployment/kubernetes/faqgen-values.yaml
@@ -0,0 +1,12 @@
+# Copyright (C) 2024 Intel Corporation
+# SPDX-License-Identifier: Apache-2.0
+
+image:
+  repository: opea/llm-faqgen
+  tag: "latest"
+
+LLM_MODEL_ID: meta-llama/Meta-Llama-3-8B-Instruct
+
+tgi:
+  enabled: true
+  LLM_MODEL_ID: meta-llama/Meta-Llama-3-8B-Instruct
diff --git a/comps/lvms/deployment/kubernetes/cpu-values.yaml b/comps/lvms/deployment/kubernetes/cpu-values.yaml
@@ -1,5 +1,10 @@
 # Copyright (C) 2024 Intel Corporation
 # SPDX-License-Identifier: Apache-2.0
 
-tgi:
+LVM_BACKEND: "vLLM"
+vllm:
   enabled: true
+tgi:
+  enabled: false
+lvm-serve:
+  enabled: false
diff --git a/comps/retrievers/deployment/kubernetes/qdrant-values.yaml b/comps/retrievers/deployment/kubernetes/qdrant-values.yaml
@@ -0,0 +1,20 @@
+# Copyright (C) 2024 Intel Corporation
+# SPDX-License-Identifier: Apache-2.0
+
+tei:
+  enabled: true
+redis-vector-db:
+  enabled: false
+milvus:
+  enabled: false
+qdrant:
+  enabled: true
+  tag: "v1.13.1"
+  config:
+    cluster:
+      enabled: false
+
+RETRIEVER_BACKEND: "QDRANT"
+# QDRANT_HOST: ""
+QDRANT_PORT: 6333
+QDRANT_INDEX_NAME: "rag_qdrant"
diff --git a/comps/third_parties/tei/deployment/kubernetes/gaudi-values.yaml b/comps/third_parties/tei/deployment/kubernetes/gaudi-values.yaml
@@ -16,7 +16,5 @@ resources:
   limits:
     habana.ai/gaudi: 1
 
-livenessProbe:
-  timeoutSeconds: 1
 readinessProbe:
   timeoutSeconds: 1
diff --git a/comps/third_parties/teirerank/deployment/kubernetes/gaudi-values.yaml b/comps/third_parties/teirerank/deployment/kubernetes/gaudi-values.yaml
@@ -16,7 +16,5 @@ resources:
   limits:
     habana.ai/gaudi: 1
 
-livenessProbe:
-  timeoutSeconds: 1
 readinessProbe:
   timeoutSeconds: 1
diff --git a/comps/third_parties/tgi/deployment/kubernetes/cpu-values.yaml b/comps/third_parties/tgi/deployment/kubernetes/cpu-values.yaml
@@ -10,11 +10,6 @@ resources:
     cpu: 6
     memory: 65Gi
 
-livenessProbe:
-  initialDelaySeconds: 8
-  periodSeconds: 8
-  failureThreshold: 24
-  timeoutSeconds: 4
 readinessProbe:
   initialDelaySeconds: 16
   periodSeconds: 8
diff --git a/comps/third_parties/tgi/deployment/kubernetes/gaudi-values.yaml b/comps/third_parties/tgi/deployment/kubernetes/gaudi-values.yaml
@@ -23,10 +23,6 @@ resources:
     cpu: 1
     memory: 16Gi
 
-livenessProbe:
-  initialDelaySeconds: 5
-  periodSeconds: 5
-  timeoutSeconds: 1
 readinessProbe:
   initialDelaySeconds: 5
   periodSeconds: 5
diff --git a/comps/third_parties/vllm/deployment/kubernetes/gaudi-values.yaml b/comps/third_parties/vllm/deployment/kubernetes/gaudi-values.yaml
@@ -12,3 +12,7 @@ extraCmdArgs: ["--tensor-parallel-size","1","--block-size","128","--max-num-seqs
 resources:
   limits:
     habana.ai/gaudi: 1
+
+# NOTE: opea/vllm-gaudi needs more warm up time
+startupProbe:
+  failureThreshold: 360