opea-project
diff --git a/‎comps/cores/mega/gateway.py
Lines changed: 33 additions & 15 deletions b/‎comps/cores/mega/gateway.py
Lines changed: 33 additions & 15 deletions
diff --git a/‎comps/cores/proto/api_protocol.py
Lines changed: 3 additions & 1 deletion b/‎comps/cores/proto/api_protocol.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎comps/cores/proto/docarray.py
Lines changed: 6 additions & 0 deletions b/‎comps/cores/proto/docarray.py
Lines changed: 6 additions & 0 deletions
diff --git a/‎comps/llms/faq-generation/tgi/langchain/llm.py
Lines changed: 1 addition & 1 deletion b/‎comps/llms/faq-generation/tgi/langchain/llm.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎comps/llms/faq-generation/tgi/langchain/requirements.txt
Lines changed: 3 additions & 0 deletions b/‎comps/llms/faq-generation/tgi/langchain/requirements.txt
Lines changed: 3 additions & 0 deletions
diff --git a/‎comps/llms/summarization/tgi/langchain/llm.py
Lines changed: 1 addition & 1 deletion b/‎comps/llms/summarization/tgi/langchain/llm.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎comps/llms/text-generation/README.md
Lines changed: 3 additions & 3 deletions b/‎comps/llms/text-generation/README.md
Lines changed: 3 additions & 3 deletions
diff --git a/‎comps/llms/text-generation/ollama/langchain/README.md
Lines changed: 1 addition & 1 deletion b/‎comps/llms/text-generation/ollama/langchain/README.md
Lines changed: 1 addition & 1 deletion
diff --git a/‎comps/llms/text-generation/ollama/langchain/llm.py
Lines changed: 1 addition & 1 deletion b/‎comps/llms/text-generation/ollama/langchain/llm.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎comps/llms/text-generation/predictionguard/README.md
Lines changed: 2 additions & 2 deletions b/‎comps/llms/text-generation/predictionguard/README.md
Lines changed: 2 additions & 2 deletions
@@ -160,11 +160,13 @@ async def handle_request(self, request: Request):
         chat_request = ChatCompletionRequest.parse_obj(data)
         prompt = self._handle_message(chat_request.messages)
         parameters = LLMParams(
-            max_new_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
+            max_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
             top_k=chat_request.top_k if chat_request.top_k else 10,
             top_p=chat_request.top_p if chat_request.top_p else 0.95,
             temperature=chat_request.temperature if chat_request.temperature else 0.01,
-            repetition_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 1.03,
+            frequency_penalty=chat_request.frequency_penalty if chat_request.frequency_penalty else 0.0,
+            presence_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 0.0,
+            repetition_penalty=chat_request.repetition_penalty if chat_request.repetition_penalty else 1.03,
             streaming=stream_opt,
             chat_template=chat_request.chat_template if chat_request.chat_template else None,
         )
@@ -214,11 +216,13 @@ async def handle_request(self, request: Request):
         chat_request = ChatCompletionRequest.parse_obj(data)
         prompt = self._handle_message(chat_request.messages)
         parameters = LLMParams(
-            max_new_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
+            max_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
             top_k=chat_request.top_k if chat_request.top_k else 10,
             top_p=chat_request.top_p if chat_request.top_p else 0.95,
             temperature=chat_request.temperature if chat_request.temperature else 0.01,
-            repetition_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 1.03,
+            frequency_penalty=chat_request.frequency_penalty if chat_request.frequency_penalty else 0.0,
+            presence_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 0.0,
+            repetition_penalty=chat_request.repetition_penalty if chat_request.repetition_penalty else 1.03,
             streaming=stream_opt,
         )
         result_dict, runtime_graph = await self.megaservice.schedule(
@@ -350,11 +354,13 @@ async def handle_request(self, request: Request):
         chat_request = ChatCompletionRequest.parse_obj(data)
         prompt = self._handle_message(chat_request.messages)
         parameters = LLMParams(
-            max_new_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
+            max_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
             top_k=chat_request.top_k if chat_request.top_k else 10,
             top_p=chat_request.top_p if chat_request.top_p else 0.95,
             temperature=chat_request.temperature if chat_request.temperature else 0.01,
-            repetition_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 1.03,
+            frequency_penalty=chat_request.frequency_penalty if chat_request.frequency_penalty else 0.0,
+            presence_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 0.0,
+            repetition_penalty=chat_request.repetition_penalty if chat_request.repetition_penalty else 1.03,
             streaming=stream_opt,
         )
         result_dict, runtime_graph = await self.megaservice.schedule(
@@ -399,11 +405,13 @@ async def handle_request(self, request: Request):
         chat_request = AudioChatCompletionRequest.parse_obj(data)
         parameters = LLMParams(
             # relatively lower max_tokens for audio conversation
-            max_new_tokens=chat_request.max_tokens if chat_request.max_tokens else 128,
+            max_tokens=chat_request.max_tokens if chat_request.max_tokens else 128,
             top_k=chat_request.top_k if chat_request.top_k else 10,
             top_p=chat_request.top_p if chat_request.top_p else 0.95,
             temperature=chat_request.temperature if chat_request.temperature else 0.01,
-            repetition_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 1.03,
+            frequency_penalty=chat_request.frequency_penalty if chat_request.frequency_penalty else 0.0,
+            presence_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 0.0,
+            repetition_penalty=chat_request.repetition_penalty if chat_request.repetition_penalty else 1.03,
             streaming=False,  # TODO add streaming LLM output as input to TTS
         )
         result_dict, runtime_graph = await self.megaservice.schedule(
@@ -428,11 +436,13 @@ async def handle_request(self, request: Request):
         chat_request = ChatCompletionRequest.parse_obj(data)
         prompt = self._handle_message(chat_request.messages)
         parameters = LLMParams(
-            max_new_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
+            max_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
             top_k=chat_request.top_k if chat_request.top_k else 10,
             top_p=chat_request.top_p if chat_request.top_p else 0.95,
             temperature=chat_request.temperature if chat_request.temperature else 0.01,
-            repetition_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 1.03,
+            frequency_penalty=chat_request.frequency_penalty if chat_request.frequency_penalty else 0.0,
+            presence_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 0.0,
+            repetition_penalty=chat_request.repetition_penalty if chat_request.repetition_penalty else 1.03,
             streaming=stream_opt,
         )
         result_dict, runtime_graph = await self.megaservice.schedule(
@@ -472,11 +482,13 @@ async def handle_request(self, request: Request):
         chat_request = ChatCompletionRequest.parse_obj(data)
         prompt = self._handle_message(chat_request.messages)
         parameters = LLMParams(
-            max_new_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
+            max_tokens=chat_request.max_tokens if chat_request.max_tokens else 1024,
             top_k=chat_request.top_k if chat_request.top_k else 10,
             top_p=chat_request.top_p if chat_request.top_p else 0.95,
             temperature=chat_request.temperature if chat_request.temperature else 0.01,
-            repetition_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 1.03,
+            frequency_penalty=chat_request.frequency_penalty if chat_request.frequency_penalty else 0.0,
+            presence_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 0.0,
+            repetition_penalty=chat_request.repetition_penalty if chat_request.repetition_penalty else 1.03,
             streaming=stream_opt,
         )
         result_dict, runtime_graph = await self.megaservice.schedule(
@@ -520,7 +532,9 @@ async def handle_request(self, request: Request):
             top_k=chat_request.top_k if chat_request.top_k else 10,
             top_p=chat_request.top_p if chat_request.top_p else 0.95,
             temperature=chat_request.temperature if chat_request.temperature else 0.01,
-            repetition_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 1.03,
+            frequency_penalty=chat_request.frequency_penalty if chat_request.frequency_penalty else 0.0,
+            presence_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 0.0,
+            repetition_penalty=chat_request.repetition_penalty if chat_request.repetition_penalty else 1.03,
             streaming=stream_opt,
         )
         result_dict, runtime_graph = await self.megaservice.schedule(
@@ -569,7 +583,9 @@ async def handle_request(self, request: Request):
             top_k=chat_request.top_k if chat_request.top_k else 10,
             top_p=chat_request.top_p if chat_request.top_p else 0.95,
             temperature=chat_request.temperature if chat_request.temperature else 0.01,
-            repetition_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 1.03,
+            frequency_penalty=chat_request.frequency_penalty if chat_request.frequency_penalty else 0.0,
+            presence_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 0.0,
+            repetition_penalty=chat_request.repetition_penalty if chat_request.repetition_penalty else 1.03,
             streaming=stream_opt,
         )
         result_dict, runtime_graph = await self.megaservice.schedule(
@@ -758,7 +774,9 @@ async def handle_request(self, request: Request):
             top_k=chat_request.top_k if chat_request.top_k else 10,
             top_p=chat_request.top_p if chat_request.top_p else 0.95,
             temperature=chat_request.temperature if chat_request.temperature else 0.01,
-            repetition_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 1.03,
+            frequency_penalty=chat_request.frequency_penalty if chat_request.frequency_penalty else 0.0,
+            presence_penalty=chat_request.presence_penalty if chat_request.presence_penalty else 0.0,
+            repetition_penalty=chat_request.repetition_penalty if chat_request.repetition_penalty else 1.03,
             streaming=stream_opt,
             chat_template=chat_request.chat_template if chat_request.chat_template else None,
         )
 
@@ -285,8 +285,9 @@ class AudioChatCompletionRequest(BaseModel):
     max_tokens: Optional[int] = 1024
     stop: Optional[Union[str, List[str]]] = None
     stream: Optional[bool] = False
-    presence_penalty: Optional[float] = 1.03
+    presence_penalty: Optional[float] = 0.0
     frequency_penalty: Optional[float] = 0.0
+    repetition_penalty: Optional[float] = 1.03
     user: Optional[str] = None
 
 
@@ -345,6 +346,7 @@ class CompletionRequest(BaseModel):
     echo: Optional[bool] = False
     presence_penalty: Optional[float] = 0.0
     frequency_penalty: Optional[float] = 0.0
+    repetition_penalty: Optional[float] = 1.03
     user: Optional[str] = None
     use_beam_search: Optional[bool] = False
     best_of: Optional[int] = None
 
@@ -145,11 +145,14 @@ class RerankedDoc(BaseDoc):
 class LLMParamsDoc(BaseDoc):
     model: Optional[str] = None  # for openai and ollama
     query: str
+    max_tokens: int = 1024
     max_new_tokens: int = 1024
     top_k: int = 10
     top_p: float = 0.95
     typical_p: float = 0.95
     temperature: float = 0.01
+    frequency_penalty: float = 0.0
+    presence_penalty: float = 0.0
     repetition_penalty: float = 1.03
     streaming: bool = True
 
@@ -179,11 +182,14 @@ def chat_template_must_contain_variables(cls, v):
 
 
 class LLMParams(BaseDoc):
+    max_tokens: int = 1024
     max_new_tokens: int = 1024
     top_k: int = 10
     top_p: float = 0.95
     typical_p: float = 0.95
     temperature: float = 0.01
+    frequency_penalty: float = 0.0
+    presence_penalty: float = 0.0
     repetition_penalty: float = 1.03
     streaming: bool = True
 
 
@@ -40,7 +40,7 @@ def llm_generate(input: LLMParamsDoc):
     llm_endpoint = os.getenv("TGI_LLM_ENDPOINT", "http://localhost:8080")
     llm = HuggingFaceEndpoint(
         endpoint_url=llm_endpoint,
-        max_new_tokens=input.max_new_tokens,
+        max_new_tokens=input.max_tokens,
         top_k=input.top_k,
         top_p=input.top_p,
         typical_p=input.typical_p,
 
@@ -2,7 +2,10 @@ docarray[full]
 fastapi
 huggingface_hub
 langchain
+langchain-huggingface
+langchain-openai
 langchain_community
+langchainhub
 opentelemetry-api
 opentelemetry-exporter-otlp
 opentelemetry-sdk
 
@@ -39,7 +39,7 @@ def llm_generate(input: LLMParamsDoc):
     llm_endpoint = os.getenv("TGI_LLM_ENDPOINT", "http://localhost:8080")
     llm = HuggingFaceEndpoint(
         endpoint_url=llm_endpoint,
-        max_new_tokens=input.max_new_tokens,
+        max_new_tokens=input.max_tokens,
         top_k=input.top_k,
         top_p=input.top_p,
         typical_p=input.typical_p,
 
@@ -374,7 +374,7 @@ curl http://${your_ip}:8008/v1/chat/completions \
 
 ### 3.3 Consume LLM Service
 
-You can set the following model parameters according to your actual needs, such as `max_new_tokens`, `streaming`.
+You can set the following model parameters according to your actual needs, such as `max_tokens`, `streaming`.
 
 The `streaming` parameter determines the format of the data returned by the API. It will return text string with `streaming=false`, return text streaming flow with `streaming=true`.
 
@@ -385,7 +385,7 @@ curl http://${your_ip}:9000/v1/chat/completions \
   -H 'Content-Type: application/json' \
   -d '{
   "query":"What is Deep Learning?",
-  "max_new_tokens":17,
+  "max_tokens":17,
   "top_k":10,
   "top_p":0.95,
   "typical_p":0.95,
@@ -401,7 +401,7 @@ curl http://${your_ip}:9000/v1/chat/completions \
   -H 'Content-Type: application/json' \
   -d '{
   "query":"What is Deep Learning?",
-  "max_new_tokens":17,
+  "max_tokens":17,
   "top_k":10,
   "top_p":0.95,
   "typical_p":0.95,
 
@@ -70,5 +70,5 @@ docker run --network host -e http_proxy=$http_proxy -e https_proxy=$https_proxy
 ## Consume the Ollama Microservice
 
 ```bash
-curl http://127.0.0.1:9000/v1/chat/completions  -X POST   -d '{"model": "llama3", "query":"What is Deep Learning?","max_new_tokens":32,"top_k":10,"top_p":0.95,"typical_p":0.95,"temperature":0.01,"repetition_penalty":1.03,"streaming":true}'   -H 'Content-Type: application/json'
+curl http://127.0.0.1:9000/v1/chat/completions  -X POST   -d '{"model": "llama3", "query":"What is Deep Learning?","max_tokens":32,"top_k":10,"top_p":0.95,"typical_p":0.95,"temperature":0.01,"repetition_penalty":1.03,"streaming":true}'   -H 'Content-Type: application/json'
 ```
@@ -25,7 +25,7 @@ def llm_generate(input: LLMParamsDoc):
     ollama = Ollama(
         base_url=ollama_endpoint,
         model=input.model if input.model else model_name,
-        num_predict=input.max_new_tokens,
+        num_predict=input.max_tokens,
         top_k=input.top_k,
         top_p=input.top_p,
         temperature=input.temperature,
 
@@ -29,7 +29,7 @@ curl -X POST http://localhost:9000/v1/chat/completions \
     -d '{
         "model": "Hermes-2-Pro-Llama-3-8B",
         "query": "Tell me a joke.",
-        "max_new_tokens": 100,
+        "max_tokens": 100,
         "temperature": 0.7,
         "top_p": 0.9,
         "top_k": 50,
@@ -45,7 +45,7 @@ curl -N -X POST http://localhost:9000/v1/chat/completions \
     -d '{
         "model": "Hermes-2-Pro-Llama-3-8B",
         "query": "Tell me a joke.",
-        "max_new_tokens": 100,
+        "max_tokens": 100,
         "temperature": 0.7,
         "top_p": 0.9,
         "top_k": 50,