fix vllm llamaindex stream bug (#679)

XinyaoWa · web-flow · commit ca94c60fb7af · 2024-09-12T14:05:14.000+08:00
Signed-off-by: Xinyao Wang &lt;xinyao.wang@intel.com&gt;
diff --git a/comps/llms/text-generation/vllm/llama_index/llm.py b/comps/llms/text-generation/vllm/llama_index/llm.py
@@ -57,13 +57,11 @@ def llm_generate(input: LLMParamsDoc):
     if input.streaming:
 
         def stream_generator():
-            chat_response = ""
             for text in llm.stream_complete(input.query):
-                chat_response += text
-                chunk_repr = repr(text.encode("utf-8"))
-                yield f"data: {chunk_repr}\n\n"
+                output = text.text
+                yield f"data: {output}\n\n"
             if logflag:
-                logger.info(f"[llm - chat_stream] stream response: {chat_response}")
+                logger.info(f"[llm - chat_stream] stream response: {output}")
             yield "data: [DONE]\n\n"
 
         return StreamingResponse(stream_generator(), media_type="text/event-stream")