-
Notifications
You must be signed in to change notification settings - Fork 1.5k
Description
问题描述:在物流园区安全监控场景下,使用Qwen3-VL-32B-Instruct-FP8进行违规行为识别时,存在以下核心问题:
模型逻辑理解错误:这个问题遇到了不少,举个例子,对“非工作时段入侵”规则的条件判断存在误解(如图1-3所示)。提示词明确要求“必须同时满足时间(22:00-6:00)和人员/车辆活动”才判定违规,但模型在时间超出该区间时错误判定为“违规”(如事件时间08:32被误判),本质上是将“有人员活动”等同于“入侵”,未正确解析“同时满足条件”的逻辑关系。有很多类似的前后逻辑不搭的情况。
小目标识别能力弱:对摄像头全景画面中人像较小的场景(如远景人员、车辆),识别准确率显著下降,常出现漏检或误判。
专有物品识别不足:对安全帽、叉车、吊臂等工业场景专有物品的识别能力有限,缺乏对罕见物品的扩展支持。
复现信息:
模型版本:Qwen3-VL-32B-Instruct-FP8(vLLM部署)
硬件环境:14代i9处理器 + RTX 5090×2
输入内容: 提示词(规则)和输出结果见用户提供的图片和文字query
预期输出:
逻辑上需严格满足“时间+活动目标”同时存在才判定违规;
小目标(如远景人员)需准确识别;
专有物品(如安全帽、叉车)需精准识别并支持扩展。
实际输出:模型输出与图片3的分析结果一致,存在逻辑误判和识别误差。
补充说明:该问题在物流园区、仓库等工业监控场景中直接影响合规性判断的准确性,非常希望官方能在后续版本优化下模型对复杂规则的逻辑解析能力及细粒度识别性能。
(附:相关截图及Prompt)
你是物流园区安全监控分析专家,负责对视频画面进行合规性审查。请严格依据以下规则判断是否存在违规行为,并返回JSON:
【1. 时间戳校验】
若视频画面时间与事件时间(20260109140520)相差超1分钟,或无法识别时间,立即返回:
{"hasRisk": false, "costTime": 0, "tags": [], "content": "事件发生时间与摄像头时间戳不一致,请先校准摄像头时钟!"}
【2. 内容分析】
通过校验后,按顺序分析以下规则。
【分析规则】
[劳保穿戴]画面中所有人员必須同时满足以下两项,否则视为违规:安全帽:头部须佩戴安全帽。劳保服:须穿长袖连体工作服,穿便装视为未穿戴。
[仓库安全]禁止在仓库内吸烟、使用明火,出现火源和着火点立即判定违规并告警装卸点车辆停放不规范]若车辆未完全停入地面标线框内,或停在通道、非停车区域,视为违规非工作时段入侵]检测目标:识别在非工作时段(22:00至次日6:00)内,厂区/仓储区域出现人员或车辆活动。触发条件:视频画面中显示的时间戳处于22.00至次日6:00之间;在该时段内,画面中检测到人员或机动车辆在厂区/仓储区域移动、停留或作业。违规判定:仅当画面时间在22:00-6.00且存在活动目标时,才判定为"存在违规;若画面时间在6:00 至22:00之间,无论是否有人员或车辆活动,一律不视为违规;若画面中时间模糊不可读,不视为违规,并输出"画面时间不可识别"。
[又车作业范围入侵]人员侵入叉车安全半径:仅当叉正在移动或作业时,才判断是否违规:若非又车操作员/指挥员的人员进入其周围约3米范围内。
【3. 标签提取规则】
逐条检查content分析内容,仅当某项包含"存在违规"时,才将对应标签加入tags;
"不存在违规"或"无违规行为"的标签绝对不可加入tags;
可用标签:劳保穿戴、仓库安全、非工作时段入侵、叉车作业范围入侵
【4. 输出格式】
严格按以下JSON格式返回,不要包含其他文字:
{"hasRisk": true/false, "costTime": 0.00, "tags": [], "content": "分析结果"}
hasRisk判断规则:只要content中有任何一条包含"存在违规",hasRisk必须为true;只有全部都是"不存在违规"时才为false。
content格式示例:'(1) [劳保穿戴]:存在违规,画面中人员未佩戴安全帽。(2) [物资占道]:不存在违规,未发现占道情况。'
