Skip to content

Latest commit

 

History

History
168 lines (73 loc) · 8.67 KB

File metadata and controls

168 lines (73 loc) · 8.67 KB

问答系统专题

本章包含的问题,严格来说并不都是问答相关的,但均为自然语言处理和计算机视觉的交叉领域。

问题的三种类型:what(who, when, where等实体事实型), how, why

参考 

智能问答技术综述 by 何世柱,et al. 文章对问答技术的发展和涉及的问题做了一个简要综述。

图片描述(Image Caption)专题

图片描述相比图片分类,物体识别等其他问题,是较为困难的,因为一方面要对图片中的场景做准确的理解,不仅要识别物体,还要识别物体之间的关联以及所属的活动,并且需要对时空关系等做一定的推断,一方面还需要结合自然语言处理对信息做一定的归纳之后生成文本描述,属于交叉问题(类似的还有图片问题回答)。

代码实现 karpathy 大神的neuraltalk 以及其进化版neuraltalk2. neuraltalk 是用 python 实现的,而 neuraltalk2 用 torch 并运行在 GPU 上, 因此后者的速度比前者有显著的提升。新图片的 CNN feature 用 VGG 架构提取(得到顶层的4096维的激活子)。

数据

Flicker8k, Flicker30k, MS-COCO


视频描述

视频内容描述是图片内容描述的自然延伸,在视频搜索,人机交互,为视力缺陷者讲述内容等场景中均有切实的需求。

图片的内容描述,最后生成的句子长度是不定长的,在视频描述中,多了一个不定长的变量:图片帧的个数。此外,现实视频中的物体繁多,场景多样,动作各异,这为视频内容描述带来了不小的困难。如何识别出最主要的内容也是难点,因为我们只想描述视频中最主要的部分,而不是面面俱到。

LSTM 模型的成功。

后来又加入了 attension(注意机制)

基准视频数据集

  1. MSVD (microsoft video description corpus)
  2. MPII-MD (MPII movie description dataset)
  3. M-VAD (montreal video annotation dataset)
  • LSMDC 2015

    The Large Scale MOvie Description Challenge, at ICCV 2015.

VQA(Visual Question Answering)

基于视觉的问题回答,包括回答一些关于图片或者视频的问题,对实现人机交互的智能梦想具有重要意义。本文中我们只考虑图片的问题,视频的以后再说。

一般而言,要回答提问者关于图片的问题,首先需要对图片中的场景和物体做出准确的识别,这就需要机器视觉方面的技术,例如物体检测,图像分割(image segmentation)等;其次,提问和回答一般都是以文字的形式(如果是语音,还要依赖语音识别技术转化为文字),因此还需要自然语言处理相关的技术。由于需要机器视觉自然语言处理两大技术协同作战,VQA 需要的智能程度是相当高的,因此也被认为可以取代图灵测试来衡量智能水平。

问题的类型大致包括:主体(waht),数量,颜色,位置

进一步,如果问题的回答需要一定程度的逻辑推理呢?

DAQUAR 数据集,大约含1500张图片,关于37类物体的约7000个问题。


多模态专题(Multimodal)

多模态指将文本与图像/音频/视频等结合