基本概念

  • 多媒体的多关联性:不同模态之间数据的语义关联,社会关联(用户之间),网络行为需求之间的关联
  • 语义间的关联:极可能是协同性(字母是图片的解释说明),也可能是互补性。
  • 模式识别 & 机器学习:前者面向感知数据,可利用多种手段,机器学习只是其中之一;机器学习:解决分类和预测问题。
  • 机器学习:数据-特征-学习-模型。

图像特征的传统表示

核心目的:将非结构化数据转转变为结构化数据
文本:词/主题/文档,词频、词性、位置等。
音频:时间轴上的一维数字信号,音调、音强、音色,连续信号进行离散化采样。
图像:颜色、纹理、形状
视频:帧-镜头-场景

图像特征的表示学习

特征降维:将特征从高维空间映射到低维空间,PCA(去相关,将样本沿某个维度尽量分散开来)、线性判别分析(LDA,可监督降维,使得可分性最大)、流形学习(从高维数据中恢复出低维流形结构,如:人脸数据的旋转连续采样)。
特征选择:从给定的特征集合中选取最有效的特征子集。
特征子集的评价指标:相关性:好的特征子集应与分类目标的相关度较高;距离度量:类内距小,类间距大;信息增益:类别能带来多少信息;

特征融合

语义鸿沟:底层特征与高层语义之间的差异
如何表达多元异构信息:文本信息、音频信息等

  • 前向融合:对特征进行融合,用融合特征训练一个模型。
  • 后项融合:使用不同特征训练多个模型,对模型结果进行融合。

Post Date: 2019-09-09

版权声明: 本文为原创文章,转载请注明出处