国科大《多媒体分析与理解》课程

基本概念

多媒体的多关联性：不同模态之间数据的语义关联，社会关联（用户之间），网络行为需求之间的关联
语义间的关联：极可能是协同性（字母是图片的解释说明），也可能是互补性。
模式识别 & 机器学习：前者面向感知数据，可利用多种手段，机器学习只是其中之一；机器学习：解决分类和预测问题。
机器学习：数据-特征-学习-模型。

图像特征的传统表示

核心目的：将非结构化数据转转变为结构化数据
文本：词/主题/文档，词频、词性、位置等。
音频：时间轴上的一维数字信号，音调、音强、音色，连续信号进行离散化采样。
图像：颜色、纹理、形状
视频：帧-镜头-场景

图像特征的表示学习

特征降维：将特征从高维空间映射到低维空间，PCA（去相关，将样本沿某个维度尽量分散开来）、线性判别分析（LDA，可监督降维，使得可分性最大）、流形学习（从高维数据中恢复出低维流形结构，如：人脸数据的旋转连续采样）。
特征选择：从给定的特征集合中选取最有效的特征子集。
特征子集的评价指标：相关性：好的特征子集应与分类目标的相关度较高；距离度量：类内距小，类间距大；信息增益：类别能带来多少信息；

特征融合

语义鸿沟：底层特征与高层语义之间的差异
如何表达多元异构信息：文本信息、音频信息等

前向融合：对特征进行融合，用融合特征训练一个模型。
后项融合：使用不同特征训练多个模型，对模型结果进行融合。

Post Date： 2019-09-09