首页 理论教育初级特征表示简介:探究浅层特征

初级特征表示简介:探究浅层特征

【摘要】:特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。如果数据被很好地表达成了特征,通常线性模型就能达到满意的精度。学习算法在一个什么粒度上的特征表示才能发挥作用,就一个图片来说,像素级的特征根本没有价值,例如摩托车,从像素级别根本得不到任何信息,无法进行摩托车和非摩托车的区分。比如图7-2,一个图可以通过用64种正交的边缘线来线性表示。

因为要学习的是特征的表达,那么关于特征,或者说关于这个层级特征,人们需要了解得更深入些。特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。如果数据被很好地表达成了特征,通常线性模型就能达到满意的精度。

学习算法在一个什么粒度上的特征表示才能发挥作用,就一个图片来说,像素级的特征根本没有价值,例如摩托车,从像素级别根本得不到任何信息,无法进行摩托车和非摩托车的区分。如果特征是一个具有结构性(或者说有含义)的时候,比如是否具有车把手,是否具有车轮,就很容易把摩托车和非摩托车进行区分,学习算法才能发挥作用。

Bruno Olshausen和David Field两位学者试图同时用生理学和计算机的手段,研究视觉问题。他们发明了一个算法——稀疏编码。对于稀疏编码,经过几次迭代后,最佳的组合被遴选出来了。令人惊奇的是,被选中的最佳的组合,基本上都是照片上不同物体的边缘线,这些线段形状相似,区别在于方向。也就是说,复杂图形往往由一些基本结构组成。比如图7-2,一个图可以通过用64种正交的边缘线(可以理解成正交的基本结构)来线性表示。比如样例的x可以用1~64个边缘线中的三个按照0.8,0.3,0.5的权重调和而成,其他基本边缘线没有贡献,因此均为0。

图7-2 视觉学习样例

另外,研究学者们还发现,不仅图像存在这个规律,声音也存在。他们从未标注的声音中发现了20种基本的声音结构,其余的声音可以由这20种基本结构合成。