- CNN:具有强大的提取局部特征的能力
- dropout:防止过拟合(drop 层内的一些 neurons);
- residual learning,是跳过某一些 layer
- 加快模型的训练速度;
- softmax(全连接):多分类任务
0. deep learning
- high-level abstractions in data
- deep graph with multiple processing layers
- composed of multiple linear & non-linear transformations
1. Vanishing Gradient(梯度消失)
- Greedy Layer-wised Pretraining(贪婪逐层预训练)和有监督调优训练,
- Hinton 和他的学生 Salakhutdinov
- G. E. Hinton and R. R. Salakhutdinov,”Reducing the dimensionality of data with neural networks,” Science, vol. 313, pp. 504-507, 2006.
2. auto-encoder
一种 compressed representation,压缩表示;
本身的架构 autoencoder 包括,encoder 和 decoder。
autoencoder(input, output)
- encoder(input, encoded)
- decoder()
input train input,以实现一种无监督的方式;
- auto,自,是和 无监督相对应的;
其主要的特点在于(大量的学习):
- data-specific,数据依赖;
- lossy,有损耗的,失真,
- learn from examples,如果是用 face 来 train,它可能会对 face 的压缩比较好;
后因为有一些新的算法的出现,取代了 auto-encoder 在模型预训练上的使命,使其主要应用在:
- 数据降噪;
- 数据降维;
3. 从 AE 到 SDA
SDA 的两大优势在于:
- nonlinearity:非线性性;
- h(⋅)
- deep;
- stacking of multiple layers;