CNN-卷积神经网络

2018年3月10日FelixHo

CNN 的核心思想：局部感受野（local field） + 权值共享 + 亚采样。

CNN 主要由四类层（layer）组成，即卷积层(Conv)、激活层(Activation)、池化层(Pooling) 以及全连接层(FC/Dense)。

卷积层（Convolution）

传统神经网络采用全连接的方式，往往容易导致需要训练的参数非常庞大，甚至难以训练，卷积神经网络通过卷积层的“局部连接”和“参数共享”的特性大大减少训练参数。

举例：输入 100 x 100, 隐藏层有10个神经元

传统全连接方式（Full Connected）
输入 100 x 100 与每一个神经元连接，需要训练 100 x 100 x 10 = 100000 个参数（不考虑bias）

局部连接（Sparse Connectivity）
假设每个神经元只与局部 10 x 10 个输入连接，那么只需要训练 10 x 10 x 10 = 1000 个参数！！

权值共享（Shared Weights）
如果每个神经元的连接使用相同的权值，那么实际训练参数进一步压缩到 10 x 10 x 1 = 100 个参数！！

卷积层如何生成

卷积核 (或称滤波器，filter/kernel)

上图是一个尺寸为 3×3 的卷积核, 即每个神经元由输入的 3×3 局部连接所得，卷积核的值通过训练来学习。

卷积核的 stride 值

stride 指卷积核的移动步长(这其实就是权值共享的表现)，上图 stride=2，卷积核每次移动两个单元。

卷积核的 padding 值

padding 即在输入矩阵的四周添加填充，一方面可以减少原输入的边缘影响，另一方面可以用于维持输入和输出的维度一致（需要 stride 配合）。

padding 的常见术语包括:
(1) valid: 即 no padding
(2) same：通过填充使得输入和输出的维度保持一致

输出维度计算（取下界）：

卷积输出-Feature Map（特征图）

实际上卷积核的作用就是对输入层进行特征学习，卷积核可以看成是对输入的一种特征映射，通过这种特征映射，一个卷积核对应生成一个特征图（Feature Map），即上图的 Result。

多通道卷积

当输入有多个通道（channel）时(例如图片可以有 RGB 三个通道)，卷积核需要拥有相同的channel数,每个卷积核 channel 与输入层的对应 channel 进行卷积，将每个 channel 的卷积结果按位相加得到最终的 Feature Map。

多卷积核

当有多个卷积核时，可以学习到多种不同的特征，对应产生包含多个 channel 的 Feature Map, 例如上图有两个 filter，所以 output 有两个 channel。

为什么不需要全连接而只需要局部连接就会有效果？

对于图像而言，局部区域的像素关联性往往很强，而相距较远的区域关联性往往很弱。同样，对于文本而言，相近的词汇在语义表达上往往有紧密联系而相隔较远的词汇语义关联则相对较低。因此，只需要对局部信息进行特征提取，最后综合起来就能达到全局感知。

激活层（Activation）

阅读全文 →

RNN/LSTM-递归神经网络

2018年1月6日FelixHo

关于递归神经网络的理论介绍推荐阅读这篇非常经典的文章 → Understanding LSTM Networks
本文为总结笔记

一、RNN vs LSTM

RNN 逻辑结构图

LSTM 逻辑结构图

LSTM 是 RNN 的变体，它们的原理几乎一样，唯一的不同是 output 即 hidden state 的计算逻辑不同

RNN 如何计算某个时刻 t 的 output ?

 $h_t = tanh(W*[h_{t-1}, x_t]+b)$

LSTM 如何计算某个时刻 t 的 output ?

遗忘门(Forget Gate): 控制遗忘哪些记忆（Cell state）

 $f_t = sigmoid(W_f*[h_{t-1}, x_t] + b_f)$

新信息：候选记忆信息

 ${C}^{*} = tanh(W_c*[h_{t-1}, x_t]+b_c)$

输入门(Input Gate)：控制加入哪些新信息到记忆中

 $i_t = sigmoid(W_i*[h_{t-1}, x_t] + b_i)$

新记忆：遗忘部分旧记忆，加入部分新记忆信息，得到最新的cell state

 $C_t = f_t*C_{t-1} + i_t*{C}^{*}$

输出门(Output Gate)：控制当前最新记忆的对应输出值

 $o_t = sigmoid(W_o*[h_{t-1}, x_t] + b_o)$

输出值：最终的 hidden state

 $h_t = o_t*tanh(C_t)$

当 Forget Gate=0, Input Gate=1, Output Gate=1 时 LSTM 与 RNN 等价

LSTM 为什么优于 RNN ?

RNN 通过叠乘的方式进行状态更新，当 sequence 比较长时容易出现梯度消失/爆炸的情况，主要原因是反向传播的连乘效应，而 LSTM 是通过门控制的叠加方式来更新状态（C_t的计算公式），所以可以有效防止梯度问题，当然对于超长的 sequence，LSTM 依然会有梯度消失或者爆炸的可能。

二、RNN/LSTM 中的 num_units 是啥意思？

num_units 相当于神经网络的隐层神经元的个数，例如上图表示一个 LSTM Cell，包含四个神经网络层，即黄色方框部分，num_units 就是每个神经网络结构的隐层神经元个数(全连接单元数)，它实际上也是 LSTM 输出向量的维度数，所以 h_t 为 num_units 维向量。

三、如何计算 Keras 的 LSTM layer 的参数个数？

假设 LSTM(num_units = 150),输入维度 input_dims = 100,那么共需要训练的参数个数为：

 $(num\_units + input\_dims + 1) * num\_units * 4 = 150600$

说明：
1. num_units + input_dims 是因为上层输出需要首先与输入进行一次concat，即 [h_t-1, x_t],
2. + 1 是因为 bias
3. * 4 是因为共有4个神经网络层（黄色方框）
4. 为什么不需要乘以 time_steps 即 number of cell ?
因为递归神经网络的每个 cell 实际上只是在不同时态下的状态，所以不同 cell 共用同一套权重，文章开头的结构图只是为了理解方便而将递归过程展开，实际上任何时候都只存在一个 cell !!

四、为什么 LSTM 要用 sigmoid 作为门控激活函数？

因为sigmoid的输出在0~1之间，可以很好地控制信息的删除和保留。

五、为什么 LSTM 的输入和输出值不用 sigmoid 而用 tanh 作为激活函数？

LSTM 内部维护了一个状态向量，其值应该可以增加或者减少，而 sigmoid 的输出为非负数，所以状态信息只能增加，显然不合适，相反，tanh 的输出范围包含了正负数，因此可以满足状态的增减。

六、什么是 sequence?

阅读全文 →

Batch Normalization

2018年1月2日FelixHo

Batch Normalization（简称 BN）是指对上一层的输出或者激活层的输入做标准化处理，从而使得激活层的输入值的分布更合适，进而加快收敛速度。

pic via this post

上图表示一个多层神经网络在采用 BN 层和不采用 BN 层时不同层的对应输出分布，可见不使用 BN 层的输出大部分分布在两端，而使用 BN 层的输出分布则比较均衡。

什么是 Batch Normalization

Batch Normalization 是指将线性激活函数的输入值变换为标准正态分布（均值为0，方差为1），使得其分布在激活函数的敏感区，从而加快收敛。如果不这么做，一旦激活函数的输入值分布在激活函数的极限饱和区，那么激活函数的梯度就会接近消失，从而无法更新参数或者参数更新很慢，进而影响模型的学习。

例如：sigmoid 函数，敏感区在[-2,2]，两端的梯度逐渐消失，如果将输入变换为正态分布，那么95%的落点都在敏感区，有效避免梯度消失问题。

一味将输入值通过正态变换使得其落在敏感区也有问题，因为敏感区往往是偏线性的，这样会影响模型的表达能力，相当于失去了激活函数的意义（激活函数通过让模型损失一些输入信息从而达到非线性效果，例如 sigmoid 的两端），因此 BN 层还会通过 scale（γ斜率，即缩放，可以看成对方差的调整）和 shift（β截距，即移位, 可以看成对均值的调整）的操作使得落点分布在线性与非线性上获得平衡。

Relu 激活函数是否适合前接一个BN?

适合。通过 Batch Normalization 后，输入95%分布在（-2，2）大概有一半的输入得到激活，且保留非线性。

如何计算 Batch Normalization 的输出值

首先进行正态变换：

其中 E(x) 表示一个 batch 的均值，var(x) 表示一个 batch 的方差。(计算全局均值、方差需要非常大的计算开销，计算 batch 则非常高效，也许这就是为什么叫 Batch Normalization 的原因)

再通过 scale 和 shift 计算最终输出：

其中 γ 和 β 是要学习的参数。

举例：对于一个 batch_size 为 N, 宽为 P, 高为 Q 的特征图，一个 batch 的均值和方差就是基于这 N x P x Q 个特征计算所得，一个特征图学习一组 γ 和 β。

Batch Normalization 的优点

1.收敛更快，减少了训练时间（因为降低了梯度爆炸/消失的风险）。
2.减少了对正则化（dropout、L2）的需求，因为BN标准化是基于 batch 来计算均值和方差的，所以每个标准化产生的值都取决于当前的 batch,这本身就是一种正则化的体现。
3.允许设置更高的学习率（因为降低了梯度爆炸/消失的风险）。

Batch Normalization 的使用需要注意什么

1.由于均值和方差是针对 batch 计算的，所以如果 batch 太少，引入 BN 可能会有副作用。
2.对于不平衡的数据集，引入 BN 可能会导致更差的 Performance，因为对于不平衡语料，BN 不但没有做到“标准化”反而让不平衡的问题更加突出。

转载请注明出处:

© http://hejunhao.me

LightGBM

2017年7月18日FelixHo

LightGBM 是一种基于决策树算法的快速、分布式、高性能的 GBDT 框架，它是传统 GBDT 算法的一种改进实现，“Light”主要体现在三个方面，即更少的数据、更少的特征、更少的内存，分别通过 GOSS（单边梯度采样）、 EFB（互斥特征捆绑）和 Histogram（直方图算法）三项技术实现。

GOSS (Gradient-based One Side Sampling 单边梯度采样)

GOSS 是一种采样方法，在每次迭代前，先对样本进行采样，保留梯度变化最大的 a% 个样本，为了不改变样本分布，还需要从剩下的梯度变化较小的样本中随机采样 b% 个样本,并给予这 b% 个样本 (1-a)/b 的权重，这两部分样本为最终的训练样本。通过 GOSS 既保留了重要的样本，又在保持样本分布的同时大大减少了训练样本数，从而实现不影响模型准确性的同时大幅度提升训练效率。

GOSS 为什么以梯度作为样本权重？

因为 GBDT 对 loss 的负梯度进行拟合，所以样本误差越大，梯度的绝对值越大，证明模型对该样本的学习还不足够，相反如果越小证明模型对该样本的学习已经很充分，所以梯度的绝对值越大，样本重要性越高。（梯度是某一点最陡峭的地方，梯度大小形容它有多陡峭）

EFB（Exclusive Feature Bundling 互斥特征捆绑）

对于具有高维稀疏特征的数据，很多特征是互斥的（即多个特征之间最多只有一个特征的取值为非 0），EFB 通过捆绑多个互斥特征形成一个“大特征”，从而大大减少特征的数量，相当于是一种降维的方法。

例如，特征 A 的取值为 0~10，特征 B 的取值为 0~20，A、B 为互斥特征，那么捆绑 A/B 形成特征 C，特征 C 的取值为 0~30，所以 B=5 与 C=15 是等价的。

构造特征直方图是训练 GBDT 的主要时间消耗，而构造特征直方图的时间取决于需要遍历的特征数量，通过 EFB 方法可以减少特征的数量从而加快训练的效率。

备注：找出最优的 bundle 组合数是一个 NP 问题，LightGBM 通过贪心近似算法解决。即转化为图着色问题，图中的点为特征，非互斥的特征用一条边连接，边的权重为相连特征的总冲突值，那么着色相同的点即为互斥点（特征）

直方图优化算法（Histogram）

LightGBM 基于直方图算法优化查找最佳分割点的效率，在训练前首先通过直方图算法将连续特征离散化，相当于对特征的值进行分段划分，形成 k 个 bins（即 k 个离散值），构造一个宽度为 k 的直方图，在遍历数据时，根据离散值在对应 bin 上累积统计量（即梯度 g，样本数 n）。通过累积的统计量计算分裂增益，通过遍历所有 bin 寻找该特征的最佳分割点。

流程总结

特征离散化，得 k 个 bins，形成宽度为 k 的直方图
遍历数据，根据离散值在对应 bin 上累积统计量(g、n)
遍历 bins，通过累积统计量计算不同划分的分裂增益，求得最佳分割点

增益计算公式：

其中 S 为梯度之和，n 为样本数，L/R/P 表示左 / 右 / 父节点

优点：

传统的 pre-sorted 算法（例如 XGBoost 的 exact greedy 算法）在计算某个特征的分裂增益时需要遍历所有的特征值的划分情况，而直方图算法只需要遍历 k 个 bins 的划分情况，时间复杂度从 O(#data * #features) 降到 O(#bins * #features)，大大减少了计算量。
传统的 pre-sorted 算法需要对特征预排序，而直方图算法没有排序要求，进一步提升了效率。
直方图算法可以通过做差加速，即只需要知道父节点的直方图，和任一子节点的直方图，即可通过做差得到其兄弟节点的直方图，效率提升一倍。
由于直方图算法没有排序要求，因此不用额外存储排序索引，另外离散化后的特征值可以用更小的数据类型表示(例如 256 个 bin 则只需要用 8 位整型表示，即从通常的 4 字节降到 1 字节)，以上两点都可以大大减少内存的占用。

分析：直方图算法主要围绕着训练更快、内存占用更少两个方面进行优化，虽然它找到的并不是最精确的分割点，但对最终的模型精度影响并不大，而且较粗的分割点本身也有正则化的效果，有时甚至会有更好的精度。另外，对于 bosting 框架而言，决策树本身是弱模型，单棵树的误差变化稍大，对最终的结果没有太大的影响。

并行学习（Parallel Optimization）

阅读全文 →

XGBoost

2017年7月11日FelixHo

xgboost 是对传统 GBDT 算法的一种改进实现，主要包括损失函数、正则化、分裂点查找优化、稀疏特征感知、并行化等方面.

原理推导

假设迭代训练 k 次，那么 xgboost 的模型函数可以表示为：

其中 k 表示决策树的数目，f 表示一棵 CART 树。那么，前 t 棵树的预测值可以表示为：

需要优化的目标函数为：

那么训练第 t 棵树的目标函数可表示为：

在前 t-1 棵树处进行二阶泰勒展开：

由于去除常数项 L 后不影响问题优化，因此目标函数化简为：

xgboost 定义正则项如下：

其中 T 为叶子数，wj 为第 j 个叶子节点的预测值（权重，prediction score）。目标函数为：

对于样本 xi ，在第 t 棵树的预测值表示为:

其中 q 表示树结构, q(xi) 表示样本 xi 在中被分到的叶子节点索引，wj 表示第 j 个叶子节点的预测值，因此原目标函数由样本表示形式（sample-wise）改写成树结构表示形式(structure-wise)：

化简得：

其中 Gj 和 Hj 分别表示被分到第 j 个叶子节点的所有样本的 loss 的一阶（二阶）导数值之和，wj 表示第 j 个叶子节点的预测值（权重），T 表示叶子节点数。

对目标函数求关于 wj 的导数等于 0 即可得最优的预测值 wj^* 使得目标函数最小化:

将 wj^* 代入目标函数 obj^(t) 得 xgboost 的终极目标函数:

上式度量了一棵结构为 q(x) 的树的好坏，值越小越好!!!!

例子：

实际上我们无法枚举所有的树结构然后选择最优的树，xgboost 通过逐层优化的方式构建树模型。将一个叶子节点分裂为左右两个新的叶子节点带来的增益可以表示为：

上式就是 xgboost 的特征选择准则, Gain 越大代表分裂后带来的 loss 减少量越多，所以 Gain 越大越好.

策略：当 gain>0 或大于某个阈值时进行分裂，否则不分裂（相当于剪枝）

分裂点查找算法（split finding algorithm）

阅读全文 →

基于 CCO 的协同过滤推荐

2017年7月2日FelixHo

基于 CCO(Correlated Cross-Occurrence) 的协同过滤本质上是一种 Item-Based CF 算法

基于 CCO 的协同过滤推荐

基于 CCO 的协同过滤推荐通过物品之间的共现情况来计算物品之间的关联度，它跟一般的协同过滤算法不同的地方在于一般的协同过滤只能针对单一行为，而CCO算法可以计算交叉行为下的协同关联。

例如：它不仅可以通过用户的浏览行为来告诉你 “浏览了内容A的人可能会浏览内容B” ,它还能结合用户的浏览行为和用户的广告点击行为来告诉你 “点击了广告A的人可能会浏览内容F”。

基于单一行为

假设有以下用户浏览行为日志：

整理后得到以下关系：
u1=> [ t1, t2, t3, t5 ]
u2=> [ t1, t3, t4, t5 ]
u3=> [ t2, t4 ]

构建 “用户关于浏览帖子” 的矩阵 V 以及对应的转置矩阵 V^T：

将矩阵V^T 乘以矩阵 V 即可得到浏览帖子的共现矩阵：

对数似然比（Log Likelihood Ratio）即LLR。我们根据两个事件的共现关系计算LLR值，用于衡量两个事件的关联度：

阅读全文 →

常用推荐算法比较

2017年7月1日FelixHo

在推荐系统中常用的推荐算法一般可以分为两类，即 基于内容推荐 以及 协同过滤。另外，还有一类算法专门处理冷启动问题，例如：基于全局最优推荐。

基于内容推荐

基于内容推荐（Content-based Recommendations）非常好理解，简单来说就是根据用户偏好的内容给他推荐其他相似的内容。

图：基于内容推荐

例如：从用户画像我们发现某个用户比较喜欢活跃在“音乐”、“体育”、“动漫”、“影视” 这些栏目，那么我们就会更倾向推荐这些栏目的内容给他，我们还发现他平时偏好的是关于 “NBA”、“美剧”、“邓紫棋” 等方面的内容，那么跟这些相关的内容就会有更高的推荐权重。

评价

基于内容推荐的结果一般具有很强的解释性，因为它推荐的就是强相关的内容，但这种强相关的特点也会导致一个很明显的缺陷，它缺乏惊喜度，因此它很难挖掘用户潜在的兴趣。要解决惊喜度的问题，可以采用另一类算法–协同过滤。

协同过滤

协同过滤（Collaborative Filtering）推荐本质上也是一个找相似的过程，但它认为的相似不是指物品在属性上的相似，而是指在用户行为的层面上这些物品是否有关联，协同过滤一般可以分为 基于用户的协同过滤（User-CF） 和 基于物品的协同过滤（Item-CF）。

图：用户物品偏好

基于用户的协同过滤

解释：因为 用户1 与 用户2 都喜欢物品A、B、C、D、E，所以认为 用户1 和 用户2 是兴趣相似的用户，现在发现 用户2 还喜欢物品F 所以我们认为 用户1 很可能也对物品F 感兴趣，所以向 用户1 推荐物品F。

基于物品的协同过滤

解释：因为喜欢物品A 的大多数都喜欢物品C，所以可以认为物品A 和物品C 是相似的。用户4 喜欢物品A 所以向用户4 推荐物品C。

评价

协同过滤集合了群体智慧，能满足推荐惊喜度，善于发掘用户潜在的兴趣。训练的用户历史行为数据越多，一般训练出来的模型效果也会越好。协同过滤推荐的解释性一般较弱，推荐结果不如基于内容推荐算法直观，当然这是算法特点导致的，不直观不等于不正确。
阅读全文 →

个性化推荐系统的基本抽象

2017年6月29日FelixHo

在大多数 UGC、PGC、OGC 平台中，“推荐”随处可见，本文主要介绍个性化推荐系统的抽象组成。

关于推荐

人工 VS 个性化

早期的推荐功能大多以人工筛选为主。人工筛选可以确保内容的高质量，这是主要的优点之一，但人工筛选往往需要投入大量的人力成本。另外，由于不同用户的个人偏好差异巨大，高质量的内容往往不等于最合适的内容（例如：一篇介绍奢侈品牌化妆品的“高大上”内容对于一位平时只关心美食和户外运动的用户而言可能是毫无吸引力的）。
为了提升用户体验，后来出现了“个性化内容推荐”的概念，通过引入个性化推荐系统，解决这类“千人千面”的问题。

基于词向量的文本分类推断

2017年6月28日FelixHo

之前的文章中介绍过提取文本标签特征（关键词）的几种算法TF-IDF、TextRank、TWE, 提取到标签特征后，我们可以进一步推断文本的内容分类。本文主要介绍通过词向量模型进行内容分类的一般思路。

提取文本标签特征

假设有以下一段文本：

2016/17赛季欧冠决赛在威尔士卡迪夫千年球场打响，最终尤文图斯以1-4不敌皇家马德里，遗憾错失冠军。赛后，尤文门将布冯表示对结果非常失望，因为尤文已经做了所有能做的事情。

通过关键词提取算法我们提取到以下标签：
#欧冠、#决赛、#尤文图斯、#皇家马德里、#布冯、#门将、#球场、#冠军

假设我们有一个关于体育的分类体系:

图：分类体系

一级分类：体育
二级分类：篮球（关联标签：NBA，CBA，篮球，篮板球，助攻，盖帽，FIBA，姚明，乔丹，三双…）
二级分类：足球（关联标签：世界杯，亚冠，欧冠，中超，足球，英超，西甲，梅西，里皮，马拉多纳，门将，广州恒大，曼联…）

分类推断

通过词向量模型（Word2Vec）我们可以计算两个词之间的相似度（余弦距离）：

Similarity(tagA, tagB) = cos(tagA_Vec, tagB_Vec)

因此，计算文本与分类的相似度实际上就是计算文本的标签与各个分类的关联标签的相似度。
我们发现上面这段文本与足球的相似度大于与篮球的相似度:

Dist(doc_tags, soccer_tags) > Dist(doc_tags, basketball_tags)

所以推断它是关于足球的内容，再进一步把它归类到体育这个一级分类。

转载请注明出处:

基于 TWE 模型的关键词提取

2017年6月25日FelixHo

在之前的两篇文章中分别介绍了两种常见的关键词提取算法：TF-IDF 和 TextRank。实际上不管是 TF-IDF 还是 TextRank，它们都没有考虑文本的语义，也就是文本的内容意义。为了进一步提升效果，我们引入主题模型（LDA）和词向量模型（word2vec）也就是TWE算法。

TWE (Topical Word Embedding)

主题模型

LDA

图：主题向量模型

在主题模型中每个主题实际上是一系列代表该主题的词的分布，例如：上图主题 Topic#1 包含的主题词分布主要有 “红包”、“微信”、“支付宝”、“玩法”等，文字大小代表该词的概率分布差异，可以推断 Topic#1 是一个关于新年红包活动的主题。

词向量模型

word2vec

图：词向量模型

在词向量模型中每个词都有自己的坐标，关联度越高的词相互的距离越近。例如：“梅西” 和 “足球” 的距离比 “奥巴马” 与 “足球” 的距离要近得多，所以 “梅西” 与 “足球” 的关联度相比 “奥巴马” 更高。

基于 TWE 提取关键词

通过主题模型我们可以知道一段文本的主题分布：P(topic | doc)
结合词向量和主题向量，我们可以通过余弦函数计算两者的距离：cos(word_vec, topic_vec)
通过计算词向量与该文本所有关联主题的主题向量的余弦相似度，最终得到词与文本的语义关联度：

 $Sim\displaystyle\text{(word, doc)}=\sum_{k=1}^K \cos(\text{word\_vec, topic\_vec}_{_k}) \times P(\text{topic}_{_k} \mid \text{doc})$

算法比较

假设有以下一段文本：

分别对该文本采用 TF-IDF、TextRank 以及 TWE 算法提取关键词，结果如下：

效果评价

TF-IDF 更倾向于高频词。
TextRank 综合考虑文本结构和词频，但它致命的问题在于，头尾的信息由于只有单边的入度，容易被抛弃掉，例如本例中的核心词 “pagerank”。
TWE 更强调语义相关性，实际的提取效果也优于前面两种方式。

论文参考

Yang Liu, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun. 2015 Topical Word Embeddings
Di Jiang, Zeyu Chen, Rongzhong Lian, Siqi Bao and Chen Li. 2017. Familia: An Open-Source Toolkit for Industrial Topic Modeling. arXiv preprint arXiv:1707.09823.

转载请注明出处:

第 1 页，共 3 页12 3 »

卷积层（Convolution）

卷积层如何生成

卷积核 (或称滤波器，filter/kernel)

卷积核的 stride 值

卷积核的 padding 值

卷积输出-Feature Map（特征图）

多通道卷积

多卷积核

为什么不需要全连接而只需要局部连接就会有效果？

激活层（Activation）

一、RNN vs LSTM

RNN 逻辑结构图

LSTM 逻辑结构图

RNN 如何计算某个时刻 t 的 output ?

LSTM 如何计算某个时刻 t 的 output ?

LSTM 为什么优于 RNN ?

二、RNN/LSTM 中的 num_units 是啥意思 ？

三、如何计算 Keras 的 LSTM layer 的参数个数？

四、为什么 LSTM 要用 sigmoid 作为门控激活函数 ？

五、为什么 LSTM 的输入和输出值不用 sigmoid 而用 tanh 作为激活函数 ？

六、什么是 sequence?

什么是 Batch Normalization

如何计算 Batch Normalization 的输出值

Batch Normalization 的优点

Batch Normalization 的使用需要注意什么

转载请注明出处:

GOSS (Gradient-based One Side Sampling 单边梯度采样)

GOSS 为什么以梯度作为样本权重？

EFB（Exclusive Feature Bundling 互斥特征捆绑）

直方图优化算法（Histogram）

流程总结

增益计算公式：

优点：

并行学习（Parallel Optimization）

原理推导

分裂点查找算法（split finding algorithm）

基于 CCO 的协同过滤推荐

基于单一行为

基于内容推荐

评价

协同过滤

基于用户的协同过滤

基于物品的协同过滤

评价

关于推荐

人工 VS 个性化

推荐系统抽象

预处理

召回

排序

推荐系统架构

转载请注明出处:

提取文本标签特征

分类推断

转载请注明出处:

TWE (Topical Word Embedding)

主题模型

词向量模型

基于 TWE 提取关键词

算法比较

效果评价

论文参考

转载请注明出处:

二、RNN/LSTM 中的 num_units 是啥意思？

四、为什么 LSTM 要用 sigmoid 作为门控激活函数？

五、为什么 LSTM 的输入和输出值不用 sigmoid 而用 tanh 作为激活函数？