个性化推荐系统的基本抽象

2017年6月29日FelixHo

在大多数 UGC、PGC、OGC 平台中，“推荐”随处可见，本文主要介绍个性化推荐系统的抽象组成。

关于推荐

人工 VS 个性化

早期的推荐功能大多以人工筛选为主。人工筛选可以确保内容的高质量，这是主要的优点之一，但人工筛选往往需要投入大量的人力成本。另外，由于不同用户的个人偏好差异巨大，高质量的内容往往不等于最合适的内容（例如：一篇介绍奢侈品牌化妆品的“高大上”内容对于一位平时只关心美食和户外运动的用户而言可能是毫无吸引力的）。
为了提升用户体验，后来出现了“个性化内容推荐”的概念，通过引入个性化推荐系统，解决这类“千人千面”的问题。

基于词向量的文本分类推断

2017年6月28日FelixHo

之前的文章中介绍过提取文本标签特征（关键词）的几种算法TF-IDF、TextRank、TWE, 提取到标签特征后，我们可以进一步推断文本的内容分类。本文主要介绍通过词向量模型进行内容分类的一般思路。

提取文本标签特征

假设有以下一段文本：

2016/17赛季欧冠决赛在威尔士卡迪夫千年球场打响，最终尤文图斯以1-4不敌皇家马德里，遗憾错失冠军。赛后，尤文门将布冯表示对结果非常失望，因为尤文已经做了所有能做的事情。

通过关键词提取算法我们提取到以下标签：
#欧冠、#决赛、#尤文图斯、#皇家马德里、#布冯、#门将、#球场、#冠军

假设我们有一个关于体育的分类体系:

图：分类体系

一级分类：体育
二级分类：篮球（关联标签：NBA，CBA，篮球，篮板球，助攻，盖帽，FIBA，姚明，乔丹，三双…）
二级分类：足球（关联标签：世界杯，亚冠，欧冠，中超，足球，英超，西甲，梅西，里皮，马拉多纳，门将，广州恒大，曼联…）

分类推断

通过词向量模型（Word2Vec）我们可以计算两个词之间的相似度（余弦距离）：

Similarity(tagA, tagB) = cos(tagA_Vec, tagB_Vec)

因此，计算文本与分类的相似度实际上就是计算文本的标签与各个分类的关联标签的相似度。
我们发现上面这段文本与足球的相似度大于与篮球的相似度:

Dist(doc_tags, soccer_tags) > Dist(doc_tags, basketball_tags)

所以推断它是关于足球的内容，再进一步把它归类到体育这个一级分类。

转载请注明出处:

© http://hejunhao.me

基于 TWE 模型的关键词提取

2017年6月25日FelixHo

在之前的两篇文章中分别介绍了两种常见的关键词提取算法：TF-IDF 和 TextRank。实际上不管是 TF-IDF 还是 TextRank，它们都没有考虑文本的语义，也就是文本的内容意义。为了进一步提升效果，我们引入主题模型（LDA）和词向量模型（word2vec）也就是TWE算法。

TWE (Topical Word Embedding)

主题模型

LDA

图：主题向量模型

在主题模型中每个主题实际上是一系列代表该主题的词的分布，例如：上图主题 Topic#1 包含的主题词分布主要有 “红包”、“微信”、“支付宝”、“玩法”等，文字大小代表该词的概率分布差异，可以推断 Topic#1 是一个关于新年红包活动的主题。

词向量模型

word2vec

图：词向量模型

在词向量模型中每个词都有自己的坐标，关联度越高的词相互的距离越近。例如：“梅西” 和 “足球” 的距离比 “奥巴马” 与 “足球” 的距离要近得多，所以 “梅西” 与 “足球” 的关联度相比 “奥巴马” 更高。

基于 TWE 提取关键词

通过主题模型我们可以知道一段文本的主题分布：P(topic | doc)
结合词向量和主题向量，我们可以通过余弦函数计算两者的距离：cos(word_vec, topic_vec)
通过计算词向量与该文本所有关联主题的主题向量的余弦相似度，最终得到词与文本的语义关联度：

 $Sim\displaystyle\text{(word, doc)}=\sum_{k=1}^K \cos(\text{word\_vec, topic\_vec}_{_k}) \times P(\text{topic}_{_k} \mid \text{doc})$

算法比较

假设有以下一段文本：

分别对该文本采用 TF-IDF、TextRank 以及 TWE 算法提取关键词，结果如下：

效果评价

TF-IDF 更倾向于高频词。
TextRank 综合考虑文本结构和词频，但它致命的问题在于，头尾的信息由于只有单边的入度，容易被抛弃掉，例如本例中的核心词 “pagerank”。
TWE 更强调语义相关性，实际的提取效果也优于前面两种方式。

论文参考

Yang Liu, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun. 2015 Topical Word Embeddings
Di Jiang, Zeyu Chen, Rongzhong Lian, Siqi Bao and Chen Li. 2017. Familia: An Open-Source Toolkit for Industrial Topic Modeling. arXiv preprint arXiv:1707.09823.

FelixHo's Space

42 is the ANS to everything

Menu

Widgets

Search

Month: 6月 2017

个性化推荐系统的基本抽象

关于推荐

人工 VS 个性化

推荐系统抽象

预处理

召回

排序

推荐系统架构

转载请注明出处:

基于词向量的文本分类推断

提取文本标签特征

分类推断

转载请注明出处:

基于 TWE 模型的关键词提取

TWE (Topical Word Embedding)

主题模型

词向量模型

基于 TWE 提取关键词

算法比较

效果评价

论文参考

转载请注明出处: