技能GET | 推荐策略中的“召回”

技能GET 2019-03-14

推荐理由：推荐策略中“召回”是什么，“召回”策略的评估指标以及推荐系统如何“召回”？看作者如何详细拆解推荐策略中的“召回”。

（本文由 @Alex 授权发布，未经作者许可，禁止转载）

当你打开一个资讯APP刷新闻时，有没有想过，系统是如何迅速推送给你你想看的内容？资讯APP背后有一个巨大的内容池，系统是如何判断要不要将某条资讯推送给你的呢？这就是笔者今天想跟大家探讨的问题——推荐策略中的召回。

召回是什么

推荐系统如何根据已有的用户画像和内容画像去推荐，涉及到两个关键问题：召回和排序。

“召回（match）”指从全量信息集合中触发尽可能多的正确结果，并将结果返回给“排序”。

召回的方式有多种：协同过滤、主题模型、内容召回和热点召回等，而“排序（rank）“则是对所有召回的内容进行打分排序，选出得分最高的几个结果推荐给用户。

浅谈推荐策略中的「召回」

图1 推荐系统的算法流程

在搜索系统中，用户会输入明确的搜索词，根据搜索词进行内容的召回和呈现即可，但在推荐系统中，用户没有一个明确的检索词（Query）输入，推荐系统需要做的，就是根据用户画像、内容画像等各种信息为用户推荐他可能感兴趣的内容。

另外，由于没有明确的检索词，推荐系统就需要从整个信息集合中挑选出尽可能多的相关结果，同时又需要剔除相关性较弱的结果，降低排序阶段的工作量。

怎样的召回策略是好的

召回策略的评估主要根据两个评价指标：召回率和准确率。

召回率（Recall）=系统检索到的相关内容 / 系统所有相关的内容总数准确率（Precision）=系统检索到的相关内容 / 系统所有检索到的内容总数。

以搜索为例，当用户搜索“北京大学”时，想看到北大相关的网站、新闻等，系统返回了以下三个网页：

a. 北京大学保安考上研究生；

b. 北京互联网工作招聘；

c. 大学生活是什么样的；

可以看到，只有a是用户真正想看到的，其他两个和用户搜索词无关，而事实上数据库里还有这种网页：

d. 北大开学季；

e. 未名湖的景色；

d、e这两个网页没被搜索到，但它们和“北京大学”的相关度其实是超过b、c的，也就是应该被搜索（被召回）到但实际并没有显示在结果里的，所以，这个系统的：

召回率 = a / (a + d + e)=0.33；
准确率 = a /(a + b + c)=0.33。

这是搜索情境下的召回率和准确率，而“推荐”其实就是没有检索词输入时的搜索，例如，用户并没有输入“北京大学”这样的关键词，但其实他是北京大学的学生，对自己学校相关的新闻很感兴趣，推荐系统的召回就是要根据用户画像、内容画像等各种信息，为用户提供他感兴趣的相关内容，所以也存在召回率和准确率的问题。

召回率和准确率有时存在相互制衡的情况，好的召回策略应该在保证高准确率的情况下也保证高召回率。

当然，召回率和准确率也是存在一定关系的，而我们在做实际项目的优化目标通常是希望用户所检索的内容能够在召回率和准确率两方面都表现都好。

举个例子（或许不够准确，仅供参考）如表1，机器在给用户推荐内容的时候，会出现A（准确并召回）、B（准确不召回）、C（不准确召回）、D（不准确不召回）四种情况。那么，最理想的就是A、C两种情况。

表1 内容召回的4种情况

今日头条的召回策略

今日头条作为业界推荐系统方面的顶级选手，不免有人会好奇，它的召回策略是怎样的？

今日头条的算法架构师曾在接受采访时表示，今日头条有一个世界范围内比较大的在线训练推荐模型，包括几百亿特征和几十亿的向量特征。但因为头条目前的内容量非常大，加上小视频内容有千万级别，推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略，从庞大内容中筛选一个模型组成内容库。

召回策略种类有很多，今日头条主要用的是倒排的思路。离线维护一个倒排，这个倒排的key可以是分类，topic，实体，来源等，排序考虑热度、新鲜度、动作等。线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断，高效地从很大的内容库中筛选比较靠谱的一小部分内容。基于召回策略，把一个海量、无法把握的内容库，变成一个相对小、可以把握的内容库，再进入推荐模型。这样有效平衡了计算成本和效果。

参考文献

【1】闫泽华，《内容算法》，中信出版集团

【2】CSDN博客：信息流推荐算法实践 &深入 https://blog.csdn.net/dengxing1234/article/details/79756265

【3】IBM官网资料探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

【4】今日头条推荐算法原理首公开，头条首席算法架构师带来详细解读 https://www.leiphone.com/news/201801/XlIxFZ5W3j8MvaEL.html

学员后花园