Quiz1 for traditional recommendation models.


问答

  1. 从基于用户的协同过滤和基于物品的协同过滤的原理思考,下列场景中使用哪种协同过滤算法更加合适?为什么?
    (1)新闻资讯推荐
    (2)电商网站推荐
    答:(1)基于用户的协同过滤算法更合适。因为新闻推荐的重点在实时和热点,如果使用ItemCF算法就需要维护物品表,新闻(此处的物品)更新速度太快,数量多,增加了维护难度。
    (2)基于物品的协同过滤算法更合适。因为电商网站用户量数量级很大,如果采用UserCF方法,就需要维护用户表。而且一旦有新用户加入,此表又要更新,不适用于用户量极大且变化的场景。而ItemCF则比较合适,因为用户兴趣在段时间内不会发生太大变化,而且更能捕捉到长尾商品,进行个性化推荐。
  1. 为什么逻辑回归模型在工业界受到的了广泛应用?LR相对于其他的模型,尤其是GBDT模型,突出的优点是什么?
    答:因为逻辑回归模型简单且效果明显。对于高维稀疏特征,LR会比GBDT模型好,因为带正则化项的线性模型相较非线性模型不容易对稀疏特征过拟合。

  2. 为什么说提升树模型(GBDT)难以并行化?从Boosting方法的原理上给出简单的解释。
    答:Boosting是一种通过组合弱学习器来产生强学习器的通用且有效的方法。GBDT属于Boosting方法,是一种迭代的决策树算法,每轮都基于前一轮的残差进行训练,这个依赖关系导致难以并行。

参考

高维稀疏特征的时候,lr 的效果会比 gbdt 好