掌握线性代数，精通推荐系统

　　发布于2024-12-18　阅读（0）

扫一扫，手机访问

作者 | 汪昊

审校 | 重楼

说到21 世纪互联网的技术，除了 Python / Rust / Go 等一系列新型编程语言的诞生，信息检索技术的蓬勃发展也是一大亮点。互联网上第一个纯技术商业模式就是以谷歌和百度为代表的搜索引擎技术。然而让大家臆想不到的是，推荐系统诞生的年代也很久远。早在1992 年，人类历史上第一个推荐系统就以论文的形式发表出来了，而在这个时候，谷歌和百度还没有诞生。

学好线性代数，玩转推荐系统

不像搜索引擎那样被人们认为是刚需，很快就诞生了许多独角兽。以推荐系统为核心技术的科技公司要等到2010 年代今日头条和抖音崛起后才会出现。毫无疑问，今日头条和抖音成为了推荐系统最成功的代表性公司。如果说第一代信息检索技术搜索引擎是美国人先发制人，那么第二代信息检索技术推荐系统就被牢牢的控制在中国人手里。而我们现在遇到了第三代信息检索技术—— 基于大语言模型的信息检索。目前来看先发者是欧美国家，但目前中美正在齐头并进。

近几年来，推荐系统领域的权威会议 RecSys 频频将最佳论文奖颁给序列推荐（Sequential Recommendation）。这说明该领域目前越来越重视垂直应用。而有一个推荐系统的垂直应用是如此重要，但至今都没有掀起滔天巨浪，这个领域就是基于场景的推荐（Context-aware Recommendation），简称CARS。我们偶尔会见到有些 CARS 的Workshop，但是这些Workshop 的论文每年不超过10 篇，门可罗雀。

CARS 可以用来干什么？首先CARS 已经被汉堡王等快餐公司使用。它还可以在用户驾驶汽车的时候，根据场景给用户推荐音乐。另外，我们可以畅想一下，我们有没有可能根据天气状况给用户推荐出行计划？抑或是根据用户的身体状况给用户推荐餐饮？其实，只要我们充分的发挥自己的想象力，总是能给CARS 找出不同的落地应用。

然而问题来了，既然CARS 的用途这么广泛，为什么这么少的人发表论文？原因很简单，因为CARS 几乎没有公开的数据集可以使用。目前最好用的 CARS 的公开数据集是来自斯洛文尼亚的LDOS-CoMoDa 数据集。除此之外，我们很难找到别的数据集合。LDOS-CoMoDa 利用调研的形式提供了用户观影时的场景数据，使得广大研究人员从事 CARS 研究成为了可能。数据公开的时间点在2012 年到2013 年左右，但是目前知道这个数据集合的人很少。

言归正传，本文主要介绍MatMat / MovieMat 算法和PowerMat 算法。这些算法都是用来解决 CARS 问题的利器。我们先来看一下MatMat 是如何定义CARS 问题的：我们首先重新定义用户评分矩阵，我们把用户评分矩阵的每一个评分值替换成方阵。方阵的对角线元素是原始的评分值，非对角线元素都是场景信息。

学好线性代数，玩转推荐系统

我们下面定义 MatMat 算法的损失函数，该函数修改了经典的矩阵分解损失函数，形式如下：

学好线性代数，玩转推荐系统

其中 U 和V 都是矩阵。我们通过这种方式，改变了原始的矩阵分解中的向量点乘。将向量点乘变成了矩阵乘法。我们举下面一个例子来看：

学好线性代数，玩转推荐系统

我们在MovieLens Small Dataset 上做一下性能对比实验，得到如下结果：

学好线性代数，玩转推荐系统

可以看到，MatMat 算法的效果优于经典的矩阵分解算法。我们再来检查一下推荐系统的公平性：

学好线性代数，玩转推荐系统

可以看到，MatMat 在公平性指标上表现依然不遑多让。MatMat 的求解过程较为复杂，即便是发明算法的作者本人，也没有在论文中写出推导过程。但是俗话说的好，学好线性代数，走遍天下都不怕。相信聪明的读者自己一定能推导出相关的公式，并实现这个算法。MatMat 算法论文的原文地址可以在下面的链接找到：https://arxiv.org/pdf/2112.03089.pdf 。这篇论文是国际学术会议IEEE ICISCAE 2021 最佳论文报告奖。

MatMat 算法被应用在了基于场景的电影推荐领域，该算法的电影实例被命名为MovieMat。MovieMat 的评分矩阵是按照如下方法定义的：

学好线性代数，玩转推荐系统

作者随后做了对比实验：

学好线性代数，玩转推荐系统

在LDOS-CoMoDa 数据集合上，MovieMat 取得了性能远高于经典矩阵分解的效果。下面我们来观察一下公平性的测评结果：

学好线性代数，玩转推荐系统

在公平性方面，经典矩阵分解取得了优于MovieMat 的结果。MovieMat 的原始论文可以在下面的链接找到：https://arxiv.org/pdf/2204.13003.pdf 。

我们有的时候会遇到这样的问题。我们新到了一个地点，光有场景数据，而没有用户评分数据该怎么办？不要紧，Ratidar Technologies LLC (北京达评奇智网络科技有限责任公司) 发明了基于零样本学习的 CARS 算法—— PowerMat。PowerMat 的原始论文可以在下面的链接找到：https://arxiv.org/pdf/2303.06356.pdf 。

PowerMat 的发明人借用了MAP 和DotMat，定义了如下的MAP 函数：

学好线性代数，玩转推荐系统

其中U 是用户特征向量、V 是物品特征向量、R 是用户评分值，而C 是场景变量。具体的，我们得到如下公式：

学好线性代数，玩转推荐系统

利用随机梯度下降对该问题进行求解，我们得到下述公式：

学好线性代数，玩转推荐系统

通过观察，我们发现在这组公式里没有出现任何输入数据相关的变量，因此 PowerMat 是仅与场景相关的零样本学习算法。该算法可以应用在如下场景：游客打算去某地旅游，但是从来没有去过当地，因此只有天气等场景数据，我们可以利用 PowerMat 给游客推荐打卡景点等等。

下面是PowerMat 和其他算法的对比数据：

学好线性代数，玩转推荐系统

通过这张图，我们发现PowerMat 和MovieMat 旗鼓相当，不分伯仲，并且效果都要优于经典的矩阵分解算法。而下面这张图显示，即使是在公平性指标方面，PowerMat 依旧表现强劲：

学好线性代数，玩转推荐系统

通过对比实验，我们发现PowerMat 是优秀的CARS 算法。

互联网的数据工程师经常说数据高于一切。并且在2010 年代左右互联网有一股强劲的看好数据看衰算法的风气。CARS 是个很好的例子。因为绝大多数人得不到相关数据，因此这个领域的发展一直受到了很大的限制。感谢斯洛文尼亚的研究人员公开了 LDOS-CoMoDa 数据集合，使得我们有机会发展这个领域。我们也希望有越来越多的人关注 CARS，落地 CARS，为 CARS 融资……

作者简介

汪昊，前Funplus 人工智能实验室负责人。曾在ThoughtWorks、豆瓣、百度、新浪等公司担任技术和技术高管职务。在互联网公司和金融科技、游戏等公司任职13 年，对于人工智能、计算机图形学和区块链等领域有着深刻的见解和丰富的经验。在国际学术会议和期刊发表论文42 篇，获得IEEE SMI 2008 最佳论文奖、ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 / ICSIM 2024 最佳论文报告奖。

本文转载于：https://www.51cto.com/article/783991.html 如有侵犯，请联系admin@zhengruan.com删除

上一篇：北邮研究人员发布可控图像生成综述，整理了249篇文献，涵盖Text-to-Image Diffusion领域不同条件

下一篇：Hinton、Bengio与中国专家合作共同确定AI安全红线

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

奇瑞星途推出全新纯电动SUV星纪元ET，配备宁德时代超充电池，即将开始预售

奇瑞汽车旗下高端品牌星途汽车宣布，全新中大型SUV车型——星纪元ET，即将在4月15日开始接受预售。这款车是星纪元品牌的第二款车型，也是品牌首款纯电动SUV。原计划于今年一季度推出，但现在推迟至4月份。据小编了解，星纪元ET在研发上基于全新的E0X高端智能电动平台，其设计语言独特，前脸采用封闭式中网搭配LED贯穿式日间行车灯，交互式大灯组的加入更增添了科技感。车身尺寸为长4955mm、宽1975mm、高1698mm，轴距达到了3000mm，为乘客提供了宽敞的内部空间。此外，新车还提供了丰富的选装配置，包括

11分钟前奇瑞 0
正版软件

保时捷设计携手荣耀，全新Magic6 RSR超高端旗舰手机闪耀登场

荣耀昨日与“保时捷设计”联手发布了全新高端旗舰手机荣耀Magic6RSR，定价高达9999元。这款手机是继荣耀MagicV2RSR保时捷设计之后的又一力作，再次展现了荣耀与保时捷设计在高端手机市场的深度合作。荣耀Magic6RSR保时捷设计在外观上融入了多处保时捷超跑的经典设计元素。手机背部线条的设计灵感源自保时捷经典的飞线式设计，使整个机身与镜头组的线条流畅而富有动感。相机模组采用了保时捷标志性的六边形设计，这一设计元素在保时捷的LOGO和跑车细节中都有体现，为手机增添了立体感和速度感。据小编了解，荣耀

21分钟前荣耀 0
正版软件

蔚来汽车推出全新75kWh电池包，采用磷酸铁锂电池技术进行全面升级

3月19日消息，蔚来汽车近日宣布，经过全面的技术提升，其75kWh标准续航电池包即将启动交付。此次升级在算法、材料和性能三大方面都取得了显著的进步，特别值得关注的是，新电池包将全面采用磷酸铁锂电池，不再混合使用三元铁锂电池。宁德时代生产的全新75kWh电池包将很快随着2024款新车的上市陆续交付给消费者。这款电池包在BMS系统方面进行了重要的革新，其SOC估算精度与之前的三元铁锂混合电池包相当，保持着行业领先水平。消费者可以期待这一新型电池包为车辆带来更高效的性能和更长的续航里程。宁德时代作为电池行业的领

36分钟前蔚来汽车 0
正版软件

北京BJ40荣耀版全新发布，价格13.98万起，有多种版本可选

根据“北京汽车”官方微博发布的最新消息，北京BJ40荣耀版越野车已经正式上市。该车型推出了三种不同版本，分别为刀锋英雄荣耀版、城市猎人荣耀版和致敬2020荣耀版，售价区间为13.98万元至15.58万元。这一系列车型的推出旨在满足广大消费者不同的需求和偏好。在外观设计上，全新北京BJ40荣耀版以前代车型为基础进行了创新和改进。其中，刀锋英雄荣耀版更侧重于越野穿越功能，城市猎人荣耀版则兼顾了城市驾驶的实用性，而致敬2020荣耀版作为“青春版”短轴两门车型，展现出更为紧凑和灵活的特点。这三款车型都可以选择装备

51分钟前北京汽车 0
正版软件

荣耀Magic6 RSR推出京东方双栈串联OLED屏幕，开启手机屏幕创新时代

昨晚，荣耀盛大发布了备受期待的旗舰手机荣耀Magic6至臻版，以及与保时捷合作设计的Magic6RSR特别版。这两款手机在性能和显示技术方面都取得了显著突破，成为业内关注的焦点。荣耀Magic6至臻版不仅性能强劲，还融入了最新的显示技术，引领着行业发展的潮流。这次发布让人们对荣耀品牌的创新能力和实力有了更深刻的认识，预示着荣耀在智能手机领域的持续领先地位。京东方表示，荣耀Magic6RSR保时捷设计全球首发采用了京东方的Tandem双栈串联OLED智能机终端方案。这项创新技术为手机带来了超高亮度、超长续航

2小时前 23:00 荣耀 0

掌握线性代数，精通推荐系统

作者简介

产品推荐

最新发布

相关推荐

热门关注