阿里妈妈开源Taobao-MM数据集,推荐系统研究有了新基准

发布时间:2025-12-17 15:20  浏览量:2

|有风

编辑 |有风

现在打开手机刷APP,不管是购物还是看视频,首页推荐是不是越来越懂你?这背后全靠推荐系统在发力。

它就像个“隐形管家”,每天分析你的点击、浏览,猜你喜欢啥,既让咱们用得爽,也帮平台多赚钱。

但这个“管家”最近有点头疼,你想想,咱们在一个APP上逛了几年,看过的商品、视频加起来可能几十万条,这就是“行为序列超长化”。

以前模型最多记几千条,早的行为根本顾不上。

而且除了点没点、买没买,商品图片啥样、视频讲啥内容,这些“多模态信息”也没用好,推荐自然差点意思。

就在这时候,阿里妈妈和武汉大学的团队联手搞出了个MUSE框架。

这框架就是来给推荐系统“补课”的,既要搞定超长行为序列,又要把多模态信息用明白。

今天咱们就来聊聊,它到底是怎么做到的。

早几年的推荐模型,说难听点就是“短期记忆选手”。

经典的DNN模型,最多看看你最近几百条行为,再早的就忘到后脑勺了。

后来出了个SIM框架,总算能处理上万条行为,但它有个毛病,太依赖ID特征。

商品ID、用户ID这些东西很稀疏,尤其那些不常出现的商品,ID表示质量差得很,根本抓不住你真正喜欢啥风格、啥类型。

你刷淘宝的时候肯定遇见过,明明上个月看了好几双运动鞋,这个月想买新的,推荐里却全是上个月看过的旧款。

为啥?因为模型只记得最近点过的ID,忘了你其实喜欢“轻便跑鞋”这个类型。

这就是光用ID不用多模态信息的锅,图片里的款式、描述里的材质,这些有用的信息都没用上。

MUSE框架就是冲着这俩问题来的,它的思路挺简单,先用多模态信息给行为“打标签”,再从超长序列里挑出最相关的,最后精细分析这些行为。

说直白点,就是先给推荐系统配个“扫描仪”,把商品图片、视频内容都看懂,再配个“筛选器”,从十万条行为里挑重点,最后用“分析师”仔细研究。

MUSE框架干活分两步,先“粗选”再“精读”,专业点叫GSU和ESU模块。

GSU模块就像个“速记员”,你有十万条行为,它不一条条看,直接用多模态embedding(可以理解成给商品内容做的“浓缩笔记”)算相似度。

比如你现在看一双白色运动鞋,GSU就把你过去所有行为的“笔记”拿出来,跟这个白色运动鞋的“笔记”比一比,挑出最像的几十条。

可能是你半年前看过的白色板鞋,也可能是三个月前收藏的轻便跑鞋

这样就把十万条行为浓缩成几十条,效率一下就上来了。

挑出来之后,ESU模块登场,它是“细抠专家”。

这里有两个小工具,SimTier和SA-TA。

SimTier更有意思,它把目标商品和每条历史行为的相似度画成“直方图”。

比如你看的白色运动鞋,跟过去行为的相似度有高有低,SimTier把这些相似度归归类,变成一个“兴趣summary”,一眼就能看出你对“白色”“轻便”“运动鞋”这些特征的偏好程度。

SA-TA则是给ID模型“打补丁”,以前算注意力得分只看ID,现在加上多模态相似度,还要看看这俩得分合不合得来。

比如某个商品ID得分高,但多模态相似度低,可能是你误点的,SA-TA就会调低它的权重。

最后把SimTier和SA-TA的结果拼一起,就是你“终身兴趣”的完整画像了。

光有算法还不行,工程落地才是硬道理。

十万条行为的数据拉过来,embedding调来调去,延迟肯定爆表。

团队想了个招,把GSU模块从关键路径里挪出去,提前异步算好,embedding也放就近的缓存里。

就像你点外卖前先把地址、电话填好,下单时就快多了。

现在MUSE已经在阿里妈妈的展示广告里全量用上了,据说CTR(点击通过率)提升了不少,效果确实看得见。

MUSE框架这波操作,给推荐系统行业提了个醒,别老盯着ID模型死磕,多模态信息才是“富矿”。

GSU阶段不用搞太复杂,简单的余弦相似度检索就够用,ESU阶段加点轻量模块,跟ID模型融合一下,效果就能涨一截。

工程上也别上来就想“怎么算得更准”,先解决“数据拉不过来”的问题,架构能扩展、投入产出比高,这才是聪明做法。

更实在的是,他们还开源了个Taobao-MM数据集。

这里面全是超长用户行为序列,还有高质量的多模态embedding,算是给研究人员和小团队送了个“练兵场”。

以前想研究“多模态+长序列”,还得自己费劲收集数据,现在有了这个公开基准,省了不少事。

开源这事儿,确实能让整个行业进步更快。

要说推荐系统的未来,肯定是从“只认ID”变成“多模态兴趣引擎”。

以后不只是商品图片、视频内容,可能连你看商品时的停留时长、放大缩小这些小动作,都会被当成多模态信息用上。

MUSE框架开了个好头,接下来就看更多团队怎么跟上了。

总的来说,MUSE框架就像给推荐系统装了个“超级大脑”,既能记住你几年前的偏好,又能看懂商品的“里里外外”。

以后咱们刷APP,可能真的会感叹,“这推荐,比我自己还懂我!”