申报倒计时7天丨2025年CCF-阿里妈妈科技袋基金
发布时间:2025-03-20 09:32 浏览量:7
2025年CCF-阿里妈妈科技袋基金即将于2025年3月26日 24:00(北京时间)截止申报,欢迎CCF会员积极申报。
2025年2月27日,CCF联合阿里妈妈正式发布「CCF-阿里妈妈科技袋基金」第二期,聚焦在「多模态智能方向」展开研究,涵盖原生多模态预估模型、基于多模态信息的用户意图识别、多模态图文创意制作、多模态视频创意制作等四个子方向,共十个课题,基金课题资助金额为人民币30万元/项,项目合作周期一年,申报截止时间:2025年3月26日24:00(北京时间),本文将详细介绍每个课题:
方向一:多模态推荐系统的递进式算法创新研究
概述:在数字经济时代背景下,用户在淘宝等平台的交互行为呈现多模态复杂化趋势。文本、图像、视频等原生多模态数据可提供较传统ID特征更丰富的语义信息,但当前工业级推荐系统仍普遍采用ID主导的特征体系。该体系存在本质性缺陷:其一,ID表征无法有效捕捉商品内容语义(如服饰纹理风格、视频剧情元素),导致语义建模缺失;其二,新ID冷启动需依赖大规模用户行为数据拟合,形成数据效率瓶颈。针对此现状,现有研究虽尝试引入多模态信息,但对多模态的融合较为粗放,未释放多模态信息在推荐系统中的潜力。
本研究提出多模态推荐系统的渐进式技术演进路径,包含两个关键技术阶段:在多模态增强范式创新阶段,重点突破基于多模态数据的用户终身行为建模与生成式编码技术(课题1&课题2);在原生架构重构阶段,探索去ID化的端到端训练范式(课题3)。通过系统性技术攻关,最终实现推荐系统从ID依赖向多模态原生架构的跃迁。
课题1.基于全生命周期多模态交互数据的行为序列建模
课题描述:推荐系统的建模精度与用户行为序列的时间覆盖度呈强正相关。当前基于多模态交互数据的行为序列建模方法受限于短期行为窗口(通常≤360天),难以捕捉用户兴趣的长周期演变规律。本课题将探索一种基于全生命周期多模态交互数据的行为序列建模框架,通过全面分析用户历史中的多模态交互行为,精准描绘用户兴趣的演变和偏好变化过程。本课题将在淘宝十亿级用户行为日志上进行技术验证,构建更为精确的用户行为预估模型,从而提升推荐系统对用户的深层次理解,并改善个性化和多样性推荐的效果。
课题资助(阿里妈妈提供):
1.淘宝推荐数据集;
2.必要的训练基础设施(包含CPU、GPU和存储);
3.算法原型上线的工程协助。
课题目标:
1.基于原生多模态信息的用户终身行为建模模型及相应的源代码;
2.产出CCF-A类论文1~2篇;
3.(鼓励)在阿里妈妈正式员工的协作下,将算法模型上线并带来正向业务效果。
课题2.基于生成式模型的用户行为编码与预测研究
课题描述:现阶段,大多数推荐系统依赖于判别式模型。然而,生成式模型在推荐系统中的应用正迅速引起关注。这些模型可以对用户的历史交互行为模式进行编码,并预测用户可能的未来交互商品列表。本课题旨在开发和优化生成式模型,以更高效地编码用户多样化的行为,并准确预测其未来行为。此外,将深入研究生成式编码在提升个性化推荐准确性方面的潜力,特别是在处理行为数据稀疏的用户群体时的应用效果。
课题资助(阿里妈妈提供):
课题目标:
1.用户行为编码模型及相应的源代码;
2.产出CCF-A类论文1~2篇;
3.(鼓励)在阿里妈妈正式员工的协作下,将算法模型上线并带来正向业务效果。
课题3. 多模态推荐系统的端到端训练范式研究
课题描述:当前,工业界推荐系统对于多模态数据的应用,普遍采用两阶段建模范式(预训练表征+推荐模型应用)。本课题探索一阶段的端到端建模方法,即直接将商品的原始多模态信息作为输入,并进行端到端优化。该方法旨在通过联合优化多模态数据编码和用户行为预估,提高推荐系统性能。
课题资助(阿里妈妈提供):
课题目标:
1.产出端到端训练范式的模型及相应的源代码;
2.产出CCF-A类论文1~2篇;
3.(鼓励)在阿里妈妈正式员工的协作下,将算法模型上线并带来正向业务效果。
方向二、基于多模态信息的用户意图识别
概述:在电商生态中,用户行为(浏览、收藏、购买、退款等)构成了一个多维度的交互网络,其背后折射出丰富的用户意图与偏好。以浏览点击为例,其背后可能体现的是用户的「探索性需求」(如浏览种草)或「信息收集需求」(如相似产品比价):前者驱动平台推荐多样化商品以激发用户兴趣,后者则导向高匹配度或高性价比商品以促成购买。通过深度解析行为数据,精准识别用户意图——例如用户是在「同款比价」还是「满减凑单」——能够为平台流量分发的关键环节(如点击率/转化率预估、广告出价等)提供决策的关键依据,从而最大化投放效率与商业价值。
同时,电商场景的用户交互天然呈现多模态特性:以购买行为为例,用户在点击购买按钮的瞬间,其决策过程往往受到多维度因素的影响:浏览路径(行为模态)、商品图的视觉吸引力(图像模态)以及其他用户的评价(文本模态)。这种复杂性决定了单一模态数据难以全面刻画用户意图。多模态信息融合为解决这一问题提供了新的范式——通过整合行为、文本、图像等多种模态的数据,系统能够更全面地捕捉用户的意图和偏好。例如,分析用户在商品详情页的停留时间(行为信息)和对商品评价的浏览情况(文本信息),可以更好地理解用户在购买决策过程中的考量。
综上所述,基于多模态信息的用户意图识别对于电商平台推荐系统的建模具有重要的意义。它不仅能够提升推荐的准确性和个性化程度,还能够增强用户对平台的信任和满意度,最终推动电商平台的持续发展和商业成功。
课题1. 基于模态信息融合的用户转化意图识别
课题描述:电商平台中用户行为(点击、购买、退款等)背后,蕴含着复杂的意图与情感因素,而传统单一模态分析方法难以全面捕捉这些深层次信息。本课题旨在突破这一局限,通过融合用户历史行为、文本、图像、语音等多模态数据,深度挖掘用户在浏览过程中的真实意图与潜在需求。具体而言,我们将从多维度构建分析框架:基于用户浏览前的搜索关键词(文本模态)、商品详情页停留时长(行为模态)及商品图片浏览行为(图像模态)等多源信息,构建精准的用户意图识别模型。该模型能够有效区分用户浏览背后的转化行为(购买、收藏、加购等)动机,例如查看希望购入商品的信息(真实购买需求)与大促期间搜寻合适价位商品凑单(伪购买需求),从而为平台优化流量分发策略提供科学依据,实现用户体验与商业价值的协同提升。
课题资助(阿里妈妈提供):
1.淘宝用户行为数据集;
2.必要的训练基础设施(包含CPU、GPU和存储);
3.算法原型上线的工程协助。
课题目标:
1.产出算法模型及相应的源代码;
2.产出CCF-A类论文1~2篇;
3.(鼓励)在阿里妈妈正式员工的协作下,将算法模型上线并带来正向业务效果。
方向三、多模态中文广告海报制作
概述:在淘宝app内外部广告投放中,图文海报(如下图所示)是向用户传递信息的主要形式之一,其视觉质量与点击率等投放效率指标有直接关联,但优质的广告海报有较高的制作门槛与成本。随着生成技术的快速发展,业界出现很多广告海报的自动生成方法,如结合图像修复(inpainting)为商品前景补全背景/文字、用大语言模型产营销文案内容等。但生成结果仍有明显不足与提升空间,问题主要集中三方面:商品与背景融合度不足、文案内容与图像内容不协调、图文布局不合理与文字生成准确性不够。为了进一步提升广告海报的生成质量,提升广告投放效果,我们从这三项问题出发,关注于以下三个关键课题:
课题1. 生成式光影和谐化方法研究与应用
课题描述:为得到一张具有吸引力的广告海报,根据商品生成一张场景图是基础,业界主流采用的是具有图像修复(inpainting)功能的文生图大模型。但这种方法的前景外观是保持不变的,会造成前背景的光影不一致,降低生成结果的真实感与美观度;同时这种方法会维持商品前景的位置、视角不变,一定程度上也限制了背景的自由度与前背景间的融合感。为缓解这一问题,主要有两个思路,一个是直接采用图像和谐化(image harmonization)、重打光(relight)等后处理优化,面临光影改变小或颜色失真等问题,也无法解决图像修复中商品前景位置/视角无法改变的问题。另一种思路则是采用OminiControl等主体驱动(subject-driven)的方法,理论上能根本上解决上述问题,但目前面临商品主体难以与原商品一致的困境。因此本课题将探索如何改进现有主体驱动方法,突破图像修复方法对商品光影/位置/角度的限制,同时保持生成结果中商品与原商品的高度一致性,从而制作出视觉质量更好的商品图。
课题资助(阿里妈妈提供):
1.海量淘宝商品图片数据;
2.必要的数据集收集和处理外包人力协助;
3.必要的训练基础设施(包含CPU、GPU和存储);
4.算法原型上线和产品化的工程协助。
课题目标:
1.产出算法模型及相应的源代码;
2.产出CCF-A类论文1~2篇;
3.在淘宝电商场景,经过人工盲测评估, 70%以上的产出图片的光影和谐程度有所改善, 且其余视觉指标保持基本不变(如背景美观度、商品一致性等)。
4.(鼓励)算法模型进入目前的广告海报制作生产主流程,带来正向业务效果。
课题2. 基于图片布局和内容感知的电商海报文案生成
课题描述:商品海报作为电商场景的重要信息载体,其文本元素的生成质量直接影响商品视觉呈现的转化效能。当前生成式AI在电商海报创作中存在显著局限:现有方案普遍采用分步式生成机制,即先独立生成文本内容,再通过规则或者模型预测的方式渲染到商品图片上。这种割裂式流程导致三大核心问题:(1) 文本特征(条数、字数、内容)与视觉元素(留白区域、色彩对比、构图重心)匹配失准;(2) 文案风格(情感基调、修辞手法、语言质感)与图像氛围(商品调性、场景设定、美学风格)协同失效;(3) 信息传达效率受限于非结构化布局适配,造成用户注意资源耗散。
如何在文案生成过程中有效融入视觉布局感知机制,既确保文本与视觉元素的协调,又保持文案的创意和吸引力,仍然是当前亟待解决的关键问题。因此期望通过本课题研究,提升海报文案生成对视觉布局的感知能力,实现文案在商品图中的呈现效果更加协调、美观,从而带来业务效果的提升。
课题资助(阿里妈妈提供):
1.海量淘宝商品海报图片、图上文案以及对应的商品描述语料;
2.必要的数据集收集和处理外包人力协助;
3.必要的训练基础设施(包含CPU、GPU和存储);
4.算法原型上线和产品化的工程协助。
课题目标:
1.产出基于图片布局和内容感知的创意文案生成算法原型及相应的源代码;
2.产出CCF-A类论文1~2篇;
3.在淘宝电商场景,经过人工盲测评估, 70%以上的海报图片的图上文案在图文协调性和吸引力方面有提升;
4.(鼓励)算法模型进入目前的广告海报制作生产主流程,带来正向业务效果。
课题3. 中文广告海报自动生成方法研究与应用
课题描述:完整的广告海报制作过程相对复杂,不仅需要考虑商品前景与背景的融合以及文案内容的生成,还需关注整体图文元素的布局和文字的渲染,确保各组成部分在内容和视觉上的一致与和谐。当前的自动化生成方法通常分为多个阶段(见参考文献1):
1.根据商品前景和背景prompt生成底图;
2.将要填的文案与底图作为模型输入,生成文案与其装饰元素的布局;
3.根据文案内容与布局渲染出文案、装饰元素。
我们将其步骤和任务定义进行调整,得到改进后流程(如下图所示,见参考文献2和参考文献3):
(现采用的改进后流程)
1.根据商品前景、文案内容、背景prompt,生成前景、文案与其装饰元素等的布局 ;
2.根据商品前景、布局、文案内容生图。
然而,如下方图所示,仍面临两个问题:一是布局合理性及美观度仍有待提高;二是中文文字生成难度较大,常出现笔画错误等现象。
(现有生成结果的badcase)
因此,为提升图文海报的生成质量,本课题探索点有两方面: 1)进一步提升布局生成的合理性与美观度;2)研究如何利用不同的特征与模型结构提升生成中文文字的准确性。可以任选其中一个方面探索。
课题资助(阿里妈妈提供):
课题目标:
1.产出算法模型及相应的源代码;
2.产出CCF-A类论文1~2篇;
3.在淘宝电商场景,经过人工盲测评估, 70%以上的产出图文海报整体视觉美观度提升,提升点包括画面布局合理性、中文文字的准确性(任选其一)。
4.(鼓励)算法模型进入目前的广告海报制作生产主流程,带来正向业务效果。
方向四、多模态视频创意制作
概述:随着数字内容消费模式的不断演变,视频已经成为人们获取信息、分享体验以及进行商业推广的重要媒介,展现出巨大的商业价值。然而,视频繁琐的制作过程使得许多创作者面临高昂的时间和技术门槛。尽管市面上已经存在一些智能剪辑工具,但生成的视频在流畅性、真实性以及描述的精准度、画面表现力方面仍存在显著的提升空间。通过研发更优效果、更高效率的新一代视频创作技术,能够快速降低视频创作成本,充分释放视频的商业价值。通过对内容创作者的主流创作路径进行分析,我们发现视频智能创作主要有三个挑战:一是整体协调、细节突出的视频剧情创作,二是与视频剧情相得益彰的视觉内容布局,三是高效率低成本的视频生成推理技术。为了应对这些挑战,我们专注于以下三项关键课题:
课题1. 基于多模态的电商视频剧本生成
课题描述:目前采用大语言模型进行视频剧本创作已逐渐成为主流方法,创作者以纯文本方式将创作指令、背景说明、素材描述等内容输入大语言模型,模型输出视频剧本内容。但是在这种方式下,会存在天然的信息缺失、不准确等现象。尤其是视频创作过程中,创作者往往会使用大量的复杂视觉素材,会放大这样的问题。本课题将重点研究如何利用多模态技术,准确高效地将大量复杂视觉素材和其他文本类素材一并输入创作模型,让创作模型在获取全面信息的前提下,遵循用户指令,完成有吸引力的且整体协调、细节突出的视频剧情创作。同时为了进一步提升剧本质量、降低生成风险,设计并探索创作模型自我判别与优化的能力,通过自我迭代式生成提升剧本质量。
课题资助(阿里妈妈提供):
1.淘宝商品电商视频;
2.由剧本到完成视频制作的全生产流程,可以观察到剧本对视频制作产生的影响;
3.必要的数据集收集和处理外包人力协助;
4.必要的训练基础设施(包含CPU、GPU和存储);
5.算法原型上线和产品化的工程协助。
课题目标:
1.完成电商视频剧本数据集构建,剧本文案生成和质量判别算法设计,交付一套视频剧本文案算法的源代码;
2.发表 CCF-A 类或者领域内顶级会议、期刊论文1~2篇;
3.视频剧本内容在商品信息准确性、完整性、多样性等方面优于开源模型生成结果;
4.(鼓励)实际应用至阿里妈妈广告视频制作中,带来正向业务结果。
课题2.电商视频装饰元素的时-空布局预测
课题描述:在视频中加入优质特效、特色字幕等装饰元素,往往会大幅增加内容吸引力和代入感。目前的视频创作流程中,装饰元素的添加非常依赖于创作者的自主设计或设计师提供的固定参考样例。这样的现状存在多样性不足、装饰元素与基底视觉内容冲突、与剧情发展不匹配等问题。本课题将重点探索如何利用多模态技术,对基底视觉内容、剧情发展、以及装饰元素素材进行深度理解,实现在视频生成过程中动态布局和规划装饰元素的添加时间、位置、方式等,让装饰元素在视频中展现出画龙点睛的效果,最终实现自动化的视频视觉设计。同时,通过多种装饰元素创作工具的合理调用,提升装饰元素多样性和趣味性。
课题资助(阿里妈妈提供):
1.淘宝商品电商视频;
2.由剧本到完成视频制作的全生产流程,可以观察到元素时-空布局对视频制作产生的影响;
3.必要的数据集收集和处理外包人力协助;
4.必要的训练基础设施(包含CPU、GPU和存储);
5.算法原型上线和产品化的工程协助。
课题目标:
1.完成特效、字幕等装饰元素布局预测算法的设计、实现和评估,交付一套可在生产环境中运行的源代码;
2.发表 CCF-A 类或者领域内顶级会议、期刊论文1~2篇;
3.经人工评测,电商视频的装饰元素时-空布局预测预测合理性率优于开源模型;
4.(鼓励)实际应用至阿里妈妈广告视频制作中,带来正向业务结果。
课题3. 文生视频模型高效预测方法研究
课题描述:文生视频技术是电商视频创作的重要素材来源,降低生成成本有助于实现规模化供给。基于扩散模型的视频生成技术发展迅速,在某些领域的生成效果已经满足应用要求。但是由于视频生成大模型参数量越来越大(10B级别)、降噪步数较多(50步~100步为主)等原因,视频生成推理成本高昂。无论是文生视频、图生视频等视频生成大模型的原生应用,还是通过视频生成大模型实现视频创作过程中的视频素材批量供给,高昂的推理成本无疑是当前规模化应用的关键阻碍之一。本课题将重点探索基于扩散模型的视频生成大模型特有的高效蒸馏策略,使用更小模型替代大模型、更少步数替代上百步的迭代降噪,实现应用的快速落地和素材的规模化供给。
课题资助(阿里妈妈提供):
1.待优化的视频生成模型;
2.必要的训练基础设施(包含CPU、GPU和存储);
3.算法原型上线和产品化的工程协助。
课题目标:
1.完成视频扩散模型的高效预测算法设计,交付一套用于视频生成高效推理的源代码;
2.发表 CCF-A 类或者领域内顶级会议、期刊论文1~2篇;
3.视频生成大模型通过模型参数、降噪步数等压缩方法,在与原模型保持同等预测效果的情况下,预测效率提升至原来的5倍。
如何申报: