这项由蚂蚁集团和浙江大学联合完成的研究发表于2025年,论文编号为arXiv:2602.14492v1,有兴趣深入了解的读者可以通过该编号查询完整论文。

当你打开支付宝时,系统是如何瞬间知道该向你推荐什么服务的?当银行需要评估你的信用风险时,它又是如何从海量数据中准确判断你的还款能力的?这些看似神奇的能力背后,都依赖于一项关键技术——用户画像。

传统的用户画像就像是给每个人制作一张固定的身份证,无论在什么场景下都是同一个样子。但现实生活中,你在购物时关心的是价格和品质,在理财时关注的是收益和风险,在社交时重视的是兴趣和话题。同一个人在不同场景下会展现出完全不同的特征和需求。

蚂蚁集团的研究团队注意到了这个问题。他们发现,现有的用户画像系统就像是用一把万能钥匙去开所有的锁——虽然能用,但效果并不理想。在支付宝这样的超级应用中,用户的行为数据极其丰富多样,包括支付记录、小程序使用、搜索历史、应用列表等等,但这些数据在不同业务场景下的重要性截然不同。

更棘手的是,这些数据往往是稀疏的、符号化的,与大语言模型习惯处理的连续文本数据存在巨大差异。就像让一个只会读书的人突然去解读密码本一样困难。同时,工业级的用户画像系统还面临着实时性要求高、计算成本限制严格等现实挑战。

为了解决这些问题,研究团队提出了一个创新的解决方案——Query-as-Anchor(查询作为锚点)框架。这个名字听起来很技术化,但其核心思想其实很简单:与其为每个用户制作一张固定的身份证,不如根据具体的使用场景,为同一个用户生成不同版本的画像。

这就像是一个智能化的变色龙系统。当系统需要进行风险评估时,它会重点关注用户的支付行为、信用记录等相关信息,而淡化购物偏好等无关数据。当进行商品推荐时,它又会突出用户的消费习惯、兴趣爱好,而减少对金融数据的依赖。

一、构建工业级用户理解数据集

要让AI真正理解用户,首先需要教会它什么是"理解"。研究团队面临的第一个挑战是,市面上缺乏专门针对用户画像训练的大规模数据集。现有的大语言模型虽然在文本理解方面表现优异,但对于用户行为数据的理解能力相对薄弱。

为了填补这个空白,团队构建了一个名为UserU的工业级预训练数据集。这个数据集的构建过程可以比作教孩子学习的过程——既要教给他事实知识,也要培养他的推理能力。

具体来说,UserU数据集包含两个核心组成部分。第一部分是基于行为的交互数据集,它通过分析用户的历史行为来预测未来行为。这就像是通过观察一个人过去三个月的消费记录,来猜测他下个月最可能购买什么。系统会将用户的多模态行为记录整理成时间序列,然后通过特定的模板问题,如"这个用户在下一个时期最可能的行为是什么?",来训练模型理解行为模式和时间规律。

第二部分更加有趣,它是一个合成的问答数据集。由于现实中很难获得大量高质量的用户理解问答对,研究团队采用了一种自我反思的合成数据生成方法。他们首先让大语言模型分析72个与生活相关的用户理解主题,比如财务规划、健康管理、购物偏好等。然后,对于每个具体用户,系统会从这些主题中选择最相关的10个,并基于用户的实际行为数据生成相应的问题和答案。

更重要的是,为了确保答案的准确性和一致性,系统还加入了一个"自我反思"机制。生成答案后,模型会重新检查这个答案是否与用户的实际行为数据一致,如果发现不匹配或不合理的地方,就会进行修正。这个过程就像是让AI当自己的老师,不断检查和改进自己的理解能力。

通过这种方式,UserU数据集成功地将用户行为数据与语义理解能力结合起来,为后续的模型训练提供了坚实的基础。

二、分层次的用户行为编码系统

面对支付宝用户产生的海量多模态行为数据,如何让大语言模型有效理解和处理这些信息是一个巨大挑战。传统的方法要么过于粗糙,丢失了重要的细节信息,要么过于复杂,导致计算效率低下。

研究团队设计了一个巧妙的分层编码架构,这个系统的工作原理就像是一个智能的信息筛选器。它分为三个层次,每个层次都专注于不同粒度的信息提取和整合。

最底层是事件级编码,它处理的是最原始、最细粒度的用户行为数据。每一笔支付记录、每一次小程序使用、每一个搜索查询都被单独编码成向量表示。这就像是为每个具体行为贴上一个专属标签,保留了行为的完整细节信息。

中间层是模态级编码,它的作用是对同类型的行为进行汇总和抽象。比如,将一个月内所有的支付行为整合成一个支付模态的总体特征,将所有的搜索记录整合成搜索偏好的概括描述。这个过程通过平均池化等技术实现,既保留了关键信息,又显著降低了数据复杂度。

最顶层是用户级编码,它将所有模态的信息进一步整合,形成用户的全局行为特征。这就像是从各个角度观察一个人后,形成对这个人的整体印象。

这种分层设计的巧妙之处在于,它允许大语言模型根据具体的查询需求,选择性地关注不同层次的信息。当需要进行精细分析时,模型可以深入到事件级别;当需要快速判断时,模型可以依赖用户级的抽象特征。这种灵活性大大提高了系统的效率和准确性。

更重要的是,这个分层架构还通过专门的适配器网络,将稀疏的行为数据转换成与大语言模型兼容的密集向量表示,有效解决了模态差异问题。

三、查询锚定的双塔训练架构

Query-as-Anchor的核心创新在于它的双塔训练架构。这个设计可以比作一个智能的翻译系统,一边处理用户的行为"语言",另一边处理业务场景的需求"语言",然后在中间建立起准确的对应关系。

锚点塔负责处理用户数据和查询指令。它接收前面提到的分层用户行为编码,然后在序列末尾添加一个自然语言查询作为"锚点"。这个查询可能是"这个用户的欺诈风险如何?"或者"这个用户对外卖服务的兴趣程度是多少?"等具体的业务问题。通过将查询放在序列末尾,大语言模型就像一个专业顾问一样,会根据具体问题来重新审视和整合用户信息,最终输出一个针对性的用户表示。

语义塔则专门处理答案信息。它将标准答案或目标结果编码成向量表示,为锚点塔提供学习目标。这两个塔虽然独立工作,但共享相同的大语言模型参数,确保它们在同一个语义空间内理解和表示信息。

训练过程采用了一个精心设计的联合优化策略。一方面,系统使用对比学习来确保相关的用户-查询-答案三元组在向量空间中距离更近,而不相关的组合距离更远。这就像是训练系统识别"物以类聚"的规律。

另一方面,系统还使用了下一词预测任务来增强语义理解能力。锚点塔不仅要生成用户表示,还要能够逐词生成目标答案,这大大提高了模型对用户行为深层含义的理解能力。

特别值得注意的是,训练过程还加入了一个智能的负样本过滤机制。在对比学习中,选择合适的负样本至关重要。系统会自动识别和排除那些可能造成误导的"假负样本"——即看似不匹配但实际上合理的用户-答案组合。这种机制显著提高了训练效果的稳定性和准确性。

四、场景适应的软提示调优

虽然Query-as-Anchor框架已经具备了很强的场景适应能力,但研究团队发现,在面对具体业务场景时,仍然存在通用预训练与专门业务逻辑之间的语义鸿沟。为了解决这个问题,他们引入了一个巧妙的软提示调优机制。

这个机制的工作原理就像是给通用模型配备了一副"智能眼镜"。不同的业务场景对应不同的"镜片",当模型需要处理特定任务时,就戴上相应的"眼镜",从而能够更清楚地看到该场景下的关键信息。

具体来说,软提示调优通过引入少量可学习的提示词向量来实现场景定制化。这些提示词就像是给模型提供的"小抄",告诉它在当前场景下应该重点关注哪些信息。重要的是,这个过程只需要训练这些新增的提示词参数,而不需要修改庞大的基础模型参数,因此既高效又经济。

训练过程采用了基于聚类的原型对比损失函数。系统为每个业务类别维护一个可学习的原型中心,训练过程中会将同类用户的表示向对应的原型中心拉近,同时推开不同类别的表示。这种设计确保了模型在不同场景下能够形成清晰的决策边界。

更令人惊喜的是,通过对比分析软提示调优前后的注意力权重变化,研究团队发现模型确实学会了场景化的信息筛选。比如,在外卖兴趣预测场景下,模型对支付行为数据的关注度提高了26%,因为支付数据更能反映用户的购买力。而在蚂蚁森林参与度预测中,模型对导航路径数据的关注度提升了6.4%,因为这类数据更能体现用户的应用内活跃度。

五、高效部署的缓存优化策略

工业级应用的一个关键要求是能够同时支持多个业务场景的实时推理,而且要在严格的延迟限制下完成。Query-as-Anchor框架通过一个巧妙的键值缓存优化策略完美解决了这个挑战。

这个优化策略的核心思想是"一次编码,多次使用"。系统将用户行为编码过程分为两个阶段:重计算量的用户前缀编码和轻量级的查询后缀处理。

在用户前缀编码阶段,系统会将用户的完整行为数据进行一次性的深度编码,生成对应的键值缓存。这个过程虽然计算量大,但只需要执行一次,生成的缓存可以在多个查询中重复使用。

当需要针对不同场景生成用户表示时,系统只需要处理相应的查询指令,并将其与已缓存的用户前缀进行拼接。由于查询指令通常很短,这个过程的计算开销微乎其微。

这种设计带来了显著的效率提升。假设需要为同一用户生成N个不同场景的表示,传统方法需要进行N次完整的编码过程,而Query-as-Anchor只需要一次用户编码加上N次轻量级的查询处理。当N较大时,效率提升非常明显。

在支付宝的实际部署中,这种优化策略使得系统能够用单个额外的L20 GPU就支持一个新的业务场景,而传统方法可能需要重新部署整个100 GPU的集群。这大大降低了多场景服务的成本和复杂度。

六、全面的实验验证与效果分析

为了验证Query-as-Anchor框架的有效性,研究团队进行了全方位的实验评估,包括离线实验和大规模在线A/B测试。

离线实验覆盖了支付宝生产系统中的10个真实业务场景,分为用户参与度、风险控制和营销敏感度三大类。每个场景都包含约50万个测试样本,确保了评估结果的可靠性。

在用户参与度场景中,Query-as-Anchor在所有4个子任务上都取得了最佳性能。特别是在蚂蚁森林参与度预测中,AUC指标达到了0.9716,相比最强基线模型提升了约13%。这表明模型能够准确识别哪些用户更可能参与环保活动。

风险控制场景的结果更加令人印象深刻。在反欺诈检测中,系统的KS值(用于衡量模型区分能力的关键指标)达到了0.7086,大幅超越了传统方法。在反洗钱场景中,AUC指标高达0.9439,这意味着系统能够以很高的准确率识别可疑的资金流动模式。

营销敏感度场景的表现同样出色。在品牌敏感度预测中,Query-as-Anchor的AUC从基础版本的0.7979提升到软提示调优版本的0.8535,提升幅度接近7%。这种改进对于精准营销具有重大意义,能够显著提高营销活动的转化率。

更重要的是,消融实验清楚地展示了框架各个组件的贡献。移除对比学习组件后,平均AUC从0.8104下降到0.7667,证明了对比学习在建立用户-场景对应关系中的关键作用。移除分层编码结构后,性能也有明显下降,验证了这种设计的有效性。

大规模在线A/B测试进一步证实了系统的实用价值。在智能语音外呼的现金储备推广场景中,使用Query-as-Anchor的策略使提取率提高了12.5%,人均未偿余额增加了5.3%。在信贷风险识别场景中,关键的KS指标提升了1.96%,这在风控领域是一个相当显著的改进。

七、技术创新的深度剖析

Query-as-Anchor框架的技术创新体现在多个层面,每个创新点都针对工业级用户表示学习的特定挑战。

首先是数据层面的创新。UserU数据集的构建解决了用户理解训练数据稀缺的根本问题。通过结合规则基础的未来行为预测和大语言模型生成的问答理解任务,系统获得了丰富的监督信号。特别是自反思数据生成机制,确保了合成数据与真实用户行为的一致性,这对于提高模型的实用性至关重要。

架构层面的创新主要体现在分层编码和双塔设计上。分层编码有效解决了多模态异构数据的整合问题,而双塔架构则实现了行为理解和场景适配的解耦。这种设计不仅提高了模型的灵活性,还为后续的优化和扩展提供了便利。

训练策略的创新体现在联合对比-生成优化目标上。对比学习确保了表示的判别性,而生成任务增强了语义理解能力。这种结合避免了单一目标可能导致的表示坍缩或语义贫乏问题。

部署优化的创新则解决了工业级应用的效率需求。键值缓存策略实现了计算复用,软提示调优提供了轻量级的场景定制化能力。这些创新使得系统能够在保持高性能的同时,满足大规模部署的成本和延迟要求。

八、实际应用效果与业务价值

Query-as-Anchor框架在支付宝的实际部署展现了显著的业务价值。系统目前每日为数亿用户生成个性化表示,支撑着风险控制、精准营销、用户运营等多个核心业务场景。

在风险控制领域,系统的部署大大提高了欺诈检测和反洗钱的准确性。传统的规则基础系统往往存在较高的误报率,而Query-as-Anchor通过深度理解用户行为模式,能够更准确地区分正常用户和风险用户。这不仅降低了业务风险,还改善了正常用户的使用体验。

精准营销方面的改进同样令人印象深刻。通过更准确地识别用户对不同产品和服务的兴趣程度,系统能够实现更精准的内容推荐和营销投放。这不仅提高了营销活动的转化率,还减少了对用户的骚扰,提升了整体用户满意度。

用户运营场景中,系统能够帮助业务团队更好地理解用户需求和行为模式,从而制定更有效的用户增长和留存策略。比如,通过分析用户对不同功能的使用模式,可以优化产品设计和功能布局。

从技术角度来看,Query-as-Anchor的部署也带来了显著的运维效益。传统的多场景用户表示系统需要为每个场景维护独立的模型,导致系统复杂度高、维护成本大。而Query-as-Anchor通过统一的框架支持多个场景,大大简化了系统架构和运维流程。

九、局限性分析与未来展望

尽管Query-as-Anchor框架取得了显著成功,但研究团队也诚实地分析了其局限性和改进空间。

首先是模型规模的悖论问题。实验发现,在固定的训练数据和计算预算下,更大的模型(1.5B和3B参数)并不一定带来更好的性能,有时甚至出现性能下降。这种现象被称为"嵌入缩放悖论",表明嵌入质量的提升更多依赖于训练数据的质量和多样性,而非简单的参数增加。

其次是跨领域泛化能力的限制。虽然系统在支付宝生态内表现优异,但在迁移到其他平台或领域时可能面临适应性挑战。这主要是因为不同平台的用户行为模式和业务逻辑存在差异。

另外,软提示调优虽然提供了场景定制化能力,但对于快速变化的业务需求,仍然需要一定的重训练时间。如何实现更加灵活和快速的场景适配仍是一个待解决的问题。

针对这些局限性,研究团队提出了几个重要的未来研究方向。首先是探索梯度恢复和自适应参数调优技术,以克服大模型训练中的优化平台期,从而充分发挥大模型的潜力。其次是研究更加通用的跨域迁移方法,使系统能够更容易地适应不同的应用场景。

此外,团队还计划探索更加动态的场景适配机制,比如基于元学习的快速适应方法,以及实时的用户行为模式检测和适配技术。这些创新有望进一步提升系统的灵活性和实用性。

说到底,Query-as-Anchor框架代表了用户表示学习领域的一个重要进展。它不仅解决了工业级应用中的多个技术挑战,还为这一领域的未来发展指明了方向。随着技术的不断成熟和完善,我们可以期待看到更多基于这一框架的创新应用,进一步改善我们的数字生活体验。

这项研究的成功也展示了产学合作的力量。通过结合蚂蚁集团的丰富应用场景和数据资源,以及学术机构的理论创新能力,研究团队能够开发出既具有理论深度又有实用价值的技术方案。这种合作模式值得在更多领域推广和借鉴。

Q&A

Q1:Query-as-Anchor框架解决了什么核心问题?

A:Query-as-Anchor解决了传统用户画像"一刀切"的问题。传统方法为每个用户生成固定的表示,无法根据不同业务场景调整。而这个框架能根据具体查询(如风险评估或商品推荐)动态生成针对性的用户表示,就像一个智能变色龙,在不同场景下展现不同特征。

Q2:这个技术在支付宝的实际应用效果如何?

A:在支付宝的大规模A/B测试中,Query-as-Anchor在多个场景都取得显著提升。智能语音外呼场景中提取率提高12.5%,信贷风险识别的KS指标提升1.96%。同时大大降低了系统复杂度,新增业务场景只需一个额外GPU,而传统方法需要整个100-GPU集群。

Q3:软提示调优技术是如何工作的?

A:软提示调优就像给通用模型配备智能眼镜。不同业务场景对应不同镜片,当模型处理特定任务时戴上相应眼镜,就能更清楚看到关键信息。它只训练少量提示词参数,不修改基础模型,既高效又经济。实验显示,外卖场景下模型对支付数据关注度提高26%。