• 首页
  • 乐从家具城
  • 发展商
  • 外国人服务中心
  • 新闻中心
  • 服务与支持
  • 你的位置:九游体育app官网下载IOS/安卓全站最新版下载 > 新闻中心 > 九游体育app官网发现了两种前所未见的气候-九游体育app官网下载IOS/安卓全站最新版下载

    九游体育app官网发现了两种前所未见的气候-九游体育app官网下载IOS/安卓全站最新版下载

    发布日期:2025-11-01 15:44    点击次数:158

    九游体育app官网发现了两种前所未见的气候-九游体育app官网下载IOS/安卓全站最新版下载

    这项由伊利诺伊大学香槟分校的何壮壮、新加坡南洋理工大学的周凯宇、亚利桑那州立大学的白浩月,以及新加坡国立大学的朱丰斌、杨永辉等接头者组成的外洋团队完成的接头,发表于2025年9月的arXiv预印本平台(论文编号:arXiv:2509.15709v1),为咱们揭开了推选系统中一个历久困扰学界的谜题。

    当咱们在网上购物时,系统会证据咱们的浏览历史推选商品,这背后即是协同过滤技艺在阐发作用。就像一位劝诫丰富的伴计,通过不雅察主顾的购买习气来预计他们可能心爱的商品。但是,这位"数字伴计"的责任道理一直存在一个令东说念主详细的气候:当咱们试图让它变得更"灵巧"时,它的阐发存时反而会变差。

    接头团队通过对10个不同规模和特征的数据集进行大规模实验,使用了BPR、NeuMF、LightGCN和SGL这四种代表性的协同过滤模子,发现了两种前所未见的气候。第一种被称为"双峰气候",就像爬山一样,系统性能先上涨,然后着落,接着又神奇地再次上涨,终末才最终着落。第二种被称为"对数气候",性能会合手续牢固地普及,就像登途径一样,固然每一步的普及幅度在递减,但弥远在朝上。

    伸开剩余89%

    这个发现颠覆了学界历久以来的领略。畴昔东说念主们深广以为,扩展镶嵌维度(不错解析为加多系统记念容量)只会带来先升后降的"单峰"效劳,就像给一个东说念主塞太多信息反而会让他困惑一样。但这项接头阐发,试验远比设想复杂得多。

    更令东说念主骇怪的是,接头团队发现合并个模子在不同数据集上会阐发出不同的气候,而合并个数据集在不同模子上也会产生不同的收尾。这就像合并皆菜谱,在不同厨师手中会有所有不同的效劳,而合并位厨师面临不同食材时也会有迥然相异的阐发。

    通过深入分析,接头团队发现这些气候的根底原因在于数据中的"噪声交互"。就像在嘈杂的餐厅里试图听清一又友的话一样,当推选系统试图从包含深广无关或失误信息的数据中学习时,就会出现这种复杂的性能变化面目。

    一、数据噪声:推选系统的隐形杀手

    在日常生涯中,咱们常常会遭受这么的情况:明明点击了某个商品,但其实并不是果真感意思意思,可能仅仅手滑或者意思意思。这些"误操作"对东说念主来说微不及说念,但对推选系统而言却是严重的烦闷信号。

    接头团队将这些烦闷信堪称为"噪声交互",它们就像灌音中的噪音一样,会影响系统对用户真实偏好的判断。当系统的"记念容量"(镶嵌维度)较小时,它只可记取最病笃的信息,噪声的影响相对有限。但跟着容量加多,系统运转有足够的空间来"记取"这些噪声,这时问题就出现了。

    这个经由不错分为四个阶段来解析。在第一个阶段,系统就像一个劳作的学生,专注于学习最病笃的学问点,性能稳步普及。参加第二阶段后,系统运转有弥散的"脑容量"来记取一些不病笃致使失误的信息,这时性能运转着落。到了第三阶段,系统学会了如安在噪声环境中责任,找到了搪塞政策,性能又运转回升。终末在第四阶段,过度的记念容量导致系统过分拟合考验数据,在面临新情况时阐发欠安。

    为了考据这个表面,接头团队拓荒了一种简便而灵验的"样本筛选政策"。就像憨厚在改变功课时会重心关爱那些彰着尽心完成的功课一样,这种政策让系统在考验时优先关爱那些"亏空较小"的样本,因为这些样本更可能代表用户的真实偏好。

    实验收尾令东说念主慷慨。在使用了这种筛选政策后,正本阐发出双峰气候的BPR模子大致将镶嵌维度扩展到32,768维而不出现性能崩溃,这在之前是不能设想的。这就像给一个容易分神的学生配了一位优秀的导师,匡助他专注于的确病笃的内容。

    二、不同模子的抗噪才智大揭秘

    接头团队深入分析了四种不同推选模子的特色,发现它们在面临噪声时的阐发迥然相异,这背后有着深层的数学道理。

    BPR模子就像一个止境敏锐的东说念主,对周围环境的任何变化都会产生浓烈反应。从技艺角度来说,BPR使用简便的内积计较来斟酌用户偏好,这种线性关系使得模子参数的梯度(不错解析为学习的标的和强度)会跟着镶嵌维度的加多而无适度地增长。当遭受噪声数据时,这种脾气会被放大,导致模子学习标的出现大幅偏差。

    接头团队通过数学分析阐发,BPR模子的示意质料退化进程与噪声比例的平方成正比,同期与梯度敏锐性线性接洽。这意味着即使是很小的噪声,在高维空间中也会被权贵放大,导致模子性能急剧着落。这就解释了为什么BPR常常阐发出双峰气候,寥落是在镶嵌维度较大的情况下。

    NeuMF模子的情况愈加复杂。固然它通过引入非线性神经鸠合层来捕捉更复杂的用户-物品交互面目,但这种复杂性也带来了新的问题。接头团队发现,NeuMF的梯度敏锐性会跟着鸠合深度呈指数级增长。这就像一个放大器链,每一层都会将前一层的信号放大,包括有用的信号和噪声。当鸠合较深或正则化欠妥时,NeuMF致使可能比BPR更容易受到噪声影响。

    LightGCN模子展现出了更好的抗噪才智,这要归功于其独到的图卷积结构。在推选系统中,用户和物品之间的交互不错组成一个复杂的鸠合图,LightGCN通过在这个图上进行信息传播来学惯用户和物品的示意。

    这个经由止境访佛于试验生涯中的"世东说念主拾柴火焰高"气候。当系统要为某个用户生成推选时,它不仅议论该用户的平直步履,还会参考与该用户有相似偏好的其他用户的步履。这种信息团聚经由自然具有降噪效劳,就像多个东说念主的认识平均后通常比单个东说念主的认识更可靠一样。

    从数学角度来看,LightGCN的这种团聚经由等价于对用户和物品镶嵌进行低通滤波,保留病笃的低频信号(代表主要的用户偏好面目),同期羁系高频噪声。接头团队通过谱分析阐发,经过多层图卷积后,最终的镶嵌矩阵会当然地呈现低秩脾气,这有助于提高模子的泛化才智和抗噪性能。

    三、SGL:推选系统中的"抗噪冠军"

    在所有测试的模子中,SGL(Self-supervised Graph Learning)阐发最为出色,险些在所稀有据集上都展现出联想的对数增长面目。这种优异阐发源于其独到的自监督对比学习机制。

    SGL的责任道理不错用"照镜子"来譬如。系统会为每个用户和物品创建多个"镜像"版块,这些镜像通过随即删除一些贯穿或荫藏一些特征来生成。然后,系统条目合并个用户或物品的不同镜像应该尽可能相似,而不同用户或物品的镜像应该尽可能不同。

    这种考验形势的玄妙之处在于,它迫使模子学习那些在各式烦闷下都保合手牢固的特征。就像一个东说念主的中枢地格特征会在不同环境下保合手一致一样,用户的真实偏好也应该在各式数据变化下保合手相对牢固。而那些容易变化的特征,通常即是噪声。

    接头团队从信息论的角度分析了这一机制。SGL通过最大化不同视图之间的互信息,本色上是在寻找那些包含最多有用信息、最少噪声的特征示意。这个经由不错看作是一种隐式的特征采选,自动过滤掉那些不牢固、不能靠的信息。

    更进一步,接头团队阐发了SGL的对比学习方针会隐式地将学习到的镶嵌管理在一个"干净信号子空间"内。这意味着即使考验数据中存在噪声,最终学到的用户和物品示意也主要反馈真实的偏好面目,噪声身分被大大羁系。

    这种双重保护机制——图卷积的低通滤波效应加上对比学习的子空间管理——使得SGL在面临高维镶嵌时仍能保合手牢固的性能普及。实验收尾闪现,即使将镶嵌维度扩展到止境高的水平,SGL的性能仍能合手续改善或至少保合手牢固,这在其他模子中是很难达成的。

    四、实验考据:表面与实践的圆善荟萃

    为了全面考据他们的表面分析,接头团队策画了一系列悉心策画的实验。他们采选了10个具有不同特征的数据集,涵盖了从小规模的MovieLens-100K到超大规模的AmazonBooks等各式场景。这些数据集在用户数目、物品数目、交互密度等方面都有权贵相反,为接头提供了丰富的测试环境。

    在实验树立上,接头团队将镶嵌维度从最小的4维一直扩展到65,536维,高出了16个数目级。这种大跨度的测试确保了不雅察到的气候不是偶而的统计波动,而是具有深广性的轨则。

    实验收尾令东说念主印象深刻。在ML-100K数据集上,BPR模子明晰地展现出双峰面目:性能在512维时达到第一个峰值,然后着落,在8192维时出现第二个峰值,终末再次着落。而在Modcloth数据集上,不异的BPR模子却阐发出对数增长面目,即使在最高的测试维度下性能仍在普及。

    更真理的是,接头团队发目下某些数据集上,简便地将镶嵌维度从传统的128维扩展到更高维度,就能赢得特出25%的性能普及。这个发现具有病笃的实践道理道理,因为在推选系管辖域,平淡以为5-10%的性能普及就照旧止境权贵了。

    为了考据噪声假定,接头团队扩张了他们提议的样本筛选政策。收尾闪现,在使用了这种政策后,正本阐发出双峰气候的模子变得愈加牢固,大致在更高的维度下保合手邃密性能。这为他们的表面分析提供了强有劲的实证扶持。

    接头团队还发现了一个真理的气候:最好性能通常出目下维度为2的幂次的位置,比如512、1024、2048等。这可能与计较机硬件的脾气以及优化算法的拘谨脾气接洽,为实践中的超参数采选提供了有价值的辅导。

    五、对推选系统改日的长远影响

    这项接头的道理道理远远超出了学术规模,它为所有这个词推选系统行业指明了新的发展标的。传统上,接头者们在追求更好的推选效劳时,通常专注于策画更复杂的模子架构或更小巧的特征工程,而冷落了数据质料这个基础问题。

    接头收尾标明,数据质料对推选系统的可扩展性具有决定性影响。当数据相对干净时,即使是简便的模子也能通过加多镶嵌维度赢得权贵的性能普及。违犯,当数据包含深广噪声时,再复杂的模子也难以灵验扩展。这领导咱们,在追求模子复杂性的同期,不应冷落数据预处分和清洗的病笃性。

    从模子策画的角度来看,这项接头揭示了具有内在抗噪才智的模子架构的病笃性。SGL之是以阐发出色,不仅因为它继承了图神经鸠合,更病笃的是它通过自监督学习机制内置了噪声过滤才智。这为改日的模子策画提供了病笃启示:与其在过后处分噪声,不如在模子策画阶段就议论抗噪才智。

    接头团队寥落指出,他们的发现为推选系管辖域寻找"Transformer时辰"提供了新的念念路。在当然话语处分领域,Transformer架构的收效很猛进程上归功于其优秀的可扩展性。而在推选系管辖域,SGL展现出的优秀扩展才智使其有望成为这个领域的"Transformer"。

    这项接头还对工业界的推选系统部署具有平直的辅导道理道理。好多公司在部署推选系统时,由于计较资源的适度,通常采选相对较小的镶嵌维度。但这项接头标明,若是数据质料较高或者继承了合适的抗噪政策,允洽加多镶嵌维度可能带来权贵的性能普及,而这种普及的资本效益比可能远高于其他优化步履。

    接头团队坦承,由于计较资源的适度,他们的实验主要聚会在NDCG@20这一评估方针上,改日的接头不错扩展到更多的评估方针和更平庸的模子架构。此外,他们的表面分析主要针对协同过滤模子,关于包含丰富内容特征的深度推选模子,接洽表面还需要进一步发展。

    说到底,这项接头最病笃的孝敬在于改变了咱们对推选系统可扩展性的领略。它告诉咱们,扩展镶嵌维度并不老是无效的,要道在于解析和处分数据中的噪声。当咱们大致灵验地识别和过滤噪声时,推选系统就能像谎言语模子一样,通过加多参数规模来赢得更好的性能。这为推选系统的改日发伸开辟了新的可能性,也为从业者提供了实用的优化政策。关于那些但愿深入了解这一发现的读者,不错通过论文编号arXiv:2509.15709v1查询完整的接头文告,其中包含了详备的数学推导和实验细节。

    Q&A

    Q1:什么是推选系统中的"双峰气候"和"对数气候"?

    A:双峰气候是指当加多推选系统的镶嵌维度时,性能阐发出先升后降、再升再降的两个峰值面目。对数气候则是性能合手续牢固普及,固然普及幅度迟缓递减但弥远朝上。这两种气候颠覆了学界以往以为的"单峰"轨则,为推选系统优化提供了新的解析角度。

    Q2:为什么SGL模子在扩展维度时阐发最好?

    A:SGL模子阐发出色主要因为它具有双重抗噪机制:一是图卷积结构的低通滤波效应,大致团聚多个用户的信息来缩小噪声影响;二是自监督对比学习机制,通过条目合并用户的不同"镜像"版块保合手相似,迫使模子学习牢固可靠的特征,自动过滤掉不牢固的噪声信息。

    Q3:这项接头对本色的推选系统哄骗有什么辅导道理道理?

    A:接头标明数据质料比模子复杂度更病笃九游体育app官网,企业应该青睐数据清洗和噪声过滤。在数据相对干净的情况下,允洽加多镶嵌维度可能带来特出25%的性能普及,资本效益比很高。同期,采选具有内在抗噪才智的模子架构(如SGL)比单纯加多模子复杂度更灵验。

    发布于:北京市

    相关资讯