高瓴人工智能学院师生论文被国际学术会议ICML录用AG尊龙凯时- 尊龙凯时官方网站- APP下载
栏目:AG尊龙凯时 发布时间:2025-05-22

  尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载尊龙凯时官网,尊龙凯时,AG尊龙凯时,尊龙娱乐,尊龙体育,尊龙凯时人生就是搏,尊龙凯时体育,尊龙凯时平台,ag尊龙,尊龙平台,尊龙,尊龙官网,尊龙登录入口,尊龙官方网站,尊龙app下载,尊龙凯时APP下载

高瓴人工智能学院师生论文被国际学术会议ICML录用AG尊龙凯时- 尊龙凯时官方网站- 尊龙凯时APP下载

  长尾学习因具备重要实际意义而备受关注,伴随基础模型兴起,微调范式成为研究热点,但多数现有方法专注挖掘模型知识,忽视不平衡训练数据导致的固有偏差。本文着重探究预训练中的不平衡对长尾下游任务的影响,发现基础模型在下游任务存在参数不平衡和数据不平衡两种偏差。微调过程中,参数不平衡的影响更为关键,数据不平衡可借现有重平衡策略缓解,且参数不平衡无法像数据不平衡那样,通过当前重平衡技术(如调整对数几率)在训练时有效解决。为同时处理两种不平衡,文章基于因果学习,将不完整语义因素视作导致输入样本与标签产生虚假相关性的混杂因素,提出全新后门调整方法,该方法聚焦学习两者间真实因果效应,而非简单拟合数据相关性。实验验证,此方法在各数据集上实现平均约 1.67% 的性能提升。

  论文概述:针对长视频处理这一多模态大模型(VLMs)的核心难题,现有方法在应对长时序数据时往往面临巨大计算开销。传统基于令牌剪枝和特征合并的技术通常会破坏关键时序关联或弱化语义信息。为此,我们提出差分蒸馏这一创新方法论,通过系统性保留任务相关信息同时抑制冗余内容。基于该原理,我们设计并开发了多模态大模型ViLaMP,采用“混合精度”处理机制实现小时级长视频理解,其核心技术包括(1)帧级差分:基于关键帧选择算法,在最大化查询相关性的同时保持时序独特性;(2)块级差分:基于特征压缩及融合策略,对非关键帧中的特征进行选择性保留。这种设计使ViLaMP能完整保留关键帧信息,同时将非关键帧压缩至最具语义显著性的特征,其机制类似于混合精度训练范式。在多个视频理解基准测试中,ViLaMP均展现出卓越性能,尤其在长视频内容处理方面表现突出。值得注意的是,该模型可在单张NVIDIA A100显卡上处理超长视频(上万帧长度),在保持优异性能的同时实现了显著的计算效率提升。

  论文概述:测试时扩展(test-time scaling,常被称为“慢思考”)已被证明能够增强大语言模型(LLM)的多步推理能力。然而,尽管该方法被广泛使用,其背后的机制仍缺乏深入理解。本文从理论角度探讨了外部慢思考方法的作用机理。我们首先基于推理过程的全新建模分析了LLM推理过程中的“雪球误差”效应,并用信息论将其与正确推理的概率联系起来。在此基础上,我们证明外部慢思考方法可被理解为通过多次采样降低错误概率的策略。进一步,我们对当前流行的外部慢思考方法(从简单的BoN到复杂的MCTS)进行了对比分析,阐明其差异与内在关联。研究发现,这些方法的有效性并非主要取决于具体框架的设计,而扩大搜索范围或提升模型内部推理能力可能带来更长期的性能提升。

  谱图学习的理论基础主要依靠两个支柱:一是图傅里叶基作为理论基石,二是多项式近似作为实现手段。这一套框架推动了谱图神经网络(Spectral GNNs)的诸多成功设计。本文提出了两个根本性的问题,挑战了谱图学习目前的理论基础:(1)图傅里叶基本身存在大量未被充分理解的问题,它并不理所当然地具备传统傅里叶基的语义特性;(2)限制谱滤波器表达能力的因素,并不仅仅来自计算上的困难,而是存在根本的理论障碍。这一障碍的存在其实是有其合理性的,因为正是它保护了模型的稳定性和泛化性能。更为关键的是,这两个问题之间存在着微妙的关联。第二个问题的存在掩盖了第一个问题——正是因为我们自然而然地避免使用过于复杂的滤波器,才导致我们长期忽视了图傅里叶基自身的问题。这一观点将启发至少两个重要的研究方向:一是探索一种比图傅里叶基更具语义意义的图字典;二是重新审视目前广泛使用的多项式近似技术所扮演的理论角色。

  论文概述:在线广告是各大互联网平台的重要收入来源。近来,联合拍卖已成为提高分配效率和收入的有效方法。然而,现有的联合拍卖机制往往只考虑单个广告主的性质,而忽视了广告间合作结构,并且尚无研究探索最优联合拍卖机制的形式。本文给出了在单位置场景下,最优的联合拍卖机制。对于一般场景的联合广告,我们提出了 BundleNet,一种专门为联合广告设计的神经网络机制方法。我们通过大量实验证明,BundleNet 生成的机制在单广告位场景中近似于理论分析结果,在多广告位场景中达到了最高的收入表现。这大大增加了平台收入,同时确保了拍卖机制的近似激励兼容性和个体理性。

  论文概述:在科学应用中,精确预测物理系统的三维结构和动力学仍面临关键挑战——这不仅需要满足E(3)-等变性要求,还需整合更广泛的外部知识。现有方法虽然通过几何图神经网络(GNN)确保了E(3)-等变性,却难以有效利用领域知识;而直接应用大语言模型(LLM)虽能融入领域知识,又缺乏空间推理与等变特性。为此,我们提出EquiLLM框架,采用架构分离策略:以预训练LLM作为复杂不变特征处理器,几何GNN作为等变编码器处理等变特征,最后通过等变适配器生成兼具不变性与等变性的输出。该方案在保持E(3)-等变性的同时,充分利用了LLM的丰富领域知识。实验表明,EquiLLM在分子动力学模拟、人体运动仿真和抗体设计等任务中均取得显著提升,展现出优异的泛化能力。

  论文概述:Mixture-of-Experts (MoE) 模型通常使用路由器将输入分配给特定的专家模块,从而只激活部分参数,并且通常表现优于密集模型。我们认为,路由器的决策过程与专家的执行过程之间的分离是一个关键但被忽视的问题,这导致了次优的专家选择和低效的学习。为了解决这个问题,我们提出了专家自主性(Autonomy-of-Experts, AoE),这是一种新的 MoE 范式,在这种范式中,专家自主选择自己来处理输入。AoE 的核心思想是,专家能够了解自己处理某个 token 的能力,这种能力体现在其内部激活的规模上。在 AoE 中,路由器被移除,取而代之的是专家为输入预计算内部激活,并根据激活范数对专家进行排名。只有排名靠前的专家才能继续进行前向传递,而其他专家则中止计算。通过低秩权重分解,预计算激活的开销得到了降低。这种“自我评估后再进行合作比较”的方法确保了更好的专家选择和有效的学习。我们对包含 7 亿到 40 亿参数的语言模型进行了预训练,实验表明,AoE 在效率相当的情况下,优于传统的 MoE 模型。

  论文概述:预测分子基态构象对于许多化学应用至关重要。然而,经典的基于能量的模拟方法非常低效,而现有的基于深度学习的方法虽然在计算效率上有优势,但却牺牲了准确性和可解释性。为此,我们提出了WGFormer,一种由Wasserstein梯度流驱动的SE(3)-Transformer架构来桥接基于能量的模拟方法和基于深度学习的方法,并用于分子基态构象预测任务。具体而言,我们在一个自动编码框架内来解决这个任务,通过所提出的WGFormer来对低质量构象进行编码,并通过MLP解码出对应的基态构象。特别地,WGFormer可以通过最小化定义在原子潜在混合模型上的能量函数来优化分子构象,从而显著提高了模型性能和可解释性。大量的实验表明,WGFormer在各项评估指标上均显著优于现有方法,从而为分子基态构象预测任务提供了一个强有力的基线。

  论文概述:聚合物因其优越性能已被广泛应用于现代生活的各个方面。在此背景下,理解和生成聚合物的三维构象对于材料设计和性能优化而言变得尤为重要。为此,我们提出了PolyConf,首个用于聚合物构象生成的定制化方法,从而为该领域开辟了新的可能性。具体而言,我们首先将聚合物构象分解为一系列局部构象,并通过自回归模型来生成这些局部构象,随后我们再通过扩散模型来生成相应的朝向变换,从而将这些局部构象组装成了完整的聚合物构象。此外,针对聚合物构象高度稀缺的问题,我们进一步提出了PolyBench, 首个用于聚合物构象生成的benchmark。它提供了一个通过分子动力学模拟获得的高质量聚合物构象数据集,并建立了标准化的评测流程,结果表明,PolyConf在各项指标上均显著优于现有方法,从而为该领域的后续研究奠定了坚实基础。

  论文概述:传统数值方法求解偏微分方程面临计算成本高、时间步长受限的瓶颈,而机器学习方案常受困于长期预测误差累积与数据依赖性强。为此,本文提出多尺度物理嵌入网络MultiPDENet,巧妙融合数值方法与深度学习:通过有限差分启发的轻量化卷积核实现粗网格高精度空间导数等效计算,结合物理方程引导的高阶时间积分与神经网络动态误差校正,构建双尺度时空演化框架。该模型在纳维-斯托克斯方程等复杂系统中展现出超越主流神经网络基线的长期预测稳定性,即使基于极少量残缺数据训练,仍能保持与传统数值方法相当的精度,同时显著提升计算效率,为流体仿真、气候建模等场景提供高效解决方案。

  论文概述:多模态交互(包括冗余性、独特性和协同性)对于理解多模态信息动态机制和提升模型性能至关重要。针对现有方法在分布层面进行交互量化存在的局限性,本文提出了一种基于逐点信息理论的轻量级样本多模态交互估计方法(LSMI)。该方法以冗余性这一最直观的交互形式为切入点,首先构建了基于逐点信息测度的冗余性估计框架,进而提出了一种基于连续熵估计的高效交互分析范式。实验结果表明,所提方法在保持较高估计精度和计算效率的同时,能够有效揭示多模态数据中细粒度的样本/类别动态特性,并能为模型集成与蒸馏提供基于交互特性的指导。

  论文概述:受无监督预训练范式成功的启发,研究者们已将这些方法应用于DNA预训练。然而,我们认为单独使用这些方法会导致次优结果,因为单纯的DNA序列缺乏足够的信息,其功能受染色质可及性等基因组特征调控。本文通过实验证明,基因组特征预测的监督训练相较于纯序列预训练具有更优的效果。此外,针对基因组特征预测的多物种、多特征属性,我们提出物种-特征自适应协同专家模型(SPACE),该模型通过专家混合网络(MoE)有效捕获跨物种、跨基因组特征的DNA序列间关联关系,从而学习更具表征力的DNA特征。在多个下游任务上的实验表明,我们的模型取得了最先进的性能,证实了基于基因组特征监督训练的DNA模型能够作为高效的DNA表示学习框架。

  论文概述:模型集成对抗攻击已成为生成可迁移对抗样本的强大方法,甚至能针对未知模型发起攻击,但其理论基础仍待深入探索。为填补这一空白,我们提出了开创性理论见解,为推进模型集成对抗攻击研究提供了路线图。我们首先定义了可迁移性误差来衡量对抗迁移效果,同时引入多样性和经验模型集成Rademacher复杂度的概念。随后将可迁移性误差分解为脆弱性、多样性,严格阐释了集成攻击中可迁移性误差的根源:对抗样本对集成组件的脆弱性,以及集成组件间的多样性差异。此外,我们运用信息论领域的最新数学工具,通过复杂度和泛化项对可迁移性误差进行界定,由此提出三条降低误差的实践准则:(1)增加代理模型数量;(2)提升模型多样性;(3)在过拟合情况下降低模型复杂度。最终,基于54个模型的广泛实验验证了我们的理论框架,标志着对可迁移模型集成对抗攻击的理论理解迈出了重要一步。

  论文概述:蛋白质主链生成在从头设计蛋白中起着核心作用,对多种生物和医学应用具有重要意义。尽管基于扩散或流匹配的方法为这一具有挑战性的任务提供了潜在解决方案,但它们往往存在设计性较差和计算效率低下的问题。本研究提出了一种新颖的四元数整流匹配的方法(ReQFlow),用于实现快速且高质量的蛋白质主链生成。具体而言,该方法从随机噪声中为蛋白链中的每个残基生成局部平移和三维旋转,将每个三维旋转表示为单位四元数,并通过指数形式的球面线性插值(SLERP)构建其流动过程。我们采用具有数值稳定性保证的四元数流匹配(QFlow)训练模型,并通过整流操作以加速推理过程并提升生成主链的设计性,从而得到 ReQFlow 模型。实验结果表明,ReQFlow 在蛋白质主链生成方面达到了当前最优性能,同时显著减少了采样步骤和推理时间(例如,在生成长度为300的主链时,比 RFDiffusion 快 37 倍,比 Genie2 快 63 倍),充分展示了其高效性和有效性。

  论文概述:靶向特异性分子(如小分子、肽和抗体)的设计‌对于生物学研究和药物研发至关重要。现有的生成方法局限于单一分子域,既无法满足多样化的治疗需求,也难以利用跨域可迁移性来提升模型性能。本文提出了首个能够通过单一模型设计多分子域结合剂的框架——‌三维分子统一生成模型(UniMoMo)‌。具体而言,UniMoMo将不同分子的表征统一为‌块状图(graphs of blocks)‌,其中每个块对应一个标准氨基酸或分子片段。基于这一统一表征,UniMoMo采用‌几何隐扩散模型‌实现三维分子生成:其核心包括一个‌迭代式全原子自动编码器‌(将分子块压缩为隐空间点),以及一个‌E(3)等变扩散过程‌。通过对肽、抗体和小分子的广泛基准测试,我们的统一框架展现出优于现有单域模型的性能,凸显了多域联合训练的显著优势。

  论文概述:多模态学习旨在融合来自不同模态的数据,但在实际应用中,样本间模态质量差异显著,这使得模态融合依然面临巨大挑战。为应对该问题,诸如Transformer中的注意力机制等动态融合策略被广泛采用,期望通过根据输入数据自适应地分配模态权重,实现更有效的模态协同。然而,本文观察到,当存在某一模态的token受到偏好时,基于注意力机制的融合策略会丧失其动态性。该偏差在训练过程中引发一种循环机制,使模型逐步过度依赖该偏好模态,进而导致不同模态间注意力key的分布差距持续扩大。这种分布差距最终破坏了注意力机制的动态适应能力。为缓解上述问题,本文提出了一种新的算法——Query Rebalance Rotation (QRR),该方法通过对query进行重平衡,有效打破了注意力机制中的循环,缩小了模态间key分布差距。QRR的引入显著恢复了注意力分配的平衡,增强了多模态Transformer中的模态协同动态,从而提升了其对模态质量变化的鲁棒性。大量实验结果验证了QRR在恢复动态适应性方面的有效性,该能力对于推动多模态Transformer模型性能的进一步提升具有关键意义。

  论文概述:分子动力学(Molecular Dynamics, MD)模拟‌是理解分子系统原子层面行为的关键技术,能够揭示其动态转变与相互作用机制。然而,经典MD方法受限于‌精度与效率的权衡‌,而近期基于深度学习的改进方案多集中于单一分子域,‌缺乏对陌生分子系统的迁移能力‌。为此,我们提出了‌统一模拟器(UniSim)‌,通过整合跨领域知识增强对原子间相互作用的理解。具体实现分为两步:首先我们用多任务预训练‌方法从大规模、多样化的分子数据中学习统一的原子表征模型;然后基于‌随机插值框架‌,从MD轨迹中学习长时程状态转移模式,并引入‌力引导模块‌实现快速适配不同化学环境。实验表明,UniSim在小分子、肽和蛋白质体系中均展现出‌极具竞争力的性能‌。

  论文概述:在可信机器学习中,确保学习器的可控性已成为关键问题之一。可控学习(Controllable Learning)旨在测试时根据用户需求动态调整模型,使得调整后模型的输出满足任务目标。已有工作对于如何有效度量和分析可控学习方法的泛化性能缺乏系统研究。本文针对可控学习提出了统一的理论分析框架,并设计了新的向量收缩不等式,估计了常用控制函数和预测函数的拉德马赫复杂度上界,进一步对比分析了两种典型可控学习方法(基于嵌入的方法和基于超网络的方法)的泛化误差界。上述理论结果在可控学习应用中(如:可控推荐系统),提供了初步的理论支持和算法设计指导。

  论文概述:环状肽‌因具有线性肽所缺乏的几何约束特性,展现出更优的生物化学性质,为解决未满足的医疗需求提供了新机遇。然而,由于训练数据有限,针对特定靶点的环状肽设计研究仍处于探索阶段。为此,我们提出‌CP-Composer‌——一种创新的生成框架,通过‌可组合几何约束‌实现零样本环状肽生成。该方法将复杂环化模式分解为单元约束,并通过对节点与边的‌几何条件约束‌将其融入扩散模型。在训练阶段,模型从线性肽的单元约束及其随机组合中学习;在推理阶段‌将环化所需的新型约束组合作为输入条件。实验表明,尽管仅使用线性肽数据训练,我们的模型仍能生成多样化的靶标结合环状肽,在多种环化策略下达到‌38%至84%的成功率‌。