文章核心总结与翻译一、主要内容文章聚焦带非线性MLP头的预训练Transformer的上下文学习(ICL)能力,针对多源异质数据和非线性任务场景展开研究。通过高维渐近分析,结合高斯普适性理论和正交多项式,证明该类Transformer在ICL误差上与结构化多项式预测器渐近等价;揭示了高质量数据源的关键属性(低噪声、结构化协方差),以及任务协方差结构对特征学习的决定性作用;通过合成数据实验和多语言情感分析真实场景验证,证实非线性MLP能显著提升非线性任务的ICL性能,数据混合比例和结构会直接影响模型表现。二、创新点建立了带非线性MLP头的Transformer与多项式模型的渐近等价关系,解释了非线性MLP在提升非线性任务ICL性能上的核心作用。系统分析了数据混合对ICL的影响,明确了高质量数据源的关键特征(输入和任务向量的结构化协方差、低目标噪声)。揭示了数据混合与特征学习的相互作用,证明任务分布的结构是实现有效特征学习的必要条件。将理论结果扩展到真实场景(多语言情感分析),验证了不同语言作为异质数据源时理论的适用性。三、核心部分翻译(Markdown格式)Abstract预训练Transformer展现出卓越的上下文学习(ICL)能力,能够在不更新参数的情况下通过示例演示适应新任务。然而,现有理论研究通常依赖简化架构(如省略MLP)、数据