CARTGen-IR: Synthetic Tabular Data Generation for Imbalanced Regression——基于CART的表格数据不平衡回归合成采样方法
一、研究问题与背景1.1 问题定义不平衡回归在连续目标变量中极端值高值或低值样本稀少导致模型偏向预测平均值忽略重要极端情况。应用场景极端天气预测、海面温度异常、药物敏感性检测、金融欺诈识别等。1.2 现有方法的局限性阈值依赖许多方法如SMOTER、SMOGN通过人为设定阈值将连续目标离散化破坏回归任务的连续性导致解释性差、划分突兀。深度生成模型如GAN、VAE灵活但计算密集、可解释性差、调参复杂。传统采样方法如随机过采样/欠采样简单但易过拟合或丢失信息。二、核心方法CARTGen-IR2.1 方法来源与适配基于CART分类与回归树的合成数据生成思想原用于隐私保护与分类任务现首次系统适配于不平衡回归。继承CART的白盒特性可解释、可审计、支持数值/类别特征与缺失值。2.2 关键创新点创新点说明无阈值处理不使用任何用户定义的阈值避免连续目标离散化双引导采样结合相关性函数基于极端值重要性与DenseWeight基于密度逆加权CART条件生成对每个选中的稀有样本训练CART从叶节点采样生成新样本保持特征间非线性关系逐列生成策略按特征顺序生成数据模拟真实条件分布可选高斯噪声对数值属性添加轻微噪声提升泛化能力2.3 算法流程简略计算每个样本的稀有度权重相关性或密度用稀有指数 α 调整权重并归一化按权重有放回重采样对每个选中样本训练CART模型从CART叶节点中采样生成合成样本。三、实验设计3.1 数据集15个公开回归数据集涵盖高值极端、低值极端、双边极端类型。特征包含数值型与类别型样本量从数百到数万不等。3.2 对比方法共11种传统采样RU、RO、WERCS、GNSMOTE变体SMOTER、SMOGN、WSMOTER、G-SMOTER深度生成模型TVAE、CTGAN、CopulaGAN、TabDDPM其他专门方法DAVID、KNNOR-REG3.3 评估指标SERA平方误差-相关性面积专为不平衡回归设计RW-RMSE相关性加权RMSERMSE标准回归误差作为对照3.4 学习器随机森林RF支持向量回归SVRXGBoostXGB3.5 验证策略分层重复2×5折交叉验证 嵌套网格搜索数据增强仅在训练集内进行无测试集泄漏3.6 总实验量14个模型超参数 × 15个数据集 × 56种预处理配置 11,760次实验四、主要实验结果4.1 性能排名图3WSMOTER整体最稳定CARTGen-IR排名第四但胜/负比显著更高胜出更具统计意义强变体特征高斯噪声 密度加权 α1.5或2.04.2 与WSMOTER的贝叶斯对比图4RF模型CARTGen-IR 99%概率优于WSMOTERSVR模型SERA指标上90%概率更优XGB模型70%概率更优总体结论CARTGen-IR 通常为更优方法4.3 超参数敏感性图5相关性加权整体优于 DenseWeight最佳 α相关性加权1.5–2.5DenseWeight1.0采样比例 η 增加帮助相关性加权损害DenseWeight噪声影响不对称提升DenseWeight降低相关性加权4.4 运行时间图6CARTGen-IR在所有生成方法中第二快仅次于KNNOR-REG标准差更低表示更稳定深度学习方法平均慢131倍4.5 与KNNOR-REG对比KNNOR-REG更快但在稀有目标值上表现较差CARTGen-IR在效率与性能之间最佳平衡五、研究结论5.1 回答的研究问题问题结论RQ1是否有效是在SERA、RW-RMSE上均表现优秀RQ2相比SOTA如何综合排名高胜/负比最优平衡稀有与常见案例RQ3性能与时间权衡速度与性能最佳平衡快于多数生成方法远快于深度学习5.2 核心贡献提出了首个系统适配CART用于不平衡回归的合成采样方法完全避免阈值设定保持回归任务连续性保持可解释性与透明度白盒在效率与效果之间实现最优平衡开放了完整代码与实验数据。5.3 未来工作方向扩展到更多非极端稀有区间数据集探索其他决策树学习者如随机森林、梯度提升树融合成本敏感学习针对SERA等指标分析合成样本数量对性能的影响。六、方法优劣势总结简洁版维度评价是否需要阈值否核心优势可解释性高白盒支持特征类型数值、类别、缺失值计算效率高第二快生成方法预测性能优秀胜/负比最高稀有值处理强引导采样 CART条件生成实现复杂度中等比深度学习简单比传统采样复杂开源是提供完整代码这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要处理回归中的不平衡目标分布一直是一个持续的挑战因为相关目标值的代表性不足会严重阻碍模型性能。现有的数据层面解决方案常常采用源自分类技术的策略在连续目标上引入任意阈值导致问题表述人为且可能产生误导。深度生成模型提供了灵活的样本合成但计算量大且难以解释。我们提出了一种基于CART的合成采样方法专门设计用于表格数据的不平衡回归。该方法整合了相关性和密度引导的采样以解决稀疏目标区域的问题无需设置阈值并采用特征驱动的树结构在异构特征和非线性交互作用下生成逼真的表格样本。在极端值预测基准数据集上的实验表明所提出的方法与最先进的重采样和生成方法相比具有竞争力同时提供了更快的执行速度和更高的透明度。这些结果凸显了其作为一种可扩展且可解释的数据层面策略用于改进不平衡领域中回归模型的潜力。关键词不平衡回归 · 数据层面策略 · 采样 · 合成数据生成 · 极端值预测1 引言针对表格数据的不平衡领域学习研究主要集中在分类任务上[22,4]重点在于改进对少数类的预测。然而许多现实世界问题涉及连续目标在回归设置中也存在类似的挑战。这包括预测极端天气事件[23]、预测异常高的海面温度[2]、识别癌细胞中表明敏感性增加的异常低药物反应[16]以及检测重大金融欺诈。与分类不同回归任务带来了额外的困难确定连续目标空间的哪些区域应被视为稀有、相关且值得重点建模。数据层面方法仍然是解决不平衡问题最广泛使用的策略之一它们修改训练分布以强调最相关的案例提供了相当大的灵活性并且可以在预处理期间应用从而扩展了标准机器学习算法的适用性[4]。在不平衡回归中已经提出了几种数据层面技术[6,27,5,10,11,3,26,17,25]。然而这些提议中有许多表现出固有的局限性。通过人为阈值对连续目标变量进行离散化的方法通常会损害可解释性和透明度实际上将方法变成了黑箱。此外过于简单的数据生成机制可能增加过拟合的风险并且许多策略处理分类特征或缺失值的能力有限。为了解决这些问题本文改编了一种最初为分类设计的基于CART的数据增强方法[18]使其适用于不平衡回归的上下文。我们的方法避免了在目标变量上使用用户定义的阈值从而消除了现有方法[5,28,6]中与领域离散化相关的任意性。此外由于该技术利用决策树进行合成数据生成它继承了CART模型特有的透明度和可解释性同时自然地支持数值特征、分类特征以及缺失值。本文的其余部分结构如下第2节描述了问题定义并简要概述了相关文献包括现有的过采样和数据增强技术。第3节介绍了我们提出的解决方案而第4节讨论了广泛实验评估的结果。第5节提供了结论性意见。2 相关工作不平衡回归中的一个核心挑战是定义对连续域的非均匀偏好。虽然理想情况下完整的领域知识将根据用户需求和偏好来指导这一过程但这种知识很少可用特别是对于无限的目标域。有两种主要方法解决了这个问题。第一种方法由[21,22]提出通过插值基于领域的控制点来逼近相关性函数 ϕ()∈[0,1]当缺乏知识时它采用一种非参数的、数据驱动的过程该过程假设极端值最重要并根据调整后的箱线图统计量推导控制点[14]。第二种方法 DenseWeight [24] 使用核密度估计 (KDE) 分配与目标值估计密度成反比的权重通过优先考虑低密度区域来强调代表性不足的结果所有权重均为正数并进行归一化以确保稳定的梯度下降。数据层面策略通过使用采样和数据增强技术修改数据分布以更好地代表相关实例来解决不平衡回归问题[4]。例子包括随机欠采样 (RU)、随机过采样 (RO) 和加权相关性组合策略 (WERCS) [6]它们利用相关性函数进行引导采样。高斯噪声 (GN) [6] 通过扰动相关案例同时欠采样常见案例来增强数据。此外SMOTER [27] 通过基于相关性插值合成样本来使 SMOTE 适用于回归而 SMOGN [5] 将欠采样与 SMOTER 和 GN 结合起来以平衡合成数据的保真度和变异性。此外G-SMOTER [10] 使用几何变换扩展了 G-SMOTE以多样化生成的样本。然而这些方法中有许多源于分类设置通常依赖于任意阈值来划分连续目标空间这由于在目标域中引入了人为离散化非常不适合回归任务。这对于连续目标变量的性质尤其有害。通过引入阈值用户例如规定任何超过阈值的值都是显著且有价值的而任何低于阈值的样本都被视为普通且不重要的。因此如果阈值是例如x5那么 5.1 被认为是重要的而 4.9 则不是。直观地说这不太合理并在域内造成了一个突兀的划分。此外这意味着例如一个目标值为 1.2 的样本和另一个值为 4.9 的样本都被归类为正常、常见的案例但目标变量的大小被忽略了。因此人工阈值最终会划分无限域并消除连续目标变量的固有价值。WSMOTER [11] 通过将 DenseWeight 与 SMOTE 相结合来缓解这一问题使用概率加权来聚焦于稀疏区域。KNNOR-REG [3] 通过 k-近邻k-NN过滤来增强 SMOTE以识别具有代表性的少数点从而处理域内不平衡和噪声问题。深度学习模型如 GAN 和 VAE也已被探索用于合成数据生成其中一些模型是专门为不平衡回归任务而开发的。像 TVAE [29]、CTGAN [29]、CopulaGAN [19] 以及基于扩散的 TabDDPM [15] 等模型已被广泛研究用于合成样本生成但它们缺乏对不平衡回归任务的专门关注。DIRVAE [26] 使用双模型 GAN 框架来提高稀疏回归数据上的生成性能。IRGAN [17] 集成了生成、校正、判别和回归模块来创建合成样本。DAVID [25] 将回归训练与 β-VAE 架构相结合。尽管这些生成模型具有灵活性但由于其黑箱特性它们计算密集且可解释性有限。在文献 [20] 中作者引入了使用 CART 算法 [8] 生成合成数据以保护敏感微观数据的方法强调了与参数模型相比它在处理未知分布、复杂交互以及无需显式插补即可处理缺失值方面的优势。遵循同样的思路文献 [1] 应用 CART 为肿瘤学试验中的生存分析生成合成患者数据在该任务中它的表现优于随机森林、贝叶斯网络和 CTGAN 等方法——尤其是在低数据量环境下。基于 CART 对复杂关系建模的能力文献 [18] 在类别不平衡和公平性背景下评估了一种基于 CART 的表格数据合成生成方法结果显示其与 SMOTE 和 GAN 等传统技术相比具有强劲的性能。总体而言先前的研究表明基于 CART 的数据生成能够有效捕获原始数据中的复杂依赖关系同时避免 SMOTE 和 GAN 经常引入的失真。进一步扩展这些基于树的机制文献 [9] 提出了一种用于回归增强的随机森林方法。通过从集成模型的终端节点中采样他们逼近了底层的条件分布并有效地建模了非线性依赖关系。3 我们的提案基于文献中报道的基于 CART 的合成数据生成的良好结果[20,1,18]我们提出了 CARTGen-IR一种使用 CART 为不平衡回归生成合成表格数据的方法。我们的方法消除了在识别相关或稀有案例时需要任意用户定义阈值的问题这个问题与回归目标的连续性质相冲突。通过避免对目标域进行清晰划分CARTGen-IR 防止了 SMOTER [27] 和 SMOGN [5] 等方法所需的领域离散化。由于该方法基于决策树它根据 CART 估计的条件分布进行采样同时保留了算法固有的透明度和可解释性。递归划分过程提供了合成数据生成方式的可审计视图。此外CARTGen-IR 自然地处理数值变量、分类变量以及缺失值使其广泛适用于表格数据。CARTGen-IR 的整体过程在算法 1 中进行了总结。该方法首先根据其稀有度或相关性对目标值进行加权为稀有案例分配更高的权重。稀有度使用 DenseWeight 方法[24]或相关性函数[22]进行估计通过 ρ 权重方案超参数选择。前者使用概率估计当密度不平衡不能反映用户优先级时与基于相关性的方法不同可能不匹配用户偏好。这些分数通过稀有度指数 α 进行调整归一化并用于有放回地重采样数据集以便稀有实例更有可能被选中。基于稀有性的加权也用于WERCS[6]和G-SMOTER[10]等方法中但CARTGen-IR的独特之处在于它对原始数据集进行重采样的方式该方式在很大程度上将常见的目标值排除在增强之外。这产生的合成数据更有效地集中在目标空间的稀有和相关区域。尽管我们实现了DenseWeight和相关性函数但该方法支持任何稀有性估计机制无需更改整体框架从而确保了对未来发展的适应性。重采样的程度由超参数η∈[0,1]控制该参数决定了要生成的合成样本的比例。遵循合成数据生成中的既定实践[12,13]每个选定的实例作为生成多个合成样本的基础。由于重采样可能创建重复的实例因此可以应用由δ控制的可选噪声机制来减少数值特征上的过拟合。然后使用富含稀有案例的重采样数据集通过基于CART的、顺序的、逐属性的数据生成过程来生成合成数据该过程通过在叶节点中采样实现如[18,20]中所述。在该过程中使用剩余的前序属性作为预测变量为每个属性迭代地拟合一个CART模型。合成过程遵循三步协议。首先通过将每个变量视为目标并仅使用前序变量作为预测变量例如使用X1和X2训练X3的模型通过FitCARTModels函数训练多个CART树。其次GenSynthetic函数通过基于已为该案例生成的前序变量的值为每个变量迭代地选择适当的终端/叶节点从而为新的合成案例生成数据。对于序列中的第一个变量由于合成样本不存在先验值该过程默认使用根节点并使用该变量的整个值池来随机选择一个值。第三然后从该节点的成员中随机抽取一个值并将观察到的值作为该变量的合成输出。此外对于连续变量该方法不是直接从叶节点中的离散值进行采样而是对叶节点中的值拟合高斯核密度估计器并从该平滑分布中进行采样。这通过生成符合统计特征包括稀疏尾部的合理值来提高泛化能力而不仅限于训练集中存在的确切点。该过程对每个合成案例重复进行始终使用在FitCARTModels阶段拟合的相同树这些树仅从原始数据中导出并且不受生成的新合成数据的影响。此过程在图1中进行了说明。图2显示了一个简单的示例其中包含两个特征以及标记为普通或罕见的目标值。此设置展示了CARTGen-IR如何处理不平衡回归与基于插值的方法不同。SMOTER创建了不切实际的合成点KNNOR-REG未能生成多样化的特征值并且仅在一个稀有簇中执行增强而CARTGen-IR使用基于树的分区在稀有区域内局部生成样本从而保留了原始数据结构。4 实验研究我们的主要目标是在与其他最先进的不平衡回归任务数据层面策略进行比较研究的更广泛背景下评估CARTGen-IR的性能和能力。通过实验研究我们旨在回答以下研究问题RQ1CARTGen-IR在不平衡回归场景中是否有效无论是从标准误差指标还是专门适用的误差指标来看RQ2与为表格数据不平衡回归任务提出的最先进数据层面方法相比它在稀有和常见目标子域上的表现如何RQ3这些方法在预测性能和执行时间方面提供了怎样的权衡4.1 实验设置在本研究中我们使用了15个广泛使用的回归数据集。这些数据集的关键属性总结在表1中该表还报告了稀有实例的绝对和相对频率以及根据0.8的相关性阈值定义的极端值类型。为此我们使用[22]中概述的自动化方法为每个数据集推导了一个相关性函数。所选数据集呈现出广泛的特征例如数值和名义特征、实例数量、极端值类型和稀有发生情况。我们评估了一套全面的预处理策略来处理回归任务中的数据不平衡。所考虑的方法包括来自[6]的RU、RO、WERCS和GNSMOTER [27]SMOGN [5]WSMOTER [11]G-SMOTER [10]DAVID [25]KNNOR-REG [3]以及CARTGen-IR这些都是专门为不平衡回归任务开发的。此外我们还包含了其他最先进的深度学习技术尽管它们并非有目的地为解决不平衡回归问题而开发但仍然适用于这些场景i基于VAE的方法TVAE [29]ii基于GAN的方法CTGAN [29]和CopulaGAN [19]iii基于扩散的方法TabDDPM [15]。表2展示了56种重采样配置的完整概述。每种预处理策略的超参数值是根据它们被提出或引入的文献中使用的值来选择的。对于CARTGen-IR超参数搜索空间是通过综合相关文献中已有的值并通过初步实证分析进行细化来定义的。需要注意的是无法与[26]提出的DIRVAE方法以及[17]提出的IRGAN方法进行直接比较因为这两个源代码均未公开。为了评估这些数据层面策略的有效性我们将它们与三种算法配对随机森林RF、支持向量回归器SVR和XGBoostXGB。实验设置包含14个用于调整学习模型的超参数组合RF使用n_estimators100,200和max_featuressqrtlog2SVR使用rbf核C1,10,100和epsilon0.1,0.5XGB使用n_estimators100,200和max_depth3,6。每个模型在所有56种预处理条件下对15个回归数据集进行了评估总共进行了11,760次实验14 × 15 × 56。在本研究中我们使用了平方误差-相关性面积SERA[22]和相关性加权RMSERW-RMSE[7]作为评估指标以更好地评估不平衡条件下的模型性能。我们还纳入了RMSE作为标准回归误差指标。所有评估指标均使用分层、重复的2×5折交叉验证过程进行计算以确保稳健可靠的性能估计并结合嵌套网格搜索同时调整回归器超参数和采样策略配置。数据增强严格应用于交叉验证循环内的训练集确保没有合成数据泄漏到测试集。分层过程是考虑目标变量的分位数进行的。4.2 实验结果图3概述了每种数据增强方法在所有评估指标上的胜场和负场突出了使用Wilcoxon符号秩检验在95%置信水平下确定的统计显著差异。为了可读性该图仅报告了CARTGen-IR的六个表现最佳的配置共测试了16个以及所有竞争方法。该检验的目的是能够在方法之间进行比较分析而无需使用预先确定的绝对阈值来区分好性能和差性能。从这一分析来看WSMOTER成为跨指标最一致的表现者其次是KNNOR-REG和G-SMOTER。CARTGen-IR在整体一致性方面排名第四具有其他方法未观察到的稳健性水平。例如WERCS在其过采样主导的版本中表现良好但当欠采样变得更加突出时性能下降。值得注意的是尽管CARTGen-IR不是最频繁的赢家但与类似表现的方法相比它表现出优越的显著胜/负比表明其胜利通常更有意义。此外最强的CARTGen-IR变体表现出一致的特征它们向数值属性引入高斯噪声并在两种密度加权方案以及1.5和2.0的稀有指数下表现良好。合成样本的比例影响很小因为两个测试值产生了相似的结果。在观察到先前测试中CARTGen-IR和WSMOTER都有强劲表现后我们进行了贝叶斯符号秩检验来比较它们使用了[-1%1%]的实际等价区域ROPE。结果表明CARTGen-IR在所有被评估的模型上持续优于WSMOTER。具体来说对于RFCARTGen-IR在所有指标上表现出99%的优越概率——图4b。虽然SVR在RMSE和RW-RMSE上的表现是平衡的图4a但CARTGen-IR在SERA指标上占据主导地位概率超过90%。对于XGBoostCARTGen-IR在大多数指标上显示出高于70%的优越概率——图4c。总体而言分析表明CARTGen-IR通常是更优越的方法。我们还对CARTGen-IR进行了超参数敏感性分析检查了密度方案ρ、指数α、采样比例η和噪声水平δ对性能的影响。结果是在一个具有代表性的回归数据集上使用随机森林模型获得的并总结在图5中。相关性加权机制始终比密度加权带来更好的性能。对于α1.5到2.5之间的值被证明在相关性下最有效而对于密度加权α 1是更可取的。增加η有利于相关性但对密度加权有相反的影响。噪声也具有不对称的影响额外的抖动改善了密度加权却损害了相关性。RMSE表现出一种独特的模式。由于它不是为不平衡回归量身定制的并且统一惩罚所有偏差因此随着η的增加强调稀有案例自然会导致RMSE的轻微恶化。然而其他专门为不平衡回归设计的指标显示出明显的改善表明常见案例上的适度损失被最重要区域的巨大收益所抵消。这种权衡与之前报告的对比结果一致。为了结束我们的实验研究我们对所有数据增强技术进行了运行时比较。为了公平起见我们在相同的并行化条件下专门测量了数据增强过程的执行时间。图6以对数尺度展示了每种策略的运行时值以秒为单位。CARTGen-IR在生成合成数据的技术中脱颖而出成为最快的技术之一。基于采样的方法如RU、RO和WERCS表现出最低的运行时因为它们不合成新数据。在创建新合成数据的增强方法中只有KNNOR-REG在速度上超过了CARTGen-IR尽管CARTGen-IR表现出更低的标准差表明更高的一致性。WSMOTER和G-SMOTER的运行时接近CARTGen-IR而其他基于SMOTER的方法明显更慢。基于深度学习的方法是最慢的平均运行时间比CARTGen-IR长131倍。本研究中使用的代码以及所有实验结果可在SynthTabularDataGeneration-IR获取。4.3 讨论针对RQ1和RQ2CARTGen-IR已被证明对不平衡回归任务有效。它在所有数据集上持续取得强劲表现并且总体排名最高。与领先的最先进重采样策略相比CARTGen-IR在这些方法的基础上有所改进或与之相当特别是在平衡稀有值和常见值案例之间的关注方面。对于专门为评估不平衡回归任务性能而设计的RW-RMSE和SERA指标WSMOTER、KNNOR-REG和CARTGen-IR成为明显的赢家同时在RMSE上也表现出稳健的性能。这表明CARTGen-IR在整个领域内具有良好的泛化能力而不会损害整体预测性能。此外与其他两种方法相比它表现出显著优越的胜/负比。关于RQ3在分析每种策略的特征时我们可以将方法分为采样技术和增强技术。采样技术由于其实现简单执行时间最低然而它们也产生不一致且排名较低的分数。在生成合成样本的方法中KNNOR-REG是最快的尽管它在稀有目标值上表现不佳。CARTGen-IR是第二快的并在效率和预测性能之间提供了良好的平衡。5 结论这项工作解决了不平衡回归的问题其目标是预测连续目标的稀有和非典型值这对许多学习算法来说仍然是一项具有挑战性的任务。我们引入了CARTGen-IR一种针对这种情况量身定制的、基于CART合成数据生成的非参数方法。与其他针对不平衡回归的最先进重采样策略不同CARTGen-IR不依赖用户定义的连续目标阈值。通过采用基于CART的机制它捕捉数值和分类变量之间的复杂关系并自然地处理缺失数据同时保持计算效率。重要的是合成数据生成过程本身保持透明和可解释继承了决策树的白盒特性。此外在一组多样的基准数据集和最先进方法上进行的实证评估证实了所提出方法在不平衡回归场景中的竞争力。这表明采用利用CART的数据层面策略的概念是可行的。然而作为未来的工作可以采用替代方法来利用特征之间的交互以及本提案所奠定的框架。这些发现表明基于CART的数据层面策略是不平衡回归的一种可行方法并为未来的工作指出了几个有前途的方向。这些方向包括将实验评估扩展到更广泛的数据集特别是那些具有非极端稀有区间的数据集在所提出的框架内探索替代的决策树学习器以捕捉更复杂的特征交互结合针对不平衡回归指标如SERA量身定制的成本敏感学习方法以及分析每个重采样实例生成的合成样本数量的变化如何影响整体性能。