1 论文标题:基于保险反欺诈任务的跨表特征工程方法
2 作者信息:董今妮, 邓 潇, 那崇宁, 杨 耀, 陈 奎*:之江实验室,浙江 杭州
3 出处和链接:董今妮, 邓潇, 那崇宁, 杨耀, 陈奎. 基于保险反欺诈任务的跨表特征工程方法[J]. 人工智能与机器人研究, 2024, 13(2): 467-477.
https://doi.org/10.12677/AIRR.2024.1320484 摘要:特征工程是使用机器学习技术解决场景任务过程的核心环节,特征工程的质量决定了模型效果的上限。本文将聚焦汽车保险反欺诈任务,研究跨表特征工程技术,解决汽车保险反欺诈过程中的数据表格聚合和高效特征挖掘问题,用于支撑下游反欺诈建模任务。目前,单表的特征工程算法较为成熟,而跨表的特征工程算法相对较少。相比于单表特征工程,多表之间的特征衍生所涉及的特征数目更多,更容易出现特征爆炸。针对这一问题,我们提出了xDFS方法,在DFS (Deep Feature Synthesis)方法上进行优化,引入对单表的统计分析过程,避免了DFS在数据预处理阶段的特征拆分,利用xgboost模型计算特征衍生的最优组合,进而解决了跨表特征衍生过程中的特征爆炸问题。在实验过程中,我们将xDFS方法在两个公开数据集和一个车险数据集上进行测试,发现当衍生特征深度较深时,DFS出现特征爆炸问题,而xDFS均未产生特征爆炸问题。