基于对抗性神经和大模型的数据生成

课程 ID: 19134

描述:
话题概述: 在数据驱动业务发展的背景下,各行业面临数据多样性、安全性、稀缺性等挑战,高效、高质量的数据构造能力已成为各领域关键需求。 传统方法中,人工构造成本高、质量依赖经验;而现实中采集的生产数据则存在丰富度缺失、样本不均衡等问题。 在此背景下,合成数据技术成为关键解决路径。该方法借助统计模型、深度学习或大语言模型拟合真实数据分布,能够生成不包含敏感信息且具有高度逼真的模拟数据。 然而,传统的合成数据生成方式,受限于模型架构,难以学习到多字段间的关联关系。考虑到近期大模型在语义理解上的进展突破,我们创新性地将大语言模型与CTGAN相结合,充分发挥前者在语义真实性、后者在枚举丰富度方面的互补优势,构建了一套完整的数据合成工程方案,支持数据生成、修复、监控与管理全流程,可广泛应用于测试、训练集构建及数据增强等多元场景。 演讲题纲: 在项目调研阶段,我们评估了当前业界常用的几种模型,包括高斯分布、时序变分自编码器(Time-series Variational Autoencoder-based, TVAE)、条件式生成对抗模型(Conditional Tabular Generative Adversaial Network, CTGAN),以及大语言模型(Large Language Model, LLM)。我们发现,传统的数据生成方式,受限于模型架构,难以学习到多字段间的关联关系,生成的数据缺乏真实性,且可解释性差。 考虑到近期大模型在语义理解上的进展突破,我们尝试将大模型应用于数据生成,提升合成数据的真实性。但大模型同样具有其局限性。虽然它可以在一定程度上提升数据真实性,但在输入数据token较多的情况下,大模型可能会损失一定的数据丰富度,且稳定性不足。而生成数据的丰富度又恰好是CTGAN的优势。CTGAN可以达到和训练集几乎完全一致的枚举字段丰富度。 因此,综合考虑上述方法的优势与局限性,我们尝试将大模型与传统的CTGAN模型相结合,使其各自生成各自擅长的字段数据,从而生成既能保证丰富度,又更接近真实数据特征的合成数据。并最终设计了一套完整的工程方案以实现测试数据的生成、修复、监控与管理,使其能够有效地应用于工程化的测试场景中。 话题亮点: 将大模型与传统的CTGAN模型相结合,使其各自生成各自擅长的字段数据,从而生成既能保证丰富度,又更接近真实数据特征的合成数据。并最终设计了一套完整的工程方案以实现测试数据的生成、修复、监控与管理,使其能够有效地应用于工程化的测试场景中。