基于对抗性神经和大模型的数据生成

课程 ID: 19134

描述:
话题概述: 在数据驱动业务发展的背景下，各行业面临数据多样性、安全性、稀缺性等挑战，高效、高质量的数据构造能力已成为各领域关键需求。传统方法中，人工构造成本高、质量依赖经验；而现实中采集的生产数据则存在丰富度缺失、样本不均衡等问题。在此背景下，合成数据技术成为关键解决路径。该方法借助统计模型、深度学习或大语言模型拟合真实数据分布，能够生成不包含敏感信息且具有高度逼真的模拟数据。然而，传统的合成数据生成方式，受限于模型架构，难以学习到多字段间的关联关系。考虑到近期大模型在语义理解上的进展突破，我们创新性地将大语言模型与CTGAN相结合，充分发挥前者在语义真实性、后者在枚举丰富度方面的互补优势，构建了一套完整的数据合成工程方案，支持数据生成、修复、监控与管理全流程，可广泛应用于测试、训练集构建及数据增强等多元场景。演讲题纲: 在项目调研阶段，我们评估了当前业界常用的几种模型，包括高斯分布、时序变分自编码器（Time-series Variational Autoencoder-based, TVAE）、条件式生成对抗模型（Conditional Tabular Generative Adversaial Network, CTGAN），以及大语言模型（Large Language Model, LLM）。我们发现，传统的数据生成方式，受限于模型架构，难以学习到多字段间的关联关系，生成的数据缺乏真实性，且可解释性差。考虑到近期大模型在语义理解上的进展突破，我们尝试将大模型应用于数据生成，提升合成数据的真实性。但大模型同样具有其局限性。虽然它可以在一定程度上提升数据真实性，但在输入数据token较多的情况下，大模型可能会损失一定的数据丰富度，且稳定性不足。而生成数据的丰富度又恰好是CTGAN的优势。CTGAN可以达到和训练集几乎完全一致的枚举字段丰富度。因此，综合考虑上述方法的优势与局限性，我们尝试将大模型与传统的CTGAN模型相结合，使其各自生成各自擅长的字段数据，从而生成既能保证丰富度，又更接近真实数据特征的合成数据。并最终设计了一套完整的工程方案以实现测试数据的生成、修复、监控与管理，使其能够有效地应用于工程化的测试场景中。话题亮点：将大模型与传统的CTGAN模型相结合，使其各自生成各自擅长的字段数据，从而生成既能保证丰富度，又更接近真实数据特征的合成数据。并最终设计了一套完整的工程方案以实现测试数据的生成、修复、监控与管理，使其能够有效地应用于工程化的测试场景中。