初创公司Diveplane试图通过发布该行业所谓的“第一个可验证的孪生数据集”来解决人工智能培训中使用的数据的隐私问题。
该公司名为GEMINAI的产品旨在帮助组织销售,共享和分析敏感数据集,而不必担心任何信息丢失,被盗或以其他方式滥用。
它创建的孪生数据集可以像原始数据集一样用于数据建模和分析,但是不同之处在于,它用合成数据替换了所有个人可识别信息,合成数据保持了原始数据集中包含的统计关系和细微差别。
这与其他获取数据并仅掩盖某些信息片(例如姓名和社会安全号码)的隐私技术有显着不同,从而使数据容易转换回原始状态。
Diveplane认为GEMINAI将帮助确保企业遵守隐私法律和合规性法规,例如《通用数据保护法规》和1996年的《健康保险携带与责任法案》(简称HIPAA)。
Diveplane首席执行官Michael Capps表示,他的公司正试图解决AI中的一个大问题。他说,许多公司发现自己在训练AI模型时被迫使用不准确或不完整的数据集,因为它们需要满足严格的隐私要求。但是使用不完整的数据通常意味着AI做出错误的决策,仅仅是因为AI没有足够的信息来得出正确的结论。
Capps说:“借助GEMINAI,我们通过创建可验证的数据集的合成“双胞胎”来消除这种风险,从而使企业无需为了隐私而牺牲AI的质量。” “ GEMINAI具有两全其美的优势,我们很高兴将这种首创的技术推向市场。”
Diveplane表示,已经对其隐私孪生需求最受限制的行业的合成孪生数据集产生了极大的兴趣。例如,医院可以使用GEMINAI与研究组织共享“真正匿名的患者记录”,以帮助发现新药和新疗法。
GEMINAI还可以帮助推动数十亿美元的数据共享行业,为公司提供一种匿名信息的方式,以便例如可以将其出售给广告商,而不会对隐私产生任何影响。