虚拟人口生成是数据科学中的一个新兴领域,在医疗保健领域有许多应用,目的是在显著缺乏人口规模的情况下,扩大临床研究数据库。然而,数据增强对AI(人工智能)模型发展的影响尚未被研究,以解决临床未满足的需求。在这项工作中,我们评估是否真实与虚拟病人数据的聚合可以改善现有的性能风险分层和疾病分类模型在两种罕见的临床领域,即原发性干燥综合征(pSS)和肥厚性心肌病(HCM),首次在文学。为此,我们将多变量方法(如多元正态分布(MVND))和直接的方法(如贝叶斯网络、人工神经网络(ann)和树集成)与它们在生成高质量虚拟数据方面的性能进行比较。增强算法和套袋算法,如梯度增强树(XGBoost)、AdaBoost和随机森林(RFs)都在增强数据上进行训练,以评估淋巴瘤分类和HCM风险分层的性能改进。我们的结果表明,树集合生成器在两个领域都有良好的性能,pSS和HCM的虚拟数据拟合优度分别为0.021和0.029,kl -散度分别为0.029和0.027。将XGBoost应用于扩增数据,淋巴瘤分型的准确性、敏感性、特异性分别提高了10.9%、10.7%、11.5%,HCM风险分层的准确性、敏感性、特异性分别提高了16.1%、16.9%、13.7%。
版权所有©2021作者。Elsevier Ltd.出版。保留所有权利。
浏览最新消息和更新