临床科研数据库平台关键技术研究与实现
临床科研是人类探索疾病机制、拓展医学认知、促进医学创 新、提升医疗质量的重要途径。 临床数据是开展临床科研的基 础。电子数据采集(electronic data capture,EDC)系统可根据研究者 的需求设计并实现电子表单进行数 据采集,是目前主要的数据采集手段。
随着医疗信息化的不断发展,医院积累了大量的临床诊疗数 据,有效利用真实环境中产生的数据开展临床科研,已成为国内外学者的迫切需求,它不但可以解决基于传统EDC系统人工采集数据的 烦恼,而且能为临床科研带来更加 真实而丰富的数据资源。 临床科研数据平台是对分散在 医院各类信息系统中的临床诊疗数据进行整合和规范化处理,为临床研究提供多元数据服务的综合性平 台。近几年来,构建临床科研数据 平台已逐渐成为研究型医院建设的重点内容。
1. 临床科研数据平台需解决 的关键问题
目前,虽然真实环境下的临床 诊疗数据不断积累,但是数据的可 及性与可用性较低,导致了这些数 据很难被临床科研有效利用,这也是临床科研数据平台亟需解决的关 键问题。
1.1 临床数据的可及性问题 虽然很 多医院已经建设了HIS、电子病历 等信息系统,每天都在产生大量宝 贵的可用于临床科研的数据资源, 但是这些数据的可及性不高,主要 体现在:系统主要面向医疗业务流 程,数据往往不能开放共享;大量 临床科研所需的数据分散存储在不 同的信息系统之中;部分诊疗过程 未完全数字化,如特殊护理记录 等;新型医疗设备进入医疗机构 形成新的数据/信息源,与现有信 息系统缺乏有效联接;各医疗机构 信息化建设水平参差不齐;系统异 构等等。所有这些问题的存在,为 临床科研的数据获取设置了重重障 碍,简单的数据获取需求会经由临 床研究者与信息科的反复沟通,有 时还会涉及厂商,耗时数月才得以 完成,在如此高昂的沟通成本下, 临床研究者往往被迫仍旧选择手工 采集数据的方式。
1.2 临床数据的可用性问题 与传统 的临床试验不同,真实世界场景中 所产生的数据并未经过严格的数据 质量控制;与此同时,在整合不同 系统临床数据的过程中,也可能引 入新的数据质量问题。这些数据质 量问题包括:数据不充分,缺乏用 于某项临床科研的关键数据;逻辑 错误、录入差错、同一患者多个主 索引等数据不可靠问题;同名异 义、异名同义等数据不标准问题; 数据未结构化,隐藏在自然语言报 告或病历中,如“阴性切缘切取次 数”;针对特定研究案例存在相关 数据少或不平衡的问题。低质量的 临床数据会导致错误的研究结论, 因而很多情况下研究者即使获取到 了临床数据,但仍需要花费大量的 时间过滤、清洗、转换数据,给研 究带来了巨大的负担。
2.临床科研数据平台构建及其关键技术
针对临床数据的可及性和可用性低的问题,很多医院均把建设临 床科研数据平台作为解决该问题的 主要方法。临床科研数据库平台的 系统框架如图1所示,它从不同系 统和设备中抽取临床数据,进行数 据治理,形成可供临床科研所用的 高质量临床数据库,在此基础上, 针对不同课题研究的需求,提供患 者隐私匿名化、入组患者智能筛 选、动态表单数据采集、临床数据 统计分析等共性数据服务。信息模 型和质量评估贯穿临床数据从抽 取、治理、存储到应用的全过程, 前者为平台提供了临床数据管理和 共享的基础,后者保障了平台中临 床数据的质量。 数据建模、抽取、治理、应用 等技术在各类数据集成整合平台上 都会涉及,但是针对临床科研需求, 如何实现这些技术来解决临床数据的 可及性和可用性问题却有其特殊性, 以下从这两个问题出发对平台的关键 技术及解决方案进行介绍。
2.1 提高数据可及性的关键技术 针 对临床科研来说,数据可及性包括 两个内涵,一是需要提供一种统一 的、易理解的临床数据与科研数据 的表达和共享访问方式,二是针对 临床科研的主要环节:患者入组筛 选以及研究特征变量采集等,为不 熟悉信息技术的研究者提供更为直 观的数据获取方法。
2.1.1 统一的数据表达与共享访问 信息模型是表达数据的主要方法, 也是实现数据共享访问的基础。平 台中临床数据和科研数据的内容有 重叠但不完全一致,它们的信息模 型往往遵循不同的标准:临床数据有openEHR、HL7等国际信息建模 标准;科研数据有CDISC、CDE 等标准。如果采用多个信息模型进 行表达,会导致数据难以共通融 合,无法进行数据的共享。 基于openEHR建立能表达所有 覆盖临床数据和科研数据的统一信 息模型。openEHR是一种开放的国 际医疗信息模型标准,它基于分层 建模的方法,不但具有较好的可扩 展性,而且便于临床研究者理解, 在医疗健康数据的语义互操作、利 用与共享方面具有优势。openEHR 通过开放式的Clinical Knowledge Manager(CKM)平台已经发布了 大量得到国际专家公认的模型,超 过12 000个数据项定义,覆盖了大 多数临床诊疗数据。以此为基础, openEHR提供了一种高度可扩展 “搭积木式”的建模方法,只需对 已有公开发布的模型中未定义的数 据项进行扩展即可完成建模。针对 “非小细胞肺癌”临床科研数据的 建模实践表明,在课题需要的150 项非小细胞肺癌患者诊断、治疗和 随访数据中,仅有其他突变位点、 靶向治疗等16个数据项需要扩展定 义(图2中加旗标的框中所包含的部分)。这种方法可以在保证模型统 一且稳定的前提下,又能尽可能满 足不同课题数据需求的动态扩展。 为了保证在信息模型动态扩展 的同时还能提供一致的数据的共享 访问方式,提出了一种模型驱动的 临床科研数据库平台实现方式, 也就是说数据库结构可随openEHR 模型扩展而自动调整。这样, openEHR模型扩展后,无需修改平台软件,研究者就可以非常方便地 在表单中选择模型中新增或修改的 数据项访问数据,其他数据利用者 也能动态配置相应的RestfulAPI接口访问数据,从而大幅提高了数据 的可及性。