中华流行病学杂志  2021, Vol. 42 Issue (7): 1299-1305   PDF    
http://dx.doi.org/10.3760/cma.j.cn112338-20200610-00831
中华医学会主办。
0

文章信息

岳和欣, 湛永乐, 边峰, 张一方, 桂路婷, 石英杰, 孟耀涵, 张娟, 江宇.
Yue Hexin, Zhan Yongle, Bian Feng, Zhang Yifang, Gui Luting, Shi Yingjie, Meng Yaohan, Zhang Juan, Jiang Yu
临床队列研究的数据标准与共享
Data standard and data sharing in clinical cohort studies
中华流行病学杂志, 2021, 42(7): 1299-1305
Chinese Journal of Epidemiology, 2021, 42(7): 1299-1305
http://dx.doi.org/10.3760/cma.j.cn112338-20200610-00831

文章历史

收稿日期: 2020-06-10
临床队列研究的数据标准与共享
岳和欣 , 湛永乐 , 边峰 , 张一方 , 桂路婷 , 石英杰 , 孟耀涵 , 张娟 , 江宇     
中国医学科学院/北京协和医学院群医学及公共卫生学院, 北京 100730
摘要: 数据标准在临床队列研究的数据收集、整合及共享过程中发挥着重要作用,并逐渐受到重视。本研究通过对5项国际成熟的数据标准模型进行综述,总结其特点和发展现状,并将各模型的数据模块与临床队列通用数据集进行匹配,以探究国际数据标准模型的适用性,为我国临床队列研究数据标准模型的制定与完善提供参考。
关键词: 临床    队列研究    数据    标准    共享    
Data standard and data sharing in clinical cohort studies
Yue Hexin , Zhan Yongle , Bian Feng , Zhang Yifang , Gui Luting , Shi Yingjie , Meng Yaohan , Zhang Juan , Jiang Yu     
School of Population Medicine and Public Health, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100730, China
Abstract: Data standard plays an important role in the process of data collection, Integration and sharing in clinical cohort studies, and more attention have been paid to it. This paper summarizes the 5 international proven data standard model, analyze their characteristics and development status, and match their data modules with the general data set of the clinical cohorts to evaluate the international data standard models' applicability and provide reference for the development and improvement of the data standard model for clinical cohort studies in China.
Key words: Clinical    Cohort study    Data    Standard    Sharing    

临床队列研究在病因和危险因素、预后及其影响因素、防治效果及远期疗效等临床研究领域发挥着重要的作用。即使研究同一临床问题,不同团队开展的队列研究从设计实施、变量定义、数据收集及整理等各个阶段的差异性,导致不同临床队列数据之间存在异质性,阻碍了数据的整合与共享。数据标准模型通过将来自不同卫生信息系统的众多纷杂数据标准化为一种通用格式,有助于数据的规范化收集。本研究通过梳理现有数据标准模型的现状与特点,明确我国临床队列数据标准发展方向,为今后的临床队列数据的整合与共享提供思路。

一、常用数据标准模型

目前国内外常用的数据标准模型均为国外组织开发,适用于临床队列研究且较成熟的数据标准模型有:开放式电子健康档案(Open Electronic Health Record,OpenEHR)组织开发的开放式电子健康档案规范[1]、美国卫生信息传输标准(Health Level Seven,HL-7)组织开发的快速医疗互操作资源[2](Fast Healthcare Interoperability Resources,FHIR)、观察性健康数据科学和信息学(Observational Health Data Sciences and Informatics,OHDSI)协作组开发的通用数据模型[3](Common Data Model,OMOP CDM)、临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)开发的临床数据获取协调标准[4](Clinical Data Acquisition Standards Harmonization,CDASH)、以患者为中心的结果研究所(Patient-Centered Outcomes Research Institute,PCORI)开发的通用数据模型[5](Common Data Model,PCORnet CDM)。以上5种数据标准模型的基本情况见表 1,其具体的相关模块见表 2

表 1 国内外常用数据标准模型基本情况
表 2 数据标准模型相关模块

根据5种标准模型的相关数据模块,结合孙一鑫等[16]设计的呼吸系统疾病专病队列变量模块,总结出我国临床队列的通用数据模块,涵盖入选排除标准、基本信息、生活方式与行为、环境因素、疾病史、诊断、治疗、随访、卫生经济学、生物样本等16个模块。各数据标准模型数据模块与队列数据模块的匹配情况见表 3。目前常用的数据标准模型存在以下特点:

表 3 临床队列通用数据模块与各标准的匹配情况

1. 模块丰富,涵盖多种数据类型:数据标准模型大多依据病例报告表(CRF)中的问题或研究变量,将其划分为多个模块,涵盖纳排标准、人口社会学特征、环境因素、检查与诊断等临床队列常用信息。每个模型的模块丰富且各有特色。如PCORnet CDM为功能性分布式研究网络,可进行多站点临床试验和观察性研究,主要包括CONDITION、VITAL、DIAGNOSIS等22种主要模块[5],OMOP CDM可规范多源异构的观察性数据的格式和内容,包括OBSERVATION、MEASUREMENT、DRUG_EXPOSURE等30种模块[3],FHIR模型支持多种文档架构,提供多种实现的代码库,包含了patient、Family Member History、Specimen等93种模块[17]。另外,数据标准模型不仅包括结构化数据(如数字、字母、符号等),还涉及非结构化数据(如文档、文本、图片、音视频等)。

2. 同一模型的不同模块间存在交集:虽然各模型对于每个模块均有明确的定义,但在内容上仍存在明显的交集。如FHIR中的Patient和Observation模块是发展的最为成熟和最常使用的重要模块[18]。Patient模块中包含了有关接受护理或其他健康相关服务的个人或动物的人口统计信息和其他管理信息,涵盖有关与健康相关的各种活动的患者和动物的数据,包括策划活动、精神科护理、社会服务、怀孕护理和辅助生活、饮食服务、追踪个人健康和运动数据等内容;Observation模块是医疗保健的核心要素,用于支持诊断、监测进展、确定基线和模式,甚至捕获人口社会学特征[17]。二者在人口社会学特征、生活方式等信息方面均存在交集。

3. 模型设计均基于数据同质化原则:尽管在医疗保健中越来越多地使用标准术语,但临床队列数据在收集过程中由于不同目的、来源和条件限制,仍会导致不同的数据库系统和信息模型采用不同的格式存储数据。这些数据可能未明确捕获到临床研究所需要的数据元素,但各个数据标准模型均基于数据同质化的原则,通过编辑逻辑,创建和共享同类群组,将原始数据整合到一个通用的数据标准模型以充分利用。

4. 国外已成体系,国内起步较晚:目前国外组织开发的数据标准模型大多已发展成熟,并定期更新版本。其中,1987年成立的HL7获得美国国家标准学会(ANSI)认可开发标准,致力于为交换、集成、共享和检索电子卫生信息提供全面的框架和相关标准,以支持临床实践和健康服务的管理和评估[19]。OHDSI自2014年成立以来,发展迅速,在其主办的论坛上吸引了来自学术界、医疗相关行业、卫生系统、临床医生、患者等不同利益相关方的2 500多名合作者,覆盖计算机科学、流行病学、统计学、生物医学信息学、健康政策和临床科学等多学科[20]

纵观我国,自2009年起,原卫生部组织建立城乡居民健康档案、电子病历和区域卫生信息平台等一系列卫生信息标准规范[21-23],并不断更新完善,使得我国城乡居民的健康信息和诊疗记录走向规范。但关于队列数据标准相关模型和开发组织起步较晚,目前由北京大学公共卫生学院牵头成立的中国队列共享平台[24](China Cohort Consortium)正在稳步发展。

二、临床队列研究数据标准模型选择建议

由于临床队列研究方向较多,包含疾病、药物、医疗器械和生物技术产品等,研究目的各有侧重,而不同数据标准模型的应用领域和优势特色也不尽相同。结合表 1~3中所列的各模型及其模块特点和现有的应用实例来看,不难发现,FHIR中包含较全面的医疗保健的基本要素,并且涵盖病前期及相关暴露因素的信息收集,所以在研究疾病发生发展和影响因素的临床队列时首推FHIR标准;OMOP CDM最初用于药物评价,其关于药物暴露、进展过程及症状等方面有详细的记录,所以在研究医疗产品安全性和有效性的临床队列则推荐OMOP CDM标准;CDASH适用于治疗领域的大多数临床试验,使通过多个研究收集的数据的定义标准化,且其包含随访模块,可在干预后获得其进展与转归信息,故在临床干预后疾病进展与转归研究中建议选择CDASH。具体的标准模型选择参考建议见表 4。值得一提的是,一个临床队列研究的问题可以是多方面的,这时候模型的选择建议根据数据标准模型特点进行组合式选择。

表 4 临床队列研究数据标准模型建议
三、机遇与挑战

1. 临床队列发展迅猛,亟待数据规范和整合标准:自2012年国家临床医学研究中心建设工作启动以来,我国分3个批次先后布局建设了32家中心,建成60余个大型生物样本库、数据库和143个临床研究队列,覆盖人群706.05万人次,涉及60余个病种;并预计到2021年底,在主要疾病领域和临床专科统筹建成100家左右的中心,开展20万~30万人以上规模的疾病人群队列研究[31]。然而我国现有的重大疾病队列研究存在诸多问题[32],包括集中信息系统建设、数据存储及管理、数据标准化、互操作性接口、术语管理等方面技术水平参差不齐,数据质量问题突出,数据的采集、存储、整合、处理、交换与共享的管理技术缺乏统一标准,进而导致数据的利用率不高,降低临床研究效率。

2. 中文临床医学术语问题仍待解决:2018年,在国务院发布的《关于促进“互联网+ 医疗健康”发展的意见》中[33],明确提出健全统一规范的全国医疗健康数据资源目录与标准体系。结合国外医学术语发展水平,我国中文临床医学术语仍存在术语内容覆盖范围局限,术语标准结构不合理,缺乏体系完整的术语标准等问题[34],尚未开发出一套可涵盖临床诊断、检查、药物、疾病分类、症状描述等临床实践领域的术语标准。2019年,中华预防医学会曾就大型人群队列发布一系列关于数据处理技术和数据安全技术等规范[35-36],在一定程度上有效提高了队列数据的规范性、完整性和准确性等质量要求。我国仍需结合国外经验、国内现有临床队列建设情况,开展合理的医学术语开发规划,进而推动我国临床队列数据标准的发展。

3. 数据整合共享过程伦理法规问题不容忽视:随着医疗大数据的到来,医学伦理问题争议不断。临床队列数据在整合与共享过程中,尤其是对于临床医学数据中最具有价值的患者数据部分,更应加强伦理的关注与考量。我国有学者强调应关注医学大数据中可能出现的伦理问题,如信息安全与个人隐私、知情同意与个人自主性、政府的监测与管理、风险与收益的评估以及医疗大数据建设面临的挑战等[37-38]。因此,在鼓励临床队列研究数据共享的同时,应加快推进我国相关政策法规的制定,在充分保证知情同意、隐私保护等问题的前提下,保障临床队列研究数据的合理合法利用。

四、总结与展望

当前医疗卫生正处于生物革命和信息革命相融合的全新时代,信息学及其相关技术在临床研究中得到广泛应用。数据标准模型有助于临床队列数据的有效整合与共享,鉴于现有的临床队列研究领域广泛、问题纷杂,今后在开展专病队列研究时,仍需在通用数据标准的基础上,结合专病队列的特点进行相应的调整和增补。

目前国外对于临床队列研究数据标准的探索与应用较为深入和全面,并取得一定成果,我国数据标准模型的开发尚处于起步阶段,仍需相关科研和技术人员加大投入,充分利用数据标准模型在临床队列研究中的作用,发挥我国临床队列研究数据资源的巨大价值。

利益冲突  所有作者均声明不存在利益冲突

参考文献
[1]
openEHR-Wikipedia[EB/OL]. [2020-07-18]. https://en.wikipedia.org/wiki/OpenEHR.
[2]
Fast Healthcare Interoperability Resources-Wikipedia[EB/OL]. [2020-07-19]. https://ja.wikipedia.org/wiki/Fast_Healthcare_Interoperability_Resources.
[3]
OMOP common data model[EB/OL]. [2020-07-18]. https://ohdsi.github.io/CommonDataModel/.
[4]
Clinical Data Interchange Standards Consortium (CDISC)[EB/OL]. (2017-01-01)[2020-07-18]. http://www.cdisc.org.
[5]
PCORnet CDM[EB/OL]. [2020-07-18]. https://pcornet.org/data-driven-common-model/.
[6]
Tison GH, Chamberlain AM, Pletcher MJ, et al. Identifying heart failure using EMR-based algorithms[J]. Int J Med Inform, 2018, 120: 1-7. DOI:10.1016/j.ijmedinf.2018.09.016
[7]
Canterberry M, Kaul AF, Goel S, et al. The patient-centered outcomes research network antibiotics and childhood growth study: implementing patient data linkage[J]. Popul Health Manag, 2020, 23(6): 438-444. DOI:10.1089/pop.2019.0089
[8]
Huser V, Sastry C, Breymaier M, et al. Standardizing data exchange for clinical research protocols and case report forms: an assessment of the suitability of the Clinical Data Interchange Standards Consortium (CDISC) Operational Data Model (ODM)[J]. J Biomed Informat, 2015, 57: 88-99. DOI:10.1016/j.jbi.2015.06.023
[9]
Herrett E, Gallagher AM, Bhaskaran K, et al. Data resource profile: clinical practice research Datalink (CPRD)[J]. Int J Epidemiol, 2015, 44(3): 827-836. DOI:10.1093/ije/dyv098
[10]
Hong N, Zhang N, Wu HW, et al. Preliminary exploration of survival analysis using the OHDSI common data model: a case study of intrahepatic cholangiocarcinoma[J]. BMC Med Inform Decis Mak, 2018, 18(Suppl 5): 116. DOI:10.1186/s12911-018-0686-7
[11]
王雪梅, 刘敏超, 季磊, 等. 基于FHIR的病案首页信息化模型建立[J]. 中国数字医学, 2018, 13(6): 43-46.
Wang XM, Liu MC, Ji L, et al. Establishment of the information model of the first page of medical record based on international medical information standard HL7 FHIR[J]. China Digit Med, 2018, 13(6): 43-46. DOI:10.3969/j.issn.1673-7571.2018.06.015
[12]
Semenov I, Kopanitsa G, Denisov D, et al. Patients decision aid system based on FHIR profiles[J]. J Med Syst, 2018, 42(9): 166. DOI:10.1007/s10916-018-1016-4
[13]
闵令通, 段会龙, 吕旭东. 基于openEHR的医疗信息建模方法[J]. 中华医学图书情报杂志, 2018, 27(3): 1-4.
Min LT, Duan HL, Lv XD. Medical information modeling based on openEHR[J]. Chin J Med Library Inf Sci, 2018, 27(3): 1-4. DOI:10.3969/j.issn.1671-3982.2018.03.001
[14]
OpenEHR China[EB/OL]. [2020-06-09]. http://openehr.org.cn/literature.jsp.
[15]
Link EHR[EB/OL]. [2020-06-09]. https://linkehr.veratech.es/.
[16]
孙一鑫, 裴正存, 詹思延. 呼吸系统疾病专病队列研究的标准制定与数据共享[J]. 中华流行病学杂志, 2018, 39(2): 233-239.
Sun YX, Pei ZC, Zhan SY. Data harmonization and sharing in study cohorts of respiratory diseases[J]. Chin J Epidemiol, 2018, 39(2): 233-239. DOI:10.3760/cma.j.issn.0254-6450.2018.02.019
[17]
Resource list -FHIR v4.0.1-HL7. org[EB/OL]. [2020-06-09]. https://www.hl7.org/fhir/resourcelist.html.
[18]
崔健, 李俊, 陈先来, 等. FHIR标准研究现状[J]. 中国医学物理学杂志, 2017, 34(9): 924-928.
Cui J, Li J, Chen XL, et al. Status quo of fast health interoperable resources standard[J]. Chin J Med Phys, 2017, 34(9): 924-928. DOI:10.3969/j.issn.1005-202X.2017.09.013
[19]
HL7. org[EB/OL]. [2020-06-09]. http://www.hl7.org.
[20]
[21]
中华人民共和国卫生部. WS 365-2011城乡居民健康档案基本数据集[S]. 北京: 中国标准出版社, 2012.
Ministry of Health, PRC. WS 365-2011 Basic dataset of health record for residents[S]. Beijing: China Standard Press, 2012.
[22]
中华人民共和国卫生部. WS 370-2012卫生信息基本数据集编制规范[S]. 北京: 中国标准出版社, 2012.
Ministry of Health, PRC. WS 370-2012 Specification for drafting of health information basic dataset[S]. Beijing: China Standard Press, 2012.
[23]
中华人民共和国国家卫生和计划生育委员会. WS/T 502-2016电子健康档案与区域卫生信息平台标准符合性测试规范[S]. 北京: 中国标准出版社, 2017.
State Health and Family Planning Commission of the People's Republic of China. WS/T 502-2016 EHR and regional health information platform standard conformity test specification[S]. Beijing: China Standards Press, 2017.
[24]
中国队列共享平台[EB/OL]. [2020-07-18]. http://chinacohort.bjmu.edu.cn.
China Cohort Consortium[EB/OL]. [2020-07-18]. http://chinacohort.bjmu.edu.cn.
[25]
Bergquist T, Buie RW, Li K, et al. Heart on FHIR: integrating patient generated data into clinical care to reduce 30 day heart failure readmissions (extended abstract)[J]. AMIA Annu Symp Proc, 2018, 2017: 2269-2273.
[26]
About CDash[EB/OL]. [2020-07-19]. https://www.kitware.com/cdash/project/about.html.
[27]
Rubin L, López NP, Gaiera A, et al. Development, implementation and preliminary results of an electronic reminder for HIV screening using a service oriented architecture[J]. Stud Health Technol Inform, 2019, 264: 763-767. DOI:10.3233/SHTI190326
[28]
Yang Y, Zhou XF, Gao SQ, et al. Evaluation of electronic healthcare databases for post-marketing drug safety surveillance and pharmacoepidemiology in China[J]. Drug Saf, 2018, 41(1): 125-137. DOI:10.1007/s40264-017-0589-z
[29]
Spineth M, Rappelsberger A, Adlassnig KP. Achieving interoperability between Arden-Syntax-based clinical decision support and openEHR-based data systems[J]. Stud Health Technol Inform, 2018, 248: 338-344.
[30]
Sáez C, Moner D, García-De-León-Chocano R, et al. A standardized and data quality assessed maternal-child care integrated data repository for research and monitoring of best practices: a pilot project in Spain[J]. Stud Health Technol Inform, 2017, 235: 539-543. DOI:10.3233/978-1-61499-753-5-539
[31]
中华人民共和国科学技术部. 科技部国家卫生计生委军委后勤保障部食品药品监管总局关于印发《国家临床医学研究中心五年(2017-2021年)发展规划》等3份文件的通知[EB/OL]. (2017-07-19)[2020-06-09]. http://law.pharmnet.com.cn/laws/detail_4212.html.
Ministry of Science and Technology of the People's Republic of China. Notice of three issued documents such as "Five year (2017-2021) development plan of National Clinical Research Center" by Ministry of Science and Technology of the People's Republic of China, National Health and Family Planning Commission of the People's Republic of China, Logistic Support Department under the Central Military Commission and China Food and Drug Administration[EB/OL]. (2017-07-19)[2020-06-09]. http://law.pharmnet.com.cn/laws/detail_4212.html.
[32]
李伟, 王士泉. 基于专病队列的重大疾病临床样本生命组学数据库建设[J]. 中华医学图书情报杂志, 2017, 26(6): 11-16.
Li W, Wang SQ. Development of bio-genomics database for major disease clinical samples based on specific disease cohort[J]. Chin J Med Library Inf Sci, 2017, 26(6): 11-16. DOI:10.3969/j.issn.1671-3982.2017.06.003
[33]
中华人民共和国国务院办公厅. 关于促进"互联网+医疗健康"发展的意见[EB/OL]. (2018-04-28)[2020-06-08]. http://www.gov.cn/zhengce/content/2018-04/28/content_5286645.htm.
General Office of the State Council, PRC. Opinions on promoting the development of "Internet plus Medical Health"[EB/OL]. (2018-04-28)[2020-06-08]. http://www.gov.cn/zhengce/content/2018-04/28/content_5286645.htm.
[34]
谢雪娇, 张黎黎, 奈存剑, 等. 国外医学术语标准开发方法及对我国的启示[J]. 中华医学图书情报杂志, 2019, 28(11): 16-21.
Xie XJ, Zhang LL, Nai CJ, et al. Development methods of foreign medical terminology standards and its enlightenments to our country[J]. Chin J Med Library Inf Sci, 2019, 28(11): 16-21. DOI:10.3969/j.issn.1671-3982.2019.11.003
[35]
中华预防医学会. 大型人群队列研究数据处理技术规范(T/CPMA 001-2018)[J]. 中华流行病学杂志, 2019, 40(1): 7-11.
Chinese Preventive Medicine Association. Technical specification of data processing for large population-based cohort study (T/CPMA 001-2018)[J]. Chin J Epidemiol, 2019, 40(1): 7-11. DOI:10.3760/cma.j.issn.0254-6450.2019.01.003
[36]
中华预防医学会. 大型人群队列研究数据安全技术规范(T/CPMA 002-2018)[J]. 中华流行病学杂志, 2019, 40(1): 12-16.
Chinese Preventive Medicine Association. Technical specification of data security for large population-based cohort study (T/CPMA 002-2018)[J]. Chin J Epidemiol, 2019, 40(1): 12-16. DOI:10.3760/cma.j.issn.0254-6450.2019.01.004
[37]
刘辉, 丛亚丽. 临床医学大数据的伦理问题初探[J]. 医学与哲学, 2016, 37(19): 32-36.
Liu H, Cong YL. Ethical issues of big data in clinical medicine[J]. Med Philos, 2016, 37(19): 32-36. DOI:10.12014/j.issn.1002-0772.2016.10a.07
[38]
刘星, 王晓敏. 医疗大数据建设中的伦理问题[J]. 伦理学研究, 2015(6): 119-122.
Liu X, Wang XM. Ethical issues in the construction of medical Big data[J]. Stud Eth, 2015(6): 119-122. DOI:10.15995/j.cnki.llxyj.2015.06.024