【摘要】:医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。高科技的医学检查设备每天都会产生数千兆字节数据。数学特征不显著。数据归属权问题、数据安全问题、法律诉讼问题等。图1-6医疗数据可及性医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。
电子病历里的数据包括影像资料数据、电子处方数据、化验结果数据、病案首页数据、病程记录、诊断信息、护理病历记录、手术麻醉记录等各种不同类型的数据。其中包含结构化的数据,如病人的基本资料、所开医嘱等数据;同时包含大多数非结构化数据或半结构化数据,如病人的主述、诊断信息等数据,虽然是以结构化数据形式保存在表中的,但是其构成的语言是自然语言,往往带有一定的主观性;还包含了一些特定格式的数据,如各类检查信息,包括血管造影、彩色多普勒等图片和检查报告。
医疗卫生数据特点如下:
异构性。医疗数据类型的多样化,包括数值型数据、类别型数据、图像、文字、信号、语音、视频。医疗数据的异构性加大了知识发现的难度,使开发基于医疗数据库的通用软件系统较为复杂。
海量性。医疗工作自身的特点,如病情观察的不可间断、各种医疗检查结果纷繁复杂以及存有大量的医学文献专著等。高科技的医学检查设备(如SPEC、MRI、PET等)每天都会产生数千兆字节数据。
数学特征不显著。医疗数据混合了文字、图形等非数值型数据,使得数据挖掘人员并不能很好地找到可以反映数据间联系的模型。
难以发掘知识。主观性试验和诊断会带有主观性,难以发掘知识。同一个领域的顶尖专家往往会对对方的诊断带有异议,这就会难以整合。
标准化危机。在医学界,很多概念都没有规范,例如一个简单的概念“结肠腺癌,转移到肝”,有很多的表达形式,再如有的中药有很多别名。(www.chuimin.cn)
伦理性、社会性、法律性。数据归属权问题、数据安全问题、法律诉讼问题等。
可及性。医疗数据可及性分为完全不可及、部分不可及、完全不可及和持续完全可及,如图1-6所示。

图1-6 医疗数据可及性
医学数据类型及特点主要包括多系统多类型、数据量大、增量迅速、结构复杂。以中南大学湘雅医院为例,目前全院编制床位有3500张,年门、急诊量达200万人次,年住院病人9万人次,年手术5万台次,每年的数据量表现如下:HIS数据(含电子病例)增长量在50G左右;LIS数据的增长量在30G左右;PACS的非结构化数据主要由以下部分组成:核医学、CT、磁共振成像(MRI)、彩色B超、黑白B超、数字减影血管造影(DSA)、计算机放射成像(CR)、数字化X射线摄影、内窥镜(ES)等,每年的PACS数据增长量在100TB左右。从以上数据量来计算,以目前医疗有效数据保留三年以上的时效性来看,目前湘雅医院三年的数据保有量在300TB以上。
现有医疗信息化体系面向业务需求,缺乏面向医疗大数据有效利用的技术体系;数据可及性差,例如数据不开放、信息碎片化、新数据不断产生;数据可用性低,数据不准确、数据不完备、结构化程度低。绝大多数的医疗数据是处于归档状态,检索是十分复杂的。缺乏数据标准,导致无法统一。未来的数据利用前景是十分广阔的,不仅用于临床诊断、临床科研,而且对政府公共卫生决策及个人管理健康都会发挥积极的作用。
相关推荐