首页 理论教育分布式数据库技术:生命科学数据分析及医学推理对比

分布式数据库技术:生命科学数据分析及医学推理对比

【摘要】:生命科学在日益成为数据密集科学。当然,从医学推理看,人和计算机还是有差异的,我们使用参考文献[4]中的一张表来将两者进行比较。计算机系统按照预先描述的算法采用二进制代码处理数据。表22.1人和计算机在医学推理上的对比●定位偏差:在支持的充分数据可用前仅关注单一的概念。计算机系统可以借助概率统计,不屈服于这些偏差。

健康领域的信息化发展很快,尤其是在医院信息化中。健康信息化系统(healthcare information system,HIS)的涉及面很广,涉及的数据量大且结构复杂。

1.智慧健康和智慧医院

随着卫生保健系统在世界范围内日益增加的复杂性和现代医学日益成为一种数据密集型科学的事实,使得医学问题与大数据分析密切关联。同时,智慧化成为卫生保健的主要关键词。

低成本、微小型、轻型的智能生理传感器及其网络(尤其是无线通信网络)开始广泛使用在卫生健康领域。泛在计算和情景感知计算在卫生健康领域里也被逐渐推广使用。

智慧健康成了民众的迫切需求,随之又导致了智慧医院的需求和建设。

2.医学在变成数据科学

当前,药品的设计和研发与数据科学的关联度超过了其与生物学或医学的关联。生命科学在日益成为数据密集科学。在生物信息学和计算生物学中,我们面对的不仅是数量日益增加的、异构和多样的、高度复杂的、多元和弱结构化的、富含噪声的脏数据,而且建模需求的快速增长。学术界提出了P4医学(P4-medicine)概念,即预测性(predictive)、预防性(preventive)、参与式(participatory)和个性化(personalized),试图实现精准医学。因此涉及更大数量的复杂数据集,特别是所谓显微镜下的数据(omics-data),包括来自基因组学(genomics)、表观基因组学(epigenomics)、元基因组学(meta-genomics)、蛋白质组学(proteomics)、代谢物组学(metabolomics)、脂质组学(lipidomics)、转录物组学(transcriptomics)、表观遗传学(epigenetics)、微生物组学(microbiomics)、通量组学(fluxomics)、表型组学(phenomics)等的数据。

3.人工智能和智慧医学

人工智能在医学上越来越重要。IBM公司的Watson是一个典型的人工智能平台,其在医学领域应用多年,有很多成功样例。知识推理是该平台的重要基础。可以说,推理过程在医学上扮演着重要角色。

推理是按逻辑方式考虑某个事物或事件的过程,以便形成一个结论或判断。医学诊断过程可以看成是一个推理过程。当然,从医学推理看,人和计算机还是有差异的,我们使用参考文献[4]中的一张表来将两者进行比较(见表22.1)。(www.chuimin.cn)

计算机系统按照预先描述的算法采用二进制代码处理数据。它们从海量数据中找出相关性,找出关系,结果与各局部成分之和等同,即1+1=2。

医学实践中,人类的推理,在归纳确认和设证推理的精细化中会受到阻碍,原因是偏差的存在和概率计算理解的不足。这里,偏差主要包含以下几点。

表22.1 人和计算机在医学推理上的对比

●定位偏差(anchoring bias):在支持的充分数据可用前仅关注单一的概念。

●确认偏差(confirmation bias):只收集支持一个假设的信息。

●提早关闭(premature closure):过早地结束推理过程,忽略对替代解释的评估。

计算机系统可以借助概率统计,不屈服于这些偏差。因此,在医学上,计算机系统的应用越来越广泛。

为了适应数据在医学中的发展,有必要对医学数据进行深入讨论。下面先讨论一些术语和标准。