首页 理论教育福州市发布健康医疗大数据管理办法,涵盖采集、处理和应用

福州市发布健康医疗大数据管理办法,涵盖采集、处理和应用

【摘要】:健康大数据的主要来源包括电子健康档案和电子病历。值得注意的是,健康大数据涉及甚多难点。福州市正式发布了《福州市健康医疗大数据资源管理暂行办法》,管理办法覆盖了健康医疗大数据采集、存储、处理、应用、共享和开放的各个环节。该管理办法指出,福州市健康医疗大数据资源目录由基础信息、公共卫生、计划生育、医疗服务、医疗保障、药品管理、综合管理、新型业态八大类组成。实践说明,健康大数据的应用领域十分宽广。

健康大数据(healthy bigdata)是近几年来比较热门的新名词,是指无法在可承受的时间范围内使用常规软件进行捕捉、管理和处理的健康数据的集合,是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的健康信息资产。

健康大数据的意义不在于这些庞大的信息,而在于对这些健康数据进行专业化的处理和再利用,健康大数据的整合再利用对身体状况监测、疾病预防和健康趋势分析都具有积极的意义。

健康大数据的主要来源包括电子健康档案和电子病历。当然还有其他来源,如药典、健身数据、体检数据等。

健康大数据具有数据量巨大,如医疗数据、检验数据、影像数据等,种类繁多,如结构化数据、文本、影像等,数据真实,如采集自就诊、检验等实际过程,要求处理速度快,以及数据的长期持续性等特点。

值得注意的是,健康大数据涉及甚多难点。典型的如:

●行业复杂,标准化挑战甚大。

●个体差异大、医疗疾病种类繁多;复合疾病常见,关系复杂;很难标准化、自动化;医学检查、治疗、诊断技术不断发展;新的疾病不断产生和变化;医疗发展水平还有很多未知领域;医疗利益分割。

●医院资源有限,利用有限。

●目前,患者习惯于大病小病都找三甲医院,其他医院的优质医疗资源有限,医生的经验有限,医生的价值没有得到充分的发挥。

●个人信息缺乏,信息不对称。

●医学信息的不对称导致患者缺乏主动参与,大众的医学健康知识、预防知识和康复知识匮乏。

如何管理健康大数据,也是一个值得关注的问题,数据的安全、可靠、个人隐私保护等都是一种挑战。一些地方政府对此做出了努力,如福州市。福州市正式发布了《福州市健康医疗大数据资源管理暂行办法》,管理办法覆盖了健康医疗大数据采集、存储、处理、应用、共享和开放的各个环节。

该管理办法指出,福州市健康医疗大数据资源目录由基础信息、公共卫生、计划生育、医疗服务、医疗保障、药品管理、综合管理、新型业态八大类组成。数据生产应用单位应当按照目录和相关标准规范,组织开展数据采集工作,不得采集目录范围外的数据。

该管理办法还强调,高校或者科研院所获得的数据只限用于科研教育等非营利性活动,任何单位和个人均不得篡改和删除健康医疗大数据。同时,技术服务单位应当对信息资源及副本建立应用日志审计制度,确保所有操作可追溯,日志记录保留时间不少于3年。

在实践中,针对健康大数据应用,已经有很多努力。下面以我们自己实践的例子进行简单介绍。

在上海市公共卫生重点学科计划支持下,华东师范大学和上海市疾控中心(CDC)合作探索区域气象环境对传染病的影响,典型的如腹泻。(www.chuimin.cn)

全球每年约有30亿~50亿人发生感染性腹泻,死亡人数约为300万。已有研究表明,感染性腹泻的发生、流行与气象因素密切相关。经分析研究,我们主要采用BP人工神经网络应用于感染性腹泻与气象因素的相关性分析和传染性疾病预测。

研究中,我们收集了上海市2005年1月至2008年12月感染性腹泻日发病数和同期气象资料,建立了BP人工神经网络预测模型,并探讨了其应用于医疗气象预报服务的可行性。

典型情况有以下几种。

(1)资料:感染性腹泻日发病数据来源于国家疾病监测信息报告管理系统中2005年1月1日至2008年12月31日临床诊断或实验室确诊病例。同期上海地区主要气象资料由上海市气象局城市环境气象中心提供,包括日最高气温(℃)、最低气温(℃)、平均气温(℃)、最低相对湿度(%)、平均相对湿度(%)、平均气压(hPa)、降雨量(mm)、平均日照时数(hr)、平均风速(m/s)。

(2)气象主成分提取:考虑到气象因素之间存在共线性,根据主成分分析(PCA)原理,应用软件对相关性分析得到的影响感染性腹泻发病的气象因素进行主成分提取,去除多重共线性

(3)建立感染性腹泻日发病例数BP神经网络预测模型。

①样本数据处理:2005—2007年的日气象数据和感染性腹泻日发病数为网络训练样本集,用于网络训练和权值修改。2008年的独立样本数据作为网络测试数据集,用于检验模型的外推预测能力。为提高神经网络的训练速度和拟合效果,保证建立的模型具有良好的外推能力,采用相关函数对训练样本和测试样本进行归一化处理,并对预测结果进行反归一化处理。

网络结构、参数设置及训练函数选择:采用三层BP网络结构,以PCA提取的4个主成分作为网络输入(预测因子),即输入层神经元数为4;以同期感染性腹泻日发病数作为输出(预测项),即输出层神经元数为1。在确定隐含层神经元个数时,通过经验公式以及试错法发现,当隐含层神经元数为5时,训练误差和测试误差最小。最后确定的神经网络结构为4—5—1,即4个输入节点,5个隐含层节点,1个输出节点。

③模型拟合及预测效果检验:为评价BP神经网络模型的拟合和外推预测效果,采用平均绝对误差(MAE)、均方根误差(RMSE)、相关系数(r)及决定系数(r2)等指标对所建的BP神经网络模型,从训练拟合和外推预测两个方面进行检验。

④模型等级预报效果检验:采用百分位数法,以2005—2008年感染性腹泻逐日发病例数三个值为预报阈值,将感染性腹泻日发病例数的预测值转换成对应的预报等级,进行腹泻指数等级预报。

结果表明,BP神经网络预测模型应用于感染性腹泻的预报具有较高的准确度,误差在合理范围之内,并且具有较好的等级预报能力,对于向公众发布腹泻气象指数预报有较好的应用价值。

实践说明,健康大数据的应用领域十分宽广。

【注释】

[1]放射科信息系统(radiation information system,RIS)。

[2]http://www.hl7.org.cn/。