易联众C.health数据开放平台:以数智创新打造大健康产业新引擎
2022-03-22 编辑:刘军
《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中,将“加快数字化发展”独立成段,并提出建设国家数据统一共享开放平台。伴随“数字中国”建设的加速推进,以及区块链、人工智能、云计算、大数据等技术的创新应用,医疗健康数据逐渐打破孤岛难题,但“数据已汇聚,却不可利用”,即医疗健康数据碎片化的现状,依然是行业聚焦的世界性难题。
医疗健康数据的碎片化已成为全球数据的新“孤岛”。散落在“孤岛”中的数据结构不统一、标准不统一、字典不统一,使政府、机构与个人都无法获得完整连续性的医疗健康数据,给医疗机构的临床诊疗、管理部门的行政决策、科研人员的科研工作以及患者个人的健康管理带来了很大程度的阻滞,成为全民通往大健康时代的绊脚石。
为了解决数据共享难题,联通医院、药企、科研、诊疗、保健、医疗健康资讯、个人健康资料获取等多场景应用,由易联众个人健康云团队研发的“C.health数据开放平台”应运而生。该平台旨在为医疗健康行业从业者与开发者提供一站式、标准化、规模化的数据开放能力服务,依托易联众二十多年来在数字民生领域的经验与知识沉淀,为各个医疗健康服务端打造“面向不同层面用户、多样化数据开放方式、安全模式下应用数据”的数据共享平台,支持医疗健康数据知识库分享、数据标准转换、数据服务的整合,让数据资产发挥更大的价值。
以大健康知识为核心,打造未来智慧医疗
易联众C.health数据开放平台是一款以医疗健康知识为核心,基于大健康应用场景打造的医学数据信息共享与服务平台。它汇集了国内外海量的医学标准数据集及健康医疗术语库,包括国家和各省市卫健委的卫生信息标准文件、国际OMOP体系内的全套标准术语集、多个版本的ICD编码等,通过智能化数据处理平台对数据进行标准化、业务化、知识化的深度处理,降低客户获取、打通与应用健康医疗数据的门槛和成本。易联众C.health数据开放平台致力于把医疗健康大数据打造成医疗Web3.0化的基础设施,从全数据、全知识、全医疗健康生态等维度出发,破除医疗健康数据碎片化的困境,实现数据标准化应用。
四大对齐,破除数据交流障碍
目前,医疗信息化迎来加速发展的“蝶变期”,但数据碎片化、术语不对齐等问题,成为了跨国疾病探讨、疾病研究、疾病治疗、药品研发、健康应用落地的拦路虎。对此,易联众C.health数据开放平台通过“卫生信息标准服务、元数据服务、云链医学术语集、云链知识图谱”四大抓手,对全局数据进行对齐,实现真正的医疗数据数字化。
(1)卫生信息标准服务
卫生信息标准文件,是为了便于行业交流,依照《国家标准化指导性技术文件管理规定》制定的指导性技术文件,是科研、设计、生产、使用和管理等方面必不可少的指南或信息。但目前,由于不同地市、省份的官方医疗标准文件分散,导致医疗健康从业人员搜索文件、解读文件、应用文件标准时,需耗费大量人力物力,成本高昂且效率低下。
为了帮助相关从业者高效获取及应用卫生信息标准,易联众C.health数据开放平台将国家及各地市卫健委官方来源信息标准文件一站式聚齐,并对数据元、值域、数据集、统计指标、共享文档、技术规范、引用标准、分类代码及标识符、数据标准编制规范、功能规范、管理测评等进行结构化处理,从而构建了卫生信息标准服务智能引擎,提供基于卫生信息标准的标准化服务。
目前,该平台已收录400余份卫生信息标准文件,并提供资源免费下载,支持从标准类型、状态、来源等维度筛选标准文件。接下来,易联众C.health数据开放平台将继续收录卫生信息领域发布的国家标准、行业标准、团体标准以及其他规范性标准文件,为行业提供医院信息、区域卫生信息互联互通相关标准文件的查询与下载。
(2)元数据服务
元数据是描述数据的数据,是对数据的说明,便于理解和解释数据。但在日常使用中,基于国家层面数据收集、统计和汇报发布的元数据,内容局限大,无法覆盖在实际信息化建设中所需的元数据;且不同系统、标准对于数据描述的编码不同,导致数据找不到、读不懂、不可信,也无法供计算机直接使用,最终使使用者们陷入数据沼泽。
为解决以上痛点,易联众基于国内元数据相关标准体系、国际OHDSI OMOP 通用数据模型(Common Data Model,CDM)等,从不同来源(如医院信息系统、电子病历、检验信息系统等)的观察性数据,通过数据的抽取、转换和加载(Extraction-Transformation-Loading,ETL)过程对标准文件的内容进行结构化提取,形成标准化的数据结构,定义了一套适用于国内、国际的统一数据应用标准体系。
平台通过定义、标识、表示以及允许值等一系列属性描述的数据单元,帮助医疗健康行业打破业务与IT之间的语言障碍、更好地理解和解释数据,让从业者将医疗信息系统中的数据映射到相关数据模型,借助数据模型进行数据查询、分析与共享等应用,解决数据“找不到、读不懂、不可信,也无法供计算机直接使用”的难题,帮助实现健康医疗数据在元数据层面的统一管理。
(3)云链医学术语服务
通过对国内情况的深入了解,易联众发现,医学术语表达的多样化问题,是阻碍医疗信息统一的壁垒。身处医疗健康行业,常常会遭遇这种情景:
A医院的“脑脊液切口瘘修补术”在B医院的术语名称为“脑脊液切口漏修补术”,当两家医院间进行信息交换时,因计算机只能识别代码和标识符,所以在语义层面上信息无法交换。
这是由于医院所使用的HIS系统、电子病历系统不同,导致颗粒度较粗的医学标准术语,在复杂的实际临床环境中,无法完全支撑数据的使用、沟通需求。要解决这一难题,最有效的方法便是构建一套符合中国临床环境的医学术语集标准。
为此,易联众C.health数据开放平台打造了“云链医学术语”服务。通过严谨规范的术语创建和维护规则,汇集了大量国内外常用疾病与手术编码,形成“病案首页书写规范+疾病分类与代码+手术操作分类与代码+医学名词术语”四统一、可供行业复用的高质量中文医学术语集,为整个医疗行业信息的表达、存储、交换、共享、系统协同工作提供稳定可靠的医学术语服务。
目前,平台已汇聚OMOP体系下囊括药品、手术、疾病等方面的840万余条医学术语、25万余条国内ICD术语,以及ICD-9和ICD-10医保版、国家临床版等多个版本的术语,为医学信息化提供标准参考。平台基于“卫生信息标准与OHDSI OMOP”通用数据模型,实现了卫生信息的元数据映射,在持续新增卫生信息标准文件和元数据资源的基础上,帮助行业借助数据模型进行更准确、快速的数据交换,减少人工比对与转换标准产生的失误。
(4)云链知识图谱
云链知识图谱,是以开放的高质量医学知识资源为基础,采用自动抽取与专家审核方式构建的健康医疗知识图谱,目前已对1.56亿个实体进行融合。通过融合后得到的1.4亿条实体属性关系(三元组),以点线模型描述知识的方式,构建物体之间的联系。除此之外,云链知识图谱搭载于公司的NLP自学习平台,以包括深度学习在内的多种算法完善知识定义不全与定义不准的情况,基于自适应学习机制自动发现新的知识,实现“小知识+大数据=大知识”的质的飞跃,实现医疗健康知识更深度的应用。
易联众个人健康云团队AI技术负责人洪晶瑾博士说道:“基于上述四大服务,我们期望进一步推动医疗信息化的数字化、智慧化、人性化转型,真正打破新‘数据孤岛’的桎梏。对医疗机构来说,该平台可通过提高数据互操作性、结构化医疗健康数据等方法,解决临床数据采集和管理的不便,提升现阶段医疗行业内部的数据利用率。在医疗健康研究领域,该平台有望帮助医疗科研机构完成疾病机制探索、扩展医学认知、促进医学创新,跨越真实世界数据直接应用于临床研究的‘鸿沟’。对医疗厂商、健康保险行业、医疗健康应用开发者来说,易联众C.health数据开放平台基于信息标准文件、卫生信息元数据、医学术语集、医学知识图谱提供的基础数据建设、数据标准定义、数据查询与数据服务工具,能为医疗健康生态提供整体化的数据硬核支撑,让医疗数据在专业、可信、安全的条件下互联互通,释放更大的数据潜能。”
书熟理明,让人工智能更懂治愈
《医宗金鉴》有句话说:“医者,书不熟则理不明,理不明则识不精”,意思是说,如果对书中道理不明白,在对病人诊断识别时就会不精。识不精,则会“临证游移,漫无定见,药证不符,难以奏效”。
随着人工智能在医疗健康大数据领域的应用,如何帮助“AI医者”理解透彻知识、提升思考能力,更好地为个人健康提供支持,切实解决医疗健康问题,成为各大医疗机构、厂商、开发者面临的难题。基于这个痛点,易联众C.health数据开放平台以丰富的健康数据和医疗知识资源为核心,以人工智能技术为支撑,通过“数据+知识+工具”的一体化数据服务模式为健康医疗产业多方赋能,满足行业内各机构在数字化、智能化进程中的需求,支持AI等新兴技术在医疗行业的落地应用。
只有开放和共享,才能为个人健康保驾护航
当前,易联众C.health数据开放平台已开始试运营。平台以专业、严谨的态度,汇聚海量医学数据,通过“多渠道数据聚合”“智能化数据治理”“分布式数据存储”等技术,打破信息壁垒。其中,精准的医学编码映射功能强大,为医疗数据处理提供了标准化参考,实现了数据增值赋能。
与一般数据开放平台不同的是,易联众C.health数据开放平台提供了人工智能技术支持的数据服务与解决方案,可实现具体健康医疗场景和需求下大量信息资源的迅速整合、信息输送与服务应用。例如,平台与易联众旗下的“个人健康画像SanCore引擎”相结合,可形成集食品、运动、病理、生理、心理等大健康数据为一体的标签库,为个人健康画像SanCore提供全方位、全链路的应用落地服务。
正如《古今图书集成医部全录》所言,“医学贵精,不精则害人匪细”。医学健康智能化道路道阻且长,易联众本着“让天下没有难过的人生”的企业使命,开放心态、共享服务,打造C.health数据开放平台,助力医疗健康行业在实现“书熟理明”后能“精于医”,从而更好地守护群众健康。洪晶瑾博士表示,今后,易联众将不断沉淀新数据、持续完善医学知识库、优化智能术语映射工具,打造融汇 “C.health数据开放平台”“NLP自学习平台”“个人健康画像SanCore引擎”“大XI生活实验室”四大产品的易联众新兴技术生态体系,以数智创新为大健康产业进击Web3.0打造新引擎。