简介:摘要:油气生产过程中形成的海量实时数据及其历史数据,在油田数字化、信息化建设中的重要组成部分。但由于种种原因实时数据的质量管理面临较大挑战,数据湖作为一种常见的数据质量管控系统,能够协助数据治理,因此实时数据接入数据湖有毋庸置疑的重要意义。本文结合实践经验,对实时数据入湖方法进行讨论。
简介:[摘 要 ] 本文针对大型医院海量结构化、半结构化、非结构化数据的存储问题,设计和实现了一种数据湖存储方案。该存储方案通过构建三个“统一”,二个“分布”,一个“闭环”,即统一存储数据、统一命名空间、统一资源池、分布式存储、分布式元数据和缓存、数据安全闭环,做到了性能和容量线性提升前提下的百 PB级别不同类型数据的混合、持久存储;实现了多协议数据出站、入站;支撑了存储与算力分离后的数据复用。该方案相较于传统存储区域网络,适应大数据分析、深度学习和预测、物联网数据实时采集场景。数据不再需要重复地导出,真正做到了一份数据,多次复用,不仅节省了大数据分析和人工智能预测项目的成本,提高了效率,而且确保了数据安全。
简介:摘要:随着医疗门诊、住院、检测、在线等信息服务规模的不断扩大,各个部门及其网络系统建设的不断完善,业务部门服务的内容、范围、信息量和复杂度不断提高,许多核心服务数据在长期应用中积累和沉淀,紧迫需要打通不同信息系统之间交流的障碍,探索服务数据的创新应用,增强多维度数据分析洞察力能力。目前,医疗企业面对的主要困难是治疗信息化初期缺少统一的原则和技术,随着疗养业务的发展,新的贸易线不断涌现,一些基于不同业务线的仓库被建成一个闭塞的数据核心,导致来自多个缘由的数据异构特点。这些挑战给企业的长期发展带来了很多问题。本文主要是解决某市康养医疗系统面临的困境,力争打破传统数据孤岛,建立我市康养医疗系统范畴内的大数据资源湖。