门户
图库
科技
数据
VR
区块链
论坛
百科
导航
首页
要闻
观察
访谈
活动
科技
人物
互联网
IT
网络安全
网络通信
更多
大数据
云计算
无人机
机器人
智能家居
无人驾驶
机器学习
物联网
智能穿戴
智慧城市
投稿
首页
登录
注册
区块链
VR
Fintech
人工智能导航
全智网
智客公社
活动会展
专栏作者
图库
VR动态
快捷导航
要闻
观察
访谈
活动
Ai说
机器人
智能硬件
无人驾驶
语音识别
图像识别
自然语言
机器学习
无人机
智能家居
物联网
网贷行业
大数据
云计算
首页
>
行业
>
人工智能快讯
来源:
2020-10-30 15:59:00
热度:
把纸质家谱做成数据中台,原来是这样的体验
LX A i 中 国 网 Q
说起「数据中台」,很多人都不会感到陌生。但究竟如何定义「数据中台」?也许就会难倒一大批人了。
「数据中台」是近年来比较火热的一个技术概念,最早源于国内的科技公司。简单来说,就是利用数据技术对海量数据进行采集、存储、计算、加工、统一表示,形成标准后的数据 API,进而提高数据的共享能力。
目前数据中台的建设尚处于起步阶段, 还没有统一的数据中台建设标准、规范以及评价指标,且没有统一规范的定义,其英文译法也多种多样:Middleware、Middle Platform、Middle Office 或 Platform ,甚至包括中文拼音「Zhongtai」,但这些名字都不能很好地体现其数据共享和数据价值最大化的实质。
近日,来自合肥工业大学、明略科技、北京大学等机构的研究者在《自动化学报》上介绍了关于构建家谱知识图谱的数据中台实践。经过广泛研究,研究者在这篇论文中给出了关于「数据中台(Central-Platform)」的正式定义:
数据中台将一个机构 (企业、事业、或政府部门) 的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制, 以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。数据中台建设覆盖数据的逻辑管理和物理管理, 逻辑管理包括数据结构的设计和数据之间相关性的分析, 如数据仓库; 物理管理包括数据的存储和检索。
此外,以华谱系统为例,这篇文章整体介绍了关于「数据中台」的定义、功能模块、关键技术、挑战问题以及相应的解决方案。研究者利用知识图谱构建和推理技术,从海量家谱数据采集、汇聚开始,在数据治理、数据开发、数据资产管理等模块建设过程中辅以 「HI」 (人类智能)、 「AI」 (人工智能) 和 「OI」 (组织智能) 三者的交互和协同,创建了一个标准、可复用的家谱数据中台架构。
华谱数据中台的
数据管理架构建设和关键技术
下图展示了华谱数据中台的架构 Huapu-CP,我们以该架构为例,来分析一下
家谱数据中台系统核心模块的主要技术以及要解决的问题。
图 1:Huapu-CP 框架图。
具体而言,Huapu-CP 数据中台架构特点可分为三个层面:
1) 基于
数据的逻辑管理和物理管理
,建设了家谱领域
数据管理体系,提高数据服务效率,加速数据价值变现过程,打破了信息之间的屏障。
2) 基于
HAO (Human intelligence,artificial intelligence and organizational intelligence) 智能体系
,采用数据规范、数据清洗等数据治理技术形成了包括家谱人物数据、人物关联数据、社交数据、日志数据等的数据体系,更好地赋能于华谱系统前台业务。
3) 融合
知识图谱
技术,以家谱知识图谱作为数据中台架构的数据底座,从业务的角度组织数据。完成传统数据模式无法支持的节点关联分析、社区发现、用户推荐等复杂计算和挖掘任务。
数据的物理管理
首先,从
数据的物理管理层面
看,Huapu-CP 选择了图数据库集群的方式,将数据分布存储到多个机器上,并进行实时同步,以保障数据的安全性、一致性及性能的可扩展性。如图 2 所示:
图 2:物理管理框架图。
针对图数据规模较大、图
数据分析与挖掘耗时较长的问题,通过对大数据计算算法和框架的对比研究,华谱系统采用 Spark 分布式计算框架,在上层应用 (如子图模式查询、同名人物识别) 中,利用图划分算法将原始的图数据拆分为多个子图,基于分布式计算并行处理,以节省整体计算时间、 提高计算效率。
Huapu-CP 的数据采集方式包含 4 种,其数据采集架构如下图所示:
数据采集架构图。
数据的逻辑管理:HAO 智能体系
在数据的逻辑管理阶段,华谱系统将知识图谱技术、专家智能、组织智能等技术融入数据表示、数据治理等子模块中,协调逻辑管理整个流程。
逻辑管理框架图。
Huapu-CP 利用 HAO 数据治理构架进行数据规范、数据清洗、数据交换和
数据集成等数据治理工作。
数据治理架构图。
数据安全和隐私保护
除此之外,家谱数据和家谱服务需要一系列资产管理和用户关系管理算法支撑,Huapu-CP 已形成较为完善的算法开发体系。在数据安全和隐私保护上,Huapu-CP 架构也从用户权限管理和应用权限管理两个层面进行了设置。
针对
用户权限管理
,Huapu-CP 架构中提出了基于图数据库的 「粗细粒度结合」的权限管理方法,并提出了基于 HAO 模型的权限管理闭环架构。
「粗细粒度结合」的权限管理方法。粗粒度表示该用户所拥有的角色,细粒度指针对数据层面的权限管理。
基于 HAO 模型的用户权限管理架构。
如上图所示,基于 HAO 模型的用户权限管理闭环架构的主要流程为: 由领域专家 (HI) 和组织智能 (OI) 设计用户的权限体系, 由人类专家 (HI) 审核后在权限控制中心提供接口, 最后基于日志的智能分析 (AI) 提供权限调整方面的反馈, 并再由 HI 或 OI 审核、优化 。其中, 为了实现闭环权限控制,系统应实时地采集、存储用户行为数据和用户操作数据,并设计智能的日志分析算法。
针对
应用权限管理
,研究者通过设置应用读取数据的权限,避免恶意修改读取数据程序而导致的数据泄露问题; 同时,加入 HAO 模型实现应用权限管理的闭环,便于应用的改进和升级。
在 Huapu-CP 架构中,开发新应用的权限管理流程如下: 首先,由于每个应用只需部分数据的读取权限,为了系统中数据资产的安全性与隐私性, 应限制数据访问权限为该应用所需的最小集合。因此,「HI」与 「OI」可基于该应用的实际需求设计该应用所具备的最大权限集合。其次,由于应用的需求可能存在变化, 该应用交付使用后可针对用户行为
数据分析或用户反馈
数据分析 (AI) 得出该应用改进方向和内容, 反馈至专家 (HI) 和组织 (OI) 重新设计应用权限, 形成权限管理的闭环。
Huapu-CP(https://www.zhonghuapu.com/)对数据中台建设进行了一个成功的尝试,目前已有千万级数据节点,能提供秒级数据服务。但数据中台技术尚处于起步阶段,还面临着技术不成熟、框架验证标准不一、技术人员缺乏等困难和挑战。新一代的数据中台技术,在融合数据的基础上,更需要关心是否能够很好地沉淀行业知识。研究者表示,知识图谱技术相对于传统的二维表使用图描述实体与关系,其复杂的图结构更有利于探索数据之间的关联关系和获取知识。
LX A i 中 国 网 Q
本文网址:
欢迎关注微信公众号:
人工智能报
;合作及投稿请联系:
editor@cnaiplus.com
关键词阅读:
数据
体验
这样
原来
做成
纸质
家谱
中台
分享到
智能推荐
无相关信息
精选
独家盘点免费vr资源网站 vr资源网站排名
IMC2019中国智造CIO年会正式启动——趋势预测,洞见未来智造!
2024第20届郑州工业装备博览会将于5月9日开幕!
最近抖音很火的机器人快宝有人知道内情吗?人工智能已经逆天?
现代快报的快宝到底有没有人工后台?
自然语言处理的研究现状及发展趋势
快手商业副总裁严强:面对3亿DAU 我们用AI沉淀社交资产
免费Google账号共享2021有效谷歌账号密码大全
创米数联杨洋: 如何让“一扇门”成为全屋智能新突破口?
80后北大学霸拿下“3D视觉第一股”!蚂蚁刷脸支付的幕后赢家,开盘涨超45%
AI中国号
...
关注微信公众号,了解最新精彩内容
热门文章
...
独家盘点免费vr资源网站 vr资源网站排名
IMC2019中国智造CIO年会正式启动——趋势预测,洞见未来智造!
2024第20届郑州工业装备博览会将于5月9日开幕!
最近抖音很火的机器人快宝有人知道内情吗?人工智能已经逆天?
现代快报的快宝到底有没有人工后台?
热门标签
...
智能制造
工业机器人
人工智能发展
人工智能公司
人工智能机器人
人工智能大会
快讯
...
宇树科技创始人王兴兴提醒公众甄别不实信息
【环球网科技综合报道】3月2日消息,宇树科技创始人王兴兴近日以个人身份正式入驻微信视频号,并
2025-03-02
微软全球范围宕机 数万人服务受影响
【环球网科技综合报道】3月2日消息,,据Downdetector数据显示,美国东部时间周六下午3点30分后,微
2025-03-02
埃隆·马斯克最新JRE 3小时访谈聊了啥·五万字完整版|谷歌|飞船|人工智能|外星文明|知名企业|埃隆_马斯克|spacex_订阅
2025-03-01
理想汽车2月交付量近2.7万辆,智能驾驶系统升级引市场热议!
[db:简介]
2025-03-01
岚图汽车2月销量破8千辆,同比增长152%,全年冲刺20万辆目标
[db:简介]
2025-03-01
特斯拉FSD入华引热议,车主:这位“老司机”有点不懂中国规矩
[db:简介]
2025-03-01
问界新M5 Ultra预订开启,23.8万起售
[db:简介]
2025-03-01
小鹏汽车2月交付量破3万,同比增长570%
[db:简介]
2025-03-01
DeepSeek 再次震惊全球:价格只有 OpenAI 1/25,利润率却超过 500%|gpu|计算量|大模型|openai|deepseek_订阅
2025-03-01
DeepSeek效应初现:Grok-3补刀ChatGPT,OpenAI已在ICU?|谷歌|微软|算法|预训练|知名企业|云计算费用|openai|deepseek_订阅
2025-03-01
刚刚,DeepSeek全面开源V3/R1推理系统!成本利润率高达545%|路由|冗余|通信|大模型|deepseek_订阅
2025-03-01
DeepSeek公布成本、收入和利润率!最高可日赚346万|冗余|计算量|大模型|deepseek_订阅
2025-03-01
2025西安丝绸之路国际旅游博览会
2025西安丝绸之路国际旅游博览会 时间:2025年4月18-20日 地点:西安国际会展中心
2025-03-01
2025江苏人形机器人展示洽谈会
2025江苏人形机器人展示洽谈会 时间:3月25日-26日 地点:南京国际博览中心
2025-03-01
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河|gpt|安本正义|云计算费用|openai|埃隆_马斯克|deepseek_订阅
2025-03-01
5分钟顶人类8小时!OpenAI Deep Research订阅全推送,端到端强化微调是关键|智能体|isa|人工智能|deep|云计算费用|openai|research_订阅
2025-03-01
Nature独家爆料:全球机构撤稿率大排行,医学领域成重灾区|文章|学术论文_订阅
2025-03-01
Claude 3.7成精了!偷偷将OpenAI模型换成自己,卡帕西:好搞笑啊|算法|编辑器|openai|python|claude|高吞吐量内核_订阅
2025-03-01
2025机器人灵巧手创新大会暨灵巧手新技术新产品展示推广会
2025机器人灵巧手创新大会暨灵巧手新技术新产品展示推广会 灵巧手作为机器人的核心部件是深
2025-03-01
IBM中国投资公司停运,1800员工一夜失业!昔日霸主黯然落幕|微软|大连|裁员|运营|ibm|知名企业_订阅
2025-03-01