《大数据管理概论》一第2章‖大数据融合2.1 引言
本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看
第2章‖
大数据融合
2.1 引言
大数据时代人们面临的最根本挑战是从数据中凝练可领悟的知识[10,11],
其关键技术是数据的集成或融合[12]。进入21世纪以来,这些技术已经取得了重大进展,如深网(Deep Web)数据集成技术[13]、知识库(Knowledge Base,KB)技术[14,15]、关联数据(Linked Data)集成技术[16]、大数据集成技术[17]等。这些技术在结构化、半结构化、非结构化等各种类型的数据处理上已形成优势,并广泛应用于各个领域:①商业领域,如Google搜索引擎借助Google知识图谱[14]、微软的必应搜索引擎借助知识库Satori[18]提高检索质量和检索效率;②科学领域,如IBM的Watson问答系统借助DBpedia[15]、YAGO[19]、Freebase[20]提供语义感知的问答服务;③专业领域,如生命科学利用Bio2RDF[21]、Neurocommons [22]等知识图谱作问答和决策。
然而,在使用这些已有技术获取知识时出现了如下问题:①获取的知识规模宏大,但缺乏可理解性和可实用性。以知识库为例,如Google知识图谱[14]目前包含多于5亿实体和350亿条实体间的关系信息,至少囊括几千种谓词,这些谓词还在不断增加和变化。要想让用户掌握这些谓词和模式不太现实,所以,当他们面对这些千丝万缕的关系时,很难从本质上理解和消化这些知识,从而降低了大数据应有的价值。②得到的知识品质有差别[17],存在不一致性甚至冲突,尤其是时态型数据,知识的品质更难以有效甄别。并且融合的结果缺乏可解释性,从而导致其可靠性受到质疑。③缺乏与领域知识的结合,并且获取的知识只处于表层理解,导致融合结果与实际应用需求存在鸿沟,例如,一些已被发现的表层现象、规律等没有进一步形成普适机理,使得这种规律性的发现不能有效反馈给融合
过程。
经研究发现,引发这些问题的关键是大数据在不断动态演化,并且需要从多个维度、多种粒度进行解释。此外,数据的组织方式不同得到的知识品质也会有差异,犹如碳原子既可以构成钻石,也可以构成石墨。所以我们认为当下面临的一个突出问题是如何有效地融合知识使大数据的价值最大化,此即大数据融合问题,其关键是突破上述局限——需要把目标聚焦于大数据新的特征和融合方式。
为此,2.2节给出了大数据融合的概念,并分析了融合需求和融合对象的独特性。2.3节总结归纳了现有融合范式,并分析对比了这些融合范式的共同点和各自的优缺点,以及面对大数据,这些融合范式存在的共同缺陷,提出适合大数据的新型融合方法论——动态演化的数据融合与多维度、多粒度的知识融合双环驱动的大数据融合。2.4至2.6节分别探讨大数据融合中数据融合、知识融合和驱动枢纽的内涵、实现方法和技术
难点。