- · 《船舶标准化与质量》栏[06/30]
- · 《船舶标准化与质量》刊[06/30]
- · 《船舶标准化与质量》征[06/30]
- · 《船舶标准化与质量》投[06/30]
- · 《船舶标准化与质量》收[06/30]
知识图谱构建中的语义标准问题研究<sup>*</sup>
作者:网站采编关键词:
摘要:随着大数据与人工智能理论与技术的飞速发展及广泛应用,特别是随着谷歌知识大脑在互联网搜索领域的出色应用,使得知识图谱技术在许多垂直领域也越来越得到认可与重视。众所周
随着大数据与人工智能理论与技术的飞速发展及广泛应用,特别是随着谷歌知识大脑在互联网搜索领域的出色应用,使得知识图谱技术在许多垂直领域也越来越得到认可与重视。众所周知,我国各领域经历了40多年的信息化建设,虽然在信息化建设过程中取得了一些成就,但是由于领域在进行数据建设过程中缺乏可遵循的科学的数据标准化方法论,所以导致了领域内产生了大量的“信息孤岛”。这些“信息孤岛”严重泛滥,阻碍领域信息共享。多年来,领域耗费巨资来整合这些“信息孤岛”,但是无显著效果。从理论上讲,今天,各领域正在或即将构建的知识图谱与40年前领域构建数据模型没有本质区别,它们均属于数据模型构建。40年前,领域构建的数据模型是为了实现信息数据共享,40年后的今天,领域所构建的知识表示模型—知识图谱同样是数据模型,只不过它是用来表示与存储知识,其目的是为了实现知识的共享。如果领域在构建领域知识图谱过程中仍然像40年前那样不遵循统一标准,那么用不了多久又将会造就一大批领域“知识孤岛”。为此,本文在对国内外相关领域语义知识标准化方面的成果进行研究的基础上,并结合多年对数据语义研究的积累,以W3C语义Web标准协议栈为基础,提出了领域知识图谱构建中应遵循的五层标准体系模型,该模型中融汇了国内外相关领域的标准词汇表。最后,本文给出重要的结论:领域在进行知识图谱构建过程中,以该标准体系模型为基础,能够将这些标准词汇表与各自领域的数据标准有机融合实现领域知识图谱的构建,从而保障所构建的领域知识图谱实现语义标准化。此外,标准化的知识图谱才能为当下及未来领域在智能应用建设中奠定坚实基础,避免再走整合“知识孤岛”的老路。 知识图谱是人工智能三大分支之一,即符号主义在新时期主要的落地技术方式,该技术于2012年5月由Google正式提出[1],知识图谱的提出为Google搜索引擎提供了知识大脑的支撑,从根本上解决了语义搜索的难题。由于知识图谱主要是由模式层和数据层组成,因此,知识图谱标准化是模式层的标准化和数据层的标准化,其中模式层主要由本体来表示,而数据层主要由RDF,即关联数据(Linked Data)来表示与组织。本文主要研究知识图谱模式层标准化问题,因此,对国内外近年来对知识图谱模式层标准研究的成果进行综述。李景[2]对本体技术标准化进行了综述研究,认为与本体技术其他方面的研究相比,本体技术标准化的进展显然相对滞后,这导致本体研究领域普遍缺乏标准化的管理和制约。王夏和刘丹红等[3]提出了采用本体论思想针对卫生领域的需求,构建国家卫生信息标准基础框架,以期解决卫生领域知识组织的标准化问题。丁博等[4]针对目前标准件库不支持异构CAD系统和标准件信息不完整两个主要问题,提出了一种基于细胞元本体的标准件库资源共享方法。屏蔽了信息表示的异构性,使应用本体和细胞元本体成为具有语义关系的逻辑上的整体,实现了异构CAD系统对标准件库的共享及异构数据的实时转换,解决了两个系统语义冲突问题。段荣婷等[5]认为国际档案著录标准化前沿发展是档案著录的本体化,基于此重点就本体的标准化概念建模与实例化进行了具体探究。国际上针对具体的应用领域采用本体技术作为标准领域语义数据的实例也比较多。Lee等[6]针对传感器领域缺乏语义标准的问题,利用系列标准[7-14]对其进行了MDR注册以及本体生成。瞿裕忠等[15]也采用类似的方法对健康领域进行了语义标准化。综上,通过对国内外相关研究成果的综述研究可以看出:知识图谱语义标准问题在各个垂直领域得到了越来越多的关注。目前,对于知识图谱中的模式层,即本体的标准化,在国内外也开展了一些有针对性的研究与尝试工作,但是这些主要还是从各自应用角度出发,针对具体的应用领域展开研究,并没有上升到各个领域普适的高度,对于其他领域的知识图谱标准研究与构建不具有普适性。因此,本文试图通过对这些成果的研究,提炼出具有普适应用价值且能指导领域进行知识图谱语义标准化的标准化体系模型。 1本体、知识图谱及关联数据 1.1本体 1.1.1 本体定义 20世纪80年代,信息科学者研究对自然世界认知的形式化表示问题,“本体”一词被从哲学领域借用到计算机领域,含义是可被计算机表示、解释和利用的知识的形式化研究[16]。目前,被广泛采用的本体定义是由T.Gruber于1993年提出的:本体是一个共享概念模型的明确的形式化规范[17-18]。 Studer等[19]于1998年又对上述定义做了进一步的说明,指出本体是领域知识规范的抽象和描述,是表达、共享、重用知识的方法。一个本体可以看作是一个工程构件,通常包括:一个用于描述某个领域的词汇表,对于词汇表的明确说明以及用于捕获领域背景知识的约束,其中形式化的明确的规范是指具有机器可读、计算语义和无歧义的术语定义;共享概念模型是指可共同接受的理解及
文章来源:《船舶标准化与质量》 网址: http://www.cbbzhyzl.cn/qikandaodu/2020/0630/336.html