成组技术是一种将工程技术与管理技术集于一体的生产组织管理方法体系,CAPP 系统的研究和开发与成组技术密切相关。成组技术就是针对多品种,中小批量的机械产品生产而发展起来的一种先进制造技术。零件分类和编码是成组技术的两个最基本概念。所以,成组技术的核心问题就是充分利用零件上的几何形状及加工工艺相似性进行设计和组织生产,以获得最大的经济效益。......
2023-06-29
什么是本体?本体的定义甚多,这里我们使用Rudi Studer[25]的说法:本体是共享概念模型的明确的形式化的规范说明。该定义包含四层含义,即概念模型、明确化、形式化和共享化。
●概念模型:表示通过抽象出客观世界中一些现象(phenomenon)的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。
●明确化:表示所使用的概念及其约束都有明确的定义。
●形式化:表示本体是计算机可读的(即能被计算机处理)。
●共享化:表示本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即本体针对的是团体而非个体的共识。
显然,数据集成和互操作中需要的就是这些。因此,在数据集成和互操作中,本体扮演着越来越重要的角色。
从本体的角度讲,本体的研究促进了信息技术向智能化与知识化的方向发展,增强了领域间的合作、交流与沟通,实现了知识的共享与重用,有助于知识的分析、管理与应用,为信息技术的智能化发展奠定了基础。
2001年,Tim Berners-Lee正式提出了语义Web的概念,它主要是通过定义严格的语义模型来实现资源的共享和互操作,以及对现有互联网的扩展。通过在信息数据中加入语义内容,使人机之间可以自动协同工作。通俗来说,语义Web上的各种资源不仅相连,而且包含信息数据的真正含义,从而可以提升计算机处理信息的智能化与自动化能力。如果要实现语义层次的互操作,就需要对信息数据的含义有共同的理解,这也是语义模型中包括本体的重要原因。本体可使人与机器之间、机器与机器之间在语义层面上进行交流与理解。
形式化地说,本体是一个三元组,记作:
O=〈C,R,A〉
其中:C是一个概念集合,即{ci},i=1,…,n,ci是一个概念;R是一个关系集合,即{ri},i=1,…,s,ri是一个概念之间、实例之间、概念与实例之间的关系;A是一个规则集。
为了数据集成,参与集成的源数据如果都能转换为本体形态,本体形态通过消歧、转换、匹配等,就可以集成到一起。通过本体映射数据集成的过程如图5.11所示。
图5.11 通过本体映射数据集成的过程
通过本体映射数据集成的过程可以描述如下。
σ:数据源数据→本体,是一个将数据源转换为本体的映射。
ρ:{本体1,本体2,…,本体n}→全局本体,即局部本体向全局本体的映射。
现在的问题是如何构建本体呢?这个过程可以简述如下。
首先建立一个本体模型。以教育为例,可以将教育定义为如图5.12所示的本体模型。
图5.12 本体模型
在图5.12所示的本体模型中,树状的根称为元本体(MetaOntology),用于描述通用知识(common sense knowledge),它是一个〈C,R,A〉三元组。
元数据里涉及的关系主要有is-a、part-of、component-of、symmetric、inverse-of、equivalent等,分别表示子类关系(is-a)、部分-整体关系(part-of)、成分关系(component-of)、对称关系(symmetric)、逆关系(inverse-of)和等价关系(equivalent)等。图5.12中,元本体的三个特指是EducationalOntology、Domain Ontology和UsageOntology,分别表示教育本体、领域本体和应用本体,它们的is-a相关于MetaOntology。因此这三个特指继承了MetaOntology的所有性质、概念、关系和规则。换言之,它们自动拥有从元本体继承来的基本关系,如is-a和partof等,也拥有自己特有的关系。
下面继续讨论教育问题。教育中涉及教材、课程和学生笔记,因此可以分别定义为三个本体:Teaching Material,对应于教材;Tutorial,对应于课程;Personal Knowledge,对应于学生笔记。它们各自的is-a相关于EducationalOntology,也就是Educational Ontology的特指,继承了EducationalOntology的性质。
下面看一个例子。目标是将PDF格式的教材转换为本体(该教材由华东师范大学出版社出版,高中物理课本),请参见图5.13所示的左部。
图5.13 将PDF格式的教材转换为本体
为了实现将PDF格式的教材自动转换为本体,参考文献[12]提出了一个算法General。
[算法General]
Input Text Book
(1)Preparat ion()://Preparat ion:c reat ion o f Gl ossar y,Book t rans f er s to Tex t Mater ia l
(2)Tex t to KG()://Tex t mater ial→Knowl edge Graph(Al gor i thm T2KG)
(3)KG to Onto l ogy()://Knowledge Graph→Onto l ogy()(www.chuimin.cn)
Output Educat ional Onto l ogy
简单来说,整个过程分为准备(Preparation)阶段、文本转知识图谱(Text to KG)阶段和知识图谱转本体(KG to Ontology)阶段三个阶段。可以用图5.14描述算法General的整个流程。
准备阶段,教材先由PDF格式自动转换为文本格式。与此同时,一个面向领域——物理领域的术语库也创建出来(请参见下面的算法Preparation)。
[算法Preparat ion]
Input:tex tbook
(1)Prep rocessing
(2)Tokenizat ion
(3)POS tagging
Out put:The tex t made up o f wor ds
图5.14 算法General
算法Preparation用于处理文本的预备工作:识别PDF文件;对文本实施清洗、过滤、转换等工作;构建术语库;标识化(Tokenization)和词性标注(POS(partof-speech)tagging)。
值得一提的是,标识化中的一个重要功能是切分词。众所周知,英语、法语、德语等语言里,空格和标点符号可以看成是词的分界符。遗憾的是,中文不具有这种特点,词和词之间无空格来区分,因此需要特定的切分词。算法第(2)步中的Tokenization就是相应的标识和切分词。这里涉及自然语言处理(natural language processing,NLP)问题。NLP的首要任务就是将文本内容进行标识化处理,也就是将整个文本分割成一小块一小块的形式。例如,以一个英文单词为单位或者以一个汉字为单位,这样可以更集中地去分析文本信息的内容和文本想表达的含义。分割是一个大范围,不仅仅是将文本分成不同的词,还可以将整个文本分成段落,进而分成句子,句子再细分到词。当然,我们一般所说的标识化就是将整句分割为单个标识符。
词性标注(part-of-speech tagging)可以使用隐马尔可夫模型、条件随机场(conditional random fields,CRF)等技术对文本中出现的词的性质进行标注。词性标注的功能是将文本内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。这里往往使用机器学习的方法实现。
限于篇幅,这里对这两方面的内容不做深入讨论,有兴趣的读者可查阅人工智能和自然语言处理等相关书籍。
接下来将预处理后的文本转换为一张图,称为知识图谱(请参见下面的算法Text to KG)。
[算法Tex t to KG]
Input:Tex t
(1)Syntac t ic Anal ysis
(2)NER(Named Ent i t y Recogni t ion)
(3)Rel at ion Ex t rac t ion
Out put:Knowl edge Graph
在这个阶段,纯文本自动转换为一张图。其中,节点是词,线是节点间的关系。这个算法中,主要步骤包括文法分析(Syntactic Analysis)、命名实体识别(Named Entity Recognition,NER)和关系抽取(Relation Extraction)等。在这个阶段,人工智能,尤其是机器学习扮演着重要角色。
值得一提的是,节点在概念上并非明确的或一致的,关系也是如此。因此,接着将这张图转换为一个描述本体的图,节点为概念,有向弧为概念间的关系(请参见下面的算法KG to Ontology)。
[算法KG to Ontology]
Input:Knowl edge Graph
(1)Concept Induc t ion
(2)Rel at ion learning
Output:Ontology
本体图用于描述三元组,表示概念和概念之间的关系,如〈直线运动,is-a,运动〉,即直线运动是一种运动。
其中术语抽取(term extraction)是本体学习的第一项任务,该任务用来决定与具体领域相关的短语与术语,通常将文本语料资源作为术语抽取的输入。查找同义词(synonym discovery)是第二项任务,是指查找本体概念的同义词,如果两个术语表示同一个含义,则类似于Word Net中的同义词集合,而Word Net通常也被用于同义词的扩充。还要注意概念的形式化(concept formation)定义。在本体学习中,概念由概念的内涵、概念的外延与语料库中的词汇三部分组成。概念的外延是指概念的实例集合,概念的内涵是指对概念深层的抽象描述,语料库中的词汇是指从语料库角度对术语的定义。概念层次化(concept hierarchies)处在本体学习层次的上层,主要是指将所有的概念进行正确的分层,此阶段的工作在本体学习的整个过程中最重要,因为它提供了本体的分类体系结构。关系学习(relations learning)是指找出概念间的相互关系,并且存在多种不同的关系,这些关系通常是指非分类关系。这里还需要规则,规则是指对概念和关系规则的学习,如是否相交、是否存在同义或反义的关系等。
有关分布式数据库技术的文章
成组技术是一种将工程技术与管理技术集于一体的生产组织管理方法体系,CAPP 系统的研究和开发与成组技术密切相关。成组技术就是针对多品种,中小批量的机械产品生产而发展起来的一种先进制造技术。零件分类和编码是成组技术的两个最基本概念。所以,成组技术的核心问题就是充分利用零件上的几何形状及加工工艺相似性进行设计和组织生产,以获得最大的经济效益。......
2023-06-29
OSI参考模型和TCP/IP参考模型有很多相似之处。TCP/IP参考模型最初没有明确区分服务、接口和协议,虽然后来人们试图改进它以便接近于OSI。因此,OSI模型中的协议比TCP/IP参考模型的协议具有更好的隐藏性,在技术发生变化时能相对比较容易地替换掉。OSI参考模型产生在协议发表之前。而TCP/IP却正好相反。现在我们从一般问题转向更具体一些,两个模型间明显的差别是层的数量:OSI模型有7层,而TCP/IP模型只有4层。......
2023-11-22
支架预压的目的是检验支架的安全性及地基的强度和稳定性,消除整个支架的塑性变形,消除地基的沉降变形,测量出支架的弹性变形。支架预拱度值的大小主要考虑:支架承重后引起的弹性变形值、梁设计给定的预应力和自重引起的变形值、梁设计要求的拱度值。预压完成后移除荷载、拆除模板,根据预压结果得出设置预拱度有关的数值,据此对理论计算数值进行修正,以确定更适合的预拱度,重新放样,调整立杆高度。......
2023-06-23
渗金属是采用加热扩散,使一种金属或多种金属渗入工件表面,形成表面合金层的方法,分为直接扩散法和涂层渗法两种。铝铁合金中铝的质量分数一般应高于50%。此外,氧化铝在配料前必须经1150~1200℃保温4h处理,避免渗剂与工件产生粘结和氧化现象。图2-43 保温时间与渗铝层深度的关系1—900℃2—1000℃注:渗剂成分为99.5%铝铜铁合金粉+0.5%NH4Cl。新箱首次使用时,为避免内壁吸收铬原子造成的影响,应减少工件装入量或先进行一次预渗铬处理。......
2023-06-24
物联网这个词,国内外普遍公认的是MIT Auto-ID中心的Ashton教授于1999年在研究射频识别时提出来的。2005年11月17日,在突尼斯举行的信息社会世界峰会上,国际电信联盟发布了《ITU互联网报告2005:物联网》,正式提出了物联网的概念。1965年后发生的变革以大型机为标志,1980年后发生的变革以个人计算机为标志,1995年后发生的变革以互联网为标志,2010年后发生的变革以物联网为标志。......
2023-10-28
常用的电镀修复技术有槽镀和电刷镀。槽镀时金属镀层种类繁多,设备维修中常用的有镀铬、镀铁、镀镍、镀铜及其合金等。图6.12电镀装置示意图电镀液由主盐、络合剂、附加盐、缓冲剂、阳极活化剂、添加剂等组成。镀铁不宜用于修复在高温、腐蚀环境、承受较大冲击载荷、干摩擦或磨料磨损条件下工作的零件。......
2023-06-22
政府的各个职能部门也管理着与其职能有关的部门业务数据,主要包含以下几种。工商企业数据库主要具有以下功能。因此,工商企业数据库围绕的是企业法人,以企业法人为核心及其相关实体构建而成。非政府机构组织数据库等可参照工商企业数据库。类似的部门业务数据库很多,在此不再赘述。......
2023-10-28
相关推荐