网上有很多关于pos机命名,外部知识在命名实体识别任务中的重要性研究的知识,也有很多人为大家解答关于pos机命名的问题,今天pos机之家(www.poszjia.com)为大家整理了关于这方面的知识,让我们一起来看下吧!
本文目录一览:
1、pos机命名
pos机命名
ACL 2018 Short Papers
外部知识在命名实体识别任务中的重要性研究
A Study of the Importance of External Knowledge in the Named Entity Recognition Task
伊利诺伊大学
University of Illinois
本文是伊利诺伊大学发表于 ACL 2018 的工作,讨论了外部知识对于执行命名实体识别(NER)任务的重要性,提出了一个新颖的模块化框架,根据知识传递的深度将知识分成四类。每个类别由一组从不同的信息源自动生成的特征组成,如知识库、名称列表或文档特定的语义注释。此外,我们展示当逐步增加更深的知识时对性能的影响,并讨论了其有效性及效率间的关系。
命名实体识别(Named Entity Recognition,NER)的任务是检测文本中的命名实体引用,并给它们分配相应的类型。它是自然语言理解任务的重要组成部分,如命名实体消歧(NED)、问答等。
以前的工作认为NER是知识密集型任务,并且使用具有突出结果的先验知识。在这项工作中,我们试图量化外部知识对NER性能影响到了何种程度。尽管最近在端到端神经网络方法上已经取得了卓越的成绩,但是本文的目的是提供透明度和用户可理解的可解释性。
我们通过设计一个简单的模块化框架来开发不同的外部知识源。根据信息源所传达的知识深度,我们将信息源分为四个不同的类别,每个类别携带的信息都比前一个类别多。每个类别由一组反映每个源中包含的知识程度的特征组成。然后,我们使用线性CRF,一种透明的、广泛使用的方法用于NER。
我们通过测试知识类别的各种组合,在两个标准数据集上执行实验。结果表明,知识量与NER性能高度相关。具有更多外部知识的配置系统胜过更多不可知论的系统。
接下来我们详细描述了四个知识类别。下表给出了使用外部知识类别特征的概述,特征用于训练线性链CRF,这一种简单易懂、对NER十分有效的方法。
知识不可知论(A):这个类别包含“local”特征,可以在没有任何外部知识的情况下直接从文本中提取。它们大多具有词汇、句法或语言学性质,在文学界已有大量研究。我们实现了Finkel中描述的大部分特征:
(1)当前词和大小为2的窗口中的词;(2)当前词的词形和大小为2的窗口中的词;(3)大小为2的窗口中词的POS标记;(4)前缀(长度3和4)和后缀(长度1至4);(5)当前词在大小为4的窗口中存在的次数;(6)句子的开始部分。
基于名字的知识(名称):我们从命名实体名称列表中提取知识。这些特征试图识别名称中的模式,并利用不同名称集有限的事实。我们从YAGO中提取了总计超过2000万个名称,并导出了以下特征:
经常提及的tokens。反映给定token在实体名称列表中的频率。我们标记了列表并计算了频率。该特征赋予对应于它们的归一化频率的文本中的每个token的权重。高权重应该被分配给指示命名实体的token。例如,我们在英语中找到的前5位的符号是“county”, “john”, “school”, “station” 和 “district”。没有出现的所有tokens的权重被分配0。
频繁POS标签序列。识别命名实体常见的POS序列。例如,人名往往被描述为一系列专有名词,而组织可能具有更丰富的模式。“Organization of American States” 和 “Union for Ethical Biotrade” 都具有NNP-IN-NNP-NNP模式。我们排序名称POS标签序列,保留前100名。通过查找输入文本中最长的匹配序列并标记当前token是否属于频繁序列来实现该特征。
基于知识库的知识(KB):该类别组特征从KB或实体注释语料库中提取。他们编码关于命名实体本身或用法的知识。我们采用了三个特征:
类型注入地名匹配。查找在特定类型的地名词典中最长出现的token序列。根据token是序列的一部分,它向每个token添加二进制指示符。我们使用由Ratinov和Roth发布的30本字典,其中包含英文的类型名称信息。还可以通过将每个字典映射到一组KB类型,并提取相应的名称来自动创建这些字典。这种自动生成在多语言设置中是有用的。
维基百科链接概率。此特征测量token链接到命名实体维基百科页面的可能性。从直觉上说,链接到命名实体页面的标记更倾向于指示命名实体。例如,token“Obama”通常是链接的,而“box”不是。引用命名实体的页面列表是从YAGO中提取的。给定文本中的token,如果文档d中的tokent链接到另一个Wikipedia文档,则根据等式1为其分配链接概率,其中linkd(t)等于1。若t在d中出现,则presentd等于1。
类型概率。对属于给定类型的token的可能性进行编码。它抓住了这样一个概念,例如,“Obama”这个符号更像是一个人而不是一个地点。给定YAGO中的一组实体E,其中提到Me和tokenTem,我们计算给定token t的c ∈ C类的概率,如下式所示,其中如果实体e属于c类,则c(e)=1,否则c(e)=0。对于文本中的每个token,我们为每种类型创建一个特征,以各自的概率作为其值。
token类型位置。反映token可以根据实体类型出现在不同的位置。例如,“Supreme Court of the United States”是一个组织,“United”出现在最后。在“United States”中,一个地点,它出现在开始。这有助于命名实体嵌套。
这是使用BILOU(Begin, Inside, Last, Outside, Unit)编码实现的,它针对每个token出现的位置标记每个token。特征的数量取决于数据集中类型的数量(4个BILU位置乘以n个类+O位置)。对于每个token,每个特征接收给定token和位置的类概率。利用上式计算类概率,还包括标记位置。
因此,对于每个token,我们现在有超过4n+1类别的概率分布。以token“Obama”为例。我们希望,对于“B-Person”(即,姓氏与姓氏的组合)和“UPerson”(即,没有姓氏的姓氏)类,它具有高的概率。所有其他类的概率将接近于零。相比之下,单词“box”对于类“O”应该有很高的概率,对于所有其他类,它应该接近于零,因为我们不希望在许多命名实体中发生这种情况。
基于实体的知识(实体):这个类别对在文本中发现的实体的文档特定知识进行编码,以利用NER和NED之间的关联。以前的工作表明,这些系统之间的信息流动产生了显著的性能改进。
相对而言,该模块需要更多的计算资源。它需要首先运行NED,来基于已消除歧义的命名实体生成文档特定特征。这些特征在NER的第二次运行中使用。
随后,在NED首次运行之后,我们创建了一组源自消除歧义的实体的文档专用地名录。此信息有助于第二轮查找先前丢失的新命名实体。比如“Some citizens of the European Union working in the United Kingdom do not meet visa requirements for non-EU workers after the uk leaves the bloc”。我们可以想象,在第一轮NED中,European Union 和United Kingdom很容易被识别,但“EU”或大小写不当的“uk”也可能被忽略。在消除歧义之后,我们知道这两个实体都是组织,并且分别具有别名EU和UK。然后,在第二轮中,更容易发现“EU”和“uk”。
在第一次运行NER+NED之后,我们从YAGO中提取所有被识别的实体的表面形式。这些被标记并分配了相应实体的类型,加上它的BILOU位置。例如,“Barack Obama”导致“Barack”和“Obama”,分别指定为“B-Person”和“L-Person”。有17个二进制特征(BILU标记乘以4个粗粒度类型+O标记),当token是包含从token到类型-BILOU对的映射列表的一部分时触发。
实验使用线性链CRF。CRF是透明的,广泛用于NER任务。基于实体的组件使用AIDA实体消歧系统实现。我们在两个标准的NER数据集上进行评估:COLL2003,一个英文通讯社的集合,包括四种类型的实体(PER、ORG、LOC、MISC);MUC-7,纽约时报的一组文章,其中注释了三种类型的实体(PER、ORG、LOC)。
我们分析逐步增加外部知识的影响。下图示出了四种变体。每个都包含对应于给定类别的特征。在所有情况下,增加知识可以提高F1性能。对于MUC-7测试来说,效果尤其明显,总体上增加了近10点。在两个数据集中,当添加基于KB的特征时,效果明显提升。作为参考,迄今为止最好的系统之一(基于神经网络的)在CoNLL2013测试中F1达到91.62,而我们的全知CRF的F1达到91.12。
下表显示了知识类别的不同组合。从KB到Entity的改进表明KB特征被后面的特征所包含。这在某种程度上是预期的,因为实体特定信息是从相同的KB中提取的,并且都依赖于实体类型。然而,正如我们所看到的,这是有代价的。
我们分别针对基于A、Name、KB和Entity的特征测量314ms、494ms、693ms和4139ms(如下图)。由于基于KB的特征在性能上与基于实体的特征相当,但是后者昂贵得多,因此这些发现允许从业人员仔细地决定附加的计算成本是否值得相对小的性能改进。我们特征类的模块化允许在有效性/效率方面进行权衡,对系统进行最优调整。
为了证明我们方法的普遍适用性,我们为另外两种语言,即德语和西班牙语,实现了NER系统。Name、KB和Entity知识类的所有特征都源自相应语言的Wikipedia。在CoNLL2003g上为德文进行性能评估,在CoNLL2002上为西班牙语进行性能评估。结果如下图。与英语数据的性能类似,我们可以看到添加更多的外部知识可以提高性能。作为参考,我们发现,性能接近于最先进的两种语言。我们的系统在德语中仅落后1.56 F1得分,在西班牙语中落后1.98 F1得分。
本文通过定义四个特征类别,研究了外部知识对于执行命名实体识别任务的重要性。除了现有文献中常用的特征外,我们还定义了四个新特征,并将它们合并到我们的分类方案中。实验结果表明,尽管更多的外部知识导致性能提高,但它在性能上取得了相当大的折衷。
onq系统全称是什么?
OnQ系统是希尔顿酒店集团自行开发的系统,可以说是开创了酒店业自主研发的先河。
OnQ的功能自然是按照希尔顿所需儿工作的,也就是最适合希尔顿使用的唯一系统。其核心是System 21酒店管理系统,目前已经发展到2.11版本,将会被重新命名为OnQ V2系统,它作为一个统一的前端系统,除了完成日常的酒店业务外,还可以透明地访问到由其他后台系统提供的数据,这些系统包括Focus收益管理系统、Group 1客户联络管理系统、E.piphany客户关系数据分析系统等,同时具有与各种电话计费系统、程控交换机系统、语音信箱系统、高速互联网系统、迷你吧系统、门锁系统、POS系统、收费电影系统、能源管理系统、客房内传真系统的接口。
以上就是关于pos机命名,外部知识在命名实体识别任务中的重要性研究的知识,后面我们会继续为大家整理关于pos机命名的知识,希望能够帮助到大家!
