java – 在Lucene中对Word级注释图层进行索引和搜索

我有一个数据集,在底层文本上有多层注释,例如 part-of-tags
, chunks from a shallow parser
, name entities
,以及来自各种 natural language processing

(NLP)工具的其他数据集.对于像男人去商店这样的句子,注释可能看起来像:

Word  POS  Chunk       NER
====  ===  =====  ========
The    DT     NP    Person     
man    NN     NP    Person
went  VBD     VP         -
to     TO     PP         - 
the    DT     NP  Location
store  NN     NP  Location

我想使用Lucene为这些带有注释的文档编制索引,然后在不同的层上执行搜索.简单查询的一个示例是检索华盛顿被标记为人的所有文档.虽然我并不完全致力于表示法,但语法上的最终用户可能会按如下方式输入查询:

查询:Word = Washington,NER = Person

我还想做更复杂的查询,涉及跨不同层的注释的连续顺序,例如找到所有文字,其中有一个单词标记的人,然后是到达的单词,后跟一个单词标记的位置.这样的查询可能如下所示:

查询:“NER =人字=到达字=在NER =位置”

用Lucene来解决这个问题的好方法是什么?无论如何索引和搜索包含结构化标记的文档字段?

有效载荷

一个建议是尝试使用Lucene payloads
.但是,我认为有效载荷只能用于调整文档的排名,并且它们不用于选择返回的文档.

后者很重要,因为对于某些用例,包含模式的文档数量确实是我想要的.

此外,仅检查与查询匹配的术语上的有效负载.这意味着有效载荷甚至只能帮助第一个示例查询的排名,Word = Washington,NER = Person,我们只想确保将Washingonton这个词标记为Person.但是,对于第二个示例查询,“NER = Person Word =到达Word =在NER = Location”,我需要检查未指定的标签,从而检查不匹配的条款.

原文 

https://codeday.me/bug/20190111/502845.html

本站部分文章源于互联网,本着传播知识、有益学习和研究的目的进行的转载,为网友免费提供。如有著作权人或出版方提出异议,本站将立即删除。如果您对文章转载有任何疑问请告之我们,以便我们及时纠正。

PS:推荐一个微信公众号: askHarries 或者qq群:474807195,里面会分享一些资深架构师录制的视频录像:有Spring,MyBatis,Netty源码分析,高并发、高性能、分布式、微服务架构的原理,JVM性能优化这些成为架构师必备的知识体系。还能领取免费的学习资源,目前受益良多

转载请注明原文出处:Harries Blog™ » java – 在Lucene中对Word级注释图层进行索引和搜索

赞 (0)
分享到:更多 ()

评论 0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址