信息检索导论笔记（三）

信息检索

Information Retrieval

发布日期: 2022-11-20

更新日期: 2022-11-20

文章字数: 2.9k

阅读次数:

xml文档对应的树结构

树的叶节点包含了一些文本，比如Shakespeare, Macbeth等。而树的内部节点包含对文档结构信息，如title, act等。

访问和处理XML文档标准是XML DOM（文档对象模型）

XPath是XML文档集中的路径表达式描述标准，路径也称为XML上下文。

XPath表达式中的node表示选择满足该表达式的所有节点
路径上前后元素间用斜杠“\”来分割
双斜杠表示路径中可以插入任意多个元素。
路径若以斜杠开始则表示该路径起始于根元素
为便于表示，允许路径上的最后的元素是词汇表中的一个词项，并利用“#”号将其与前面的路径分隔开来。

如果去掉XML文档的属性，也就是将XML文档中所有属性节点全部去掉，可以得到仅包含元素这一种类型节点的树结构。用同样的方法也可以将查询表示成树。

将文档和查询表示成树结构

挑战性问题

挑战一：用户希望返回文档的一部分(XML元素），而不像非结构化检索一样返回整个文档

检索策略：返回包含信息需求的最小单位。但确定查询应答的正确层次是非常困难的。

方法一：将节点分组，形成多个互不重叠的伪文档。

缺点：这些伪文档内容不连贯，对用户而言没有什么意义。

将XML文档分割成不重叠的索引单位

方法二：“两步走”，使用最大的一个元素作为索引单位。然后对结果进行后处理。例如，对于上面莎士比亚剧本的例子，查询”Macbeth’s castle”，先以play为索引，找到Macbeth这个剧本，再在这个剧本下找到第一幕第7场可能是匹配最佳的子元素。

缺点：对很多查询来说，分两步走的做法不能返回最优匹配子结构，因为整本书与查询的相关性不能代表子元素与查询的相关性。

方法三：限制最少的方法是对所有元素建立索引。

缺点：

很多XML元素不是有意义的检索结果
对所有元素建立索引意味着高度的冗杂性

挑战二：由于元素之间嵌套关系的存在，在结果排序中计算词频统计信息，必须要区分词项的不同上下文

方法：为XML每个上下文-词项对计算idf值

缺点：会导致数据稀疏问题，很多上下文-词项对出现过少导致文档频率估计可靠性不足

折中方案：在区分上下文时只考虑词项的父节点x，而不考虑从根节点到x路径上其他部分

基于向量空间模型的XML检索

一种实现方法是，对向量空间中的每一维都同时考虑单词及其在XML树中的位置信息。

首先考虑每个文本节点并将它们分裂成多个节点，每个节点对应一个词
将向量空间每一维定义为文档的词汇化子树，这些子树至少包含词汇表中的一个词项
将查询和文档表示成词汇化子树空间上的向量，并进行计算

由于每个词汇话子树看成一维，整个空间维数非常大，一个折中的方法是对所有的最终以单个词项结束的路径建立索引，即对所有XML上下文-词项对建立索引。

词汇化子树

这种XML上下文-词项对被称为结构化词项，记为<c,t>，c表示XML上下文，t是词项。

对于用户的查询，我们希望优先考虑与查询结构相匹配且中间节点数量较少的文档，一个简单的度量查询路径$c_q$与文档路径$c_d$相似度的指标是上下文相似度$C_R$，

上下文相似度的计算

最终的文档得分计算：

文档得分计算

文档得分计算方法

对某个结构化词项查询的SIMNOMERGE评分示意

XML检索的评价

部件覆盖度（component coverage）评价的是返回元素在结构上是否正确，也就是说，其在树中的层次既不太高也不太低。部件覆盖度分为以下四种情况：

精确覆盖（E）：所需求的信息是部件的主要主题，并且该部件是一个有意义的信息单位。
覆盖度太小（S）：所需求的信息是部件的主要主题，但是该部件不是一个有意义（自包含）的信息单位。
覆盖度太大（L）：所需求的信息在部件中，但不是主要主题。
无覆盖（N）：所需求的信息不是部件的主题。

主题相关性有四个层次：强相关（3）、较相关（2）、弱相关（1）和不相关（0）。

每个部件在覆盖度和主题相关性两个方面都要进行判断，然后将判断结果组合成一个数字-字母编码。

相关度-覆盖度组合量化方法：

信息检索导论笔记（三）

相关反馈

主要思想

基本过程

相关示例

Rocchio算法

相关反馈的作用时机

伪相关反馈与间接相关反馈

查询重构

查询扩展

同义词词典自动构建

XML检索

XML基本概念

挑战性问题

基于向量空间模型的XML检索

XML检索的评价