倒排索引

事实上，常用的索引方式有3中：倒排，后缀数组和签名文档。倒排索引已经被当前大多数信息系统所广泛应用。它特别符合人们的思维习惯，同事它对关键字的检索非常有效。后缀数据在短语查询时，具有较快的速度，只是构造和维护这样的索引非常复杂。签名文档的方式已经基本上被淘汰了。

1. 什么是倒排

当我们在阅读一本书的时候，通常使用页数来查找相关内容。每一页上具有一定数量的文本，这些文本记录的信息。当使用倒排方式后，不再有整页整页的信息，信息被分割成一个个的关键字，并辅以关键字所在的原书中的页数，而构成一个倒排基本单位。

例如，一本旅游类书籍的第250页讲诉了“麻婆豆腐”的来历，在经过倒排后，“麻婆豆腐”被作为一个单独的关键字切分出来，保存在索引中，同时还带有其页码250，作为索引的内容。这样当信息系统检索“麻婆豆腐”这个关键字的时候，系统可以迅速的给出其页码，然后再到原书中取出相关页面文本内容。这种查找方式比从第一页开始线性匹配所有文本，找出包含有“麻婆豆腐”的页面内容快得多。

从理论上说，倒排是一种面向单词的索引机制。通常，由词和出现情况两部分组成。对于索引中的每个词，都跟随一个列表（位置表），用来记录单词在所有文档中出现的位置。

2.倒排的特点

在倒排索引中，关键字的数量并非随着文本内容的增长也线性增长。这因为不论多大数量的文本数据库，总能规范出一个关键词表搜到实际语言因素的限制，它的增长率在文本数据库达到一定规模后可以忽略不计。有人做过统计，对于1GB的文本信息来说，词汇表的大小在5MB左右。

可以试想，将一本书上所有文本均制作成关键字，并对其进行倒排，构建一个信息搜索系统。对其中的内容进行检索，在整个过程中，最消耗时间的应该倒排阶段。因为在倒排时，需要对文本进行分析，切词，还要构建索引结构，记录位置信息，同时维护内容。虽然这一阶段花时间，但是一旦完成，在搜索时将会大大节省时间。事实上，一个信息检索系统在建立索引时的速度是可以放宽的，因为这是在后台异步完成的，而其搜索速度才是影响用户最终体验的直接因素。