第 3 周：倒排索引¶

在这之前，我们都是在某个集合里面“拿出”一些元素；这种叫正向索引。

那么和这个行为相反的，我们通过一些元素来找出含有这些元素的集合，就叫做反向索引，或者说倒排索引。比如说搜索引擎就在干这种事。

搜索引擎的细节¶

词干提取（Word stemming）：搜索引擎会合并同义词。

停止词（Stop words）：一些意义不大的词，比如 a、the、of、语气词等。

分布式索引（Distributed indexing）：索引文件非常大的时候，肯定只能放进磁盘。如果实在实在很大，就需要很多块磁盘——这个时候就涉及到索引内容的分配。常见的有两种方法：

动态索引（Dynamic indexing）：将新插入的结果放在一个辅助索引（auxiliary index）中，容量小访问快，优先在其中查找；如果找不到再去主索引文件去找。当辅助索引太大时，把它与主索引合并。

阈值（Thresholding）：