潜在语义索引(Latent Semantic Indexing,简称LSI)是T.K.Landauer、S.T.Dumais等人提出的一种将文档组织成语义空间结构的方法。其原理是认为文档的词与词之间存在着某种潜在的语义联系,通过统计分析,系统自动寻找这些潜在的语义联系,形成语义空间。潜在语义索引方法已经被证明是对传统的向量空间技术的一种改良,它扩展了向量空间模型,模拟了利用奇异值分解计算文档矩阵的潜在语义空间。因此,潜在语义索引可以用来克服语词匹配过程中面临的两个问题:同义现象(人们选择词汇的可变性)和多义现象(同一个词往往有不同的意思)。
例如,有四个索引项:卡车、货车、司机和熊猫。对索引项“卡车”而言,其中“货车”是同义词,“司机”是有关系的词,而“熊猫”则没有关系。在向量空间模型中,假如检索“卡车”,则在那些无“卡车”这个索引项的文档中,有索引项“货车”的文档不会比有索引项“熊猫”的文档具有更大的相似度。潜在语义索引通过对向量空间的降秩可以表示“卡车”和“货车”的同义关系。
潜在语义索引是基于文档间、文档索引项间、文档索引项和文档间的潜在语义关系构建的一个语义空间,具有相似主题的文档或者相近含义的索引项在该空间中对应的点之间的距离很近。
利用潜在语义索引的原理,可以通过对大规模文档集合的统计分析,创建文档矩阵和语义空间来揭示文档间、索引项间、索引项与文档间的潜在语义关系。潜在语义索引用正交的K维空间代替原来的空间,用该空间的点来表示索引项、文档和检索表达式。该空间就是潜在的语义结构的概念空间,消除了索引项之间的相关性,降低了向量的维数,在较低的概念空间,进行相似度计算。从而达到无同义词库或者知识库的前提下,检索系统也可以自动识别出文档间、文档索引项间、文档索引项和文档间的潜在语义关系,较好地解决单纯索引项匹配方法中面临的同义和多义现象,完善检索系统性能的目的。
由于潜在语义索引可以计算出文档间、文档索引项间、文档索引项和文档间的相似度大小,在很多领域都可以得到运用,比如文本检索、自动标引、文本摘要、信息过滤、双语交叉过滤、垃圾邮件过滤、文本分类、个性化服务和用户反馈、智能检索等方面。
在应用潜在语义索引方法的时候,首先需要表示出文档集合的语义空间。简单地说,潜在语义索引方法通过奇异值分解计算,将索引项、文档和检索表达式按照语义相关程度组织在同一语义空间中。在这一语义空间中,分散在不同文档和检索表达式中的同义词之间的距离相近,主题语义接近的文档和检索表达式则位置相邻。索引项、文档和检索表达式之间的联系就是它们之间的潜在语义关系。
传统的检索系统在面对这样的情况时,一般对系统附上一个大型的同义词库或者知识库,当文档和检索项没有精确匹配的情况下,调用同义词库或者知识库来提高召回率。但是,在实践中编制一个覆盖所有学科所有研究领域的同义词库或知识库是不现实的,更不用说自然语言苎错综复杂、变化发展的。而基于潜在语义索引的检索系统在没有同义词库的前提下仍可以自动给出较为准确的检索结果。
潜在语义索引具有框架定义完整、优化准则清楚的特点,但是它也存在一些局限性,主要表现在:①潜在语义的应用取决于具体的文档集合,比较适用于词汇异构度很高的文档集合,即文档集合中不同的文档采用不同的词汇来描述同一个概念,但是如果文档中的词汇异构度较低,则应用潜在语义索引的效果将不太明显;②潜在语义索引的速度比传统的向量空间方法慢,因为它需要进行高阶矩阵的运算,计算查询字段和每篇文档的相似度;③奇异值分解存在局限性,它假设数据的分布是正态分布,然而类似词频的统计数据并不符合正态分布的条件。