电话:010-87724884
传真:010-87725372
北京市朝阳区双井桥北
A 派公寓 D-2-901 室
您现在的位置: 联迅阳光 >> SEO文库 >> SEO知识快递 >> 正文

解读隐含语义索引LSI (Latent Semantic Index)

  隐含语义索引LSI除了计算一个网页包含的关键字以外,还参考了其它网页或者文档所包含的关键字的组成。LSI认为具有很多相同关键字的网页,他们的文章内容也比较接近。尽管LSI算法并不理解单词的意思,但它最后计算出来的结果却是表现的非常高的智能。

  LSI是怎样工作的?

  首先将网页所有的单词做一个列表,然后将那些没有语义的单词做过滤。将所有的文档均作出单词列表。利用这个列表可以就可以做一个以文档为X轴,单词为Y轴的巨型矩阵。如果单词出现在某个文档,则在对应的位置表示为1,反之为0。 这样检查Y轴的某个单词就可以发现所有包含着个单词的文档。

  为了使计算更加正确,LSI引入关键字的权重。关键字的权重计算基于以下常识推理:

  1)单词在一篇文章中出现多次比只出现一次的单词更有意义;

  2)不经常出现的单词比到处出现的单词更有意义;

  第一个推理适用于单个文件,叫做本地权重。那些在一个文档中多次出现的单词就比那些只出现一次的单词有更高的本地权重。

  第二个推理适用于单词在所有文档的权重计算,叫全局权重。有各种不同的全局权重计算方法,但其思路均体现为在少数文档中出现的单词比那些到处出现的单词有更深刻的含义。一个典型的关键字在矩阵中的权重计算方法是TF-IDF (term frequency–inverse document frequency)。

  利用这个巨型的单词文档矩阵,LSI还可以算出某个主题在其它文档中所出现的相关的关键字以及出现频率。这样即使有的相关文档不出现你所搜索的关键字,也可能将相关文档搜索出来。这比以前只对照关键字的搜索方法更进一步。所以如果你还是采用传统的关键词匹配的方法作网页优化的话,其优化效果将大大降低。

  LSI还可以用来分析网页的链接描述文本(Anchor Text)。如果网页反向链接全部采用相同的链接描述文本,而不采用其它相关的关键字,那么反向链接的有效性也将降低。


TAG:隐含语义索引,LSI,Latent Semantic Index,关键字,权重
优化在线--比用心更精心、比专业更敬业优化在线
咨询热线:010-87724884 发送传真:010-87725372 公司地址:北京市朝阳区双井桥北A派公寓 D-2-901室
友情链接 | 网站地图