什么是倒排牵引?
倒排索引也常被称为反向索引、置入档案或反向档案,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。带有倒排索引的文件称为倒排索引文件,简称倒排文件。建立全文索引中有两项非常重要,一个是如何对文本进行分词,一是建立索引的数据结构。分词的方法基本上是二元分词法、最大匹配法和统计方法。索引的数据结构基本上采用倒排索引的结构。
正排索引和倒排索引的区别
正排索引
是经过文字,分词,消噪,去重后,索引程序就能够提取关键词,根据分词程序划分好的词,把页面转化为一个关键词组成的集群,同时记录每一个关键词在页面上的出现频率,出现次数,格式,位置,这样,每个页面都能够记录为一串关键词集全,其中每个关键词的词频,格式,位置等权重信息也都记录在案。
一个文件(网站/网页)对应许多关键词
倒排索引
一个关键词对应许多文件(网站/网页)
本文暂时没有评论,来添加一个吧(●'◡'●)