专业的编程技术博客社区

网站首页 > 博客文章 正文

什么是预处理: 预处理简称为“索引”

baijin 2024-10-27 08:06:34 博客文章 4 ℃ 0 评论

今天我来介绍一下搜索引擎工作原理中的预处理。什么是预处理?预处理简称为索引,因为索引是预处理最主要的内容。搜索引擎蜘蛛抓取的原始页面不能直接用于查询排名处理,要必须先进行预处理来为最后的排名做好准备。和爬行抓取一样,预处理也是在后台提前完成的,用户在搜索的时候察觉不到这个过程。

·一、预处理。预处理的第一步是提取文字。搜索引擎在预处理时首先要做的就是从HTML代码中取出标签程序并提取出可以用于排名处理的页面文字内容。比如这段html代码,除去html代码后用于排名的文字只剩下这一行,除去可见的文字内容搜索引擎也会提取出一些包含文字信息的特殊代码,如Mate标签中的文字、图片替代文字、链接锚文字等。

·二、中文分词。中文词与词之间没有任何分隔符。搜索引擎必须先分辨哪几个字组成一个词,哪些字本身就是一个词,比如减肥方法就将被分词为减肥和方法两个词。SEO人员对分词能做的工作就是在页面上用某种形式提示搜索引擎,某几个字应该被当做一个词来处理,比如页面标题、H1标签及黑体中出现的关键词。如果页面是关于化妆和服装的,可以把服装两个字标为黑体。这样搜索引擎对页面进行分析的时候就知道标为黑体的几个相邻字应该是一个词。

·三、去停止词。页面内容会有一些出现频率很高但对内容没有实质影响的词,如的双人得之类的词。这些词被称为停止词,因为它们对页面的主要意思没有影响。搜索引擎在所引页面内容之前会去掉这些停止词,使所引数据主题更为突出减少无谓的计算量。

·四、消除噪音。消除噪音是搜索引擎把页面上一些对主题没有什么贡献的内容去掉,如版权声明文字导航内容广告等。消除噪音的基本方法是根据HTML标签对页面分块区分出页头、导航、正文、页角、广告等区域。在网站上大量重复出现的区块,往往属于噪声,对页面进行消噪后剩下的才是页面的主体内容。

·5、去重,搜索引擎不喜欢重复的内容,比如同一篇文章经常会重复出现在不同网站或同一网站的不同网址上,搜索引擎就会在进行索引前识别和删除重复内容,这个过程被称为去重。

·6、正向索引,从内容提取关键词建立的索引表就是正向索引。

·7、倒排索引,根据关键词对应到含有该关键词的网页,索引表就是倒排索引。

·8、链接关系计算,链接关系计算也是预处理中很重要的一部分。搜索引擎在抓取页面内容后,必须事先计算出页面上哪些链接指向,其他页面、每个页面有哪些导入链接、链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。

·9、质量判断,质量判断包含很多因素,并不局限于针对关键词的提取和计算,比如对页面内容的判断,很可能包含了用户体验页面排版、广告布局页面打开速度等。

·10、质量判断,高强度判断,

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表