这个内容挺有意思,近期一直在研究,谈一下自己的对这个信息处理过程的看法。对将来有人要做搜索引擎或许有些帮助。
网页信息处理,应该说分为三个过程。
1,抓取过程。2,处理。3,建立索引。
其它内容太广,就谈一下对网页信息的处理本人的理解。抓取的网页内容分为三个部分:html标签、正文、注解。
该如何处理?
将根据网页更新时间来建立优先度。切词,从标题<title>开始,获取关键词的关键性,还有meta中的keyword及description对正文的重要性描述,以上这些称为对网页内容的狭义定义与广义定义。处理过程首先应该从网页的这种定义开始,然后根据这些定义寻找正文的匹配性及出现的频率、位置。如出现的频率越高,权重越大,网页关于该定义的关键词等级越高。还有出现位置,在头及中间是最好的位置,表明网页信息对于该关键词的重视程度。最后对于未定义正文进行噪音处理及自然语言处理切割分配权重。
只是记录一下,近期一直感兴趣的,还未深入了解,欢迎有兴趣的朋友一起加入讨论!