每个网页可以分成很多块(页眉块,页脚块,导航块和正文块等),每个块中又有很多链接指向新的网页。
对于每张网页来说,每个块被注目的概率不一样,比如页眉页脚很少人会去注意,而正文块通常都会被注意到。
同样的,每个块中有很多链接,每个链接被人点击的概率也不一样。比如“哥哥我要!”和“马克思理论”的点击率会差很多。
根据这样的特性,推测每个块和每个链接被点击的概率。
1.例如网页1中有3个块A,B,C。块A的面积最大,并且块A的中心离网页的中心最近,则块A的重要性最高。
2.例如块中有3个链接a,b,c。链接a的字体最大,文字内容最接近用户定义的关键字,则链接a最重要。
3.链接a会链接到一个新的网页2,所以从网页1链接到网页2的概率最高。
为了提高准确度,除了上面的特性,还有什么特性可以反映出块或链接的重要性吗?
参考的论文:大规模网页模块识别与信息提取 系统设计与实现 (第8-10页 Block Level PageRank算法)
论文链接:https://wenku.baidu.com/view/ffdac8232cc58bd63086bd9f.html
请各位大神不吝赐教~!
还是自己解决吧。
加入块中内容的统一性判断,统一性越高的越有可能得到关注,统一性低的得到的关注比较低。
再加入字体大小,颜色等的指标。