您的位置:
首页 > SEO技术 > 网页抓取优先策略

网页抓取优先策略

2008-1-11 15:53:37 访问: 评论:4

网页抓取优先策略

网页抓取优先策略也称为“页面选择问题”(page Selection),通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。那么哪些网页才是重要性高的呢?如何量化重要性呢?

重要性度量由链接欢迎度、链接重要度和平均链接深度这个方面决定。

定义链接欢迎度为IB(P),它主要由反向链接(Backinks)的数目和质量决定。首先考察数目,直观地讲,一个网页有越多的链接指向它(反向链接数多),那么表示其他网页对其的认可。同时这个网页被网民访问的机会就大,推测出其重要性也就越高;其次考察质量,如果被越多的重要性高的网指向,那么其重要性也就越高。如果不考虑质量,就会出现局部最优,而不是全局最优的问题。最典型的就是作弊网页,人为地在一些网页中设置了大量反策链接指向其自身的网页,以提高该网页的重要性。如果不考虑链接质量,就会被这些作弊者所利用。

定义链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度主要通过一些模式,比如认为包含“.COM”或者“HOME”的URL重要度高,以及具有较少斜杠(Slash)的URL重要度高等。

定义平均链接深度为ID(P),此为笔者所创。ID(P)表示在一个种子站点集合中,每个种子站点如果存在一条链路(宽度优先遍历规则)到达该网页,那么平均链接深度就是这个网页的又一个重要性指标。因为距离种子站点越近,说明被访问的机会越多,离种子站点越远,重要性越低。事实上,按照宽度优先的遍历规则即可满足这种重要性高的网页被优先抓取的需要。

最后,定义网页重要性的度量为I(P),它由以上两个量化值线性决定,即:

I(P)=a*IB(P)+β*IL(P)

平均链接深度同宽度优先的遍历规则保证,因此不作为重要性评价的指标。在抓取能力有限的情况下,如果能够把重要性高的网页尽可能地抓完,是合理科学的,最终被用户查询到的网页也往往是那些重要性高的网页。

尽管这样看来已经足够完美,事实上,还是忽视了一个重要的要素--时间。时间导致万维网动态变化的一面。如何抓取那些新增的网页呢?如何重访那些被修改了的网页呢?如何发现那些被删除了的网页呢?为了保持和万维网网页的同步变化,就必须有网页重访策略。通过该策略可以识别增加、修改及删除网页这3种网页变化的情况。

首发:创亿网站策划机构(http://www.ccyyw.com

    网页抓取优先策略相关文章列表
    参与“网页抓取优先策略”的评论

    网友评论“网页抓取优先策略”列表
1. logo王 于2008-1-11 16:32:59 评论道:
杨帆你牛×死了!
文章里很有内涵,排版很舒服!
我啥时候能像你这样呀!哎。。。。Cry
2. 董董 于2008-1-24 14:08:06 评论道:
我认为你所讲的平均链接深度实际是链接欢迎度的反向链接的质量问题,不知道我的理解是否正确。


3. cnming 于2008-5-12 13:38:02 评论道:
不牛,能叫杨帆嘛!
4. SLF 于2008-9-1 10:26:39 评论道:
我想请教一个问题哈,虽然关注你这么久,但是是第一次来向您提问题.

麻烦问下提高外部链接的最直接的办法和效果怎么做?

论坛里发贴对百度对GOOGLE的哪些更好一些?又有什么区别?
免费网络策划周刊
最新签约客户
  • 宁波海顺投资公司(网站推广)
  • 武汉北大青鸟(网站营销策划)
  • 非主流拍照网(网站开发 推广)
  • 人民解放军302医院(网站改版)
  • 冯斌整形美容(网站整体策划)
  • 郑州逛街网(网站改版 vi设计)
  • 广西培训超市(网站推广策划)
  • 重庆某大型B2B网站(网站建设)
  • 无锡某大型娱乐网站(网站策划)
  • 秦皇岛校园SNS网站(网站策划)
调查问卷
联系我们
欢迎咨询创亿客服
杨帆QQ
客服:010-80680020
E-mail:yfbass@163.com
地址:北京市朝阳区松榆南路54号三楼B09

地址:北京市朝阳区松榆南路54号旌凯三楼B09 | 电话:010-80680020 | Email:yfbass@163.com
Powered By Z-Blog 1.8 Devo Build 80201 Theme By 创亿网站策划机构
Copyright Ccyyw.com 京ICP备06063824号