代码之家(www.adminjie.com)精品网站源码,微信源码,游戏源码分享平台。《交流群:1037940574》

Google新PR:以链接距离为基础的页面级别

时间:2019-08-20[好文分享]作者:admin浏览:158 次

Google PR是Google诞生以来最具知名度的概念,以至于很多人认为Google PR的意义更多在于公关炒作,而不是排名算法。2016年4月,Google取消了工具条输出PR值的显示,站长们再也看不到最新的PR值了,也有很多SEO认为Google完全取消了PageRank算法。现在的Google排名算法中还有PageRank吗?众说纷纭。

Google从2006年就不再使用PageRank了

前天,一位自称的前 Google软件工程师在Hacker News的一个讨论Google替代品的帖子中透露,Google早在2006年就不再使用Google PR了:

The comments here that PageRank is Google’s secret sauce also aren’t really true – Google hasn’t used PageRank since 2006. The ones about the search & clickthrough data being important are closer…

翻译过来的意思是:

评论里说PageRank是Google秘方的说法并不正确 — 从2006年Google就不再用 PageRank了。关于搜索和点击率数据很重要的说法还比较靠谱……

说得很明确,Google算法早就不再使用PageRank了。

另外,点击率也是Google算法重要排名因素之一,但到目前为止,真实有效的Google点击器或Google快排这种东西还没有诞生,而百度对百度快排貌似已经放弃治疗了…这个是另一个话题,暂且不提。

这是真的吗?

为了验证这位前Google员工身份,SEO们已经做了人肉分析,结论是大概率是真的。这位员工名字是Jonathan Tang,Twitter账号在此,2009年至2014年在Google工作,他的Hacker News账号是2007年注册的,不大可能用这么老的账号来胡扯或造谣。

而且,这些年Google与SEO行业的官方沟通人JohnMu在Twitter上评论此事时并没有否认,只是说:

SEO们应该知道,20年来Google工程师不可能没有对搜索做出修改。

所以,虽然没有官方认证,但应该是真的。其实,Matt Cutts等人很早以前也表示过,Google算法肯定还是考虑链接的,而且链接依然是最重要的排名因素,PageRank以及Google排名的基本原理没有变化,但不可能这么多年原样不动地用PageRank的原始版本,肯定是修改过的了。

JohnMu去年也直接评论过PageRank的使用情况,表示现在的Google算法不可能还是一比一地原样用PageRank的最初公式。

那么2006年以后工具条显示的PR是什么鬼?

前面提到,Google是从2016年取消工具条显示PR的,如果2006年就不再用PR了,那么2006年到2016年工具条上显示的PageRank是什么东西?

而且Google的另一位发言人Gary Illyes在2017年还发推明确说:“你们不知道吗,Google在18年后依然在排名算法中使用PageRank(还有几百个其它信号)。”

所以到底是在用还是不用了?

Jonathan Tang后续又解释了一下:

他们2006年用另一个算法取代了PR,那个算法给出的结果大致和PR相似,但计算速度快得多。工具条显示的宣称是PR的数值就是这个替代算法的结果。这个替代算法的名字都和PageRank相似,所以Google这么宣称,在技术上也不能说是错的。

所以,从2006年开始,Google算法中使用的、工具条所显示的,都不是原始PageRank计算公式的结果,而是一个结果类似、名称类似、计算速度快得多的算法。

我们姑且称之为Google新PageRank吧。

那么这个Google新PR的计算原理是什么?Jonathan Tang没说,连真实名称也没说,大家只能猜测了。

疑似Google新PageRank专利

Jonathan Tang的帖子后面,专门研究Google专利的大神Bill Slawski发了个回复:

Google的新版本PageRank专利2006年通过。巧合?

Bill Slawski去年发帖详细介绍过这个新版本PageRank专利,这两天又仔细读了一下专利原文和Bill Slawski的帖子,这里介绍一下大意。

专利名称是Producing a ranking for pages using distances in a web-link graph – 基于链接距离的页面级别计算。

Google新PR:以链接距离为基础的页面级别

简单说,新PageRank不再计算导入链接的总数,而是计算这个页面与种子页面之间的距离,距离越近,页面质量越高,页面级别、新PageRank越高。这个思路和Yahoo!的TrustRank是极为相近的,基本假设都是:好网站不会链接向坏网站,但会链接向其它好网站。

种子页面、链接长度、链接距离

这个专利涉及几个概念。种子页面(Seed Pages)、链接长度(Link Length)、链接距离(Link Distance)。

种子页面(Seed Pages)

如上面的简单网络链接图所示,Google选出一部分页面作为种子页面,如图中上半部分的页面106、108、110,下半部分的都是种子页面集之外的、需要计算新PR值的。

关于种子页面的几个要点:

种子页面显然是高质量的页面,专利里举的例子是Google目录(其实就是已经死了的开放目录)和纽约时报。

种子页面需要与其它非种子页面有很好的连通性,有比较多的导出链接指向其它高质量页面。

种子页面需要稳定可靠,有多样性,大范围覆盖各类主题。

链接长度(Link Length)

种子和非种子之间有的离得近,有的离得远。如种子页面106通过链接132直接连向非种子页面112,非种子页面118则没有种子页面直接连向它,要通过两层链接。

链接距离并不是简单地数链接层数。每个链接Google会计算一个链接长度,链接长度取决于链接本身的特征和链接所在页面的特征,比如页面上有多少链接,链接的位置,链接文字所用字体等等。

所以,同样是一个链接,链接长度是不一样的:

页面导出链接越多,链接长度越长。这和原始PageRank思路是一样的,导出链接越多,每个链接分到的权重越少。

链接所在位置越重要,比如正文中,正文靠前部分,链接长度越短。

链接锚文字字号越大,或者在H1中,可能链接长度越短。

我记得Matt Cutts很久以前在谈到PageRank可能的修正时提到过,正文中的链接和页脚的链接被用户点击到的概率显然差距很大,所以不同位置的链接获得的PR和权重应该是不一样的。这种说法很符合这个专利的意思。

链接距离(Link Distance)

链接距离就是页面与种子页面集合之间的最短链接长度之和。种子页面和非种子页面之间通常不止一条链接通路,如示意图中,页面118可以通过链接132、136从种子页面106到达,也可以通过链接134、142、140到达,还可以通过链接134、140到达,还可以通过其它链接从其它种子页面到达,所有这些从种子集到页面的链接通路中,链接长度之和最短的那个被定义为链接距离。

如果一个页面无法从任何种子页面出发访问到,也就是种子页面集合到这个页面完全没有链接通路,那么链接距离是无限大。

然后Google算法根据链接距离计算出一个页面的排名能力分数,也就是新PR值,最后的排名算法中,这个新PR值作为排名因素之一。也就是说,链接距离越短,离种子越近,Google认为页面越重要,排名能力越高。

链接距离的计算不需要迭代,所以比原版PageRank的计算要快得多,而在代表页面重要性上,我相信Google做过对比,准确性差不多,所以就用来代替原来的PR了。

简化链接网络图(Reduced Link-Graph)

专利最后面提到了另一个概念:简化链接网络图(Reduced Link-Graph),不过没有再说明这个概念有什么用,用一个段落说了简化链接网络图这个概念后专利就结束了。不过简化链接网络图有可能和链接质量判断、Penguin算法更新等相关。

在前面示意图中,所有页面之间的所有链接组成一个完整的链接网络图,其中只由最短链接距离通路组成的链接被称为简化链接网络图,也就是用来计算新PR值的那些链接。显然,简化链接网络图是完整链接网络的一个子集,不过每个页面的链接距离都已经保留在简化链接网络图中了,去掉的那些链接对页面链接距离和新PR值没有影响。在简化链接网络图中,每个页面获得的链接权重来源都是可以回溯到最近的种子页面的。

如果一个页面从种子集合完全没有链接通路可以到达,也就是前面说的链接距离为无限大,这个页面将被排除在简化链接网络图之外。如果一个页面得到的链接都来自简化链接网络之外,虽然链接总数可能很大,但其链接距离依然是无限大。

换句话说,在简化链接网络之外的链接是被忽略掉的,无论有多少链接。联想到Penguin 4.0算法更新,其中一个特征就是,垃圾链接是被忽略掉的,不被计入链接的流动中,这和基于链接距离的页面级别非常相似。

作者:Zac 来源:SEO每天一贴

转载请注明来源:Google新PR:以链接距离为基础的页面级别

本文永久链接地址:https://www.adminjie.com/post/140.html

免责声明:
本站所发布的一切资源仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。

附:
二○○二年一月一日《计算机软件保护条例》第十七条规定:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬!鉴于此,也希望大家按此说明研究软件!

版权声明:
一、本站致力于为软件爱好者提供国内外软件开发技术和软件共享,着力为用户提供优资资源。
二、本站提供的部分源码下载文件为网络共享资源,请于下载后的24小时内删除。如需体验更多乐趣,还请支持正版。
三、我站提供用户下载的所有内容均转自互联网。如有内容侵犯您的版权或其他利益的,若有侵犯你的权益请:点此维权 站长会进行审查之后,情况属实的会在三个工作日内为您删除。

  • 代码之家会员升级
  • 最新文章
    • 如何成为一个值钱的互联网人?

      如何成为一个值钱的互联网人?

      工作了几年后,很多人都会面对这样一个问题:辛苦了这么多年,自己还是房车皆无,存款为负,月薪刚过万,每月还得指望着这工资生存。很多人也许都问过自己:我为什么这么不...

    • 互联网创业者个个是文豪

      互联网创业者个个是文豪

      隔壁的头部奶茶有感。这几年互联网和资本市场搞出来的现代八股词,一股浓浓的没文化的味道。一线、龙头、领军、顶级,哪个不好用了?自从有了"头部"...

    • 互联网平台付费运营套路解析

      互联网平台付费运营套路解析

      作为拥有上亿用户的互联网平台,京东、爱奇艺、网易和小红书里有着成熟的运营模式,有很多运营技巧值得大家学习。我们深入浅出的剖析了这些运营技巧,适合公众号运营、文案...

    • 个人站长怎么创业?列举几个可操作项目

      个人站长怎么创业?列举几个可操作项目

      站长创业越来越艰难,十年前随便搞个小代码就可以开启你的网站创业了,五年前搞个行业网站也能小赚一把,现在好像能够赚钱的项目越来越少了。无论是时间成本还是资金成本不...

    • 张一鸣的生命力与战斗力

      张一鸣的生命力与战斗力

      民居创业起步,7年就成为福布斯中国富豪榜前十,公司估值780亿美金……新一代互联网的大气象,为什么会是小小个头的张一鸣?务实:“新”浪漫主义2019年...

  • 阿里云大优惠
  • 热门文章
    • 揭秘网赚套路:你可能陷入了网络赌博

      揭秘网赚套路:你可能陷入了网络赌博

      冒着被群主踢出群的危险,张平安发了一条与群聊内容完全无关的链接。张平安没有头像,甚至这个名字也是假的,这不是他甩出链接的第一个群,当然也不是最后一个。他很坚强。...

    • 最高可赚39倍!比炒鞋更疯狂的炒盲盒来了

      最高可赚39倍!比炒鞋更疯狂的炒盲盒来了

      比“炒鞋”更加烧钱的项目来了,年轻人的钱包又要遭受考验了。入坑一个月,花了三千多……据说现在“买够100个盲盒就收手”已经与“现在出门,马上到”、“今天一定不熬...

    • 花30万砸出来的8条社群运营经验

      花30万砸出来的8条社群运营经验

      一、为什么做社群1、物以类聚、人以群分社群,简单来说即是一群人的集合,他们有明显且共同的社交属性。人是社会性动物天然有群居需求、即便是网络时代,加入一个圈子也是...

    • 世界上最糟糕的公司

      世界上最糟糕的公司

      1,茅台董事长被抓,勾起我8年前的一段记忆,也是在京12年最精彩的一段记忆。那时候我28岁,正是对白酒行业一腔热忱的时候。2011年夏,我离开珠市口五粮液大厦,...

    • 中国打假40年浮沉

      中国打假40年浮沉

      01铁面无私、雷厉风行的时任总理朱镕基,每当说到假冒伪劣,就会提及一则趣事:“温州的假冒伪劣到什么程度了?竟然骗到浙江分管工业的副省长柴松岳头上去了。柴松岳在温...