搜索引擎原创识别与站内权重继承算法解析(2)

2019.09.06 外贸营销

你们说，为什么当站文章中有大量相同时，会快速引起搜索引擎惩罚呢？这里我说的不是摘抄与原创的问题，而是你站内自己和自己的文章重复。之所以搜索引擎反应这么......

你们说，为什么当站文章中有大量相同时，会快速引起搜索引擎惩罚呢？这里我说的不是摘抄与原创的问题，而是你站内自己和自己的文章重复。之所以搜索引擎反应这么快，同时惩罚严厉，根本原因就是在你的文章中，他提取不到内容1。

那么假定我判定的两个页面分别是i与j。

好的，这里我们注意到了几个问题。

2.设定一个特定值α

那么，我通过分析内容1，得到内容1中权重最高的关键词k，那么按照权重大小进行排序，前N个权重最高的关键词的集合我命名为K，则K={k1，k2，……，kn}，则每一个关键词都会对应一个其在页面中获取到的权重特征值，我将k1对应的权重特征值设定为t1，则前N个权重关键词对应的特征值集合则为T={t1，t2，……，tn}，那么我们有了这个特征项，就能计算出其相对应的特征向量W={w1，w2，……，wn}。接着我将K拼成字符串Z，同时MD5（Z）则表示字符串Z的MD5散列值。

当0≤α≤1的时候，我判定页面相似为重复。

好的，现在开始。

1.α被判定为重复时的取值范围是否可变？

在此，我要郑重声明，这个系列文章中所有涉及到的思想、算法与程序，均非本人所写，全部是我从一些公开的资料里搜集而得的。同时，相信大家也能理解，如果这些免费公开的东西都能做到如此程度，那么那些商业机密就更不用提了。

为此，我开始写这个“如果是我”系列的文章。在这一系列文章里，我假设如果是我绞尽脑汁的来为网民提供较好的搜索服务，我会怎么做，我会怎么对待文章内容、如何对待外链、如何对待网站结构等等诸如此类的站点元素。当然，本人技术有限，我只能写一点我稍微理解的东西。而百度以及其它的商业搜索引擎，他们有大量比我优秀的人才，相信他们的算法以及处理问题的方式会比我完善很多，而我之所以写这些，无外乎抛砖引玉，希望大家看后，心里有一个大概。毕竟在SEO的道路上走过一段时间后，没有谁能够当谁的老师，一些观点仅供参考。

好，经过这一系列处理，我已经获得了内容1与内容2了，下面该进行原创识别的算法了。

我相信很多SEO从业者刚接触这行时，就听说过一件事，就是内容页面导出链接要具有相关性。还有一件事，就是页面下面要有相关阅读，来吸引用户纵深点击。同时应该还听人讲过，内链要适中，不可太多等。

1.当MD5（Zi）=MD5（Zj）时，页面i与页面j完全相同，判断为转载。

好了，识别内容2很简单，对于内容比重阙值低于某个特定值的信息块，我全部判断为链接模块。我将内容1通过某些方式（具体方式本文后半部分讲解），提取出主题B。我将链接模块中的所有a标签的锚文本分别进行分词，如果所有的锚文本均与主题B相符，则将此链接模块判定为内容2。设定链接阙值C，链接阙值为内容2中标签出现次数除以所有链接模块所出现的a标签次数所得的比重，若大于C，则此网站可能为聚合网站，针对内容排名计算时会引用聚合站点特定的算法。

标签

外贸建站上海外贸建站深圳外贸建站浙江外贸建站手机网站建站自适应网站建站

外贸营销

搜索引擎原创识别与站内权重继承算法解析(2)

立即联系在线客服为您答疑：