与我们合作

我们专注：网站策划设计、网络舆论监控、网站优化及网站营销、品牌策略与设计
主营业务：网站建设、移动端微信小程序开发、APP开发、网络运营、云产品·运维解决方案

有一个品牌项目想和我们谈谈吗?

您可以填写右边的表格，让我们了解您的项目需求，这是一个良好的开始，我们将会尽快与您取得联系。当然也欢迎您给我们写信或是打电话，让我们听到您的声音

您也可通过下列途径与我们取得联系：

地址: 上海市长宁区华宁国际7L

电话: 400-825-2717(咨询专线)

电话: 13054973230(售后客户服务)

网址: http://www.56gw.net

传真: 021-61488448

邮箱: admin@wumujituan.com

快速提交您的需求 ↓

增加收录的核心操作方向

发布日期：2023-12-19 浏览次数：23973

本篇内容主要讲，那些作弊手段已经没用，如果有这类站长还教你这么做，只能说要么是三流站长，要么是不想告诉你！以下内容是我在蜘蛛搜算法时候在知乎上看到的，分析的确实没错总结很到位！百度能识别且已经失效的作弊手段！1、标题重写（部分失效）2、段落颠倒（完全失效）3、手段增加编辑原创摘要内容（完全失效）4、内容增减感叹词、修饰词（完全失效）5、同义词、近义词替换（部分失效，看你替换程度，越不可读越有效）6、在主题内容中插入关键词（完全失效） 7、关于Ai人工智能改写作弊，也有dome测试，总结如下：在句子顺序和词语都发生改变的的情况下，大佬采用了三家Ai改写（是改写不是生成）测试：家、编辑距离为6，海明距离为8，相似度高达87.5%。第二家、编辑距离为7，海明距离为10，相似度高达84.3%。第三家、编辑距离为4，海明距离为6，相似度高达90.6%。
基本上大部分伪原创手法，都不容易过百度的去重策略，但凡事都不是的。总会有漏网之鱼的，因为大佬用的是原句改写，所以相似度高，内容的用户需求在的。比如现在AI直接生成的，用的GPT2.0开源，原创性高，但是不一定有用户需求的，拿已经在互联网存在的内容做训练素材，生成出来的相似度也不好说。
判断相似度通过百度搜索结果页飘红是不准确的，百度4月公告说了55万亿内容，搜索不可能都搜到这些内容的，判断相似度是策略通过库中的数据，而不是通过搜索飘红。所以不论是使用任何工具或者是买，一定要案例，你想做收录就看收录站点，你想做流量就看权重，别人家截个图，日收录，几十万蜘蛛，就觉得有机会，作为站长就看流量。 7月下旬，百度打击一大批历史或当前存在采集行为的网站，很多权重6、7都被打击了，大量中小站长反馈，基本都恢复了，到底百度有没有算法，是否想让站长死值得深思。 在百度站长论坛、 4414论坛、各类SEO总结三类站长：三流站长：不学习、不思考、骂百度、只会照搬采集！二流站长：爱学习、不思考、熟悉各种理论和工具！站长：爱学习、爱思考、研究各种算法策略作弊手法！、二流站长搞收录搞权重，三流站长采集、二流站长的网站，骂这百度不不给排名搞闭环！百度视角：二流，三流站长都在输出垃圾，为什么不把流量给自己变现呢？站长策略识别不到！

接上文所属贴，上文基本回答了反向操作如何避坑收录。接下来补充的是

从内容角度，无论什么操作，比如替换，打乱，重组句子，加干扰码等等都是为了想利用伪原创达到以假乱真的目的从而让百度识别是原创，这在17年AI大模型出来之前是非常有用的，然而百度AI模型的出现后基本能够识别以上操作，所以无效，这也是很多做采集站的人的策略失效反反复复，无论何种骚操作，一顿操作猛如虎，其实都是有实效性，最终是在帮百度完成训练提高他的模型识别度。不知道站长圈有没有人玩中国象棋，举个例子：目前最强的AI软件是旋风，小虫，棋友们每天试图找出软件的漏洞，以为可以利用此漏洞战胜对手的AI软件，殊不知，棋友们辛辛苦苦在帮软件完善AI训练，走到今天2022年，采集这条路很艰难了。

第二个问题原创的东西就一定收录？比如AI生成就一定能收录？从我的观察来看，大胆猜测目前百度增加了收录后的筛选模型，即收录之后会再次筛选主要依靠相关性模型来排除，也就是我们说的掉收录。什么样的是更好的，从最近的比较流行的收录类型就是百度偏好问答类的内容。鼓励站长做TOP1的站，以目前实际操作来看，基本可以做到90%收录不大掉收录的情况。

第三个问题是出词，收录不等于出词，收录1w篇出词100个和收录10篇出词100个是有本质的区别，这也是很多新手们的误区，1w不行，就一千万篇，总之大力出奇迹死劲怼。
以目前这个8月份这个时间点，百度是有相关性模型判断的，更喜欢相关性的东西，当然后面百度肯定会变，我曾在4月份做过测试
拿AI生成去做，主要是为了原创节省时间，排除非原创因素的干扰
结论是两种操作相同点都是逻辑性强，句子通顺，一种是非相关性，一种是相关性（相关性包含上下文段落的一致性，和整篇内容与标题的分词相关两方面），当然还有个特别现象，就是高度相关性，过度收敛（涉及到训练的样本数和加入了相关词造成两方面）
两种方案出词结果就是出现明显的区别和掉收录，也印证了百度常挂在嘴边的要产出高质量文章

这是第三个核心问题高质量
百度偏好问答类的内容就属于高质量
百度模型对这种很好识别，而且基本做到90%的识别率高质量，因为结构简单，排版清晰，我猜想百度是有高质量识别模型的
你们可以参考问答类的内容标准写法，记住是标准写法
基本这一类的站，我实操可以达到权6 权7的水平
当然除了从内容上判定高质量，还有很多识别参数，比如排版，图文结合，段落的有序排名，H1 H2的总结等等，还有其他加分项，TAG聚合，列表聚合，模型的新旧等等，有很多判断，这个要做到高，就是每个人的seo功力问题了。
另外一种比较复杂就是行业站，根据我的观察，不同行业，类型采用的策略是不一样。这个最复杂，我认为百度是专门针对不同行业采取不一样的识别模型的，很多人经常怀疑为什么一样的操作手法换行业就不一样了，下次再开个贴，这个也是最有趣的。

以上做法只是针对百度，谷歌和必应其实从操作来看，个人觉得比百度更简单，他们的策略会有所区别。尤其是必应，最近在搞必应，已经做到大词霸屏多个内页的程度。改天再讨论下。