链接
1)爬虫入口
1.1)sitemap入口
- 主动推送:https://ziyuan.baidu.com/college/courseinfo?id=267&page=2#h2_article_title14
- sitemap
- 手动提交
- ping baidu:http://ping.baidu.com/ping.html
- 快照更新:http://help.baidu.com/newadd?prod_id=1&category=1
- 自动推送代码:https://ziyuan.baidu.com/college/courseinfo?id=267&page=2#h2_article_title19
1.2)搜索引擎周边产品
- 周边产品
- 搜狗:https://www.sogou.com/docs/more.htm
- 百度:https://www.baidu.com/more/
- 360:https://www.360.cn/
- 等等等...
- 测试
找个新域名,建一个单页,提交某一个产品,开始服务器日志,看有没有爬虫抓取
- 个人建议
Sitemap入口全做 + 各个搜索引擎的浏览器刷访问量
2)大站的链接结构
2.1)HITS算法
- authority页面:权威页面、高质量的页面
- hub页面:桥页,指向有好内容网页的网页
如hao123
就是hub页面
,指向众多高质量的authority页面
基于这个假设:
- 一个高质量的authority页面会被很多高质量的hub页面所指向
- 一个高质量的hub页面会指向很多高质量的authority页面
有如下计算方法:
- 页面hub值,等于所有它指向的页面的authority值之和
- 页面authority值,等于所有指向它的页面的hub值之和
所以:
- HITS算法,存在可作弊漏洞
我们弄一个页面指向很多高质量的authority页面,那么这个页面就成为了一个高质量的hub页面。然后再弄个链接指向自己的垃圾网页,按照HITS算法,将大大提升自己的搓网页的authority值
因此,搜索引擎必然会对这个作弊行为有相应措施,比如类似BM25为authority设一个极限值什么的
- 优质页面A,指向垃圾页面B,会降低优质页面A的authority值
SEO应用:
- 网站内链设计中,避免优质链接给垃圾页面提供链接入口。通常随机调用最容易出现这种情况,因此,大站的链接模块,需要可配置一些筛选条件
优质页面,可以指:
有流量的页面 有排名的页面 有收录的页面
避免有流量的页面,给许久不收录的页面导链接,可能不但没促进收录,反而拉低流量页面的基础排名
- 可以适当给一些权威页面提供单向链接,或交换链接。权威页面,比如关键词top10的网页
2.2)链接重要性分级
按链接重要性分级,为不同权重的链接,分配不同数量及质量的内链
举例:
S级页面:质量最高,分配整站80%的单向链接
A级页面:质量较好,分配整站40%的单向链接
B级页面:质量较差,分配整站10%的单向链接
- 重要性分级
- 潜在流量大的网页
- 如专题搜索页,用流量词为title生成的网页
- 明确对应用户高频搜索行为的网页:https://www.kanzhun.com/gsx2097092.html
- 搜索结果排名2-5页的网页
- 排名时效性强的网页,如 https://www.moretickets.com/topic/wanglihong/
- 详情页面分级
比如全中国有1000万个公司,经常被用户搜索的只有5万个,那么这5万个公司的详情页,与另外995万个页面,要设置不同权重
优质资源有限分配给这5万个页面
- 低质量页面提取
网页生成时间 > 30天(根据自己情况定义),仍未收录的,算低质量页面
- 潜在流量大的网页
2.3)内链模块设计
[重要]
满足相关性(BM25)内链调用规则上,优先调用能提高IDF值的链接
- 满足重要性分配
全站划分(2.2的分配方式):重要页面、一般页面、垃圾页面
- [垃圾页面] 给
一般页面
和重要页面
单向链接 - [一般页面] 给
重要页面
单向链接,与一般页面
双向连接 重要页面
与重要页面
双向链接- 禁止重要页面,给非重要页面,提供单向链接;除非网页正文需要
- [垃圾页面] 给