内容 & 模板
1)数据库与内容整合的关系
数据整合的目的:通过有限的数据,使用一些方法,创造出符合SEO的大量页面
1.1)了解数据库运行
以zblog为例
1.2)内容整合案例
- 关联:https://www.kanzhun.com/job/g11514.html
同一主体的数据,关联到一起,填充页面内容,完善链接结构
原始数据
招聘ID 招聘标题 招聘正文 招聘公司 招聘职位 招聘城市 招聘行业 1 5年以上经验PHP XXX 百度 PHP 北京 2 PHP开发 XXX 百度 PHP 北京 采集数据:
招聘ID 招聘标题 招聘正文 招聘公司 招聘职位 招聘城市 招聘行业 1 5年以上经验PHP XXX 百度 PHP 北京 2 PHP开发 XXX 百度 PHP 北京 3 PHP研发工程师 XXX 百度网讯科技有限公司 php工程师 北京市 4 百度外卖PHP实习生 XXX 百度 PHP专员 北京 5 测试开发工程师-PHP开发 XXX 百度 PHP开发 北京市 6 资深PHP开发 XXX 北京百度 PHP研发 北京 7 PHP中级开发工程师 XXX 百度北京分公司 PHP开发 北京 8 PHP研发经理 XXX 百度北京 php经理 北京市 9 PHP XXX 百度 php 北京 10 糯米网php开发工程师 XXX 百度总部 php 北京市 处理后
招聘ID 招聘标题 招聘正文 招聘公司 招聘职位 招聘城市 招聘行业 公司主体 1 5年以上经验PHP XXX 百度 PHP 北京 互联网 2 PHP开发 XXX 百度 PHP 北京 互联网 3 PHP研发工程师 XXX 百度网讯科技有限公司 php工程师 北京 IT/互联网 4 百度外卖PHP实习生 XXX 百度 PHP专员 北京 餐饮互联网 5 测试开发工程师-PHP开发 XXX 百度 PHP开发 北京 IT行业 6 资深PHP开发 XXX 北京百度 PHP研发 北京 互联网 7 PHP中级开发工程师 XXX 百度北京分公司 PHP开发 北京 互联网IT 8 PHP研发经理 XXX 百度北京 php经理 北京 互联网行业 9 PHP XXX 百度 php 北京 互联网 10 糯米网php开发工程师 XXX 百度总部 php 北京 O2O - 拆分:https://www.kanzhun.com/recruit/19880/
同一主体的数据,拆分成多套页面,覆盖不同的关键词(通常是筛选条件)
潜在覆盖搜索词: {城市} + {职位} + 招聘 {行业} + {职位} + 招聘 {公司} + {职位} + 招聘 {城市} + {公司} + {职位} + 招聘 {公司} + 招聘 {职位} + 招聘 {行业} + 招聘 ... 同一公司:百度 & 百度总部 & 百度网讯科技有限公司 同一职位:PHP & PHP开发 & PHP专员 & PHP工程师 ...
招聘ID 招聘标题 招聘正文 招聘公司 招聘职位 招聘城市 招聘行业 公司主体 行业主体 职位主体 1 5年以上经验PHP XXX 百度 PHP 北京 互联网 百度 互联网 2 PHP开发 XXX 百度 PHP 北京 互联网 百度 互联网 3 PHP研发工程师 XXX 百度网讯科技有限公司 php工程师 北京 IT/互联网 百度 互联网 4 百度外卖PHP实习生 XXX 百度 PHP专员 北京 餐饮互联网 百度 互联网 5 测试开发工程师-PHP开发 XXX 百度 PHP开发 北京 IT行业 百度 互联网 6 资深PHP开发 XXX 北京百度 PHP研发 北京 互联网 百度 互联网 7 PHP中级开发工程师 XXX 百度北京分公司 PHP开发 北京 互联网IT 百度 互联网 8 PHP研发经理 XXX 百度北京 php经理 北京 互联网行业 百度 互联网 9 PHP XXX 百度 PHP 北京 互联网 百度 互联网 10 糯米网php开发工程师 XXX 百度总部 PHP 北京 O2O 百度 互联网 - 聚类:https://www.kanzhun.com/jobs/32/
同一主体的数据,拆分成多套页面,覆盖不同的关键词(通常是某个主体下的不同搜索需求)
潜在覆盖搜索词: {职位} + 招聘 {职位} + 工资 {职位} + 面试经验 {职位} + 岗位职责 {职位} + 就业趋势 {职位} + 工作总结 ...
- 搜索:https://www.aliyun.com/ss/5pyN5Yqh5Zmo5LiA6Iis55So5LuA5LmI5p2A5q-S6L2v5Lu2 <br> https://yq.aliyun.com/zt/41214
造出大量页面最快速的方法,配合模板可生成大批专题页(通常用来覆盖相关搜索、下拉框等没有明显搜索规律的关键词)
资源:
开源搜索引擎列表python --> whoosh
2)采集内容处理
[erphpdown]
与采集强相关的清风算法:https://ziyuan.baidu.com/college/articleinfo?id=2728
3.1标题的原则
• 网站应确保该站点下的每个页面都有指定的标题(如上文中“图1-2 符合规范的标题源码示例”所示),且同一站点的不同网页应分别使用不同的标题;
>>> 不同页面,不同title
• 页面标题应准确概括页面内容,避免使用模糊和不相关的描述;
>>> 标题与网页内容相关
• 页面标题应简明扼要,避免使用冗长的标题,避免关键词堆砌;
>>> 关键词堆砌是有用的
• 页面标题的符号使用正确,建议参考百度建议的标题符号用法(详细内容请参见本文“3.3.2标题的符号”部分)
>>> 跟着做就行了
与采集强相关的飓风算法:https://ziyuan.baidu.com/college/articleinfo?id=2603
类型1:采集痕迹明显
详细说明:站点存在大量从其他站点或公众号采集、搬运而来的内容,信息未经整合,排版混乱,部分功能缺失或文章可读性差,有明显采集痕迹,用户阅读感受很差。
示例:采集文章内容中存在超链接不可点、功能缺失问题,采集痕迹明显
>>> 移除采集痕迹
类型2:内容拼接
详细说明:采集多篇不同文章进行拼接,整体内容未形成完整逻辑,存在阅读不通顺、文章不连贯等问题,无法满足用户需求。
示例:前后内容无关,逻辑不连贯
>>> 拼接与标题关键词相关的内容
类型3:站点存在大量采集内容
详细说明:网站内容下多数内容均为采集,网站自身无内容生产力或内容生产能力较差,网站内容质量较低。
建议:我们鼓励站点生产原创内容,如若转载需标明出处。(如:新闻、政策类等标明出处的转载内容,不会被认为是采集内容)
>>> 降低已被百度大量索引内容的占比
类型4:跨领域采集
详细说明:站点依靠采集大量与本站领域不一致的内容来获取流量的行为。
示例:教育站点发布美食相关内容
>>> 同类型2,采集与关键词相关的内容
降权形式:
- 按目录降权、按URL格式降权、按模板降权
- 按子域名降权
- 按主域名降权(被K)
综上所述,我们要这么处理:
- 采集文章,分成多个目录存放,分散风险
50W 文章: www.domain.com/{apge_id}.html [安全性高] www.domain.com/{mulu}/{page_id}.html
- 每个目录下的文章,尽可能使用独立模板和独立URL格式,再次分散风险
[推荐] www.domain.com/{mulu}/{page_id}.html 分两个模板,每个模板对应不同URL格式 [模板1] www.domain.com/{mulu}/{page_id}.html [模板2] www.domain.com/{mulu_id}/{page_md5}.html
- 关键词可以堆砌,但堆砌的词需要与内容完全正相关
- 修改标题(必做的)
- {原标题} ---> {新关键词}_{原标题}
- {原标题} ---> {新关键词}_{修改后的原标题}
3种方式:
- 关键词找标题(通过搜索实现)
原标题:问下不查征信不上征信的口子 新标题:[不上征信的口子]问下不查征信不上征信的口子
- 标题找关键词(通过提取标题中的主干部分,可读性欠佳,适合长标题,相似度最低)
原标题:老哥们啊~问下现在还有哪些不查征信不上征信的高炮口子??! 新标题:不查征信口子
- http://ai.baidu.com/docs#/NLP-Basic-API/top
- https://github.com/search?q=%E5%8F%A5%E5%AD%90%E4%B8%BB%E5%B9%B2
- 硬塞(简单好实现)
- 标题前直接插入主关键词
- 原标题分词后,拿出名词,去找包含此名词的主关键词,随机选一个,插入原标题前面
综合策略(酌情处理):
- 准备一个关键词列表,存放大量主关键词
- 主关键词可以过滤一批,比如在百度中搜索,Top10搜索结果中,完全匹配主关键词的数量>5,该词可以扔掉,重复度太高了
- 重复度低的主关键词,找到与之最相近的标题,在标题前插入该关键词。已修改过的标题不在参与
- 若原标题长度>=15字,原标题改为精简后的标题
- 内容源尽可能找一些百度无法抓取到的内容(如微信公众号)或新鲜的内容(当日的新闻),混在采集内容中,比例越大越安全
- 内容处理
- 排除采集特征(必做的)
- 采集源的网站名称、URL
- HTML冗余代码
<p id="xxx"> <font id="xxx"> 处理:<p> <font>
- 正文处理(酌情选择的)
- 段落随机混排
- 句首句尾添加ASCII编码
- 插入其他文章生成的摘要
- http://ai.baidu.com/tech/nlp_apply/news_summary
- https://github.com/search?q=%E6%91%98%E8%A6%81
- 段落前后插入主关键词及相关关键词(如后置搜索词等)
- 插入图片(可以用"XX壁纸/屏保"搜索图片,比较符合出图尺寸)
- 排除采集特征(必做的)
3)原创内容
- 图转文:https://s.taobao.com/search?q=ocr%E8%BD%AF%E4%BB%B6
- 音转文:https://www.baidu.com/baidu?tn=dealio_dg&wd=%E8%AF%AD%E9%9F%B3%E8%BD%AC%E5%86%99
https://www.5118.com/sites/6
- 外文转汉文https://sight.netease.com/
- 百度未收录的
- APP
- 境外网站
- ......
4)以无法为有法,以无限为有限 --- 李小龙
- 做流量:没有绝对的规则和套路,只有绝对的适应规则和调整套路
- 抄袭是好哲学:抄别人的内容,抄别人的模板
5)模板
5.1)什么时候换模板
- 整个目录没流量,或流量快没的时候
- 流量稳定的时候不要瞎改,可适当加模块,但杜绝改版
- 没有绝对的好模板,好模板是A/B Test出来的
5.2)抄模板
资源:挖掘优质网站
观察是最佳的SEO学习手段,Search Rank Top10的站都是现成可学习的对象
通过top10的网站,发现SEO套路
通过阅读百度专利和搜索引擎知识,找到套路的理论解释
- <font color=red size=4>看title的写法,title中关键词是从哪来的,顺序是什么</font>
- 看模板,有哪些模块,每个模块对应什么数据,调用规则是什么
- 看内容,内容从哪来的,怎么处理的
- 看布局,title中关键词出现在网页的哪些位置
- 看外链,有哪些外链,我能不能搞到(在ahrefs)
- 看规模,数据量、目录量
- 看与自己规模匹配的站,你做"混凝土挖掘机"的企业站,就别参考1688了
- 看50+个站
5.3)大站SEO的精准流量利器:专题页
专题搜索页模板举例:
- 模块可配置
- 增加
- 删除
- 动态模块
- 静态模块
- 模块可自定义
- 可选内容来源
- 帖子 --> 动态模块
- 资讯 --> 动态模块
- 问答 --> 动态模块
- 论坛 --> 动态模块
- 视频 --> 动态模块
- 图片 --> 动态模块、静态模块
- 人工编写 --> 静态模块
- 友情链接 --> 静态模块
- 可选链接数量
- 可选排序规则
- 随机
- 发布时间
- 浏览数量
- 权重值(自己设置的)
- 相关性(通过MySQL的字段关联,或预先通过搜索跑好,写进缓存里)
- 可选模块样式
样式1:{日期} {标题} 样式2:{略缩图} {标题} {100字摘要} 样式3:...
- 可选内容来源
- 生成方式
- 导词生成 --> 长尾关键词
- 人工编辑 --> 高竞争关键词
- 编辑团队建设
- 培训 + 绩效
- 培训
- 关键词选择
- 内容差异化的配置方法
- 绩效
- 双重绩效:收录 × 排名
- 绩效权重:收录30% & 排名70%
- 每个词根,有单独的人负责,其他人不做这个词根,防止出现相似内容[/erphpdown]