迷上 IFTTT 后急需 RSS 来监测网页,找到免费的 FEED43。网上有很多教程,但对新手都不够友好,就重新整理了一份。
► 开始烧制属于自己的 feed
#1. 进入网页
FEED43 无需注册,点击 Create your own feed 直接使用。
#2. 选定 RSS 网页
将目标网址添入 Step1. Specify source page address (URL),将输入的源代码复制到 txt 文档中(方便之后写抓取规则)
如果 Page Source 显示为乱码,Encoding 可设为 UTF-8 。
#3. 定制 RSS 抓取规则
Global Search Pattern 是选择你要搜索的范围。可以不填,这样会搜索整个页面,一般新手都选择整个页面,即空白。Item (repeatable) Search Pattern 这部分最重要,是我们要抓取的内容。
仔细查看 Step1 中的源代码,找到区需要抓取的部分,输入到 Item (repeatable) Search Pattern。
测试网址:http://news.163.com/special/0001386F/rank_whole.html
。
需要抓取的源代码:
<tr>
<td class="red">
<span>2</span
><a href="更时尚更运动 车展实拍解析红旗 H5"
>更时尚更运动 车展实拍解析红旗 H5</a
>
</td>
<td class="cBlue">11211615</td>
</tr>
抓取规则:
<tr>
{*}
<td class="{*}"><span>{*}</span><a href="{%}">{%}</a></td>
{*}
<td class="cBlue">{*}</td>
{*}
</tr>
点击 Extract,进行抓取。
#4. 整理 rss 输入格式
Define output format,一般情况下前面三个会已经写好,后三个就将前面得出的 item 里面的元素填入即可,我这里{%1}对应的是链接所以填入 Link,{%2}对于标题就填入 Title。
然后点击 preview,完成制作,同时出现预览。
如果注册了 FEED43 的账号,可以修改 rss 地址,但不能改为中文,否则会 rss 出错。
#5. 获取 RSS 地址
点击 Feed URL 可得 rss 地址,我这里是 https://www.feed43.com/dianji.xml
在 RSS reader 中展示为
#6. 全文抓取
feed43 导出的条目必须点击链接才能看到内容。在 rss 展示全文,需要通过 FeedEx 再转一次。注意:feed43 免费用户过多,需在浏览器中打开一次才能得到真实链接 (一般为 http://node2.feed43.com
),FeedEx 需使用真实链接,一般 3 分钟内转换好。
FeedEx:https://feedex.net/
feeds43 免费版每 6 小时抓取一次,显示最新的 20 条内容。
如果网页源更新较频繁的话,可使用 RSSHub 和 Huginn。