联系QQ:3490313997
网站建设

火车采集器网站分页网址不变获取规则

时间:2021-12-01 09:21:41

  在采集列表分页内容的时候,会发现有的列表分页,点击第二页、第三页(或下一页)时,列表的页面信息有变化,但是浏览器上网址却不变。这种信息在页面是看不到的,一般要通过fiddler抓包工具抓包分析,即通过火车采集器post方式分页采集。

  以下用这个网址来测试http://www.yidianda.com/category/three/1-7-24.html 这个网址有3页,链接都是相同的。

  1、先通过源代码找到这个页面的开始标签和结束标签,页面开始是1/3页,结束是下一页>到第页。如下通过源代码可找到:

文章开始

 

  

结束文章

 

  

规则设置

 

  2、打开fiddler抓包工具,分别点击第2页和第3页,看看分别获取了哪些信息。当获取完一个页面后,先按下键盘F12暂停,提取信息。不然的话fiddler会继续抓取信息、信息多的话不好查找。

fiddler抓包1

 

  

fiddler抓包2

 

  由于图片比较不好查找,通过点击fiddler上的“View in Notepad”提取出来进行比较如下:

  ec_p=2&url=&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice=

  ec_p=3&url=&flag=1&sortType=&s_keyword=&s_minprice=&s_maxprice=

  从上可以知道ec_p的值就是分页。火车采集设置如下:

post设置分页

 

  注:以上规则设置完,记得点击保存哦。有的页面有id=这样的参数(有的会变,通过源代码查看),一般是[POST随机值x],这里不需要填也可以。

  fiddler下载地址http://pan.baidu.com/s/1gfPOgrL(中文版不用升级)最后链接测试采集如下

链接采集测试
最新收录
  • 36DJ舞曲网

    36DJ舞曲网站是一个专门提供高质量DJ下载网站,每首舞曲都由dj精心打造且真正免费下载的DJ网站,提供以dj串烧、dj慢摇、车载dj音乐、好听的夜店舞曲在线站点

  • Pixabay免费图片

    Pixabay是一个提供免版税图片、视频和音频的网站,你可以在这里搜索和下载各种主题和风格的图片,如自然、动物、节日、宇宙等。Pixabay还支持编辑图片功能,让你可以根据自己的需求调整图片大小、色彩和效果。

  • 食品行业网

    中国食品行业网是食品行业企业间(B2B)网上电子商务平台,汇聚海量供求信息,专业的食品商人社区。网站定位食品产业链,为包括农产品、食品简加工、食品深加工、食品原料、食品添加剂、食品机械等在内的企业提供服务,服务内容包括网上会员及广告推广、网站建设以及高端线下服务

  • 食品招商网

    食品招商网专业的食品招商,食品代理网.是集饮料,休闲食品,方便食品,膨化食品,调味品,米面粮油,预制食材招商代理等信息为一体的综合平台.是食品厂家与经销商良好对接的专业食品网站

  • 中国食品报网

    中国食品报社旗下的食品行业新闻资讯平台,提供食品、特色农产品、美食领域的最新动态、政策监管、品牌创新、校园教育等内容。网站还举办各类食品饮料会展、访谈、评选等活动,展示食品行业的发展成就和创新能力。

  • 食品伙伴网

    食品伙伴网是专业的食品行业门户网站,秉承关注食品安全,探讨食品技术的宗旨,分享国内外行业资讯、标准法规、生产技术、质量管理、检测技术等信息,并拥有专业的网上技术交流平台