搜索
上海网站建设,上海网站优化,上海网络营销,上海app开发,上海小程序开发,上海全网营销

400-825-2717互联网开发&推广服务提供商

与我们合作

我们专注:网站策划设计、网络舆论监控、网站优化及网站营销、品牌策略与设计
主营业务:网站建设、移动端微信小程序开发、APP开发、网络运营、云产品·运维解决方案

有一个品牌项目想和我们谈谈吗?

您可以填写右边的表格,让我们了解您的项目需求,这是一个良好的开始,我们将会尽快与您取得联系。当然也欢迎您给我们写信或是打电话,让我们听到您的声音

您也可通过下列途径与我们取得联系:

地 址: 上海市长宁区华宁国际7L

电 话: 400-825-2717(咨询专线)

电 话: 13054973230(售后客户服务)

网 址: http://www.56gw.net

传 真: 021-61488448

邮 箱: admin@wumujituan.com

快速提交您的需求 ↓

上海网站采集教程-采集马蜂窝

发布日期:2024-01-07 浏览次数:27509

其一:马蜂窝采用了“加速乐”SCDN,这个CDN厉害之处在利用爬虫脚本非浏览器特性,利用了IP->http 521->cookie:__jsluid_s->http 521 ->cookie:__jsl_clearance_s->cookie: __jsluid_s+ __jsl_clearance_s->http 200
其二:__jsluid_s又是IP+浏览器关系,换了IP会导致__jsl_clearance_s失效,继续http头部报521
其三:__jsl_clearance_s,他有时效性,目前估算是45分钟,也就是意味着,45分钟后,必须重新获取到最新的且有效的值
其四:SCDN,还有请求访问频率限制(根据IP),超出qps频率,IP直接被封30分钟,http头部返回403拒绝。
其五:马蜂窝部分业务,最多让你前25页的数据,就算原则游10000多页,但也只能让拿到前25页数据





那么怎么解决呢?

【有钱人的方案】
采用python+v8扩展,可以参考另外大神 分析过程 https://blog.csdn.net/YungGuo/article/details/109818327,以及代码样本 https://github.com/YungGuo08/WebSpider/tree/master/cookie_analysis/1

IP呢? 免费的http代理不靠谱,花钱找一个服务商提供代理池,你得同时要解决每个IP应该需要爬取多少个http请求,不然会进入403被封IP的禁地

【穷人的方案】
PC+chrome+F12,手动抓取__jsluid_s + __jsl_clearance_s,
如果出现403,让爬虫等待30分钟,接着干活



对于我本人,哈哈,当然属于穷人一列了。


本站仅提供存储功能,如果文章侵犯了您的权益,请随时联系我么。


GO 知识
查看经典案例

TOP

QQ客服

免费电话

微信咨询 在线咨询 免费电话
获取报价
您的称呼:

*

您的电话:

*

您的邮箱:

*

提交 重置
重要的事情,电话里聊

接通客服

不方便的时候线上咨询,在线等哦