小编自己一直在学习和了解Python的作用,相信大家都知道python用来爬取数据那是一绝,除此之外还有包括智能AI,大数据画像分析,数据分析等等。
目前淘宝的反爬是越来越厉害了,想要在PC端去获取商品数据已经变成了一种奢望。因为只要爬2-3页,页面就会弹出来让你输入验证码等措施,这相当于直接扼杀了爬数据的任何机会。
另外页面分为动态和静态页面两种方式,为了降低服务器和数据库读取数据的压力,大部分电商平台都选择使用freemark的方式来实现页面静态化。动态的页面爬虫的爬取速度会降低许多,但是静态页面的话,就相当于前面一马平川,爬虫可以很迅速度的在短短几秒内爬上上万条数据。所以为了限制爬虫的最好办法是加入人机验证功能。
但是问题又来了,人机验证功能很影响用户体验,如果一只爬虫模拟用户的浏览习惯去爬取数据,服务器也很难察觉到它到底是不是人类。所以在淘宝的手机端H5页面爬虫依然有一丝的机会去获取大量的商品数据,主要问题还是在于淘宝不愿意放弃PC端或H5端的这一部分用户,然而H5端页面会暴露出sign的加密方式,从而让技术们捕获到接口的调用协议和方式。这种情况很难被杜绝。