用Python爬取淘宝4403条大裤衩数据进行分析,终于找到可以入手的那一条
用Python爬取淘宝4403条大裤衩数据进行分析,终于找到可以入手的那一条
数据获取
淘宝网站是一个ajax动态加载的网站,只能通过解析接口或用selenium自动化测试工具去爬取。关于动态网页爬虫,本公众号历史原创文章「」介绍过,感兴趣的朋友可以了解一下。
本次数据获取采用selenium,由于J哥的谷歌浏览器版本更新较快,导致原来的谷歌驱动失效。于是,我禁用了浏览器自动更新,并下载了对应版本的驱动。
浏览器驱动必须与浏览器版本匹配,否则selenium将失效,这里也给出下载链接: http://chromedriver.storage.googleapis.com/index.html
接着,J哥利用selenium在淘宝网搜索大裤衩,手机扫码登录,获得了大裤衩的商品名称、商品价格、付款人数、店铺名称、发货地址等信息。限于篇幅,爬虫代码仅给出主函数,感兴趣的朋友可以在公众号后台联系我获取。
def main(): browser.get('https://www.taobao.com/') page = search_product(key_word) print(page) get_data() page_num = 1 while int(page) != page_num: print("-" * 100) print("正在爬取第{}页大裤衩数据".format(page_num + 1)) browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44)) browser.implicitly_wait(10) get_data() page_num += 1 print("大裤衩数据抓取完成")