来源:2020-07-14 00:00:00 热度:

一篇文章教会你利用Python网络爬虫获取分类图片

AI中国网 https://www.cnaiplus.com

【一、项目背景】

博海拾贝是一支互联网从业者在线教育的团队,扎根于中国教育行业以及互联网行业的创新和眼球中,打造专业体系化的互联网人在线教育平台。精心创作许多精彩的文章,提供了很多有趣的图片。

今天来教大家如何使用Python来爬取博海拾贝的图片,分类保存,写入文档。

【二、项目目标】

创建一个文件夹, 分类保存所有文章图片。下载成功,结果显示控制台。

【三、项目分析】

1、如何找到真正访问的地址,多网页请求?

滑动鼠标,观察网站,右键F12 。鼠标滚轮滑动加载新内容。如图:

点开随机网页 , 点开Request URL ,观察网址的规律。

https://bh.sb/page/1/

https://bh.sb/page/2/

https://bh.sb/page/3/

https://bh.sb/page/4/

观察到,每增加一页page/{}/自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。

2. 反爬处理

1)获取正常的 http请求头,并在requests请求时,设置这些常规的http请求头。

2)使用 fake_useragent ,产生随机的UserAgent进行访问。

123下一页>

件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

  • 三菱综合研究所:2030年人工智能或导致240多万日本人失去工作
  • 微软CEO纳德拉:人工智能仍处于“大型主机时代”
  • 陆奇任百度COO主攻人工智能 短期或难助撑营收
  • 赢了人机大战的不是机器 而是我们自己
  • 人类下棋不如“狗”,以后可能炒股也不如了

AI中国网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容