python多线程爬取图片实例
2020-12-13 04:56
标签:format import lxml 查找 time() 匹配 pip https with open
今天试着把前面那个爬取图片的爬虫改成了多线程爬取,虽然最后可以爬取存储图片了,但仍存在一些问题。网址还是那个网址https://www.quanjing.com/category/1286521/1.html,
下面是代码,难点直接在后面注释了。
# 多线程爬取,每个线程爬取一个页面 import requests import threading import queue from bs4 import BeautifulSoup import re import time string = "https://www.quanjing.com/category/1286521/" pipei = re.compile(‘
刚开始,我想把爬取的所有图片都放在一个文件夹了,但却由于命名的问题,总是被覆盖,每次都只有一页的图片,最后用类中的静态变量解决(name)。不过就在刚在突然想到完全可以换一种命名方式解决,比如每张图片都有一个自己的标题,用标题命名不但解决的这个问题,还更加直观、利用查找。(自己tcl。。。若文章有错误,欢迎大家随之指正。。。)
python多线程爬取图片实例
标签:format import lxml 查找 time() 匹配 pip https with open
原文地址:https://www.cnblogs.com/liangxiyang/p/11125761.html
上一篇:MVC表单提交写法1
下一篇:CSS样式表引用方式