├── README.md ├── image ├── pic1.jpg ├── pic2.jpg ├── pic3.jpg ├── pic4.jpeg ├── pic5.jpeg ├── pic6.jpeg └── pic7.jpeg ├── mm131.py └── xinggan.py /README.md: -------------------------------------------------------------------------------- 1 | # 一、项目名称 2 | 3 | 抓取[MM131美女写真](http://www.mm131.com/)图片,并将这些图片下载到本地指定文件夹。 4 | 5 | 共有6种类型的美女图片: 6 | 7 | 1. 性感美女 8 | 9 | 2. 清纯美眉 10 | 11 | 3. 美女校花 12 | 13 | 4. 性感车模 14 | 15 | 5. 旗袍美女 16 | 17 | 6. 明星写真 18 | 19 | 抓取后的效果图如下,每个图集是一个独立的文件夹: 20 | 21 | ![图片保存的文件夹](/image/pic1.jpg) 22 | 23 | 打开某个文件夹: 24 | 25 | ![美女写真图集](/image/pic2.jpg) 26 | 27 | 打开某个文件夹: 28 | 29 | ![美女写真图集](/image/pic3.jpg) 30 | 31 | ## 二、项目目的 32 | 33 | 抓取美女写真图片,能有啥目的,纯粹是为了技术,顺便养养眼,不行吗? 34 | 35 | 另外,可以分析不同图片类型的图集数量、图片数量,以此来判断什么类型的图片最受欢迎。 36 | 37 | ## 三、项目要求 38 | 39 | 1. 成功抓取到图片,并将图片进行重命名后保存到指定的文件夹,文件夹使用图集的名称 40 | 41 | 2. 开始下载后,要有下载进度的提示,当前已下载图集数、剩余图集数、正在下载第几张图片,类似这样: 42 | 43 | ![下载提示](/image/pic4.jpeg) 44 | 45 | 3. 也可以增加一些其他功能,例如,请求多长时间获取不到结果时,该怎么办,这个我没写,留给大家自由发挥了 46 | 47 | 4. 分析不同图片类型的图集数量、图片数量,以此来判断什么类型的图片最受欢迎,这个我没做,留给大家,前面会做了,这个就很简单了 48 | 49 | ## 四、步骤 50 | 51 | 声明一下,这个是我自己的思路,一定不是最好的,大家可以有更好的思路,欢迎交流。 52 | 53 | 步骤1:写一个函数,用于获取某一个图片类型每一页的页面链接,如 清纯美眉,共31页,需要将每一页的页面链接拿到, 54 | 55 | 要拿到每一页的链接,需要知道链接的规则,以及一共有多少页,如下图标红处,如何知道某个图片类型共有多少页呢? 56 | 57 | 也就是怎么把 list_1_31.html 中的 31 拿到呢? 58 | 59 | ![图集链接](/image/pic5.jpeg) 60 | 61 | 步骤2:写一个函数,用于获取某一个页面的全部图集链接,如 清纯美眉第一页,拿到这个页面的所有的图集链接, 62 | 63 | 注意看每一个图集的链接,有什么统一的规则 64 | 65 | ![图集链接](/image/pic6.jpeg) 66 | 67 | 步骤3:写一个函数,用于将某一图集的所有图片保存下来,如 清纯美眉第一个第一个图集,把这个图集的所有图片都保存下来, 68 | 69 | 注意看每一个图集的图片链接,有什么规则 70 | 71 | ![图集链接](/image/pic7.jpeg) 72 | 73 | 步骤4:开始执行以上的函数,验证是否得到想要的结果。 74 | 75 | 建议,仔细研究一下不同图片类型的页面链接、图集链接之间的相同点和不同点,然后构思写代码。不要一次性全部下载,在写每一个函数时,传入一个具体的链接进行测试,保证每个函数都满足要求后,再批量下载。 76 | 77 | ## 五、如何使用 78 | 79 | 1. Python3 版本 80 | 81 | 2. 已安装程序需要的库,如 requests、BeautifulSoup、os、time 82 | 83 | ## 六、版权声明 84 | 85 | 1. 图片版本由其官方网址持有,抓取图片仅供技术交流使用,切勿商用。 86 | 87 | 88 | -------------------------------------------------------------------------------- /image/pic1.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic1.jpg -------------------------------------------------------------------------------- /image/pic2.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic2.jpg -------------------------------------------------------------------------------- /image/pic3.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic3.jpg -------------------------------------------------------------------------------- /image/pic4.jpeg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic4.jpeg -------------------------------------------------------------------------------- /image/pic5.jpeg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic5.jpeg -------------------------------------------------------------------------------- /image/pic6.jpeg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic6.jpeg -------------------------------------------------------------------------------- /image/pic7.jpeg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic7.jpeg -------------------------------------------------------------------------------- /mm131.py: -------------------------------------------------------------------------------- 1 | # -*- coding:utf-8 -*- 2 | import requests 3 | from bs4 import BeautifulSoup 4 | import os 5 | import time 6 | import threading 7 | from multiprocessing import Process 8 | import threadpool 9 | 10 | # 程序运行开始提示 11 | print("程序于 {} 开始启动,请等待...".format(time.ctime())) 12 | # 美女图片类型和对应的页面序列位置,图片类型为键,位置为 值 13 | # 这个位置用于图集的链接,如list_6_3.html,6即为性感美女的序列位置 14 | girls_images_type = {'xinggan': '6', 'qingchun': '1', 'xiaohua': '2', 'chemo': '3', 'qipao': '4', 'mingxing': '5'} 15 | 16 | 17 | # 创建soup对象 18 | def creat_soup(url): 19 | ''' 20 | 该函数返回一个url的soup对象 21 | :param url:一个页面的链接 22 | ''' 23 | # 获取网页,得到一个response对象 24 | response = requests.get(url, timeout=60) 25 | # 指定自定义编码,让文本按指定的编码进行解码,因为网站的charset = gb2312 26 | response.encoding = 'gb2312' 27 | # 使用解码后的数据创建一个soup对象,指定HTML解析器为Python默认的html.parser 28 | return BeautifulSoup(response.text, 'html.parser') 29 | 30 | 31 | def pages_url(image_type, position): 32 | ''' 33 | 该函数用于获取某一个图片类型的全部页面的链接 34 | :param image_type:美女图片的类型,只有6种,是一个列表 35 | ''' 36 | url = 'http://www.mm131.com/' + image_type 37 | # 调用函数,创建soup对象 38 | soup = creat_soup(url) 39 | # 查找当前图片类型的分页链接 40 | images_information = soup.find(class_="page").find_all('a') 41 | # 计算当前图片类型共有多少页 42 | # 先获取最后一个a标签,格式是 list_1_31.html 43 | # 然后将该字符串里面的'.' 替换为 '_',最后再使用split分割字符串,得到一个列表 44 | pages_num_list = images_information[-1].get('href').replace('.', '_').split('_') 45 | # 当前图片类型共有多少页 46 | pages_num = int(pages_num_list[-2]) 47 | 48 | # 用于存储每一页的页面链接,默认存储第一页的页面链接 49 | pages_url = [url] 50 | # 将当前图片类型的每一页的链接存储起来,从第二页开始链接后跟list_position_页码.html 51 | for page in range(2, pages_num + 1): 52 | pages_url.append(url + '/list_' + position + '_' + str(page) + '.html') 53 | 54 | # 函数返回某一个图片类型的全部页面链接 55 | return pages_url 56 | 57 | 58 | def atlas(pages_url): 59 | ''' 60 | 该函数用于存储某一个页面的所有图集链接 61 | :param pages_url:页面链接,可以是列表 62 | ''' 63 | # 用于存储每一个图集链接的列表 64 | atlas_url = [] 65 | for page_url in pages_url: 66 | # 调用函数,创建页面链接的soup对象 67 | soup = creat_soup(page_url) 68 | # 查找当前页面所有的图集信息,find_all 返回的是一个列表 69 | atlas_information = soup.find(class_="list-left public-box").find_all('dd') 70 | for information in atlas_information: 71 | # 排除page 分页的链接 72 | if not information.find('span'): 73 | # 将符合条件的链接,即 每一个图集的链接加入到列表中 74 | atlas_url.append(information.find('a').get('href')) 75 | # 函数返回某一个页面的全部图集链接 76 | return atlas_url 77 | 78 | 79 | def save_image_one(url): 80 | print("") 81 | # 调用函数,创建图集链接的soup对象 82 | soup = creat_soup(url) 83 | print(url) 84 | image_type = "mingxing" 85 | if str(url).find("xinggan") >= 0: 86 | image_type = "xinggan" 87 | elif str(url).find("qipao") >= 0: 88 | image_type = "qipao" 89 | elif str(url).find("qingchun") >= 0: 90 | image_type = "qingchun" 91 | elif str(url).find("xiaohua") >= 0: 92 | image_type = "xiaohua" 93 | elif str(url).find("chemo") >= 0: 94 | image_type = "chemo" 95 | # 指定文件夹名 96 | file_folder = soup.find(class_='content').h5.string 97 | # 将图片文件夹保存在程序文件所在目录的imgase目录下 98 | folder = image_type + '_images/' + file_folder + '/' 99 | if os.path.exists(folder) == False: # 判断文件夹是否存在 100 | os.makedirs(folder) # 创建文件夹 101 | # 当前图集 共多少张图片,span的内容结构是共XX页,XX为当前图片的张数 102 | images_number = int(soup.find('span', class_='page-ch').string[1:-1]) 103 | # 当前图集的编号,如图集链接 http://www.mm131.com/qingchun/3039.html,编号为3039,用于拼接当前图集的图片地址 104 | pic_number = url.replace('.', '/').split('/')[-2] 105 | # 创建列表,用于保存每一张图片的链接 106 | images_url = [] 107 | for number in range(1, images_number + 1): 108 | images_url.append('http://img1.mm131.me/pic/' + pic_number + '/' + str(number) + '.jpg') 109 | # 有些网站会有防盗链,原理是检查 HTTP的referer头,如果没有referer,会抓取不了数据 110 | headers = { 111 | 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 112 | 'referer': "http://www.mm131.com/xinggan/530.html"} 113 | # 开始下载提示,等待2秒后开始下载 114 | print("开始下载图集 {}".format(file_folder)) 115 | time.sleep(2) 116 | for index, image_url in enumerate(images_url): 117 | try: 118 | # get函数发送图片链接访问请求 119 | html = requests.get(image_url, headers=headers, timeout=30) 120 | # 保存图片至指定的文件夹,并将文件进行命名 121 | image_name = folder + str(index + 1) + '.jpg' 122 | # 以byte形式将图片数据写入 123 | with open("error.txt", 'a') as f: 124 | f.write("{}{}".format(image_url, '\n')) 125 | with open(image_name, 'wb') as file: 126 | file.write(html.content) 127 | pass 128 | except Exception as e: 129 | print("下载错误...", e) 130 | with open("error.txt", 'a') as f: 131 | f.write("{}{}".format(image_url, '\n')) 132 | pass 133 | print('第{}张图片下载完成,开始下载第{}张图片...'.format(index + 1, index + 2)) 134 | # 已下载图集加1 135 | 136 | 137 | def save_images(atlas_url, image_type): 138 | ''' 139 | 该函数用于将某一图集的所有图片保存下来 140 | :param atlas_url:图集链接,可以是个列表 141 | ''' 142 | # 共有多少个图集 143 | length = len(atlas_url) 144 | print("图集数量_image_type", length) 145 | # 已下载图集 146 | count = 1 147 | for url in atlas_url: 148 | # 调用函数,创建图集链接的soup对象 149 | soup = creat_soup(url) 150 | # 指定文件夹名 151 | file_folder = soup.find(class_='content').h5.string 152 | # 将图片文件夹保存在程序文件所在目录的imgase目录下 153 | folder = image_type + '_images/' + file_folder + '/' 154 | if os.path.exists(folder) == False: # 判断文件夹是否存在 155 | os.makedirs(folder) # 创建文件夹 156 | # 当前图集 共多少张图片,span的内容结构是共XX页,XX为当前图片的张数 157 | images_number = int(soup.find('span', class_='page-ch').string[1:-1]) 158 | # 当前图集的编号,如图集链接 http://www.mm131.com/qingchun/3039.html,编号为3039,用于拼接当前图集的图片地址 159 | pic_number = url.replace('.', '/').split('/')[-2] 160 | # 创建列表,用于保存每一张图片的链接 161 | images_url = [] 162 | for number in range(1, images_number + 1): 163 | images_url.append('http://img1.mm131.me/pic/' + pic_number + '/' + str(number) + '.jpg') 164 | # 有些网站会有防盗链,原理是检查 HTTP的referer头,如果没有referer,会抓取不了数据 165 | headers = { 166 | 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 167 | 'referer': "http://www.mm131.com/xinggan/530.html"} 168 | # 开始下载提示,等待2秒后开始下载 169 | print("开始下载图集 {},剩余图集 {}".format(file_folder, length - count)) 170 | time.sleep(2) 171 | for index, image_url in enumerate(images_url): 172 | try: 173 | # get函数发送图片链接访问请求 174 | html = requests.get(image_url, headers=headers, timeout=30) 175 | # 保存图片至指定的文件夹,并将文件进行命名 176 | image_name = folder + str(index + 1) + '.jpg' 177 | # 以byte形式将图片数据写入 178 | with open("error.txt", 'a') as f: 179 | f.write("{}{}".format(image_url, '\n')) 180 | with open(image_name, 'wb') as file: 181 | file.write(html.content) 182 | pass 183 | except Exception as e: 184 | print("下载错误...", e) 185 | with open("error.txt", 'a') as f: 186 | f.write("{}{}".format(image_url, '\n')) 187 | pass 188 | print('第{}张图片下载完成,开始下载第{}张图片...'.format(index + 1, index + 2)) 189 | # 已下载图集加1 190 | count += 1 191 | print("当前图集图片已下载完成\n") 192 | 193 | 194 | # 获取某一图片类型的所有页面链接,可以使用循环遍历字典 girls_images_type,获取所有的图片类型的所有页面链接, 195 | # 那样运行时间太长,这里为了演示,只取其中一个图片类型 196 | # 性感美女 和 清纯美眉 是最养眼的,不用谢~~ 197 | 198 | def downTask(image_type, position): 199 | # 获取页面的所有图集链接 200 | try: 201 | atlas_url = atlas(pages_url(image_type, position)) 202 | 203 | length = len(atlas_url) 204 | print("图集数量_", image_type, length) 205 | # 下载图集的图片 206 | # save_images(atlas_url, image_type) 207 | task_pool = threadpool.ThreadPool(32) 208 | requests = threadpool.makeRequests(save_image_one, atlas_url) 209 | for req in requests: 210 | task_pool.putRequest(req) 211 | task_pool.wait() 212 | except Exception as e: 213 | print("错误..", e) 214 | pass 215 | 216 | 217 | processlist = [] 218 | 219 | # 220 | for keys in girls_images_type: 221 | t = Process(target=downTask, args=(keys, girls_images_type[keys],)) 222 | t.start() 223 | processlist.append(t) 224 | 225 | for x in processlist: 226 | x.join() 227 | # 228 | # pages_url = pages_url('xinggan', '6') 229 | # # 获取页面的所有图集链接 230 | # atlas_url = atlas(pages_url) 231 | # print(atlas_url) 232 | 233 | # 下载图集的图片 234 | # save_images(atlas_url,'xinggan') -------------------------------------------------------------------------------- /xinggan.py: -------------------------------------------------------------------------------- 1 | # -*- coding:utf-8 -*- 2 | import requests 3 | from bs4 import BeautifulSoup 4 | import os 5 | import time 6 | import threading 7 | from multiprocessing import Process 8 | import threadpool 9 | 10 | # 程序运行开始提示 11 | print("程序于 {} 开始启动,请等待...".format(time.ctime())) 12 | # 美女图片类型和对应的页面序列位置,图片类型为键,位置为 值 13 | # 这个位置用于图集的链接,如list_6_3.html,6即为性感美女的序列位置 14 | girls_images_type = {'xinggan': '6', 'qingchun': '1', 'xiaohua': '2', 'chemo': '3', 'qipao': '4', 'mingxing': '5'} 15 | headers = { 16 | 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 17 | 'referer': "http://www.mm131.com/xinggan/530.html"} 18 | 19 | # 创建soup对象 20 | def creat_soup(url): 21 | ''' 22 | 该函数返回一个url的soup对象 23 | :param url:一个页面的链接 24 | ''' 25 | # 获取网页,得到一个response对象 26 | response = requests.get(url, headers=headers, timeout=30) 27 | # 指定自定义编码,让文本按指定的编码进行解码,因为网站的charset = gb2312 28 | response.encoding = 'gb2312' 29 | # 使用解码后的数据创建一个soup对象,指定HTML解析器为Python默认的html.parser 30 | return BeautifulSoup(response.text, 'html.parser') 31 | 32 | 33 | def pages_url(image_type, position): 34 | ''' 35 | 该函数用于获取某一个图片类型的全部页面的链接 36 | :param image_type:美女图片的类型,只有6种,是一个列表 37 | ''' 38 | url = 'http://www.mm131.com/' + image_type 39 | # 调用函数,创建soup对象 40 | soup = creat_soup(url) 41 | # 查找当前图片类型的分页链接 42 | images_information = soup.find(class_="page").find_all('a') 43 | # 计算当前图片类型共有多少页 44 | # 先获取最后一个a标签,格式是 list_1_31.html 45 | # 然后将该字符串里面的'.' 替换为 '_',最后再使用split分割字符串,得到一个列表 46 | pages_num_list = images_information[-1].get('href').replace('.', '_').split('_') 47 | # 当前图片类型共有多少页 48 | pages_num = int(pages_num_list[-2]) 49 | 50 | # 用于存储每一页的页面链接,默认存储第一页的页面链接 51 | pages_url = [url] 52 | # 将当前图片类型的每一页的链接存储起来,从第二页开始链接后跟list_position_页码.html 53 | for page in range(2, pages_num + 1): 54 | pages_url.append(url + '/list_' + position + '_' + str(page) + '.html') 55 | 56 | # 函数返回某一个图片类型的全部页面链接 57 | return pages_url 58 | 59 | 60 | def atlas(pages_url): 61 | ''' 62 | 该函数用于存储某一个页面的所有图集链接 63 | :param pages_url:页面链接,可以是列表 64 | ''' 65 | # 用于存储每一个图集链接的列表 66 | atlas_url = [] 67 | count = 1 68 | for page_url in pages_url: 69 | # 调用函数,创建页面链接的soup对象 70 | try: 71 | print("解析翻页...{}".format(count)) 72 | if count % 20 == 0: 73 | time.sleep(2) 74 | soup = creat_soup(page_url) 75 | # 查找当前页面所有的图集信息,find_all 返回的是一个列表 76 | atlas_information = soup.find(class_="list-left public-box").find_all('dd') 77 | for information in atlas_information: 78 | # 排除page 分页的链接 79 | if not information.find('span'): 80 | # 将符合条件的链接,即 每一个图集的链接加入到列表中 81 | urls = information.find('a').get('href') 82 | atlas_url.append(urls) 83 | # print("图集数量",len(atlas_url)) 84 | # task_pool = threadpool.ThreadPool(6 * 32) 85 | # requests = threadpool.makeRequests(save_image_one, atlas_url) 86 | # for req in requests: 87 | # task_pool.putRequest(req) 88 | # task_pool.wait() 89 | except Exception as e: 90 | print("错误", e) 91 | pass 92 | 93 | count += 1 94 | # 函数返回某一个页面的全部图集链接 95 | return atlas_url 96 | 97 | 98 | def save_image_one(url): 99 | print("") 100 | # 调用函数,创建图集链接的soup对象 101 | soup = creat_soup(url) 102 | print(url) 103 | image_type = "mingxing" 104 | if str(url).find("xinggan") >= 0: 105 | image_type = "xinggan" 106 | elif str(url).find("qipao") >= 0: 107 | image_type = "qipao" 108 | elif str(url).find("qingchun") >= 0: 109 | image_type = "qingchun" 110 | elif str(url).find("xiaohua") >= 0: 111 | image_type = "xiaohua" 112 | elif str(url).find("chemo") >= 0: 113 | image_type = "chemo" 114 | # 指定文件夹名 115 | file_folder = soup.find(class_='content').h5.string 116 | # 将图片文件夹保存在程序文件所在目录的imgase目录下 117 | folder = image_type + '_TestImg/' + file_folder + '/' 118 | if os.path.exists(folder) == False: # 判断文件夹是否存在 119 | os.makedirs(folder) # 创建文件夹 120 | # 当前图集 共多少张图片,span的内容结构是共XX页,XX为当前图片的张数 121 | images_number = int(soup.find('span', class_='page-ch').string[1:-1]) 122 | # 当前图集的编号,如图集链接 http://www.mm131.com/qingchun/3039.html,编号为3039,用于拼接当前图集的图片地址 123 | pic_number = url.replace('.', '/').split('/')[-2] 124 | # 创建列表,用于保存每一张图片的链接 125 | images_url = [] 126 | for number in range(1, images_number + 1): 127 | images_url.append('http://img1.mm131.me/pic/' + pic_number + '/' + str(number) + '.jpg') 128 | # 有些网站会有防盗链,原理是检查 HTTP的referer头,如果没有referer,会抓取不了数据 129 | 130 | # 开始下载提示,等待2秒后开始下载 131 | print("开始下载图集 {}".format(file_folder)) 132 | time.sleep(2) 133 | for index, image_url in enumerate(images_url): 134 | try: 135 | # get函数发送图片链接访问请求 136 | html = requests.get(image_url, headers=headers, timeout=30) 137 | # 保存图片至指定的文件夹,并将文件进行命名 138 | image_name = folder + str(index + 1) + '.jpg' 139 | # 以byte形式将图片数据写入 140 | with open(image_name, 'wb') as file: 141 | file.write(html.content) 142 | pass 143 | except Exception as e: 144 | print("下载错误...", e) 145 | with open("error.txt", 'a') as f: 146 | f.write("{}{}".format(image_url, '\n')) 147 | pass 148 | print('第{}张图片下载完成,开始下载第{}张图片...'.format(index + 1, index + 2)) 149 | # 已下载图集加1 150 | 151 | 152 | def save_images(atlas_url, image_type): 153 | ''' 154 | 该函数用于将某一图集的所有图片保存下来 155 | :param atlas_url:图集链接,可以是个列表 156 | ''' 157 | # 共有多少个图集 158 | length = len(atlas_url) 159 | print("图集数量_image_type", length) 160 | # 已下载图集 161 | count = 1 162 | for url in atlas_url: 163 | # 调用函数,创建图集链接的soup对象 164 | soup = creat_soup(url) 165 | # 指定文件夹名 166 | file_folder = soup.find(class_='content').h5.string 167 | # 将图片文件夹保存在程序文件所在目录的imgase目录下 168 | folder = image_type + '_images/' + file_folder + '/' 169 | if os.path.exists(folder) == False: # 判断文件夹是否存在 170 | os.makedirs(folder) # 创建文件夹 171 | # 当前图集 共多少张图片,span的内容结构是共XX页,XX为当前图片的张数 172 | images_number = int(soup.find('span', class_='page-ch').string[1:-1]) 173 | # 当前图集的编号,如图集链接 http://www.mm131.com/qingchun/3039.html,编号为3039,用于拼接当前图集的图片地址 174 | pic_number = url.replace('.', '/').split('/')[-2] 175 | # 创建列表,用于保存每一张图片的链接 176 | images_url = [] 177 | for number in range(1, images_number + 1): 178 | images_url.append('http://img1.mm131.me/pic/' + pic_number + '/' + str(number) + '.jpg') 179 | # 有些网站会有防盗链,原理是检查 HTTP的referer头,如果没有referer,会抓取不了数据 180 | headers = { 181 | 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 182 | 'referer': "http://www.mm131.com/xinggan/530.html"} 183 | # 开始下载提示,等待2秒后开始下载 184 | print("开始下载图集 {},剩余图集 {}".format(file_folder, length - count)) 185 | time.sleep(2) 186 | for index, image_url in enumerate(images_url): 187 | try: 188 | # get函数发送图片链接访问请求 189 | html = requests.get(image_url, headers=headers, timeout=30) 190 | # 保存图片至指定的文件夹,并将文件进行命名 191 | image_name = folder + str(index + 1) + '.jpg' 192 | # 以byte形式将图片数据写入 193 | with open("error.txt", 'a') as f: 194 | f.write("{}{}".format(image_url, '\n')) 195 | with open(image_name, 'wb') as file: 196 | file.write(html.content) 197 | pass 198 | except Exception as e: 199 | print("下载错误...", e) 200 | with open("error.txt", 'a') as f: 201 | f.write("{}{}".format(image_url, '\n')) 202 | pass 203 | print('第{}张图片下载完成,开始下载第{}张图片...'.format(index + 1, index + 2)) 204 | # 已下载图集加1 205 | count += 1 206 | print("当前图集图片已下载完成\n") 207 | 208 | 209 | # 获取某一图片类型的所有页面链接,可以使用循环遍历字典 girls_images_type,获取所有的图片类型的所有页面链接, 210 | # 那样运行时间太长,这里为了演示,只取其中一个图片类型 211 | # 性感美女 和 清纯美眉 是最养眼的,不用谢~~ 212 | 213 | def downTask(image_type, position): 214 | # 获取页面的所有图集链接 215 | try: 216 | atlas_url = atlas(pages_url(image_type, position)) 217 | 218 | length = len(atlas_url) 219 | print("图集数量_", image_type, length) 220 | # 下载图集的图片 221 | # save_images(atlas_url, image_type) 222 | task_pool = threadpool.ThreadPool(128) 223 | requests = threadpool.makeRequests(save_image_one, atlas_url) 224 | for req in requests: 225 | task_pool.putRequest(req) 226 | task_pool.wait() 227 | except Exception as e: 228 | print("错误..", e) 229 | pass 230 | 231 | 232 | processlist = [] 233 | # 234 | # for keys in girls_images_type: 235 | # t = Process(target=downTask, args=(keys, girls_images_type[keys],)) 236 | # t.start() 237 | # processlist.append(t) 238 | # 239 | # for x in processlist: 240 | # x.join() 241 | # 242 | pages_url = pages_url('xinggan', '6') 243 | # 获取页面的所有图集链接 244 | # atlas(pages_url) 245 | atlas_url = atlas(pages_url) 246 | task_pool = threadpool.ThreadPool(6 * 32) 247 | requests = threadpool.makeRequests(save_image_one, atlas_url) 248 | for req in requests: 249 | task_pool.putRequest(req) 250 | task_pool.wait() 251 | # 下载图集的图片 252 | # save_images(atlas_url,'xinggan') --------------------------------------------------------------------------------