├── README.md
├── image
    ├── pic1.jpg
    ├── pic2.jpg
    ├── pic3.jpg
    ├── pic4.jpeg
    ├── pic5.jpeg
    ├── pic6.jpeg
    └── pic7.jpeg
├── mm131.py
└── xinggan.py


/README.md:
--------------------------------------------------------------------------------
 1 | # 一、项目名称
 2 | 
 3 | 抓取[MM131美女写真](http://www.mm131.com/)图片，并将这些图片下载到本地指定文件夹。
 4 | 
 5 | 共有6种类型的美女图片：
 6 | 
 7 | 1. 性感美女
 8 | 
 9 | 2. 清纯美眉
10 | 
11 | 3. 美女校花
12 | 
13 | 4. 性感车模
14 | 
15 | 5. 旗袍美女
16 | 
17 | 6. 明星写真
18 | 
19 | 抓取后的效果图如下，每个图集是一个独立的文件夹：
20 | 
21 | ![图片保存的文件夹](/image/pic1.jpg)
22 | 
23 | 打开某个文件夹：
24 | 
25 | ![美女写真图集](/image/pic2.jpg)
26 | 
27 | 打开某个文件夹：
28 | 
29 | ![美女写真图集](/image/pic3.jpg)
30 | 
31 | ## 二、项目目的
32 | 
33 | 抓取美女写真图片，能有啥目的，纯粹是为了技术，顺便养养眼，不行吗？
34 | 
35 | 另外，可以分析不同图片类型的图集数量、图片数量，以此来判断什么类型的图片最受欢迎。
36 | 
37 | ## 三、项目要求
38 | 
39 | 1. 成功抓取到图片，并将图片进行重命名后保存到指定的文件夹，文件夹使用图集的名称
40 | 
41 | 2. 开始下载后，要有下载进度的提示，当前已下载图集数、剩余图集数、正在下载第几张图片，类似这样：
42 | 
43 | ![下载提示](/image/pic4.jpeg)
44 | 
45 | 3. 也可以增加一些其他功能，例如，请求多长时间获取不到结果时，该怎么办，这个我没写，留给大家自由发挥了
46 | 
47 | 4. 分析不同图片类型的图集数量、图片数量，以此来判断什么类型的图片最受欢迎，这个我没做，留给大家，前面会做了，这个就很简单了
48 | 
49 | ## 四、步骤
50 | 
51 | 声明一下，这个是我自己的思路，一定不是最好的，大家可以有更好的思路，欢迎交流。
52 | 
53 | 步骤1：写一个函数，用于获取某一个图片类型每一页的页面链接，如 清纯美眉，共31页，需要将每一页的页面链接拿到，
54 | 
55 | 要拿到每一页的链接，需要知道链接的规则，以及一共有多少页，如下图标红处，如何知道某个图片类型共有多少页呢？
56 | 
57 | 也就是怎么把 list_1_31.html 中的 31 拿到呢？
58 | 
59 | ![图集链接](/image/pic5.jpeg)
60 | 
61 | 步骤2：写一个函数，用于获取某一个页面的全部图集链接，如 清纯美眉第一页，拿到这个页面的所有的图集链接，
62 | 
63 | 注意看每一个图集的链接，有什么统一的规则
64 | 
65 | ![图集链接](/image/pic6.jpeg)
66 | 
67 | 步骤3：写一个函数，用于将某一图集的所有图片保存下来，如 清纯美眉第一个第一个图集，把这个图集的所有图片都保存下来，
68 | 
69 | 注意看每一个图集的图片链接，有什么规则
70 | 
71 | ![图集链接](/image/pic7.jpeg)
72 | 
73 | 步骤4：开始执行以上的函数，验证是否得到想要的结果。
74 | 
75 | 建议，仔细研究一下不同图片类型的页面链接、图集链接之间的相同点和不同点，然后构思写代码。不要一次性全部下载，在写每一个函数时，传入一个具体的链接进行测试，保证每个函数都满足要求后，再批量下载。
76 | 
77 | ## 五、如何使用
78 | 
79 | 1. Python3 版本
80 | 
81 | 2. 已安装程序需要的库，如 requests、BeautifulSoup、os、time
82 | 
83 | ## 六、版权声明
84 | 
85 | 1. 图片版本由其官方网址持有，抓取图片仅供技术交流使用，切勿商用。
86 | 
87 | 
88 | 


--------------------------------------------------------------------------------
/image/pic1.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic1.jpg


--------------------------------------------------------------------------------
/image/pic2.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic2.jpg


--------------------------------------------------------------------------------
/image/pic3.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic3.jpg


--------------------------------------------------------------------------------
/image/pic4.jpeg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic4.jpeg


--------------------------------------------------------------------------------
/image/pic5.jpeg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic5.jpeg


--------------------------------------------------------------------------------
/image/pic6.jpeg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic6.jpeg


--------------------------------------------------------------------------------
/image/pic7.jpeg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/eicky/mm131/20bd2b0314c8d88ea0721e47647bb86c88d432af/image/pic7.jpeg


--------------------------------------------------------------------------------
/mm131.py:
--------------------------------------------------------------------------------
  1 | # -*- coding:utf-8 -*-
  2 | import requests
  3 | from bs4 import BeautifulSoup
  4 | import os
  5 | import time
  6 | import threading
  7 | from multiprocessing import Process
  8 | import threadpool
  9 | 
 10 | # 程序运行开始提示
 11 | print("程序于 {} 开始启动，请等待...".format(time.ctime()))
 12 | # 美女图片类型和对应的页面序列位置，图片类型为键，位置为 值
 13 | # 这个位置用于图集的链接，如list_6_3.html，6即为性感美女的序列位置
 14 | girls_images_type = {'xinggan': '6', 'qingchun': '1', 'xiaohua': '2', 'chemo': '3', 'qipao': '4', 'mingxing': '5'}
 15 | 
 16 | 
 17 | # 创建soup对象
 18 | def creat_soup(url):
 19 |     '''
 20 |     该函数返回一个url的soup对象
 21 |     :param url:一个页面的链接
 22 |     '''
 23 |     # 获取网页，得到一个response对象
 24 |     response = requests.get(url, timeout=60)
 25 |     # 指定自定义编码，让文本按指定的编码进行解码，因为网站的charset = gb2312
 26 |     response.encoding = 'gb2312'
 27 |     # 使用解码后的数据创建一个soup对象，指定HTML解析器为Python默认的html.parser
 28 |     return BeautifulSoup(response.text, 'html.parser')
 29 | 
 30 | 
 31 | def pages_url(image_type, position):
 32 |     '''
 33 |     该函数用于获取某一个图片类型的全部页面的链接
 34 |     :param image_type:美女图片的类型，只有6种，是一个列表
 35 |     '''
 36 |     url = 'http://www.mm131.com/' + image_type
 37 |     # 调用函数，创建soup对象
 38 |     soup = creat_soup(url)
 39 |     # 查找当前图片类型的分页链接
 40 |     images_information = soup.find(class_="page").find_all('a')
 41 |     # 计算当前图片类型共有多少页
 42 |     # 先获取最后一个a标签，格式是 list_1_31.html
 43 |     # 然后将该字符串里面的'.' 替换为 '_'，最后再使用split分割字符串，得到一个列表
 44 |     pages_num_list = images_information[-1].get('href').replace('.', '_').split('_')
 45 |     # 当前图片类型共有多少页
 46 |     pages_num = int(pages_num_list[-2])
 47 | 
 48 |     # 用于存储每一页的页面链接，默认存储第一页的页面链接
 49 |     pages_url = [url]
 50 |     # 将当前图片类型的每一页的链接存储起来，从第二页开始链接后跟list_position_页码.html
 51 |     for page in range(2, pages_num + 1):
 52 |         pages_url.append(url + '/list_' + position + '_' + str(page) + '.html')
 53 | 
 54 |     # 函数返回某一个图片类型的全部页面链接
 55 |     return pages_url
 56 | 
 57 | 
 58 | def atlas(pages_url):
 59 |     '''
 60 |     该函数用于存储某一个页面的所有图集链接
 61 |     :param pages_url:页面链接，可以是列表
 62 |     '''
 63 |     # 用于存储每一个图集链接的列表
 64 |     atlas_url = []
 65 |     for page_url in pages_url:
 66 |         # 调用函数，创建页面链接的soup对象
 67 |         soup = creat_soup(page_url)
 68 |         # 查找当前页面所有的图集信息，find_all 返回的是一个列表
 69 |         atlas_information = soup.find(class_="list-left public-box").find_all('dd')
 70 |         for information in atlas_information:
 71 |             # 排除page 分页的链接
 72 |             if not information.find('span'):
 73 |                 # 将符合条件的链接，即 每一个图集的链接加入到列表中
 74 |                 atlas_url.append(information.find('a').get('href'))
 75 |     # 函数返回某一个页面的全部图集链接
 76 |     return atlas_url
 77 | 
 78 | 
 79 | def save_image_one(url):
 80 |     print("")
 81 |     # 调用函数，创建图集链接的soup对象
 82 |     soup = creat_soup(url)
 83 |     print(url)
 84 |     image_type = "mingxing"
 85 |     if str(url).find("xinggan") >= 0:
 86 |         image_type = "xinggan"
 87 |     elif str(url).find("qipao") >= 0:
 88 |         image_type = "qipao"
 89 |     elif str(url).find("qingchun") >= 0:
 90 |         image_type = "qingchun"
 91 |     elif str(url).find("xiaohua") >= 0:
 92 |         image_type = "xiaohua"
 93 |     elif str(url).find("chemo") >= 0:
 94 |         image_type = "chemo"
 95 |     # 指定文件夹名
 96 |     file_folder = soup.find(class_='content').h5.string
 97 |     # 将图片文件夹保存在程序文件所在目录的imgase目录下
 98 |     folder = image_type + '_images/' + file_folder + '/'
 99 |     if os.path.exists(folder) == False:  # 判断文件夹是否存在
100 |         os.makedirs(folder)  # 创建文件夹
101 |     # 当前图集 共多少张图片,span的内容结构是共XX页，XX为当前图片的张数
102 |     images_number = int(soup.find('span', class_='page-ch').string[1:-1])
103 |     # 当前图集的编号，如图集链接 http://www.mm131.com/qingchun/3039.html，编号为3039，用于拼接当前图集的图片地址
104 |     pic_number = url.replace('.', '/').split('/')[-2]
105 |     # 创建列表，用于保存每一张图片的链接
106 |     images_url = []
107 |     for number in range(1, images_number + 1):
108 |         images_url.append('http://img1.mm131.me/pic/' + pic_number + '/' + str(number) + '.jpg')
109 |     # 有些网站会有防盗链，原理是检查 HTTP的referer头，如果没有referer，会抓取不了数据
110 |     headers = {
111 |         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
112 |         'referer': "http://www.mm131.com/xinggan/530.html"}
113 |     # 开始下载提示，等待2秒后开始下载
114 |     print("开始下载图集 {}".format(file_folder))
115 |     time.sleep(2)
116 |     for index, image_url in enumerate(images_url):
117 |         try:
118 |             # get函数发送图片链接访问请求
119 |             html = requests.get(image_url, headers=headers, timeout=30)
120 |             # 保存图片至指定的文件夹，并将文件进行命名
121 |             image_name = folder + str(index + 1) + '.jpg'
122 |             # 以byte形式将图片数据写入
123 |             with open("error.txt", 'a') as f:
124 |                 f.write("{}{}".format(image_url, '\n'))
125 |             with open(image_name, 'wb') as file:
126 |                 file.write(html.content)
127 |             pass
128 |         except Exception as e:
129 |             print("下载错误...", e)
130 |             with open("error.txt", 'a') as f:
131 |                 f.write("{}{}".format(image_url, '\n'))
132 |             pass
133 |         print('第{}张图片下载完成,开始下载第{}张图片...'.format(index + 1, index + 2))
134 |     # 已下载图集加1
135 | 
136 | 
137 | def save_images(atlas_url, image_type):
138 |     '''
139 |     该函数用于将某一图集的所有图片保存下来
140 |     :param atlas_url:图集链接，可以是个列表
141 |     '''
142 |     # 共有多少个图集
143 |     length = len(atlas_url)
144 |     print("图集数量_image_type", length)
145 |     # 已下载图集
146 |     count = 1
147 |     for url in atlas_url:
148 |         # 调用函数，创建图集链接的soup对象
149 |         soup = creat_soup(url)
150 |         # 指定文件夹名
151 |         file_folder = soup.find(class_='content').h5.string
152 |         # 将图片文件夹保存在程序文件所在目录的imgase目录下
153 |         folder = image_type + '_images/' + file_folder + '/'
154 |         if os.path.exists(folder) == False:  # 判断文件夹是否存在
155 |             os.makedirs(folder)  # 创建文件夹
156 |         # 当前图集 共多少张图片,span的内容结构是共XX页，XX为当前图片的张数
157 |         images_number = int(soup.find('span', class_='page-ch').string[1:-1])
158 |         # 当前图集的编号，如图集链接 http://www.mm131.com/qingchun/3039.html，编号为3039，用于拼接当前图集的图片地址
159 |         pic_number = url.replace('.', '/').split('/')[-2]
160 |         # 创建列表，用于保存每一张图片的链接
161 |         images_url = []
162 |         for number in range(1, images_number + 1):
163 |             images_url.append('http://img1.mm131.me/pic/' + pic_number + '/' + str(number) + '.jpg')
164 |         # 有些网站会有防盗链，原理是检查 HTTP的referer头，如果没有referer，会抓取不了数据
165 |         headers = {
166 |             'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
167 |             'referer': "http://www.mm131.com/xinggan/530.html"}
168 |         # 开始下载提示，等待2秒后开始下载
169 |         print("开始下载图集 {}，剩余图集 {}".format(file_folder, length - count))
170 |         time.sleep(2)
171 |         for index, image_url in enumerate(images_url):
172 |             try:
173 |                 # get函数发送图片链接访问请求
174 |                 html = requests.get(image_url, headers=headers, timeout=30)
175 |                 # 保存图片至指定的文件夹，并将文件进行命名
176 |                 image_name = folder + str(index + 1) + '.jpg'
177 |                 # 以byte形式将图片数据写入
178 |                 with open("error.txt", 'a') as f:
179 |                     f.write("{}{}".format(image_url, '\n'))
180 |                 with open(image_name, 'wb') as file:
181 |                     file.write(html.content)
182 |                 pass
183 |             except Exception as e:
184 |                 print("下载错误...", e)
185 |                 with open("error.txt", 'a') as f:
186 |                     f.write("{}{}".format(image_url, '\n'))
187 |                 pass
188 |             print('第{}张图片下载完成,开始下载第{}张图片...'.format(index + 1, index + 2))
189 |         # 已下载图集加1
190 |         count += 1
191 |     print("当前图集图片已下载完成\n")
192 | 
193 | 
194 | # 获取某一图片类型的所有页面链接，可以使用循环遍历字典 girls_images_type，获取所有的图片类型的所有页面链接，
195 | # 那样运行时间太长，这里为了演示，只取其中一个图片类型
196 | # 性感美女 和 清纯美眉 是最养眼的，不用谢~~
197 | 
198 | def downTask(image_type, position):
199 |     # 获取页面的所有图集链接
200 |     try:
201 |         atlas_url = atlas(pages_url(image_type, position))
202 | 
203 |         length = len(atlas_url)
204 |         print("图集数量_", image_type, length)
205 |         # 下载图集的图片
206 |         # save_images(atlas_url, image_type)
207 |         task_pool = threadpool.ThreadPool(32)
208 |         requests = threadpool.makeRequests(save_image_one, atlas_url)
209 |         for req in requests:
210 |             task_pool.putRequest(req)
211 |         task_pool.wait()
212 |     except Exception as e:
213 |         print("错误..", e)
214 |         pass
215 | 
216 | 
217 | processlist = []
218 | 
219 | #
220 | for keys in girls_images_type:
221 |     t = Process(target=downTask, args=(keys, girls_images_type[keys],))
222 |     t.start()
223 |     processlist.append(t)
224 | 
225 | for x in processlist:
226 |     x.join()
227 | #
228 | # pages_url = pages_url('xinggan', '6')
229 | # # 获取页面的所有图集链接
230 | # atlas_url = atlas(pages_url)
231 | # print(atlas_url)
232 | 
233 | # 下载图集的图片
234 | # save_images(atlas_url,'xinggan')


--------------------------------------------------------------------------------
/xinggan.py:
--------------------------------------------------------------------------------
  1 | # -*- coding:utf-8 -*-
  2 | import requests
  3 | from bs4 import BeautifulSoup
  4 | import os
  5 | import time
  6 | import threading
  7 | from multiprocessing import Process
  8 | import threadpool
  9 | 
 10 | # 程序运行开始提示
 11 | print("程序于 {} 开始启动，请等待...".format(time.ctime()))
 12 | # 美女图片类型和对应的页面序列位置，图片类型为键，位置为 值
 13 | # 这个位置用于图集的链接，如list_6_3.html，6即为性感美女的序列位置
 14 | girls_images_type = {'xinggan': '6', 'qingchun': '1', 'xiaohua': '2', 'chemo': '3', 'qipao': '4', 'mingxing': '5'}
 15 | headers = {
 16 |     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
 17 |     'referer': "http://www.mm131.com/xinggan/530.html"}
 18 | 
 19 | # 创建soup对象
 20 | def creat_soup(url):
 21 |     '''
 22 |     该函数返回一个url的soup对象
 23 |     :param url:一个页面的链接
 24 |     '''
 25 |     # 获取网页，得到一个response对象
 26 |     response = requests.get(url, headers=headers, timeout=30)
 27 |     # 指定自定义编码，让文本按指定的编码进行解码，因为网站的charset = gb2312
 28 |     response.encoding = 'gb2312'
 29 |     # 使用解码后的数据创建一个soup对象，指定HTML解析器为Python默认的html.parser
 30 |     return BeautifulSoup(response.text, 'html.parser')
 31 | 
 32 | 
 33 | def pages_url(image_type, position):
 34 |     '''
 35 |     该函数用于获取某一个图片类型的全部页面的链接
 36 |     :param image_type:美女图片的类型，只有6种，是一个列表
 37 |     '''
 38 |     url = 'http://www.mm131.com/' + image_type
 39 |     # 调用函数，创建soup对象
 40 |     soup = creat_soup(url)
 41 |     # 查找当前图片类型的分页链接
 42 |     images_information = soup.find(class_="page").find_all('a')
 43 |     # 计算当前图片类型共有多少页
 44 |     # 先获取最后一个a标签，格式是 list_1_31.html
 45 |     # 然后将该字符串里面的'.' 替换为 '_'，最后再使用split分割字符串，得到一个列表
 46 |     pages_num_list = images_information[-1].get('href').replace('.', '_').split('_')
 47 |     # 当前图片类型共有多少页
 48 |     pages_num = int(pages_num_list[-2])
 49 | 
 50 |     # 用于存储每一页的页面链接，默认存储第一页的页面链接
 51 |     pages_url = [url]
 52 |     # 将当前图片类型的每一页的链接存储起来，从第二页开始链接后跟list_position_页码.html
 53 |     for page in range(2, pages_num + 1):
 54 |         pages_url.append(url + '/list_' + position + '_' + str(page) + '.html')
 55 | 
 56 |     # 函数返回某一个图片类型的全部页面链接
 57 |     return pages_url
 58 | 
 59 | 
 60 | def atlas(pages_url):
 61 |     '''
 62 |     该函数用于存储某一个页面的所有图集链接
 63 |     :param pages_url:页面链接，可以是列表
 64 |     '''
 65 |     # 用于存储每一个图集链接的列表
 66 |     atlas_url = []
 67 |     count = 1
 68 |     for page_url in pages_url:
 69 |         # 调用函数，创建页面链接的soup对象
 70 |         try:
 71 |             print("解析翻页...{}".format(count))
 72 |             if count % 20 == 0:
 73 |                 time.sleep(2)
 74 |             soup = creat_soup(page_url)
 75 |             # 查找当前页面所有的图集信息，find_all 返回的是一个列表
 76 |             atlas_information = soup.find(class_="list-left public-box").find_all('dd')
 77 |             for information in atlas_information:
 78 |                 # 排除page 分页的链接
 79 |                 if not information.find('span'):
 80 |                     # 将符合条件的链接，即 每一个图集的链接加入到列表中
 81 |                     urls = information.find('a').get('href')
 82 |                     atlas_url.append(urls)
 83 |             # print("图集数量",len(atlas_url))
 84 |             # task_pool = threadpool.ThreadPool(6 * 32)
 85 |             # requests = threadpool.makeRequests(save_image_one, atlas_url)
 86 |             # for req in requests:
 87 |             #     task_pool.putRequest(req)
 88 |             # task_pool.wait()
 89 |         except Exception as e:
 90 |             print("错误", e)
 91 |             pass
 92 | 
 93 |         count += 1
 94 |     # 函数返回某一个页面的全部图集链接
 95 |     return atlas_url
 96 | 
 97 | 
 98 | def save_image_one(url):
 99 |     print("")
100 |     # 调用函数，创建图集链接的soup对象
101 |     soup = creat_soup(url)
102 |     print(url)
103 |     image_type = "mingxing"
104 |     if str(url).find("xinggan") >= 0:
105 |         image_type = "xinggan"
106 |     elif str(url).find("qipao") >= 0:
107 |         image_type = "qipao"
108 |     elif str(url).find("qingchun") >= 0:
109 |         image_type = "qingchun"
110 |     elif str(url).find("xiaohua") >= 0:
111 |         image_type = "xiaohua"
112 |     elif str(url).find("chemo") >= 0:
113 |         image_type = "chemo"
114 |     # 指定文件夹名
115 |     file_folder = soup.find(class_='content').h5.string
116 |     # 将图片文件夹保存在程序文件所在目录的imgase目录下
117 |     folder = image_type + '_TestImg/' + file_folder + '/'
118 |     if os.path.exists(folder) == False:  # 判断文件夹是否存在
119 |         os.makedirs(folder)  # 创建文件夹
120 |     # 当前图集 共多少张图片,span的内容结构是共XX页，XX为当前图片的张数
121 |     images_number = int(soup.find('span', class_='page-ch').string[1:-1])
122 |     # 当前图集的编号，如图集链接 http://www.mm131.com/qingchun/3039.html，编号为3039，用于拼接当前图集的图片地址
123 |     pic_number = url.replace('.', '/').split('/')[-2]
124 |     # 创建列表，用于保存每一张图片的链接
125 |     images_url = []
126 |     for number in range(1, images_number + 1):
127 |         images_url.append('http://img1.mm131.me/pic/' + pic_number + '/' + str(number) + '.jpg')
128 |     # 有些网站会有防盗链，原理是检查 HTTP的referer头，如果没有referer，会抓取不了数据
129 | 
130 |     # 开始下载提示，等待2秒后开始下载
131 |     print("开始下载图集 {}".format(file_folder))
132 |     time.sleep(2)
133 |     for index, image_url in enumerate(images_url):
134 |         try:
135 |             # get函数发送图片链接访问请求
136 |             html = requests.get(image_url, headers=headers, timeout=30)
137 |             # 保存图片至指定的文件夹，并将文件进行命名
138 |             image_name = folder + str(index + 1) + '.jpg'
139 |             # 以byte形式将图片数据写入
140 |             with open(image_name, 'wb') as file:
141 |                 file.write(html.content)
142 |             pass
143 |         except Exception as e:
144 |             print("下载错误...", e)
145 |             with open("error.txt", 'a') as f:
146 |                 f.write("{}{}".format(image_url, '\n'))
147 |             pass
148 |         print('第{}张图片下载完成,开始下载第{}张图片...'.format(index + 1, index + 2))
149 |     # 已下载图集加1
150 | 
151 | 
152 | def save_images(atlas_url, image_type):
153 |     '''
154 |     该函数用于将某一图集的所有图片保存下来
155 |     :param atlas_url:图集链接，可以是个列表
156 |     '''
157 |     # 共有多少个图集
158 |     length = len(atlas_url)
159 |     print("图集数量_image_type", length)
160 |     # 已下载图集
161 |     count = 1
162 |     for url in atlas_url:
163 |         # 调用函数，创建图集链接的soup对象
164 |         soup = creat_soup(url)
165 |         # 指定文件夹名
166 |         file_folder = soup.find(class_='content').h5.string
167 |         # 将图片文件夹保存在程序文件所在目录的imgase目录下
168 |         folder = image_type + '_images/' + file_folder + '/'
169 |         if os.path.exists(folder) == False:  # 判断文件夹是否存在
170 |             os.makedirs(folder)  # 创建文件夹
171 |         # 当前图集 共多少张图片,span的内容结构是共XX页，XX为当前图片的张数
172 |         images_number = int(soup.find('span', class_='page-ch').string[1:-1])
173 |         # 当前图集的编号，如图集链接 http://www.mm131.com/qingchun/3039.html，编号为3039，用于拼接当前图集的图片地址
174 |         pic_number = url.replace('.', '/').split('/')[-2]
175 |         # 创建列表，用于保存每一张图片的链接
176 |         images_url = []
177 |         for number in range(1, images_number + 1):
178 |             images_url.append('http://img1.mm131.me/pic/' + pic_number + '/' + str(number) + '.jpg')
179 |         # 有些网站会有防盗链，原理是检查 HTTP的referer头，如果没有referer，会抓取不了数据
180 |         headers = {
181 |             'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
182 |             'referer': "http://www.mm131.com/xinggan/530.html"}
183 |         # 开始下载提示，等待2秒后开始下载
184 |         print("开始下载图集 {}，剩余图集 {}".format(file_folder, length - count))
185 |         time.sleep(2)
186 |         for index, image_url in enumerate(images_url):
187 |             try:
188 |                 # get函数发送图片链接访问请求
189 |                 html = requests.get(image_url, headers=headers, timeout=30)
190 |                 # 保存图片至指定的文件夹，并将文件进行命名
191 |                 image_name = folder + str(index + 1) + '.jpg'
192 |                 # 以byte形式将图片数据写入
193 |                 with open("error.txt", 'a') as f:
194 |                     f.write("{}{}".format(image_url, '\n'))
195 |                 with open(image_name, 'wb') as file:
196 |                     file.write(html.content)
197 |                 pass
198 |             except Exception as e:
199 |                 print("下载错误...", e)
200 |                 with open("error.txt", 'a') as f:
201 |                     f.write("{}{}".format(image_url, '\n'))
202 |                 pass
203 |             print('第{}张图片下载完成,开始下载第{}张图片...'.format(index + 1, index + 2))
204 |         # 已下载图集加1
205 |         count += 1
206 |     print("当前图集图片已下载完成\n")
207 | 
208 | 
209 | # 获取某一图片类型的所有页面链接，可以使用循环遍历字典 girls_images_type，获取所有的图片类型的所有页面链接，
210 | # 那样运行时间太长，这里为了演示，只取其中一个图片类型
211 | # 性感美女 和 清纯美眉 是最养眼的，不用谢~~
212 | 
213 | def downTask(image_type, position):
214 |     # 获取页面的所有图集链接
215 |     try:
216 |         atlas_url = atlas(pages_url(image_type, position))
217 | 
218 |         length = len(atlas_url)
219 |         print("图集数量_", image_type, length)
220 |         # 下载图集的图片
221 |         # save_images(atlas_url, image_type)
222 |         task_pool = threadpool.ThreadPool(128)
223 |         requests = threadpool.makeRequests(save_image_one, atlas_url)
224 |         for req in requests:
225 |             task_pool.putRequest(req)
226 |         task_pool.wait()
227 |     except Exception as e:
228 |         print("错误..", e)
229 |         pass
230 | 
231 | 
232 | processlist = []
233 | #
234 | # for keys in girls_images_type:
235 | #     t = Process(target=downTask, args=(keys, girls_images_type[keys],))
236 | #     t.start()
237 | #     processlist.append(t)
238 | #
239 | # for x in processlist:
240 | #     x.join()
241 | #
242 | pages_url = pages_url('xinggan', '6')
243 | # 获取页面的所有图集链接
244 | # atlas(pages_url)
245 | atlas_url = atlas(pages_url)
246 | task_pool = threadpool.ThreadPool(6 * 32)
247 | requests = threadpool.makeRequests(save_image_one, atlas_url)
248 | for req in requests:
249 |     task_pool.putRequest(req)
250 | task_pool.wait()
251 | # 下载图集的图片
252 | # save_images(atlas_url,'xinggan')


--------------------------------------------------------------------------------