├── 58tongcheng
    ├── test1.py
    └── test2.py
├── 91porn.py
├── README.md
├── download-citation
    ├── 2018-12-13-22-18-39.ris
    ├── 2018-12-13.ris
    ├── pa.py
    ├── pa1.py
    ├── ro.ris
    ├── ros.html
    └── springer.py
├── download_biao_qing_win.py
├── huaban.py
├── ip_pachong.py
├── login.py
├── login2.py
├── meizitu3.py
├── meizitu_pro.py
├── meizitu_pro2.py
├── my_blog
    ├── article
    │   └── templatetags
    │   │   ├── __init__.py
    │   │   └── custom_markdown.py
    └── templates
    │   ├── aboutme.html
    │   ├── archives.html
    │   ├── base.html
    │   ├── home.html
    │   ├── post.html
    │   ├── tag.html
    │   └── test.html
├── paqubiaoqing.py
├── porn
    ├── down_video.py
    └── test1.py
├── requests1.py
├── requests2.py
├── requests3.py
├── scraping_ajax.py
├── selenium
    ├── test1.py
    ├── test2.py
    ├── test3.py
    └── test4.py
├── some
    ├── aj.py
    ├── pa.py
    ├── pa1.py
    ├── springer.py
    ├── xuanke.py
    ├── xuanke2.py
    ├── zhihu.py
    ├── zhihu2.py
    └── zhihu3.py
└── zhihu
    └── denglu.py


/58tongcheng/test1.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/58tongcheng/test1.py


--------------------------------------------------------------------------------
/58tongcheng/test2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/58tongcheng/test2.py


--------------------------------------------------------------------------------
/91porn.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | 
 4 | import requests, re, random, time, os, csv
 5 | from bs4 import BeautifulSoup as bs
 6 | from parsel import Selector
 7 | 
 8 | headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
 9 | 'Accept-Encoding':'gzip, deflate, sdch',
10 | 'Accept-Language':'zh-CN,zh;q=0.8',
11 | 'Cache-Control':'max-age=0',
12 | 'Connection':'keep-alive',
13 | 'DNT':'1',
14 | 'Host':'email.91dizhi.at.gmail.com.8h9.space',
15 | 'Upgrade-Insecure-Requests':'1',
16 | 'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
17 | 
18 | def download_urls(url):
19 |     r = requests.get(url, headers=headers, timeout=30)
20 |     r.encoding = 'utf-8'
21 |     html = r.text
22 |     obj = bs(html, 'html.parser')
23 |     lists = obj.find_all('div', {'class': re.compile('imagechannel.*?')})
24 |     for i in lists:
25 |         try:
26 |             a = i.find('a')
27 |             video_url = a.attrs['href']
28 |             img_url = a.find('img').attrs['src']
29 |             title = a.find('img').attrs['title']
30 |             print(video_url, img_url, title)
31 | 
32 |             with open('91porn_all.csv', 'a', newline='', encoding='utf_8_sig') as csvfile:
33 |                 ww = csv.writer(csvfile, dialect='excel')
34 |                 ww.writerow([title, img_url, video_url])
35 |         except:
36 |             continue
37 | 
38 | def crawl_urls(n):
39 |     for i in range(1,n+1):
40 |         url = 'http://email.91dizhi.at.gmail.com.8h9.space/v.php?category=mf&viewtype=basic&page=' + str(i)
41 |         try:    # 尝试三次，如果3次请求仍然不能成功，则跳过该页，继续爬取下一页
42 |             download_urls(url)
43 |         except:
44 |             try:
45 |                 download_urls(url)
46 |             except:
47 |                 try:
48 |                     download_urls(url)
49 |                 except:
50 |                     continue
51 |     time.sleep(0.001)
52 | 
53 | n = 3526 # 总页数
54 | crawl_urls(n)
55 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # Python-sipder
 2 | ## python爬虫学习教程
 3 | 
 4 | ### 爬取妹子图爬虫
 5 | 
 6 | By [Jim-Bin](https://github.com/Jim-bin).
 7 | 
 8 | #### Description
 9 | 
10 | 实现的爬取[妹子图](http://www.meizitu.com/)
11 | 
12 | #### 下载meizitu3.py
13 | #### Installation
14 | 
15 |     > pip install bs4
16 |     
17 |     > pip install requests
18 |     
19 | #### Usage
20 | 
21 |  * 妹子图：`python meizitu3.py`
22 | 


--------------------------------------------------------------------------------
/download-citation/pa.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | '''
  4 | 在以下环境测试通过：
  5 | python 2.7.15或者3.7.0
  6 | win10或者lubuntu
  7 | '''
  8 | 
  9 | # 导入模块
 10 | import time
 11 | import requests, re, random, os
 12 | from bs4 import BeautifulSoup
 13 | from requests import Session
 14 | 
 15 | session = Session()
 16 | 
 17 | 
 18 | '''
 19 | 给定页数，爬取每页所有图片的url，通过此url可以打开图片所在的网页
 20 | 所有url存在一个列表中
 21 | '''
 22 | 
 23 | 
 24 | def scrapy_img_urls(nums):
 25 |     lss = []
 26 |     for num in range(1, nums + 1):
 27 |         url = 'http://www.doutula.com/photo/list/?page=' + str(num)
 28 |         html = requests.get(url, headers=headers)
 29 |         html.encoding = 'utf-8'
 30 | 
 31 |         text = html.text
 32 |         bsop = BeautifulSoup(text, 'html.parser')
 33 |         ass = bsop.find('div', {'class': 'page-content'}).find('div').findAll('a')
 34 | 
 35 |         for a in ass:
 36 |             # print(a.attrs['href'])
 37 |             lss.append(a.attrs['href'])
 38 |         time.sleep(1)
 39 |     return lss
 40 | 
 41 | 
 42 | '''
 43 | 接收每个图片的url，打开此url，找到图片真实的地址，通过此地址可以下载图片
 44 | 找到图片真实的url和名字之后调用download_url函数可以下载图片
 45 | '''
 46 | 
 47 | 
 48 | def download_img_url(url):
 49 |     html = requests.get(url, headers=headers)
 50 |     html.encoding = 'utf-8'
 51 | 
 52 |     text = html.text
 53 |     bsop = BeautifulSoup(text, 'html.parser')
 54 |     img = bsop.find('div', {'class': 'col-xs-12 col-sm-12 artile_des'})
 55 |     img_url = img.find('img').attrs['src']
 56 |     img_title = img.find('img').attrs['alt']
 57 |     print(img_url + " " + img_title)
 58 | 
 59 |     download_img(img_url, img_title)
 60 | 
 61 | 
 62 | '''
 63 | 下载图片，该函数接收两个参数，一个是图片的真实地址，一个是图片的名字
 64 | 名字中如果有特殊字符则需要处理，不然windows下可能无法保存，处理名字调用format_name函数
 65 | 打开指定文件夹保存图片，如果没有则创建。
 66 | '''
 67 | 
 68 | 
 69 | def download_img(img_url, img_title):
 70 |     img_title = format_name(img_title)  # 如果图册名字有特殊字符需要处理。不然在windows下保存不了文件夹
 71 |     if not os.path.exists(file_path):
 72 |         os.makedirs(file_path)
 73 |     os.chdir(file_path)
 74 | 
 75 |     # 图片保存到本地
 76 |     exists = os.path.exists(img_title)
 77 |     if not exists:
 78 |         img_html = requests.get(img_url, headers=headers, stream=True, timeout=20, verify=True)
 79 |         img_html.encoding = 'utf-8'
 80 |         with open(img_title + ".gif", 'wb') as f:
 81 |             f.write(img_html.content)
 82 |             f.close()
 83 | 
 84 | 
 85 | def format_name(img_title):
 86 |     '''
 87 |     对名字进行处理，如果包含下属字符，则直接剔除该字符
 88 |     :param img_title:
 89 |     :return:
 90 |     '''
 91 |     for i in ['\\', '/', ':', '*', '?', '"', '<', '>', '!', '|']:
 92 |         while i in img_title:
 93 |             img_title = img_title.strip().replace(i, '')
 94 |     return img_title
 95 | 
 96 | 
 97 | def royal(url):
 98 |     html = requests.get(url, headers=headers, stream=True, timeout=20, verify=True)
 99 |     html.encoding = 'utf-8'
100 |     text = html.text
101 |     bsop = BeautifulSoup(text, 'html.parser')
102 |     timeofissued = bsop.find('meta', {'name':'DC.issued'}).attrs['content'].split('/')[0]
103 |     citation_title = bsop.find('meta', {'name':'citation_title'}).attrs['content']
104 |     citation_journal_title = bsop.find('meta', {'name':'citation_journal_title'}).attrs['content']
105 |     citation_journal_abbrev = bsop.find('meta', {'name':'citation_journal_abbrev'}).attrs['content']
106 |     citation_volume = bsop.find('meta', {'name':'citation_volume'}).attrs['content']
107 |     citation_issue = bsop.find('meta', {'name':'citation_issue'}).attrs['content']
108 |     citation_firstpage = bsop.find('meta', {'name':'citation_firstpage'}).attrs['content']
109 |     citation_lastpage = bsop.find('meta', {'name':'citation_lastpage'}).attrs['content']
110 |     citation_doi = bsop.find('meta', {'name':'citation_doi'}).attrs['content']
111 |     PB = bsop.find('meta', {'name':'DC.publisher'}).attrs['content']
112 |     M3 = citation_doi
113 |     citation_url = 'http://dx.doi.org/' + citation_doi
114 |     citation_abstract = bsop.find('meta', {'name':'citation_abstract'}).attrs['content'].strip()
115 |     SN = bsop.find('div', {'class':'article-nav__issue autopad--h'}).find('a').attrs['href'].split('=')[-1]
116 | 
117 |     with open(citation_title + ".ris", 'w') as f:
118 |         f.write('TY  - JOUR\n')
119 |         f.write('T1  - ' + citation_title + '\n')
120 |         f.write('Y1  - ' + timeofissued + '\n')
121 |         f.write('SP  - ' + citation_firstpage + '\n')
122 |         f.write('EP  - ' + citation_lastpage + '\n')
123 |         f.write('JF  - ' + citation_journal_title + '\n')
124 |         f.write('JO  - ' + citation_journal_abbrev + '\n')
125 |         f.write('VL  - ' + citation_volume + '\n')
126 |         f.write('RS  - ' + citation_issue + '\n')
127 |         f.write('PB  - ' + PB + '\n')
128 |         f.write('SN  - ' + SN + '\n')
129 |         f.write('DO  - ' + citation_doi + '\n')
130 |         f.write('M3  - ' + M3 + '\n')
131 |         f.write('UR  - ' + citation_url + '\n')
132 |         print(citation_url)
133 |         f.write('N2  - ' + citation_abstract + '\n')
134 |         print(citation_abstract)
135 | 
136 |         authors = bsop.findAll('span', {'class': 'article__author-link'})
137 |         for author in authors:
138 |             author = author.find('a').text.split(' ')
139 |             author = author[-1] + ', ' + ' '.join(author[:-1])
140 |             f.write('A1  - ' + author + '\n')
141 |         f.write('ER  - ' + '\n')
142 |         f.close()
143 | 
144 |     # authors = bsop.findAll('span', {'class':'article__author-link'})
145 |     # for author in authors:
146 |     #     author = author.find('a').text.split(' ')
147 |     #     author = author[-1] + ', ' + ' '.join(author[:-1])
148 |     #     with open(author + ".ris", 'w') as f:
149 |     #         f.write('TY  - JOUR')
150 |     #         f.write('T1  - ' + citation_title)
151 |     #         f.write('T1  - ' + authors)
152 |     #         f.close()
153 | 
154 |     #     print(author)
155 |     # print(timeofissued)
156 | 
157 | 
158 | 
159 | 
160 | 
161 |     # print(authors)
162 |     # with open("ro.ris", 'wb') as f:
163 |     #     f.write(html.content)
164 |     #     f.close()
165 | 
166 | 
167 | def scawurls(url):
168 | 
169 |     headers1 = {
170 |         'Accept':'text/html, */*; q=0.01',
171 |         'Connection': 'keep-alive',
172 |         'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
173 |         'DNT':'1',
174 |         'Host':'pubs.rsc.org',
175 |         'Origin':'https://pubs.rsc.org',
176 |         'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',
177 |         'X-NewRelic-ID':'VQYFWF9aDBABV1laBgcFUw ==',
178 |         'X-Requested-With':'XMLHttpRequest'
179 |     }
180 | 
181 |     data = {
182 |         'searchterm': 'AAEAAAD/////AQAAAAAAAAAMAgAAAGNSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGwFAQAAADlSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLlNlYXJjaFRlcm0OAAAAGTxDYXRlZ29yeT5rX19CYWNraW5nRmllbGQcPFN1YkNhdGVnb3J5PmtfX0JhY2tpbmdGaWVsZBw8Q29udGVudFR5cGU + a19fQmFja2luZ0ZpZWxkGjxDcml0ZXJpYXM + a19fQmFja2luZ0ZpZWxkFzxGYWNldHM + a19fQmFja2luZ0ZpZWxkHDxSZXF1ZXN0VGltZT5rX19CYWNraW5nRmllbGQfPEF1dGhvckNyaXRlcmlhPmtfX0JhY2tpbmdGaWVsZCA8UHVibGljYXRpb25EYXRlPmtfX0JhY2tpbmdGaWVsZBk8RXhjbHVkZXM + a19fQmFja2luZ0ZpZWxkFzxTb3VyY2U + a19fQmFja2luZ0ZpZWxkHzxPdXRwdXRTdGFuZGFyZD5rX19CYWNraW5nRmllbGQePFJlc3VsdHNGb3JtYXQ + a19fQmFja2luZ0ZpZWxkHjxEaXNwbGF5Q291bnRzPmtfX0JhY2tpbmdGaWVsZCA8UHJvZHVjdFBhZ2VTaXplPmtfX0JhY2tpbmdGaWVsZAEBAQMDAAQEAwEBAQEBwgFTeXN0ZW0uQ29sbGVjdGlvbnMuR2VuZXJpYy5MaXN0YDFbW1JTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXcIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0NPVJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guQXV0aG9yQ3JpdGVyaWECAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlAgAAAMIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0CAAAABgMAAAADQWxsCgYEAAAAA0FsbAkFAAAACQYAAAAAAAAAAAAAAAkHAAAACQgAAAAJCQAAAAoKCgoKBAUAAADCAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWUsIFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cywgVmVyc2lvbj0yMDE4LjAuNTQ5LjAsIEN1bHR1cmU9bmV1dHJhbCwgUHVibGljS2V5VG9rZW49bnVsbF1dAwAAAAZfaXRlbXMFX3NpemUIX3ZlcnNpb24EAAA6UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWVbXQIAAAAICAkKAAAABAAAAAQAAAABBgAAAAUAAAAJCwAAAAAAAAAAAAAABQcAAAA9UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JDcml0ZXJpYQIAAAAgPEJvb2xlYW5PcGVyYXRvcj5rX19CYWNraW5nRmllbGQYPEF1dGhvcnM + a19fQmFja2luZ0ZpZWxkAQPDAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JJbmZvLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXQIAAAAKCgUIAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlBQAAAB88SXNTZWxlY3RlZERhdGU + a19fQmFja2luZ0ZpZWxkGTxEYXRlVHlwZT5rX19CYWNraW5nRmllbGQbPFdpdGhJbkxhc3Q + a19fQmFja2luZ0ZpZWxkGjxEYXRlUmFuZ2U + a19fQmFja2luZ0ZpZWxkHDxEaXNwbGF5RGF0ZT5rX19CYWNraW5nRmllbGQAAQQEAQE5UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5XaXRoSW5MYXN0AgAAADhSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLkRhdGVSYW5nZQIAAAACAAAAAAoKCgoBCQAAAAUAAAAJCwAAAAAAAAAAAAAABwoAAAAAAQAAAAQAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAkMAAAACQ0AAAAJDgAAAAkPAAAABwsAAAAAAQAAAAAAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAUMAAAAOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlBAAAABU8TmFtZT5rX19CYWNraW5nRmllbGQcPERpc3BsYXlOYW1lPmtfX0JhY2tpbmdGaWVsZBY8VmFsdWU + a19fQmFja2luZ0ZpZWxkIDxCb29sZWFuT3BlcmF0b3I + a19fQmFja2luZ0ZpZWxkAQEBAQIAAAAGEAAAAAhmcmVldGV4dAoGEQAAAG9kZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtIEFORCBDdSwgT1IgY29wcGVyLCBPUiBlbGVjdHJvbGVzcywgT1IgcHJpbnRpbmcsIE9SIGZsZXhpYmxlLCBPUiBzdWJzdHJhdGUsIE9SIHBsYXN0aWMKAQ0AAAAMAAAABhIAAAAHQWxsVGV4dAoGEwAAABlkZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtCgEOAAAADAAAAAYUAAAAC0F0bGVhc3RUZXh0CgYVAAAAP0N1LCBjb3BwZXIsIGVsZWN0cm9sZXNzLCBwcmludGluZywgZmxleGlibGUsIHN1YnN0cmF0ZSwgcGxhc3RpYwoBDwAAAAwAAAAGFgAAABBPcmlnaW5hbEZyZWVUZXh0CgYXAAAAb2RlcG9zaXRpb24sIHBhdHRlcm4sIGZpbG0gQU5EIEN1LCBPUiBjb3BwZXIsIE9SIGVsZWN0cm9sZXNzLCBPUiBwcmludGluZywgT1IgZmxleGlibGUsIE9SIHN1YnN0cmF0ZSwgT1IgcGxhc3RpYwoL',
183 |         'resultcount': '282607',
184 |         'category': 'all',
185 |         'pageno': '2'
186 |     }
187 | 
188 |     html = requests.post(url, data=data, headers=headers1, stream=True, timeout=20, verify=True)
189 |     html.encoding = 'utf-8'
190 |     text = html.text
191 |     # print(text)
192 |     bsop = BeautifulSoup(text, 'html.parser')
193 |     divs = bsop.findAll('div', {'class': 'capsule capsule--article '})
194 |     for i in divs:
195 |         article_url = 'https://pubs.rsc.org' + i.find('a').attrs['href']
196 |         print(article_url)
197 |         # royal(article_url)
198 | 
199 |     # with open("ros.html", 'wb') as f:
200 |     #     f.write(html.content)
201 |     #     f.close()
202 |     # print(text)
203 | 
204 | # session.head('https://pubs.rsc.org/en/results/all?Category=All&AllText=deposition%2C%20pattern%2C%20film&AtleastText=Cu%2C%20copper%2C%20electroless%2C%20printing%2C%20flexible%2C%20substrate%2C%20plastic&IncludeReference=false&SelectJournal=false&DateRange=false&SelectDate=false&Type=Months&DateFromMonth=Months&DateToMonth=Months&PriceCode=False&OpenAccess=false')
205 | 
206 | # 构造headers
207 | UserAgent_List = [
208 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
209 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
210 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
211 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
212 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
213 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
214 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
215 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
216 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
217 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
218 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
219 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
220 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
221 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
222 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
223 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
224 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
225 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
226 | ]
227 | headers = {'User-Agent': random.choice(UserAgent_List),
228 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
229 |            'Accept-Encoding': 'gzip',
230 |            }
231 | 
232 | url = 'https://pubs.rsc.org/en/search/journalresult'
233 | scawurls(url)
234 | 
235 | 
236 | 
237 | # url = 'https://pubs.rsc.org/en/content/articlelanding/2017/tc/c7tc00038c#!divAbstract'
238 | # royal(url)
239 | 
240 | # nums = 5
241 | # # 图片存储路径，在linux系统下
242 | # file_path = '/home/zhangyb/downloadfiles/pythonpro/biaoqing'
243 | # # 图片存储路径，在windows系统下
244 | # # file_path = 'E:\downloadfiles\pythonpro\biaoqing'
245 | # urls = scrapy_img_urls(nums)
246 | # for i in urls:
247 | #     print(i)
248 | #     download_img_url(i)
249 | 
250 | 
251 | # url = 'https://pubs.rsc.org/en/results/all?Category=All&AllText=deposition%2C%20pattern%2C%20film&AtleastText=Cu%2C%20copper%2C%20electroless%2C%20printing%2C%20flexible%2C%20substrate%2C%20plastic&IncludeReference=false&SelectJournal=false&DateRange=false&SelectDate=false&Type=Months&DateFromMonth=Months&DateToMonth=Months&PriceCode=False&OpenAccess=false'
252 | # r = requests.get(url, headers=headers)
253 | # print(r.text)
254 | 


--------------------------------------------------------------------------------
/download-citation/pa1.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import requests
  4 | import random
  5 | from bs4 import BeautifulSoup
  6 | import time
  7 | 
  8 | download_time = time.strftime("%Y-%m-%d", time.localtime())
  9 | 
 10 | 
 11 | def royal(article_urls):
 12 |     for article_url in article_urls:
 13 |         # try:
 14 |         html = requests.get(article_url, headers=headers, stream=True, timeout=20, verify=True)
 15 |         html.encoding = 'utf-8'
 16 |         text = html.text
 17 |         bsop = BeautifulSoup(text, 'html.parser')
 18 |         try:
 19 |             timeofissued = bsop.find('meta', {'name':'DC.issued'}).attrs['content'].split('/')[0]
 20 |         except:
 21 |             pass
 22 |         try:
 23 |             citation_title = bsop.find('meta', {'name':'citation_title'}).attrs['content']
 24 |         except:
 25 |             pass
 26 |         try:
 27 |             citation_journal_title = bsop.find('meta', {'name':'citation_journal_title'}).attrs['content']
 28 |         except:
 29 |             pass
 30 |         try:
 31 |             citation_journal_abbrev = bsop.find('meta', {'name':'citation_journal_abbrev'}).attrs['content']
 32 |         except:
 33 |             pass
 34 |         try:
 35 |             citation_volume = bsop.find('meta', {'name':'citation_volume'}).attrs['content']
 36 |         except:
 37 |             pass
 38 |         try:
 39 |             citation_issue = bsop.find('meta', {'name':'citation_issue'}).attrs['content']
 40 |         except:
 41 |             pass
 42 |         try:
 43 |             citation_firstpage = bsop.find('meta', {'name':'citation_firstpage'}).attrs['content']
 44 |         except:
 45 |             pass
 46 |         try:
 47 |             citation_lastpage = bsop.find('meta', {'name':'citation_lastpage'}).attrs['content']
 48 |         except:
 49 |             pass
 50 |         try:
 51 |             citation_doi = bsop.find('meta', {'name':'citation_doi'}).attrs['content']
 52 |         except:
 53 |             pass
 54 |         try:
 55 |             PB = bsop.find('meta', {'name':'DC.publisher'}).attrs['content']
 56 |         except:
 57 |             pass
 58 |         try:
 59 |             M3 = citation_doi
 60 |         except:
 61 |             pass
 62 |         try:
 63 |             citation_url = 'http://dx.doi.org/' + citation_doi
 64 |         except:
 65 |             pass
 66 |         try:
 67 |             citation_abstract = bsop.find('meta', {'name':'citation_abstract'}).attrs['content'].strip()
 68 |         except:
 69 |             pass
 70 |         try:
 71 |             SN = bsop.find('div', {'class':'article-nav__issue autopad--h'}).find('a').attrs['href'].split('=')[-1]
 72 |         except:
 73 |             pass
 74 |         # except:
 75 |         #     print(article_url)
 76 |         #     continue
 77 | 
 78 |         with open(download_time + ".ris", 'a', encoding='utf-8') as f:
 79 |             f.write('TY  - JOUR\n')
 80 |             f.write('T1  - ' + citation_title + '\n')
 81 |             f.write('Y1  - ' + timeofissued + '\n')
 82 |             f.write('SP  - ' + citation_firstpage + '\n')
 83 |             f.write('EP  - ' + citation_lastpage + '\n')
 84 |             f.write('JF  - ' + citation_journal_title + '\n')
 85 |             f.write('JO  - ' + citation_journal_abbrev + '\n')
 86 |             f.write('VL  - ' + citation_volume + '\n')
 87 |             f.write('RS  - ' + citation_issue + '\n')
 88 |             f.write('PB  - ' + PB + '\n')
 89 |             f.write('SN  - ' + SN + '\n')
 90 |             f.write('DO  - ' + citation_doi + '\n')
 91 |             f.write('M3  - ' + M3 + '\n')
 92 |             f.write('UR  - ' + citation_url + '\n')
 93 |             print(citation_url)
 94 |             f.write('N2  - ' + citation_abstract + '\n')
 95 |             # print(citation_abstract)
 96 | 
 97 |             authors = bsop.findAll('span', {'class': 'article__author-link'})
 98 |             for author in authors:
 99 |                 author = author.find('a').text.split(' ')
100 |                 author = author[-1] + ', ' + ' '.join(author[:-1])
101 |                 f.write('A1  - ' + author + '\n')
102 |             f.write('ER  - ' + '\n\n\n')
103 |             f.close()
104 |         time.sleep(1)
105 | 
106 | 
107 | def crawl_article_url(nums):
108 |     article_urls = []
109 |     for num in range(1, nums+1):
110 | 
111 |         url = 'https://pubs.rsc.org/en/search/journalresult'
112 | 
113 |         headers1 = {
114 |             'Accept':'text/html, */*; q=0.01',
115 |             'Connection': 'keep-alive',
116 |             'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
117 |             'DNT':'1',
118 |             'Host':'pubs.rsc.org',
119 |             'Origin':'https://pubs.rsc.org',
120 |             'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',
121 |             'X-NewRelic-ID':'VQYFWF9aDBABV1laBgcFUw ==',
122 |             'X-Requested-With':'XMLHttpRequest'
123 |         }
124 | 
125 |         data = {
126 |             'searchterm': 'AAEAAAD/////AQAAAAAAAAAMAgAAAGNSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGwFAQAAADlSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLlNlYXJjaFRlcm0OAAAAGTxDYXRlZ29yeT5rX19CYWNraW5nRmllbGQcPFN1YkNhdGVnb3J5PmtfX0JhY2tpbmdGaWVsZBw8Q29udGVudFR5cGU + a19fQmFja2luZ0ZpZWxkGjxDcml0ZXJpYXM + a19fQmFja2luZ0ZpZWxkFzxGYWNldHM + a19fQmFja2luZ0ZpZWxkHDxSZXF1ZXN0VGltZT5rX19CYWNraW5nRmllbGQfPEF1dGhvckNyaXRlcmlhPmtfX0JhY2tpbmdGaWVsZCA8UHVibGljYXRpb25EYXRlPmtfX0JhY2tpbmdGaWVsZBk8RXhjbHVkZXM + a19fQmFja2luZ0ZpZWxkFzxTb3VyY2U + a19fQmFja2luZ0ZpZWxkHzxPdXRwdXRTdGFuZGFyZD5rX19CYWNraW5nRmllbGQePFJlc3VsdHNGb3JtYXQ + a19fQmFja2luZ0ZpZWxkHjxEaXNwbGF5Q291bnRzPmtfX0JhY2tpbmdGaWVsZCA8UHJvZHVjdFBhZ2VTaXplPmtfX0JhY2tpbmdGaWVsZAEBAQMDAAQEAwEBAQEBwgFTeXN0ZW0uQ29sbGVjdGlvbnMuR2VuZXJpYy5MaXN0YDFbW1JTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXcIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0NPVJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guQXV0aG9yQ3JpdGVyaWECAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlAgAAAMIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0CAAAABgMAAAADQWxsCgYEAAAAA0FsbAkFAAAACQYAAAAAAAAAAAAAAAkHAAAACQgAAAAJCQAAAAoKCgoKBAUAAADCAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWUsIFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cywgVmVyc2lvbj0yMDE4LjAuNTQ5LjAsIEN1bHR1cmU9bmV1dHJhbCwgUHVibGljS2V5VG9rZW49bnVsbF1dAwAAAAZfaXRlbXMFX3NpemUIX3ZlcnNpb24EAAA6UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWVbXQIAAAAICAkKAAAABAAAAAQAAAABBgAAAAUAAAAJCwAAAAAAAAAAAAAABQcAAAA9UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JDcml0ZXJpYQIAAAAgPEJvb2xlYW5PcGVyYXRvcj5rX19CYWNraW5nRmllbGQYPEF1dGhvcnM + a19fQmFja2luZ0ZpZWxkAQPDAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JJbmZvLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXQIAAAAKCgUIAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlBQAAAB88SXNTZWxlY3RlZERhdGU + a19fQmFja2luZ0ZpZWxkGTxEYXRlVHlwZT5rX19CYWNraW5nRmllbGQbPFdpdGhJbkxhc3Q + a19fQmFja2luZ0ZpZWxkGjxEYXRlUmFuZ2U + a19fQmFja2luZ0ZpZWxkHDxEaXNwbGF5RGF0ZT5rX19CYWNraW5nRmllbGQAAQQEAQE5UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5XaXRoSW5MYXN0AgAAADhSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLkRhdGVSYW5nZQIAAAACAAAAAAoKCgoBCQAAAAUAAAAJCwAAAAAAAAAAAAAABwoAAAAAAQAAAAQAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAkMAAAACQ0AAAAJDgAAAAkPAAAABwsAAAAAAQAAAAAAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAUMAAAAOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlBAAAABU8TmFtZT5rX19CYWNraW5nRmllbGQcPERpc3BsYXlOYW1lPmtfX0JhY2tpbmdGaWVsZBY8VmFsdWU + a19fQmFja2luZ0ZpZWxkIDxCb29sZWFuT3BlcmF0b3I + a19fQmFja2luZ0ZpZWxkAQEBAQIAAAAGEAAAAAhmcmVldGV4dAoGEQAAAG9kZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtIEFORCBDdSwgT1IgY29wcGVyLCBPUiBlbGVjdHJvbGVzcywgT1IgcHJpbnRpbmcsIE9SIGZsZXhpYmxlLCBPUiBzdWJzdHJhdGUsIE9SIHBsYXN0aWMKAQ0AAAAMAAAABhIAAAAHQWxsVGV4dAoGEwAAABlkZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtCgEOAAAADAAAAAYUAAAAC0F0bGVhc3RUZXh0CgYVAAAAP0N1LCBjb3BwZXIsIGVsZWN0cm9sZXNzLCBwcmludGluZywgZmxleGlibGUsIHN1YnN0cmF0ZSwgcGxhc3RpYwoBDwAAAAwAAAAGFgAAABBPcmlnaW5hbEZyZWVUZXh0CgYXAAAAb2RlcG9zaXRpb24sIHBhdHRlcm4sIGZpbG0gQU5EIEN1LCBPUiBjb3BwZXIsIE9SIGVsZWN0cm9sZXNzLCBPUiBwcmludGluZywgT1IgZmxleGlibGUsIE9SIHN1YnN0cmF0ZSwgT1IgcGxhc3RpYwoL',
127 |             'resultcount': '282607',
128 |             'category': 'all',
129 |             'pageno': str(num)
130 |         }
131 | 
132 |         html = requests.post(url, data=data, headers=headers1, stream=True, timeout=20, verify=True)
133 |         html.encoding = 'utf-8'
134 |         text = html.text
135 |         # print(text)
136 |         bsop = BeautifulSoup(text, 'html.parser')
137 |         divs = bsop.findAll('div', {'class': 'capsule capsule--article '})
138 |         for i in divs:
139 |             article_url = 'https://pubs.rsc.org' + i.find('a').attrs['href']
140 |             # print(article_url)
141 |             article_urls.append(article_url)
142 |         print("第" + str(num) + "页爬取完毕")
143 |         time.sleep(1)
144 |     return article_urls
145 | 
146 | 
147 | # 构造headers
148 | UserAgent_List = [
149 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
150 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
151 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
152 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
153 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
154 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
155 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
156 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
157 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
158 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
159 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
160 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
161 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
162 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
163 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
164 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
165 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
166 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
167 | ]
168 | headers = {'User-Agent': random.choice(UserAgent_List),
169 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
170 |            'Accept-Encoding': 'gzip',
171 |            }
172 | nums = 5  # 爬取的页数
173 | 
174 | article_urls = crawl_article_url(nums)
175 | royal(article_urls)
176 | 
177 | 
178 | 
179 | # url = 'https://pubs.rsc.org/en/content/articlelanding/2017/tc/c7tc00038c#!divAbstract'
180 | # royal(url)
181 | 


--------------------------------------------------------------------------------
/download-citation/ros.html:
--------------------------------------------------------------------------------
   1 | <input id="allResult" name="all" type="hidden" value="AAEAAAD/////AQAAAAAAAAAMAgAAAGNSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGwFAQAAADlSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLlNlYXJjaFRlcm0OAAAAGTxDYXRlZ29yeT5rX19CYWNraW5nRmllbGQcPFN1YkNhdGVnb3J5PmtfX0JhY2tpbmdGaWVsZBw8Q29udGVudFR5cGU + a19fQmFja2luZ0ZpZWxkGjxDcml0ZXJpYXM + a19fQmFja2luZ0ZpZWxkFzxGYWNldHM + a19fQmFja2luZ0ZpZWxkHDxSZXF1ZXN0VGltZT5rX19CYWNraW5nRmllbGQfPEF1dGhvckNyaXRlcmlhPmtfX0JhY2tpbmdGaWVsZCA8UHVibGljYXRpb25EYXRlPmtfX0JhY2tpbmdGaWVsZBk8RXhjbHVkZXM + a19fQmFja2luZ0ZpZWxkFzxTb3VyY2U + a19fQmFja2luZ0ZpZWxkHzxPdXRwdXRTdGFuZGFyZD5rX19CYWNraW5nRmllbGQePFJlc3VsdHNGb3JtYXQ + a19fQmFja2luZ0ZpZWxkHjxEaXNwbGF5Q291bnRzPmtfX0JhY2tpbmdGaWVsZCA8UHJvZHVjdFBhZ2VTaXplPmtfX0JhY2tpbmdGaWVsZAEBAQMDAAQEAwEBAQEBwgFTeXN0ZW0uQ29sbGVjdGlvbnMuR2VuZXJpYy5MaXN0YDFbW1JTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXcIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0NPVJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guQXV0aG9yQ3JpdGVyaWECAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlAgAAAMIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0CAAAABgMAAAADQWxsCgYEAAAAA0FsbAkFAAAACQYAAAAAAAAAAAAAAAkHAAAACQgAAAAJCQAAAAoKCgoKBAUAAADCAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWUsIFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cywgVmVyc2lvbj0yMDE4LjAuNTQ5LjAsIEN1bHR1cmU9bmV1dHJhbCwgUHVibGljS2V5VG9rZW49bnVsbF1dAwAAAAZfaXRlbXMFX3NpemUIX3ZlcnNpb24EAAA6UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWVbXQIAAAAICAkKAAAABAAAAAQAAAABBgAAAAUAAAAJCwAAAAAAAAAAAAAABQcAAAA9UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JDcml0ZXJpYQIAAAAgPEJvb2xlYW5PcGVyYXRvcj5rX19CYWNraW5nRmllbGQYPEF1dGhvcnM + a19fQmFja2luZ0ZpZWxkAQPDAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JJbmZvLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXQIAAAAKCgUIAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlBQAAAB88SXNTZWxlY3RlZERhdGU + a19fQmFja2luZ0ZpZWxkGTxEYXRlVHlwZT5rX19CYWNraW5nRmllbGQbPFdpdGhJbkxhc3Q + a19fQmFja2luZ0ZpZWxkGjxEYXRlUmFuZ2U + a19fQmFja2luZ0ZpZWxkHDxEaXNwbGF5RGF0ZT5rX19CYWNraW5nRmllbGQAAQQEAQE5UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5XaXRoSW5MYXN0AgAAADhSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLkRhdGVSYW5nZQIAAAACAAAAAAoKCgoBCQAAAAUAAAAJCwAAAAAAAAAAAAAABwoAAAAAAQAAAAQAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAkMAAAACQ0AAAAJDgAAAAkPAAAABwsAAAAAAQAAAAAAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAUMAAAAOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlBAAAABU8TmFtZT5rX19CYWNraW5nRmllbGQcPERpc3BsYXlOYW1lPmtfX0JhY2tpbmdGaWVsZBY8VmFsdWU + a19fQmFja2luZ0ZpZWxkIDxCb29sZWFuT3BlcmF0b3I + a19fQmFja2luZ0ZpZWxkAQEBAQIAAAAGEAAAAAhmcmVldGV4dAoGEQAAAG9kZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtIEFORCBDdSwgT1IgY29wcGVyLCBPUiBlbGVjdHJvbGVzcywgT1IgcHJpbnRpbmcsIE9SIGZsZXhpYmxlLCBPUiBzdWJzdHJhdGUsIE9SIHBsYXN0aWMKAQ0AAAAMAAAABhIAAAAHQWxsVGV4dAoGEwAAABlkZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtCgEOAAAADAAAAAYUAAAAC0F0bGVhc3RUZXh0CgYVAAAAP0N1LCBjb3BwZXIsIGVsZWN0cm9sZXNzLCBwcmludGluZywgZmxleGlibGUsIHN1YnN0cmF0ZSwgcGxhc3RpYwoBDwAAAAwAAAAGFgAAABBPcmlnaW5hbEZyZWVUZXh0CgYXAAAAb2RlcG9zaXRpb24sIHBhdHRlcm4sIGZpbG0gQU5EIEN1LCBPUiBjb3BwZXIsIE9SIGVsZWN0cm9sZXNzLCBPUiBwcmludGluZywgT1IgZmxleGlibGUsIE9SIHN1YnN0cmF0ZSwgT1IgcGxhc3RpYwoL" />    <div class="fixpadv--m">
   2 |         <div class="fixpadv--l pos--left">
   3 |             <strong>282607 items</strong>
   4 |                 <span class="paging--label"> - Showing page 1 of 11305</span>
   5 |         </div>
   6 | 
   7 |         <div class="paging-control paging--right">
   8 |             <div class="paging__item">
   9 |                 <a href="#" data-pageno="0" class="paging__btn paging__btn--prev paging__btn--disabled">
  10 |                     <img src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/Oxygen/images/icons/chevron-left-light.png" width="24" alt="Inactive - no previous page">
  11 |                 </a>
  12 |             </div>
  13 |             <div class="paging__item">
  14 |                 <a href="#" data-pageno="2" class="paging__btn paging__btn--next">
  15 |                     <img src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/Oxygen/images/icons/chevron-right-light.png" width="24" alt="Next page">
  16 |                 </a>
  17 |             </div>
  18 |         </div>
  19 | 
  20 |         <div class="clear"></div>
  21 | 
  22 |     </div>
  23 | 
  24 | 
  25 | 
  26 | <div class="capsule capsule--article ">
  27 | 
  28 |     <a name="C7TC04804A" class="capsule__action"
  29 |        href="/en/content/articlelanding/2018/tc/c7tc04804a">
  30 | 
  31 |             <span class="capsule__context">
  32 |                                 Review Article
  33 |             </span>
  34 | 
  35 |         <h3 class="capsule__title">
  36 |             Inkjet printing metals on flexible materials for plastic and paper electronics
  37 |         </h3>
  38 | 
  39 |             <div class="article__authors article__author-link" aria-label="List of authors">
  40 |                 N. C. Raut and K. Al-Shamery
  41 |             </div>
  42 | 
  43 |             <div class="capsule__column-wrapper">
  44 |                 <div class="capsule__text">
  45 |                     <p>Inorganic printed electronics is now recognized as an area of tremendous commercial potential and technical progress.</p>
  46 |                 </div>
  47 |                 <div class="capsule__article-image">
  48 |                     
  49 |                     <img alt="Graphical abstract: Inkjet printing metals on flexible materials for plastic and paper electronics"
  50 |                          title="C7TC04804A"
  51 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
  52 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C7TC04804A" />
  53 |                 </div>
  54 |             </div>
  55 | 
  56 |     </a>
  57 | 
  58 |         <div class="fixpadb--m">
  59 |             From the themed collection:
  60 | <a href="/en/journals/articlecollectionlanding?sercode=tc&amp;themeid=380a4b17-96f6-436e-9d0d-e6d66c34f5cf">Recent Review Articles</a>        </div>
  61 | 
  62 |     <div class="capsule__footer">
  63 | 
  64 |         <hr class="clear">
  65 | 
  66 | 
  67 | 
  68 |             <div class="text--small">
  69 |                     <span class="block fixpadv--xs">The article was first published on 08 Jan 2018</span><br>
  70 |                 <span><i><strong>J. Mater. Chem. C</strong></i>, 2018,<span style='padding-right:2px'></span><strong>6</strong>, 1618-1641</span><br>
  71 |                 <span><a href="http://dx.doi.org/10.1039/C7TC04804A">http://dx.doi.org/10.1039/C7TC04804A</a></span>
  72 |             </div>
  73 | 
  74 |         <div class="capsule__action--buttons">
  75 |             
  76 | 
  77 | 
  78 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2018/tc/c7tc04804a?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;inkjet printing metals on flexible materials for plastic and paper electronics – c7tc04804a - sercode=tc&#39;]);">Download PDF</a>
  79 | <a class="btn btn--tiny" href="/en/content/articlehtml/2018/tc/c7tc04804a?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;inkjet printing metals on flexible materials for plastic and paper electronics – c7tc04804a - sercode=tc&#39;]);">Article HTML</a>
  80 |         </div>
  81 | 
  82 |     </div>
  83 | 
  84 | </div>
  85 | 
  86 | 
  87 | <div class="capsule capsule--article ">
  88 | 
  89 |     <a name="C7CS00192D" class="capsule__action"
  90 |        href="/en/content/articlelanding/2018/cs/c7cs00192d">
  91 | 
  92 |             <span class="capsule__context">
  93 |                                 Review Article
  94 |             </span>
  95 | 
  96 |         <h3 class="capsule__title">
  97 |             Chemical formation of soft metal electrodes for flexible and wearable electronics
  98 |         </h3>
  99 | 
 100 |             <div class="article__authors article__author-link" aria-label="List of authors">
 101 |                 Dongrui Wang, Yaokang Zhang, Xi Lu, Zhijun Ma, Chuan Xie and Zijian Zheng
 102 |             </div>
 103 | 
 104 |             <div class="capsule__column-wrapper">
 105 |                 <div class="capsule__text">
 106 |                     <p>Efficient chemical approaches to fabricating soft metal electrodes aiming at wearable electronics are summarized and reviewed.</p>
 107 |                 </div>
 108 |                 <div class="capsule__article-image">
 109 |                     
 110 |                     <img alt="Graphical abstract: Chemical formation of soft metal electrodes for flexible and wearable electronics"
 111 |                          title="C7CS00192D"
 112 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 113 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C7CS00192D" />
 114 |                 </div>
 115 |             </div>
 116 | 
 117 |     </a>
 118 | 
 119 | 
 120 |     <div class="capsule__footer">
 121 | 
 122 |         <hr class="clear">
 123 | 
 124 | 
 125 | 
 126 |             <div class="text--small">
 127 |                     <span class="block fixpadv--xs">The article was first published on 03 May 2018</span><br>
 128 |                 <span><i><strong>Chem. Soc. Rev.</strong></i>, 2018,<span style='padding-right:2px'></span><strong>47</strong>, 4611-4641</span><br>
 129 |                 <span><a href="http://dx.doi.org/10.1039/C7CS00192D">http://dx.doi.org/10.1039/C7CS00192D</a></span>
 130 |             </div>
 131 | 
 132 |         <div class="capsule__action--buttons">
 133 |             
 134 | 
 135 | 
 136 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2018/cs/c7cs00192d?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;chemical formation of soft metal electrodes for flexible and wearable electronics – c7cs00192d - sercode=cs&#39;]);">Download PDF</a>
 137 | <a class="btn btn--tiny" href="/en/content/articlehtml/2018/cs/c7cs00192d?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;chemical formation of soft metal electrodes for flexible and wearable electronics – c7cs00192d - sercode=cs&#39;]);">Article HTML</a>
 138 |         </div>
 139 | 
 140 |     </div>
 141 | 
 142 | </div>
 143 | 
 144 | 
 145 | <div class="capsule capsule--article ">
 146 | 
 147 |     <a name="C7TC00038C" class="capsule__action"
 148 |        href="/en/content/articlelanding/2017/tc/c7tc00038c">
 149 | 
 150 |             <span class="capsule__context">
 151 |                                 Review Article
 152 |             </span>
 153 | 
 154 |         <h3 class="capsule__title">
 155 |             Inkjet printing wearable electronic devices
 156 |         </h3>
 157 | 
 158 |             <div class="article__authors article__author-link" aria-label="List of authors">
 159 |                 Meng Gao, Lihong Li and Yanlin Song
 160 |             </div>
 161 | 
 162 |             <div class="capsule__column-wrapper">
 163 |                 <div class="capsule__text">
 164 |                     <p>In this review, the recent advances in inks, strategies, and the applications of inkjet-printed wearable electronics have been summarized.</p>
 165 |                 </div>
 166 |                 <div class="capsule__article-image">
 167 |                     
 168 |                     <img alt="Graphical abstract: Inkjet printing wearable electronic devices"
 169 |                          title="C7TC00038C"
 170 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 171 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C7TC00038C" />
 172 |                 </div>
 173 |             </div>
 174 | 
 175 |     </a>
 176 | 
 177 |         <div class="fixpadb--m">
 178 |             From the themed collection:
 179 | <a href="/en/journals/articlecollectionlanding?sercode=tc&amp;themeid=380a4b17-96f6-436e-9d0d-e6d66c34f5cf">Recent Review Articles</a>        </div>
 180 | 
 181 |     <div class="capsule__footer">
 182 | 
 183 |         <hr class="clear">
 184 | 
 185 | 
 186 | 
 187 |             <div class="text--small">
 188 |                     <span class="block fixpadv--xs">The article was first published on 06 Mar 2017</span><br>
 189 |                 <span><i><strong>J. Mater. Chem. C</strong></i>, 2017,<span style='padding-right:2px'></span><strong>5</strong>, 2971-2993</span><br>
 190 |                 <span><a href="http://dx.doi.org/10.1039/C7TC00038C">http://dx.doi.org/10.1039/C7TC00038C</a></span>
 191 |             </div>
 192 | 
 193 |         <div class="capsule__action--buttons">
 194 |             
 195 | 
 196 | 
 197 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2017/tc/c7tc00038c?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;inkjet printing wearable electronic devices – c7tc00038c - sercode=tc&#39;]);">Download PDF</a>
 198 | <a class="btn btn--tiny" href="/en/content/articlehtml/2017/tc/c7tc00038c?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;inkjet printing wearable electronic devices – c7tc00038c - sercode=tc&#39;]);">Article HTML</a>
 199 |         </div>
 200 | 
 201 |     </div>
 202 | 
 203 | </div>
 204 | 
 205 | 
 206 | <div class="capsule capsule--article ">
 207 | 
 208 |     <a name="C7RA07191D" class="capsule__action"
 209 |        href="/en/content/articlelanding/2017/ra/c7ra07191d">
 210 | 
 211 |             <span class="capsule__context">
 212 |                     <img src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/open-access-icon-orange.png" alt="Open Access" class="ver-t" width="16" height="16" />
 213 |                                 Review Article
 214 |             </span>
 215 | 
 216 |         <h3 class="capsule__title">
 217 |             Inkjet printed nanomaterial based flexible radio frequency identification (RFID) tag sensors for the internet of nano things
 218 |         </h3>
 219 | 
 220 |             <div class="article__authors article__author-link" aria-label="List of authors">
 221 |                 Ravina Singh, Eric Singh and Hari Singh Nalwa
 222 |             </div>
 223 | 
 224 |             <div class="capsule__column-wrapper">
 225 |                 <div class="capsule__text">
 226 |                     <p>The Internet of Things (IoT) has limitless possibilities for applications in the entire spectrum of our daily lives, from healthcare to automobiles to public safety.</p>
 227 |                 </div>
 228 |                 <div class="capsule__article-image">
 229 |                     
 230 |                     <img alt="Graphical abstract: Inkjet printed nanomaterial based flexible radio frequency identification (RFID) tag sensors for the internet of nano things"
 231 |                          title="C7RA07191D"
 232 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 233 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C7RA07191D" />
 234 |                 </div>
 235 |             </div>
 236 | 
 237 |     </a>
 238 | 
 239 |         <div class="fixpadb--m">
 240 |             From the themed collection:
 241 | <a href="/en/journals/articlecollectionlanding?sercode=ra&amp;themeid=fc442feb-7f64-4404-acea-97c600267e7f">2017 Review articles</a>        </div>
 242 | 
 243 |     <div class="capsule__footer">
 244 | 
 245 |         <hr class="clear">
 246 | 
 247 | 
 248 | 
 249 |             <div class="text--small">
 250 |                     <span class="block fixpadv--xs">The article was first published on 16 Oct 2017</span><br>
 251 |                 <span><i><strong>RSC Adv.</strong></i>, 2017,<span style='padding-right:2px'></span><strong>7</strong>, 48597-48630</span><br>
 252 |                 <span><a href="http://dx.doi.org/10.1039/C7RA07191D">http://dx.doi.org/10.1039/C7RA07191D</a></span>
 253 |             </div>
 254 | 
 255 |         <div class="capsule__action--buttons">
 256 |             
 257 | 
 258 | 
 259 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2017/ra/c7ra07191d?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;inkjet printed nanomaterial based flexible radio frequency identification (rfid) tag sensors for the internet of nano things – c7ra07191d - sercode=ra&#39;]);">Download PDF</a>
 260 | <a class="btn btn--tiny" href="/en/content/articlehtml/2017/ra/c7ra07191d?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;inkjet printed nanomaterial based flexible radio frequency identification (rfid) tag sensors for the internet of nano things – c7ra07191d - sercode=ra&#39;]);">Article HTML</a>
 261 |         </div>
 262 | 
 263 |     </div>
 264 | 
 265 | </div>
 266 | 
 267 | 
 268 | <div class="capsule capsule--article ">
 269 | 
 270 |     <a name="C7NR01604B" class="capsule__action"
 271 |        href="/en/content/articlelanding/2017/nr/c7nr01604b">
 272 | 
 273 |             <span class="capsule__context">
 274 |                                 Review Article
 275 |             </span>
 276 | 
 277 |         <h3 class="capsule__title">
 278 |             Inorganic nanomaterials for printed electronics: a review
 279 |         </h3>
 280 | 
 281 |             <div class="article__authors article__author-link" aria-label="List of authors">
 282 |                 Wei Wu
 283 |             </div>
 284 | 
 285 |             <div class="capsule__column-wrapper">
 286 |                 <div class="capsule__text">
 287 |                     <p>Owing to their capability of bypassing conventional high-priced and inflexible silicon based electronics to manufacture a variety of devices on flexible substrates by using large-scale and high-volume printing techniques, printed electronics (PE) have attracted increasing attention in the field of manufacturing industry for electronic devices.</p>
 288 |                 </div>
 289 |                 <div class="capsule__article-image">
 290 |                     
 291 |                     <img alt="Graphical abstract: Inorganic nanomaterials for printed electronics: a review"
 292 |                          title="C7NR01604B"
 293 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 294 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C7NR01604B" />
 295 |                 </div>
 296 |             </div>
 297 | 
 298 |     </a>
 299 | 
 300 |         <div class="fixpadb--m">
 301 |             From the themed collection:
 302 | <a href="/en/journals/articlecollectionlanding?sercode=nr&amp;themeid=921c927e-05b9-4f9f-a524-c2d47a682655">Recent Review Articles</a>        </div>
 303 | 
 304 |     <div class="capsule__footer">
 305 | 
 306 |         <hr class="clear">
 307 | 
 308 | 
 309 | 
 310 |             <div class="text--small">
 311 |                     <span class="block fixpadv--xs">The article was first published on 16 May 2017</span><br>
 312 |                 <span><i><strong>Nanoscale</strong></i>, 2017,<span style='padding-right:2px'></span><strong>9</strong>, 7342-7372</span><br>
 313 |                 <span><a href="http://dx.doi.org/10.1039/C7NR01604B">http://dx.doi.org/10.1039/C7NR01604B</a></span>
 314 |             </div>
 315 | 
 316 |         <div class="capsule__action--buttons">
 317 |             
 318 | 
 319 | 
 320 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2017/nr/c7nr01604b?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;inorganic nanomaterials for printed electronics: a review – c7nr01604b - sercode=nr&#39;]);">Download PDF</a>
 321 | <a class="btn btn--tiny" href="/en/content/articlehtml/2017/nr/c7nr01604b?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;inorganic nanomaterials for printed electronics: a review – c7nr01604b - sercode=nr&#39;]);">Article HTML</a>
 322 |         </div>
 323 | 
 324 |     </div>
 325 | 
 326 | </div>
 327 | 
 328 | 
 329 | <div class="capsule capsule--article ">
 330 | 
 331 |     <a name="C4TC02418D" class="capsule__action"
 332 |        href="/en/content/articlelanding/2015/tc/c4tc02418d">
 333 | 
 334 |             <span class="capsule__context">
 335 |                     <img src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/open-access-icon-orange.png" alt="Open Access" class="ver-t" width="16" height="16" />
 336 |                                 Review Article
 337 |             </span>
 338 | 
 339 |         <h3 class="capsule__title">
 340 |             Precursor strategies for metallic nano- and micropatterns using soft lithography
 341 |         </h3>
 342 | 
 343 |             <div class="article__authors article__author-link" aria-label="List of authors">
 344 |                 F. M. Wisser, B. Schumm, G. Mondin, J. Grothe and S. Kaskel
 345 |             </div>
 346 | 
 347 |             <div class="capsule__column-wrapper">
 348 |                 <div class="capsule__text">
 349 |                     <p>Soft lithographic methods describe a set of printing methods which are widely used for the preparation of structured surfaces.</p>
 350 |                 </div>
 351 |                 <div class="capsule__article-image">
 352 |                     
 353 |                     <img alt="Graphical abstract: Precursor strategies for metallic nano- and micropatterns using soft lithography"
 354 |                          title="C4TC02418D"
 355 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 356 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C4TC02418D" />
 357 |                 </div>
 358 |             </div>
 359 | 
 360 |     </a>
 361 | 
 362 |         <div class="fixpadb--m">
 363 |             From the themed collection:
 364 | <a href="/en/journals/articlecollectionlanding?sercode=tc&amp;themeid=6a8e4e29-ade0-4d42-9436-b4f511e073fe">2015 Journal of Materials Chemistry C Hot Papers</a>        </div>
 365 | 
 366 |     <div class="capsule__footer">
 367 | 
 368 |         <hr class="clear">
 369 | 
 370 | 
 371 | 
 372 |             <div class="text--small">
 373 |                     <span class="block fixpadv--xs">The article was first published on 13 Feb 2015</span><br>
 374 |                 <span><i><strong>J. Mater. Chem. C</strong></i>, 2015,<span style='padding-right:2px'></span><strong>3</strong>, 2717-2731</span><br>
 375 |                 <span><a href="http://dx.doi.org/10.1039/C4TC02418D">http://dx.doi.org/10.1039/C4TC02418D</a></span>
 376 |             </div>
 377 | 
 378 |         <div class="capsule__action--buttons">
 379 |             
 380 | 
 381 | 
 382 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2015/tc/c4tc02418d?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;precursor strategies for metallic nano- and micropatterns using soft lithography – c4tc02418d - sercode=tc&#39;]);">Download PDF</a>
 383 | <a class="btn btn--tiny" href="/en/content/articlehtml/2015/tc/c4tc02418d?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;precursor strategies for metallic nano- and micropatterns using soft lithography – c4tc02418d - sercode=tc&#39;]);">Article HTML</a>
 384 |         </div>
 385 | 
 386 |     </div>
 387 | 
 388 | </div>
 389 | 
 390 | 
 391 | <div class="capsule capsule--article ">
 392 | 
 393 |     <a name="C4NR01600A" class="capsule__action"
 394 |        href="/en/content/articlelanding/2015/nr/c4nr01600a">
 395 | 
 396 |             <span class="capsule__context">
 397 |                     <img src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/open-access-icon-orange.png" alt="Open Access" class="ver-t" width="16" height="16" />
 398 |                                 Review Article
 399 |             </span>
 400 | 
 401 |         <h3 class="capsule__title">
 402 |             Science and technology roadmap for graphene, related two-dimensional crystals, and hybrid systems
 403 |         </h3>
 404 | 
 405 |             <div class="article__authors article__author-link" aria-label="List of authors">
 406 |                 Andrea C. Ferrari, Francesco Bonaccorso, Vladimir Fal'ko, Konstantin S. Novoselov, Stephan Roche, Peter Bøggild, Stefano Borini, Frank H. L. Koppens, Vincenzo Palermo, Nicola Pugno, José A. Garrido, Roman Sordan, Alberto Bianco, Laura Ballerini, Maurizio Prato, Elefterios Lidorikis, Jani Kivioja, Claudio Marinelli, Tapani Ryhänen, Alberto Morpurgo, Jonathan N. Coleman, Valeria Nicolosi, Luigi Colombo, Albert Fert, Mar Garcia-Hernandez, Adrian Bachtold, Grégory F. Schneider, Francisco Guinea, Cees Dekker, Matteo Barbone, Zhipei Sun, Costas Galiotis, Alexander N. Grigorenko, Gerasimos Konstantatos, Andras Kis, Mikhail Katsnelson, Lieven Vandersypen, Annick Loiseau, Vittorio Morandi, Daniel Neumaier, Emanuele Treossi, Vittorio Pellegrini, Marco Polini, Alessandro Tredicucci, Gareth M. Williams, Byung Hee Hong, Jong-Hyun Ahn, Jong Min Kim, Herbert Zirath, Bart J. van Wees, Herre van der Zant, Luigi Occhipinti, Andrea Di Matteo, Ian A. Kinloch, Thomas Seyller, Etienne Quesnel, Xinliang Feng, Ken Teo, Nalin Rupesinghe, Pertti Hakonen, Simon R. T. Neil, Quentin Tannock, Tomas Löfwander and Jari Kinaret
 407 |             </div>
 408 | 
 409 |             <div class="capsule__column-wrapper">
 410 |                 <div class="capsule__text">
 411 |                     <p>We present the science and technology roadmap for graphene, related two-dimensional crystals, and hybrid systems, targeting an evolution in technology, that might lead to impacts and benefits reaching into most areas of society.</p>
 412 |                 </div>
 413 |                 <div class="capsule__article-image">
 414 |                     
 415 |                     <img alt="Graphical abstract: Science and technology roadmap for graphene, related two-dimensional crystals, and hybrid systems"
 416 |                          title="C4NR01600A"
 417 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 418 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C4NR01600A" />
 419 |                 </div>
 420 |             </div>
 421 | 
 422 |     </a>
 423 | 
 424 | 
 425 |     <div class="capsule__footer">
 426 | 
 427 |         <hr class="clear">
 428 | 
 429 | 
 430 | 
 431 |             <div class="text--small">
 432 |                     <span class="block fixpadv--xs">The article was first published on 22 Sep 2014</span><br>
 433 |                 <span><i><strong>Nanoscale</strong></i>, 2015,<span style='padding-right:2px'></span><strong>7</strong>, 4598-4810</span><br>
 434 |                 <span><a href="http://dx.doi.org/10.1039/C4NR01600A">http://dx.doi.org/10.1039/C4NR01600A</a></span>
 435 |             </div>
 436 | 
 437 |         <div class="capsule__action--buttons">
 438 |             
 439 | 
 440 | 
 441 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2015/nr/c4nr01600a?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;science and technology roadmap for graphene, related two-dimensional crystals, and hybrid systems – c4nr01600a - sercode=nr&#39;]);">Download PDF</a>
 442 | <a class="btn btn--tiny" href="/en/content/articlehtml/2015/nr/c4nr01600a?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;science and technology roadmap for graphene, related two-dimensional crystals, and hybrid systems – c4nr01600a - sercode=nr&#39;]);">Article HTML</a>
 443 |         </div>
 444 | 
 445 |     </div>
 446 | 
 447 | </div>
 448 | 
 449 | 
 450 | <div class="capsule capsule--article ">
 451 | 
 452 |     <a name="C5RA16478H" class="capsule__action"
 453 |        href="/en/content/articlelanding/2015/ra/c5ra16478h">
 454 | 
 455 |             <span class="capsule__context">
 456 |                                 Review Article
 457 |             </span>
 458 | 
 459 |         <h3 class="capsule__title">
 460 |             Performance of hybrid nanostructured conductive cotton materials as wearable devices: an overview of materials, fabrication, properties and applications
 461 |         </h3>
 462 | 
 463 |             <div class="article__authors article__author-link" aria-label="List of authors">
 464 |                 D. P. Hansora, N. G. Shimpi and S. Mishra
 465 |             </div>
 466 | 
 467 |             <div class="capsule__column-wrapper">
 468 |                 <div class="capsule__text">
 469 |                     <p>Recent advances and overview of hybrid nanostructured cotton materials will boost an essential encouragement for the development of next generation smart textiles and flexible devices which could be worn by human beings.</p>
 470 |                 </div>
 471 |                 <div class="capsule__article-image">
 472 |                     
 473 |                     <img alt="Graphical abstract: Performance of hybrid nanostructured conductive cotton materials as wearable devices: an overview of materials, fabrication, properties and applications"
 474 |                          title="C5RA16478H"
 475 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 476 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C5RA16478H" />
 477 |                 </div>
 478 |             </div>
 479 | 
 480 |     </a>
 481 | 
 482 | 
 483 |     <div class="capsule__footer">
 484 | 
 485 |         <hr class="clear">
 486 | 
 487 | 
 488 | 
 489 |             <div class="text--small">
 490 |                     <span class="block fixpadv--xs">The article was first published on 01 Dec 2015</span><br>
 491 |                 <span><i><strong>RSC Adv.</strong></i>, 2015,<span style='padding-right:2px'></span><strong>5</strong>, 107716-107770</span><br>
 492 |                 <span><a href="http://dx.doi.org/10.1039/C5RA16478H">http://dx.doi.org/10.1039/C5RA16478H</a></span>
 493 |             </div>
 494 | 
 495 |         <div class="capsule__action--buttons">
 496 |             
 497 | 
 498 | 
 499 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2015/ra/c5ra16478h?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;performance of hybrid nanostructured conductive cotton materials as wearable devices: an overview of materials, fabrication, properties and applications – c5ra16478h - sercode=ra&#39;]);">Download PDF</a>
 500 | <a class="btn btn--tiny" href="/en/content/articlehtml/2015/ra/c5ra16478h?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;performance of hybrid nanostructured conductive cotton materials as wearable devices: an overview of materials, fabrication, properties and applications – c5ra16478h - sercode=ra&#39;]);">Article HTML</a>
 501 |         </div>
 502 | 
 503 |     </div>
 504 | 
 505 | </div>
 506 | 
 507 | 
 508 | <div class="capsule capsule--article ">
 509 | 
 510 |     <a name="C6NR08220C" class="capsule__action"
 511 |        href="/en/content/articlelanding/2017/nr/c6nr08220c">
 512 | 
 513 |             <span class="capsule__context">
 514 |                                 Review Article
 515 |             </span>
 516 | 
 517 |         <h3 class="capsule__title">
 518 |             Inkjet-printed optoelectronics
 519 |         </h3>
 520 | 
 521 |             <div class="article__authors article__author-link" aria-label="List of authors">
 522 |                 Zhaoyao Zhan, Jianing An, Yuefan Wei, Van Thai Tran and Hejun Du
 523 |             </div>
 524 | 
 525 |             <div class="capsule__column-wrapper">
 526 |                 <div class="capsule__text">
 527 |                     <p>A systematical overview of optoelectronics fabricated by inkjet printing techniques.</p>
 528 |                 </div>
 529 |                 <div class="capsule__article-image">
 530 |                     
 531 |                     <img alt="Graphical abstract: Inkjet-printed optoelectronics"
 532 |                          title="C6NR08220C"
 533 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 534 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C6NR08220C" />
 535 |                 </div>
 536 |             </div>
 537 | 
 538 |     </a>
 539 | 
 540 |         <div class="fixpadb--m">
 541 |             From the themed collection:
 542 | <a href="/en/journals/articlecollectionlanding?sercode=nr&amp;themeid=921c927e-05b9-4f9f-a524-c2d47a682655">Recent Review Articles</a>        </div>
 543 | 
 544 |     <div class="capsule__footer">
 545 | 
 546 |         <hr class="clear">
 547 | 
 548 | 
 549 | 
 550 |             <div class="text--small">
 551 |                     <span class="block fixpadv--xs">The article was first published on 07 Dec 2016</span><br>
 552 |                 <span><i><strong>Nanoscale</strong></i>, 2017,<span style='padding-right:2px'></span><strong>9</strong>, 965-993</span><br>
 553 |                 <span><a href="http://dx.doi.org/10.1039/C6NR08220C">http://dx.doi.org/10.1039/C6NR08220C</a></span>
 554 |             </div>
 555 | 
 556 |         <div class="capsule__action--buttons">
 557 |             
 558 | 
 559 | 
 560 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2017/nr/c6nr08220c?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;inkjet-printed optoelectronics – c6nr08220c - sercode=nr&#39;]);">Download PDF</a>
 561 | <a class="btn btn--tiny" href="/en/content/articlehtml/2017/nr/c6nr08220c?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;inkjet-printed optoelectronics – c6nr08220c - sercode=nr&#39;]);">Article HTML</a>
 562 |         </div>
 563 | 
 564 |     </div>
 565 | 
 566 | </div>
 567 | 
 568 | 
 569 | <div class="capsule capsule--article ">
 570 | 
 571 |     <a name="C5RA08205F" class="capsule__action"
 572 |        href="/en/content/articlelanding/2015/ra/c5ra08205f">
 573 | 
 574 |             <span class="capsule__context">
 575 |                                 Review Article
 576 |             </span>
 577 | 
 578 |         <h3 class="capsule__title">
 579 |             Copper conductive inks: synthesis and utilization in flexible electronics
 580 |         </h3>
 581 | 
 582 |             <div class="article__authors article__author-link" aria-label="List of authors">
 583 |                 Venkata Abhinav K, Venkata Krishna Rao R, P. S. Karthik and Surya Prakash Singh
 584 |             </div>
 585 | 
 586 |             <div class="capsule__column-wrapper">
 587 |                 <div class="capsule__text">
 588 |                     <p>Conductive inks are a recent advance in electronics and have promising future applications in flexible electronics and smart applications.</p>
 589 |                 </div>
 590 |                 <div class="capsule__article-image">
 591 |                     
 592 |                     <img alt="Graphical abstract: Copper conductive inks: synthesis and utilization in flexible electronics"
 593 |                          title="C5RA08205F"
 594 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 595 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C5RA08205F" />
 596 |                 </div>
 597 |             </div>
 598 | 
 599 |     </a>
 600 | 
 601 | 
 602 |     <div class="capsule__footer">
 603 | 
 604 |         <hr class="clear">
 605 | 
 606 | 
 607 | 
 608 |             <div class="text--small">
 609 |                     <span class="block fixpadv--xs">The article was first published on 22 Jun 2015</span><br>
 610 |                 <span><i><strong>RSC Adv.</strong></i>, 2015,<span style='padding-right:2px'></span><strong>5</strong>, 63985-64030</span><br>
 611 |                 <span><a href="http://dx.doi.org/10.1039/C5RA08205F">http://dx.doi.org/10.1039/C5RA08205F</a></span>
 612 |             </div>
 613 | 
 614 |         <div class="capsule__action--buttons">
 615 |             
 616 | 
 617 | 
 618 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2015/ra/c5ra08205f?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;copper conductive inks: synthesis and utilization in flexible electronics – c5ra08205f - sercode=ra&#39;]);">Download PDF</a>
 619 | <a class="btn btn--tiny" href="/en/content/articlehtml/2015/ra/c5ra08205f?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;copper conductive inks: synthesis and utilization in flexible electronics – c5ra08205f - sercode=ra&#39;]);">Article HTML</a>
 620 |         </div>
 621 | 
 622 |     </div>
 623 | 
 624 | </div>
 625 | 
 626 | 
 627 | <div class="capsule capsule--article ">
 628 | 
 629 |     <a name="A902652E" class="capsule__action"
 630 |        href="/en/content/articlelanding/1999/jm/a902652e">
 631 | 
 632 |             <span class="capsule__context">
 633 |                                 Paper
 634 |             </span>
 635 | 
 636 |         <h3 class="capsule__title">
 637 |             Printable organic and polymeric semiconducting materials and devices
 638 |         </h3>
 639 | 
 640 |             <div class="article__authors article__author-link" aria-label="List of authors">
 641 |                 Zhenan Bao, John A. Rogers and Howard E. Katz
 642 |             </div>
 643 | 
 644 | 
 645 |     </a>
 646 | 
 647 |         <div class="fixpadb--m">
 648 |             From the themed collection:
 649 | <a href="/en/journals/journal/jm?issueid=jm009009&amp;type=issue">Functional Organic Materials for Devices</a>        </div>
 650 | 
 651 |     <div class="capsule__footer">
 652 | 
 653 |         <hr class="clear">
 654 | 
 655 | 
 656 | 
 657 |             <div class="text--small">
 658 |                 <span><i><strong>J. Mater. Chem.</strong></i>, 1999,<span style='padding-right:2px'></span><strong>9</strong>, 1895-1904</span><br>
 659 |                 <span><a href="http://dx.doi.org/10.1039/A902652E">http://dx.doi.org/10.1039/A902652E</a></span>
 660 |             </div>
 661 | 
 662 |         <div class="capsule__action--buttons">
 663 |             
 664 | 
 665 | 
 666 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/1999/jm/a902652e?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;printable organic and polymeric semiconducting materials and devices – a902652e - sercode=jm&#39;]);">Download PDF</a>
 667 | <a class="btn btn--tiny" href="/en/content/articlehtml/1999/jm/a902652e?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;printable organic and polymeric semiconducting materials and devices – a902652e - sercode=jm&#39;]);">Article References</a>
 668 |         </div>
 669 | 
 670 |     </div>
 671 | 
 672 | </div>
 673 | 
 674 | 
 675 | <div class="capsule capsule--article ">
 676 | 
 677 |     <a name="C4CS00089G" class="capsule__action"
 678 |        href="/en/content/articlelanding/2014/cs/c4cs00089g">
 679 | 
 680 |             <span class="capsule__context">
 681 |                     <img src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/open-access-icon-orange.png" alt="Open Access" class="ver-t" width="16" height="16" />
 682 |                                 Review Article
 683 |             </span>
 684 | 
 685 |         <h3 class="capsule__title">
 686 |             MOF positioning technology and device fabrication
 687 |         </h3>
 688 | 
 689 |             <div class="article__authors article__author-link" aria-label="List of authors">
 690 |                 Paolo Falcaro, Raffaele Ricco, Cara M. Doherty, Kang Liang, Anita J. Hill and Mark J. Styles
 691 |             </div>
 692 | 
 693 |             <div class="capsule__column-wrapper">
 694 |                 <div class="capsule__text">
 695 |                     <p>Methods for permanent localisation, dynamic localisation and spatial control of functional materials within MOF crystals are critical for the development of miniaturised MOF-based devices for a number of technological applications.</p>
 696 |                 </div>
 697 |                 <div class="capsule__article-image">
 698 |                     
 699 |                     <img alt="Graphical abstract: MOF positioning technology and device fabrication"
 700 |                          title="C4CS00089G"
 701 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 702 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C4CS00089G" />
 703 |                 </div>
 704 |             </div>
 705 | 
 706 |     </a>
 707 | 
 708 |         <div class="fixpadb--m">
 709 |             From the themed collection:
 710 | <a href="/en/journals/articlecollectionlanding?sercode=cs&amp;themeid=4e6e7e9f-ed6e-49f8-b3d0-de5949df8056">Metal Organic Frameworks (MOFs)</a>        </div>
 711 | 
 712 |     <div class="capsule__footer">
 713 | 
 714 |         <hr class="clear">
 715 | 
 716 | 
 717 | 
 718 |             <div class="text--small">
 719 |                     <span class="block fixpadv--xs">The article was first published on 07 May 2014</span><br>
 720 |                 <span><i><strong>Chem. Soc. Rev.</strong></i>, 2014,<span style='padding-right:2px'></span><strong>43</strong>, 5513-5560</span><br>
 721 |                 <span><a href="http://dx.doi.org/10.1039/C4CS00089G">http://dx.doi.org/10.1039/C4CS00089G</a></span>
 722 |             </div>
 723 | 
 724 |         <div class="capsule__action--buttons">
 725 |             
 726 | 
 727 | 
 728 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2014/cs/c4cs00089g?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;mof positioning technology and device fabrication – c4cs00089g - sercode=cs&#39;]);">Download PDF</a>
 729 | <a class="btn btn--tiny" href="/en/content/articlehtml/2014/cs/c4cs00089g?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;mof positioning technology and device fabrication – c4cs00089g - sercode=cs&#39;]);">Article HTML</a>
 730 |         </div>
 731 | 
 732 |     </div>
 733 | 
 734 | </div>
 735 | 
 736 | 
 737 | <div class="capsule capsule--article ">
 738 | 
 739 |     <a name="C7TC05271E" class="capsule__action"
 740 |        href="/en/content/articlelanding/2018/tc/c7tc05271e">
 741 | 
 742 |             <span class="capsule__context">
 743 |                                 Review Article
 744 |             </span>
 745 | 
 746 |         <h3 class="capsule__title">
 747 |             Multifunctional cellulose-paper for light harvesting and smart sensing applications
 748 |         </h3>
 749 | 
 750 |             <div class="article__authors article__author-link" aria-label="List of authors">
 751 |                 António T. Vicente, Andreia Araújo, Manuel J. Mendes, Daniela Nunes, Maria J. Oliveira, Olalla Sanchez-Sobrado, Marta P. Ferreira, Hugo Águas, Elvira Fortunato and Rodrigo Martins
 752 |             </div>
 753 | 
 754 |             <div class="capsule__column-wrapper">
 755 |                 <div class="capsule__text">
 756 |                     <p>Opto-electronics on/with paper is fostering a novel generation of flexible and recyclable devices for sunlight harvesting and intelligent optical sensing.</p>
 757 |                 </div>
 758 |                 <div class="capsule__article-image">
 759 |                     
 760 |                     <img alt="Graphical abstract: Multifunctional cellulose-paper for light harvesting and smart sensing applications"
 761 |                          title="C7TC05271E"
 762 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 763 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C7TC05271E" />
 764 |                 </div>
 765 |             </div>
 766 | 
 767 |     </a>
 768 | 
 769 |         <div class="fixpadb--m">
 770 |             From the themed collection:
 771 | <a href="/en/journals/articlecollectionlanding?sercode=tc&amp;themeid=380a4b17-96f6-436e-9d0d-e6d66c34f5cf">Recent Review Articles</a>        </div>
 772 | 
 773 |     <div class="capsule__footer">
 774 | 
 775 |         <hr class="clear">
 776 | 
 777 | 
 778 | 
 779 |             <div class="text--small">
 780 |                     <span class="block fixpadv--xs">The article was first published on 09 Mar 2018</span><br>
 781 |                 <span><i><strong>J. Mater. Chem. C</strong></i>, 2018,<span style='padding-right:2px'></span><strong>6</strong>, 3143-3181</span><br>
 782 |                 <span><a href="http://dx.doi.org/10.1039/C7TC05271E">http://dx.doi.org/10.1039/C7TC05271E</a></span>
 783 |             </div>
 784 | 
 785 |         <div class="capsule__action--buttons">
 786 |             
 787 | 
 788 | 
 789 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2018/tc/c7tc05271e?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;multifunctional cellulose-paper for light harvesting and smart sensing applications – c7tc05271e - sercode=tc&#39;]);">Download PDF</a>
 790 | <a class="btn btn--tiny" href="/en/content/articlehtml/2018/tc/c7tc05271e?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;multifunctional cellulose-paper for light harvesting and smart sensing applications – c7tc05271e - sercode=tc&#39;]);">Article HTML</a>
 791 |         </div>
 792 | 
 793 |     </div>
 794 | 
 795 | </div>
 796 | 
 797 | 
 798 | <div class="capsule capsule--article ">
 799 | 
 800 |     <a name="C4TC00618F" class="capsule__action"
 801 |        href="/en/content/articlelanding/2014/tc/c4tc00618f">
 802 | 
 803 |             <span class="capsule__context">
 804 |                                 Application
 805 |             </span>
 806 | 
 807 |         <h3 class="capsule__title">
 808 |             Recent advances in upscalable wet methods and ink formulations for printed electronics
 809 |         </h3>
 810 | 
 811 |             <div class="article__authors article__author-link" aria-label="List of authors">
 812 |                 Yana Aleeva and Bruno Pignataro
 813 |             </div>
 814 | 
 815 |             <div class="capsule__column-wrapper">
 816 |                 <div class="capsule__text">
 817 |                     <p>Advances in upscalable wet methods and ink formulations have improved the properties of printed molecular thin films along with the performance of printed electronic devices.</p>
 818 |                 </div>
 819 |                 <div class="capsule__article-image">
 820 |                     
 821 |                     <img alt="Graphical abstract: Recent advances in upscalable wet methods and ink formulations for printed electronics"
 822 |                          title="C4TC00618F"
 823 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 824 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C4TC00618F" />
 825 |                 </div>
 826 |             </div>
 827 | 
 828 |     </a>
 829 | 
 830 | 
 831 |     <div class="capsule__footer">
 832 | 
 833 |         <hr class="clear">
 834 | 
 835 | 
 836 | 
 837 |             <div class="text--small">
 838 |                     <span class="block fixpadv--xs">The article was first published on 04 Jun 2014</span><br>
 839 |                 <span><i><strong>J. Mater. Chem. C</strong></i>, 2014,<span style='padding-right:2px'></span><strong>2</strong>, 6436-6453</span><br>
 840 |                 <span><a href="http://dx.doi.org/10.1039/C4TC00618F">http://dx.doi.org/10.1039/C4TC00618F</a></span>
 841 |             </div>
 842 | 
 843 |         <div class="capsule__action--buttons">
 844 |             
 845 | 
 846 | 
 847 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2014/tc/c4tc00618f?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;recent advances in upscalable wet methods and ink formulations for printed electronics – c4tc00618f - sercode=tc&#39;]);">Download PDF</a>
 848 | <a class="btn btn--tiny" href="/en/content/articlehtml/2014/tc/c4tc00618f?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;recent advances in upscalable wet methods and ink formulations for printed electronics – c4tc00618f - sercode=tc&#39;]);">Article HTML</a>
 849 |         </div>
 850 | 
 851 |     </div>
 852 | 
 853 | </div>
 854 | 
 855 | 
 856 | <div class="capsule capsule--article ">
 857 | 
 858 |     <a name="C6NR03054H" class="capsule__action"
 859 |        href="/en/content/articlelanding/2016/nr/c6nr03054h">
 860 | 
 861 |             <span class="capsule__context">
 862 |                                 Review Article
 863 |             </span>
 864 | 
 865 |         <h3 class="capsule__title">
 866 |             Use of nanocellulose in printed electronics: a review
 867 |         </h3>
 868 | 
 869 |             <div class="article__authors article__author-link" aria-label="List of authors">
 870 |                 Fanny Hoeng, Aurore Denneulin and Julien Bras
 871 |             </div>
 872 | 
 873 |             <div class="capsule__column-wrapper">
 874 |                 <div class="capsule__text">
 875 |                     <p>Since the last decade, interest in cellulose nanomaterials, known as nanocellulose, has been growing in printed electronics.</p>
 876 |                 </div>
 877 |                 <div class="capsule__article-image">
 878 |                     
 879 |                     <img alt="Graphical abstract: Use of nanocellulose in printed electronics: a review"
 880 |                          title="C6NR03054H"
 881 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 882 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C6NR03054H" />
 883 |                 </div>
 884 |             </div>
 885 | 
 886 |     </a>
 887 | 
 888 | 
 889 |     <div class="capsule__footer">
 890 | 
 891 |         <hr class="clear">
 892 | 
 893 | 
 894 | 
 895 |             <div class="text--small">
 896 |                     <span class="block fixpadv--xs">The article was first published on 31 May 2016</span><br>
 897 |                 <span><i><strong>Nanoscale</strong></i>, 2016,<span style='padding-right:2px'></span><strong>8</strong>, 13131-13154</span><br>
 898 |                 <span><a href="http://dx.doi.org/10.1039/C6NR03054H">http://dx.doi.org/10.1039/C6NR03054H</a></span>
 899 |             </div>
 900 | 
 901 |         <div class="capsule__action--buttons">
 902 |             
 903 | 
 904 | 
 905 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2016/nr/c6nr03054h?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;use of nanocellulose in printed electronics: a review – c6nr03054h - sercode=nr&#39;]);">Download PDF</a>
 906 | <a class="btn btn--tiny" href="/en/content/articlehtml/2016/nr/c6nr03054h?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;use of nanocellulose in printed electronics: a review – c6nr03054h - sercode=nr&#39;]);">Article HTML</a>
 907 |         </div>
 908 | 
 909 |     </div>
 910 | 
 911 | </div>
 912 | 
 913 | 
 914 | <div class="capsule capsule--article ">
 915 | 
 916 |     <a name="C4TA00716F" class="capsule__action"
 917 |        href="/en/content/articlelanding/2014/ta/c4ta00716f">
 918 | 
 919 |             <span class="capsule__context">
 920 |                                 Feature Article
 921 |             </span>
 922 | 
 923 |         <h3 class="capsule__title">
 924 |             Flexible rechargeable lithium ion batteries: advances and challenges in materials and process technologies
 925 |         </h3>
 926 | 
 927 |             <div class="article__authors article__author-link" aria-label="List of authors">
 928 |                 Yuhai Hu and Xueliang Sun
 929 |             </div>
 930 | 
 931 |             <div class="capsule__column-wrapper">
 932 |                 <div class="capsule__text">
 933 |                     <p>This review summarizes the advances and challenges in materials and process technologies in flexible rechargeable lithium ion batteries research.</p>
 934 |                 </div>
 935 |                 <div class="capsule__article-image">
 936 |                     
 937 |                     <img alt="Graphical abstract: Flexible rechargeable lithium ion batteries: advances and challenges in materials and process technologies"
 938 |                          title="C4TA00716F"
 939 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
 940 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C4TA00716F" />
 941 |                 </div>
 942 |             </div>
 943 | 
 944 |     </a>
 945 | 
 946 |         <div class="fixpadb--m">
 947 |             From the themed collection:
 948 | <a href="/en/journals/articlecollectionlanding?sercode=ta&amp;themeid=a1e8a4f2-b449-40d7-b8b3-eb86e36d85d8">Flexible energy storage and conversion</a>        </div>
 949 | 
 950 |     <div class="capsule__footer">
 951 | 
 952 |         <hr class="clear">
 953 | 
 954 | 
 955 | 
 956 |             <div class="text--small">
 957 |                     <span class="block fixpadv--xs">The article was first published on 23 Apr 2014</span><br>
 958 |                 <span><i><strong>J. Mater. Chem. A</strong></i>, 2014,<span style='padding-right:2px'></span><strong>2</strong>, 10712-10738</span><br>
 959 |                 <span><a href="http://dx.doi.org/10.1039/C4TA00716F">http://dx.doi.org/10.1039/C4TA00716F</a></span>
 960 |             </div>
 961 | 
 962 |         <div class="capsule__action--buttons">
 963 |             
 964 | 
 965 | 
 966 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2014/ta/c4ta00716f?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;flexible rechargeable lithium ion batteries: advances and challenges in materials and process technologies – c4ta00716f - sercode=ta&#39;]);">Download PDF</a>
 967 | <a class="btn btn--tiny" href="/en/content/articlehtml/2014/ta/c4ta00716f?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;flexible rechargeable lithium ion batteries: advances and challenges in materials and process technologies – c4ta00716f - sercode=ta&#39;]);">Article HTML</a>
 968 |         </div>
 969 | 
 970 |     </div>
 971 | 
 972 | </div>
 973 | 
 974 | 
 975 | <div class="capsule capsule--article ">
 976 | 
 977 |     <a name="C6TC01979J" class="capsule__action"
 978 |        href="/en/content/articlelanding/2016/tc/c6tc01979j">
 979 | 
 980 |             <span class="capsule__context">
 981 |                                 Paper
 982 |             </span>
 983 | 
 984 |         <h3 class="capsule__title">
 985 |             Fabrication of dual-side metal patterns onto textile substrates for wearable electronics by combining wax-dot printing with electroless plating
 986 |         </h3>
 987 | 
 988 |             <div class="article__authors article__author-link" aria-label="List of authors">
 989 |                 H. Zhao, L. Hou, J. X. Wu and Y. X. Lu
 990 |             </div>
 991 | 
 992 |             <div class="capsule__column-wrapper">
 993 |                 <div class="capsule__text">
 994 |                     <p>Dual-side Cu patterns with well-defined boundaries were plated onto fabric by combining wax-dot printing with electroless copper plating.</p>
 995 |                 </div>
 996 |                 <div class="capsule__article-image">
 997 |                     
 998 |                     <img alt="Graphical abstract: Fabrication of dual-side metal patterns onto textile substrates for wearable electronics by combining wax-dot printing with electroless plating"
 999 |                          title="C6TC01979J"
1000 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
1001 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C6TC01979J" />
1002 |                 </div>
1003 |             </div>
1004 | 
1005 |     </a>
1006 | 
1007 | 
1008 |     <div class="capsule__footer">
1009 | 
1010 |         <hr class="clear">
1011 | 
1012 | 
1013 | 
1014 |             <div class="text--small">
1015 |                     <span class="block fixpadv--xs">The article was first published on 29 Jun 2016</span><br>
1016 |                 <span><i><strong>J. Mater. Chem. C</strong></i>, 2016,<span style='padding-right:2px'></span><strong>4</strong>, 7156-7164</span><br>
1017 |                 <span><a href="http://dx.doi.org/10.1039/C6TC01979J">http://dx.doi.org/10.1039/C6TC01979J</a></span>
1018 |             </div>
1019 | 
1020 |         <div class="capsule__action--buttons">
1021 |             
1022 | 
1023 | 
1024 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2016/tc/c6tc01979j?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;fabrication of dual-side metal patterns onto textile substrates for wearable electronics by combining wax-dot printing with electroless plating – c6tc01979j - sercode=tc&#39;]);">Download PDF</a>
1025 | <a class="btn btn--tiny" href="/en/content/articlehtml/2016/tc/c6tc01979j?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;fabrication of dual-side metal patterns onto textile substrates for wearable electronics by combining wax-dot printing with electroless plating – c6tc01979j - sercode=tc&#39;]);">Article HTML</a>
1026 |         </div>
1027 | 
1028 |     </div>
1029 | 
1030 | </div>
1031 | 
1032 | 
1033 | <div class="capsule capsule--article ">
1034 | 
1035 |     <a name="C6TC03230C" class="capsule__action"
1036 |        href="/en/content/articlelanding/2016/tc/c6tc03230c">
1037 | 
1038 |             <span class="capsule__context">
1039 |                                 Review Article
1040 |             </span>
1041 | 
1042 |         <h3 class="capsule__title">
1043 |             Recent advances in flexible organic light-emitting diodes
1044 |         </h3>
1045 | 
1046 |             <div class="article__authors article__author-link" aria-label="List of authors">
1047 |                 Rui-Peng Xu, Yan-Qing Li and Jian-Xin Tang
1048 |             </div>
1049 | 
1050 |             <div class="capsule__column-wrapper">
1051 |                 <div class="capsule__text">
1052 |                     <p>This review summarizes the recent achievements in flexible OLEDs involving transparent conductive electrodes, device fabrication, light extraction technologies, as well as encapsulation methods.</p>
1053 |                 </div>
1054 |                 <div class="capsule__article-image">
1055 |                     
1056 |                     <img alt="Graphical abstract: Recent advances in flexible organic light-emitting diodes"
1057 |                          title="C6TC03230C"
1058 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
1059 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C6TC03230C" />
1060 |                 </div>
1061 |             </div>
1062 | 
1063 |     </a>
1064 | 
1065 | 
1066 |     <div class="capsule__footer">
1067 | 
1068 |         <hr class="clear">
1069 | 
1070 | 
1071 | 
1072 |             <div class="text--small">
1073 |                     <span class="block fixpadv--xs">The article was first published on 05 Sep 2016</span><br>
1074 |                 <span><i><strong>J. Mater. Chem. C</strong></i>, 2016,<span style='padding-right:2px'></span><strong>4</strong>, 9116-9142</span><br>
1075 |                 <span><a href="http://dx.doi.org/10.1039/C6TC03230C">http://dx.doi.org/10.1039/C6TC03230C</a></span>
1076 |             </div>
1077 | 
1078 |         <div class="capsule__action--buttons">
1079 |             
1080 | 
1081 | 
1082 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2016/tc/c6tc03230c?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;recent advances in flexible organic light-emitting diodes – c6tc03230c - sercode=tc&#39;]);">Download PDF</a>
1083 | <a class="btn btn--tiny" href="/en/content/articlehtml/2016/tc/c6tc03230c?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;recent advances in flexible organic light-emitting diodes – c6tc03230c - sercode=tc&#39;]);">Article HTML</a>
1084 |         </div>
1085 | 
1086 |     </div>
1087 | 
1088 | </div>
1089 | 
1090 | 
1091 | <div class="capsule capsule--article ">
1092 | 
1093 |     <a name="C4TC01820F" class="capsule__action"
1094 |        href="/en/content/articlelanding/2014/tc/c4tc01820f">
1095 | 
1096 |             <span class="capsule__context">
1097 |                                 Feature Article
1098 |             </span>
1099 | 
1100 |         <h3 class="capsule__title">
1101 |             Progress of alternative sintering approaches of inkjet-printed metal inks and their application for manufacturing of flexible electronic devices
1102 |         </h3>
1103 | 
1104 |             <div class="article__authors article__author-link" aria-label="List of authors">
1105 |                 Sebastian Wünscher, Robert Abbel, Jolke Perelaer and Ulrich S. Schubert
1106 |             </div>
1107 | 
1108 |             <div class="capsule__column-wrapper">
1109 |                 <div class="capsule__text">
1110 |                     <p>This review discusses the advances in alternative sintering approaches for conductive, metal containing inkjet inks.</p>
1111 |                 </div>
1112 |                 <div class="capsule__article-image">
1113 |                     
1114 |                     <img alt="Graphical abstract: Progress of alternative sintering approaches of inkjet-printed metal inks and their application for manufacturing of flexible electronic devices"
1115 |                          title="C4TC01820F"
1116 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
1117 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C4TC01820F" />
1118 |                 </div>
1119 |             </div>
1120 | 
1121 |     </a>
1122 | 
1123 | 
1124 |     <div class="capsule__footer">
1125 | 
1126 |         <hr class="clear">
1127 | 
1128 | 
1129 | 
1130 |             <div class="text--small">
1131 |                     <span class="block fixpadv--xs">The article was first published on 25 Sep 2014</span><br>
1132 |                 <span><i><strong>J. Mater. Chem. C</strong></i>, 2014,<span style='padding-right:2px'></span><strong>2</strong>, 10232-10261</span><br>
1133 |                 <span><a href="http://dx.doi.org/10.1039/C4TC01820F">http://dx.doi.org/10.1039/C4TC01820F</a></span>
1134 |             </div>
1135 | 
1136 |         <div class="capsule__action--buttons">
1137 |             
1138 | 
1139 | 
1140 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2014/tc/c4tc01820f?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;progress of alternative sintering approaches of inkjet-printed metal inks and their application for manufacturing of flexible electronic devices – c4tc01820f - sercode=tc&#39;]);">Download PDF</a>
1141 | <a class="btn btn--tiny" href="/en/content/articlehtml/2014/tc/c4tc01820f?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;progress of alternative sintering approaches of inkjet-printed metal inks and their application for manufacturing of flexible electronic devices – c4tc01820f - sercode=tc&#39;]);">Article HTML</a>
1142 |         </div>
1143 | 
1144 |     </div>
1145 | 
1146 | </div>
1147 | 
1148 | 
1149 | <div class="capsule capsule--article ">
1150 | 
1151 |     <a name="C1CS15065K" class="capsule__action"
1152 |        href="/en/content/articlelanding/2011/cs/c1cs15065k">
1153 | 
1154 |             <span class="capsule__context">
1155 |                                 Critical Review
1156 |             </span>
1157 | 
1158 |         <h3 class="capsule__title">
1159 |             Solution processing of transparent conductors: from flask to film
1160 |         </h3>
1161 | 
1162 |             <div class="article__authors article__author-link" aria-label="List of authors">
1163 |                 Robert M. Pasquarelli, David S. Ginley and Ryan O'Hayre
1164 |             </div>
1165 | 
1166 |             <div class="capsule__column-wrapper">
1167 |                 <div class="capsule__text">
1168 |                     <p>This critical review focuses the solution deposition of transparent conductors with a particular focus on transparent conducting oxide (TCO) thin-films.</p>
1169 |                 </div>
1170 |                 <div class="capsule__article-image">
1171 |                     
1172 |                     <img alt="Graphical abstract: Solution processing of transparent conductors: from flask to film"
1173 |                          title="C1CS15065K"
1174 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
1175 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C1CS15065K" />
1176 |                 </div>
1177 |             </div>
1178 | 
1179 |     </a>
1180 | 
1181 | 
1182 |     <div class="capsule__footer">
1183 | 
1184 |         <hr class="clear">
1185 | 
1186 | 
1187 | 
1188 |             <div class="text--small">
1189 |                     <span class="block fixpadv--xs">The article was first published on 17 Jun 2011</span><br>
1190 |                 <span><i><strong>Chem. Soc. Rev.</strong></i>, 2011,<span style='padding-right:2px'></span><strong>40</strong>, 5406-5441</span><br>
1191 |                 <span><a href="http://dx.doi.org/10.1039/C1CS15065K">http://dx.doi.org/10.1039/C1CS15065K</a></span>
1192 |             </div>
1193 | 
1194 |         <div class="capsule__action--buttons">
1195 |             
1196 | 
1197 | 
1198 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2011/cs/c1cs15065k?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;solution processing of transparent conductors: from flask to film – c1cs15065k - sercode=cs&#39;]);">Download PDF</a>
1199 | <a class="btn btn--tiny" href="/en/content/articlehtml/2011/cs/c1cs15065k?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;solution processing of transparent conductors: from flask to film – c1cs15065k - sercode=cs&#39;]);">Article HTML</a>
1200 |         </div>
1201 | 
1202 |     </div>
1203 | 
1204 | </div>
1205 | 
1206 | 
1207 | <div class="capsule capsule--article ">
1208 | 
1209 |     <a name="C3CS35501B" class="capsule__action"
1210 |        href="/en/content/articlelanding/2013/cs/c3cs35501b">
1211 | 
1212 |             <span class="capsule__context">
1213 |                                 Review Article
1214 |             </span>
1215 | 
1216 |         <h3 class="capsule__title">
1217 |             <annref idrefs="ann20">Patterning</annref> of controllable surface wettability for printing techniques
1218 |         </h3>
1219 | 
1220 |             <div class="article__authors article__author-link" aria-label="List of authors">
1221 |                 Dongliang Tian, Yanlin Song and Lei Jiang
1222 |             </div>
1223 | 
1224 |             <div class="capsule__column-wrapper">
1225 |                 <div class="capsule__text">
1226 |                     <p>Patterning of controllable surface wettability for printing techniques, personal points for the future development and remaining challenges are addressed.</p>
1227 |                 </div>
1228 |                 <div class="capsule__article-image">
1229 |                     
1230 |                     <img alt="Graphical abstract: Patterning of controllable surface wettability for printing techniques"
1231 |                          title="C3CS35501B"
1232 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
1233 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C3CS35501B" />
1234 |                 </div>
1235 |             </div>
1236 | 
1237 |     </a>
1238 | 
1239 | 
1240 |     <div class="capsule__footer">
1241 | 
1242 |         <hr class="clear">
1243 | 
1244 | 
1245 | 
1246 |             <div class="text--small">
1247 |                     <span class="block fixpadv--xs">The article was first published on 19 Mar 2013</span><br>
1248 |                 <span><i><strong>Chem. Soc. Rev.</strong></i>, 2013,<span style='padding-right:2px'></span><strong>42</strong>, 5184-5209</span><br>
1249 |                 <span><a href="http://dx.doi.org/10.1039/C3CS35501B">http://dx.doi.org/10.1039/C3CS35501B</a></span>
1250 |             </div>
1251 | 
1252 |         <div class="capsule__action--buttons">
1253 |             
1254 | 
1255 | 
1256 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2013/cs/c3cs35501b?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;patterning of controllable surface wettability for printing techniques – c3cs35501b - sercode=cs&#39;]);">Download PDF</a>
1257 | <a class="btn btn--tiny" href="/en/content/articlehtml/2013/cs/c3cs35501b?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;patterning of controllable surface wettability for printing techniques – c3cs35501b - sercode=cs&#39;]);">Article HTML</a>
1258 |         </div>
1259 | 
1260 |     </div>
1261 | 
1262 | </div>
1263 | 
1264 | 
1265 | <div class="capsule capsule--article ">
1266 | 
1267 |     <a name="B916888E" class="capsule__action"
1268 |        href="/en/content/articlelanding/2010/an/b916888e">
1269 | 
1270 |             <span class="capsule__context">
1271 |                                 Critical Review
1272 |             </span>
1273 | 
1274 |         <h3 class="capsule__title">
1275 |             Advanced printing and deposition methodologies for the fabrication of biosensors and biodevices
1276 |         </h3>
1277 | 
1278 |             <div class="article__authors article__author-link" aria-label="List of authors">
1279 |                 Laura Gonzalez-Macia, Aoife Morrin, Malcolm R. Smyth and Anthony J. Killard
1280 |             </div>
1281 | 
1282 |             <div class="capsule__column-wrapper">
1283 |                 <div class="capsule__text">
1284 |                     <p>Advanced printing and deposition methodologies are revolutionising the way biological molecules are deposited and leading to changes in the mass production of biosensors and biodevices.</p>
1285 |                 </div>
1286 |                 <div class="capsule__article-image">
1287 |                     
1288 |                     <img alt="Graphical abstract: Advanced printing and deposition methodologies for the fabrication of biosensors and biodevices"
1289 |                          title="B916888E"
1290 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
1291 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=B916888E" />
1292 |                 </div>
1293 |             </div>
1294 | 
1295 |     </a>
1296 | 
1297 | 
1298 |     <div class="capsule__footer">
1299 | 
1300 |         <hr class="clear">
1301 | 
1302 | 
1303 | 
1304 |             <div class="text--small">
1305 |                     <span class="block fixpadv--xs">The article was first published on 08 Jan 2010</span><br>
1306 |                 <span><i><strong>Analyst</strong></i>, 2010,<span style='padding-right:2px'></span><strong>135</strong>, 845-867</span><br>
1307 |                 <span><a href="http://dx.doi.org/10.1039/B916888E">http://dx.doi.org/10.1039/B916888E</a></span>
1308 |             </div>
1309 | 
1310 |         <div class="capsule__action--buttons">
1311 |             
1312 | 
1313 | 
1314 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2010/an/b916888e?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;advanced printing and deposition methodologies for the fabrication of biosensors and biodevices – b916888e - sercode=an&#39;]);">Download PDF</a>
1315 | <a class="btn btn--tiny" href="/en/content/articlehtml/2010/an/b916888e?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;advanced printing and deposition methodologies for the fabrication of biosensors and biodevices – b916888e - sercode=an&#39;]);">Article HTML</a>
1316 |         </div>
1317 | 
1318 |     </div>
1319 | 
1320 | </div>
1321 | 
1322 | 
1323 | <div class="capsule capsule--article ">
1324 | 
1325 |     <a name="C3TC31740D" class="capsule__action"
1326 |        href="/en/content/articlelanding/2014/tc/c3tc31740d">
1327 | 
1328 |             <span class="capsule__context">
1329 |                                 Paper
1330 |             </span>
1331 | 
1332 |         <h3 class="capsule__title">
1333 |             Fabrication of flexible copper-based electronics with high-resolution and high-conductivity on paper <em>via</em> inkjet printing
1334 |         </h3>
1335 | 
1336 |             <div class="article__authors article__author-link" aria-label="List of authors">
1337 |                 Tengyuan Zhang, Xiaolong Wang, Tingjie Li, Qiuquan Guo and Jun Yang
1338 |             </div>
1339 | 
1340 |             <div class="capsule__column-wrapper">
1341 |                 <div class="capsule__text">
1342 |                     <p>Flexible paper-based electronics with high-conductivity were fabricated by inkjet printing of noble metal salts and subsequent electroless deposition of metals.</p>
1343 |                 </div>
1344 |                 <div class="capsule__article-image">
1345 |                     
1346 |                     <img alt="Graphical abstract: Fabrication of flexible copper-based electronics with high-resolution and high-conductivity on paper via inkjet printing"
1347 |                          title="C3TC31740D"
1348 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
1349 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C3TC31740D" />
1350 |                 </div>
1351 |             </div>
1352 | 
1353 |     </a>
1354 | 
1355 | 
1356 |     <div class="capsule__footer">
1357 | 
1358 |         <hr class="clear">
1359 | 
1360 | 
1361 | 
1362 |             <div class="text--small">
1363 |                     <span class="block fixpadv--xs">The article was first published on 17 Oct 2013</span><br>
1364 |                 <span><i><strong>J. Mater. Chem. C</strong></i>, 2014,<span style='padding-right:2px'></span><strong>2</strong>, 286-294</span><br>
1365 |                 <span><a href="http://dx.doi.org/10.1039/C3TC31740D">http://dx.doi.org/10.1039/C3TC31740D</a></span>
1366 |             </div>
1367 | 
1368 |         <div class="capsule__action--buttons">
1369 |             
1370 | 
1371 | 
1372 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2014/tc/c3tc31740d?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;fabrication of flexible copper-based electronics with high-resolution and high-conductivity on paper via inkjet printing – c3tc31740d - sercode=tc&#39;]);">Download PDF</a>
1373 | <a class="btn btn--tiny" href="/en/content/articlehtml/2014/tc/c3tc31740d?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;fabrication of flexible copper-based electronics with high-resolution and high-conductivity on paper via inkjet printing – c3tc31740d - sercode=tc&#39;]);">Article HTML</a>
1374 |         </div>
1375 | 
1376 |     </div>
1377 | 
1378 | </div>
1379 | 
1380 | 
1381 | <div class="capsule capsule--article ">
1382 | 
1383 |     <a name="C4AN00646A" class="capsule__action"
1384 |        href="/en/content/articlelanding/2014/an/c4an00646a">
1385 | 
1386 |             <span class="capsule__context">
1387 |                                 Paper
1388 |             </span>
1389 | 
1390 |         <h3 class="capsule__title">
1391 |             Chemically modified flexible strips as electrochemical biosensors
1392 |         </h3>
1393 | 
1394 |             <div class="article__authors article__author-link" aria-label="List of authors">
1395 |                 Raju Thota and V. Ganesh
1396 |             </div>
1397 | 
1398 |             <div class="capsule__column-wrapper">
1399 |                 <div class="capsule__text">
1400 |                     <p>Copper-coated, polyaniline modified, non-conductive flexible polyester OHP strips are demonstrated as an electrochemical biosensor for non-enzymatic detection of glucose.</p>
1401 |                 </div>
1402 |                 <div class="capsule__article-image">
1403 |                     
1404 |                     <img alt="Graphical abstract: Chemically modified flexible strips as electrochemical biosensors"
1405 |                          title="C4AN00646A"
1406 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
1407 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C4AN00646A" />
1408 |                 </div>
1409 |             </div>
1410 | 
1411 |     </a>
1412 | 
1413 | 
1414 |     <div class="capsule__footer">
1415 | 
1416 |         <hr class="clear">
1417 | 
1418 | 
1419 | 
1420 |             <div class="text--small">
1421 |                     <span class="block fixpadv--xs">The article was first published on 11 Jun 2014</span><br>
1422 |                 <span><i><strong>Analyst</strong></i>, 2014,<span style='padding-right:2px'></span><strong>139</strong>, 4661-4672</span><br>
1423 |                 <span><a href="http://dx.doi.org/10.1039/C4AN00646A">http://dx.doi.org/10.1039/C4AN00646A</a></span>
1424 |             </div>
1425 | 
1426 |         <div class="capsule__action--buttons">
1427 |             
1428 | 
1429 | 
1430 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2014/an/c4an00646a?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;chemically modified flexible strips as electrochemical biosensors – c4an00646a - sercode=an&#39;]);">Download PDF</a>
1431 | <a class="btn btn--tiny" href="/en/content/articlehtml/2014/an/c4an00646a?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;chemically modified flexible strips as electrochemical biosensors – c4an00646a - sercode=an&#39;]);">Article HTML</a>
1432 |         </div>
1433 | 
1434 |     </div>
1435 | 
1436 | </div>
1437 | 
1438 | 
1439 | <div class="capsule capsule--article ">
1440 | 
1441 |     <a name="C2CS15335A" class="capsule__action"
1442 |        href="/en/content/articlelanding/2012/cs/c2cs15335a">
1443 | 
1444 |             <span class="capsule__context">
1445 |                                 Critical Review
1446 |             </span>
1447 | 
1448 |         <h3 class="capsule__title">
1449 |             Recent advances in large-scale <annref idrefs="ann6">assembly</annref> of semiconducting inorganic <annref idrefs="ann2">nanowires</annref> and nanofibers for electronics, sensors and photovoltaics
1450 |         </h3>
1451 | 
1452 |             <div class="article__authors article__author-link" aria-label="List of authors">
1453 |                 Yun-Ze Long, Miao Yu, Bin Sun, Chang-Zhi Gu and Zhiyong Fan
1454 |             </div>
1455 | 
1456 |             <div class="capsule__column-wrapper">
1457 |                 <div class="capsule__text">
1458 |                     <p>This article mainly summarizes recent advances in large-scale assembly of semiconducting inorganic nanowires and nanofibers for electronics, sensors and photovoltaics.</p>
1459 |                 </div>
1460 |                 <div class="capsule__article-image">
1461 |                     
1462 |                     <img alt="Graphical abstract: Recent advances in large-scale assembly of semiconducting inorganic nanowires and nanofibers for electronics, sensors and photovoltaics"
1463 |                          title="C2CS15335A"
1464 |                          src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/NewImages/LoadingBackGround.JPG"
1465 |                          data-original="/en/Image/Get?imageInfo.ImageType=GA&amp;imageInfo.ImageIdentifier.ManuscriptID=C2CS15335A" />
1466 |                 </div>
1467 |             </div>
1468 | 
1469 |     </a>
1470 | 
1471 | 
1472 |     <div class="capsule__footer">
1473 | 
1474 |         <hr class="clear">
1475 | 
1476 | 
1477 | 
1478 |             <div class="text--small">
1479 |                     <span class="block fixpadv--xs">The article was first published on 09 May 2012</span><br>
1480 |                 <span><i><strong>Chem. Soc. Rev.</strong></i>, 2012,<span style='padding-right:2px'></span><strong>41</strong>, 4560-4580</span><br>
1481 |                 <span><a href="http://dx.doi.org/10.1039/C2CS15335A">http://dx.doi.org/10.1039/C2CS15335A</a></span>
1482 |             </div>
1483 | 
1484 |         <div class="capsule__action--buttons">
1485 |             
1486 | 
1487 | 
1488 | <a class="btn btn--primary btn--tiny" href="/en/content/articlepdf/2012/cs/c2cs15335a?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;pdf&#39;, &#39;recent advances in large-scale assembly of semiconducting inorganic nanowires and nanofibers for electronics, sensors and photovoltaics – c2cs15335a - sercode=cs&#39;]);">Download PDF</a>
1489 | <a class="btn btn--tiny" href="/en/content/articlehtml/2012/cs/c2cs15335a?page=search" onClick="javascript: _gaq.push([&#39;_trackEvent&#39;, &#39;download&#39;, &#39;html&#39;, &#39;recent advances in large-scale assembly of semiconducting inorganic nanowires and nanofibers for electronics, sensors and photovoltaics – c2cs15335a - sercode=cs&#39;]);">Article HTML</a>
1490 |         </div>
1491 | 
1492 |     </div>
1493 | 
1494 | </div>    <div class="fixpadv--m">
1495 |         <div class="fixpadv--l pos--left">
1496 |             <strong>282607 items</strong>
1497 |                 <span class="paging--label"> - Showing page 1 of 11305</span>
1498 |         </div>
1499 | 
1500 |         <div class="paging-control paging--right">
1501 |             <div class="paging__item">
1502 |                 <a href="#" data-pageno="0" class="paging__btn paging__btn--prev paging__btn--disabled">
1503 |                     <img src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/Oxygen/images/icons/chevron-left-light.png" width="24" alt="Inactive - no previous page">
1504 |                 </a>
1505 |             </div>
1506 |             <div class="paging__item">
1507 |                 <a href="#" data-pageno="2" class="paging__btn paging__btn--next">
1508 |                     <img src="https://www.rsc-cdn.org/pubs-core/2018.0.549/content/Oxygen/images/icons/chevron-right-light.png" width="24" alt="Next page">
1509 |                 </a>
1510 |             </div>
1511 |         </div>
1512 | 
1513 |         <div class="clear"></div>
1514 | 
1515 |     </div>
1516 | 


--------------------------------------------------------------------------------
/download-citation/springer.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import requests
  4 | import random
  5 | from bs4 import BeautifulSoup
  6 | import time
  7 | 
  8 | download_time = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime())
  9 | 
 10 | 
 11 | def royal(article_urls):
 12 |     for article_url in article_urls:
 13 |         # try:
 14 |         html = requests.get(article_url, headers=headers, stream=True, timeout=20, verify=True)
 15 |         html.encoding = 'utf-8'
 16 |         text = html.text
 17 |         bsop = BeautifulSoup(text, 'html.parser')
 18 |         try:
 19 |             timeofissued = bsop.find('meta', {'name':'citation_cover_date'}).attrs['content'].split('/')[0]
 20 |         except:
 21 |             pass
 22 |         try:
 23 |             citation_title = bsop.find('meta', {'name':'citation_title'}).attrs['content']
 24 |         except:
 25 |             pass
 26 |         try:
 27 |             citation_journal_title = bsop.find('meta', {'name':'citation_journal_title'}).attrs['content']
 28 |         except:
 29 |             pass
 30 |         try:
 31 |             citation_journal_abbrev = bsop.find('meta', {'name':'citation_journal_abbrev'}).attrs['content']
 32 |         except:
 33 |             pass
 34 |         try:
 35 |             citation_volume = bsop.find('meta', {'name':'citation_volume'}).attrs['content']
 36 |         except:
 37 |             pass
 38 |         try:
 39 |             # citation_issue = bsop.find('meta', {'name':'citation_issue'}).attrs['content']
 40 |             citation_issue = bsop.find('span', {'id':'electronic-issn'}).text
 41 |         except:
 42 |             pass
 43 |         try:
 44 |             citation_firstpage = bsop.find('meta', {'name':'citation_firstpage'}).attrs['content']
 45 |         except:
 46 |             pass
 47 |         try:
 48 |             citation_lastpage = bsop.find('meta', {'name':'citation_lastpage'}).attrs['content']
 49 |         except:
 50 |             pass
 51 |         try:
 52 |             citation_doi = bsop.find('meta', {'name':'citation_doi'}).attrs['content']
 53 |         except:
 54 |             pass
 55 |         try:
 56 |             PB = bsop.find('meta', {'name':'citation_publisher'}).attrs['content']
 57 |         except:
 58 |             pass
 59 |         try:
 60 |             M3 = citation_doi
 61 |         except:
 62 |             pass
 63 |         try:
 64 |             citation_url = 'http://dx.doi.org/' + citation_doi
 65 |         except:
 66 |             pass
 67 |         try:
 68 |             # citation_abstract = bsop.find('p', {'id':'Par1'}).attrs['content'].strip()
 69 |             citation_abstract = bsop.find('p', {'id':'Par1'}).text
 70 |         except:
 71 |             pass
 72 |         try:
 73 |             # SN = bsop.find('div', {'class':'article-nav__issue autopad--h'}).find('a').attrs['href'].split('=')[-1]
 74 |             SN = bsop.find('span', {'id':'electronic-issn'}).text
 75 |         except:
 76 |             pass
 77 |         # except:
 78 |         #     print(article_url)
 79 |         #     continue
 80 | 
 81 |         with open(download_time + ".ris", 'a', encoding='utf-8') as f:
 82 |             f.write('TY  - JOUR\n')
 83 |             f.write('T1  - ' + citation_title + '\n')
 84 |             f.write('Y1  - ' + timeofissued + '\n')
 85 |             f.write('SP  - ' + citation_firstpage + '\n')
 86 |             f.write('EP  - ' + citation_lastpage + '\n')
 87 |             f.write('JF  - ' + citation_journal_title + '\n')
 88 |             f.write('JO  - ' + citation_journal_abbrev + '\n')
 89 |             f.write('VL  - ' + citation_volume + '\n')
 90 |             f.write('RS  - ' + citation_issue + '\n')
 91 |             f.write('PB  - ' + PB + '\n')
 92 |             f.write('SN  - ' + SN + '\n')
 93 |             f.write('DO  - ' + citation_doi + '\n')
 94 |             f.write('M3  - ' + M3 + '\n')
 95 |             f.write('UR  - ' + citation_url + '\n')
 96 |             print(citation_url)
 97 |             f.write('N2  - ' + citation_abstract + '\n')
 98 |             # print(citation_abstract)
 99 | 
100 |             authors = bsop.findAll('meta', {'name': 'citation_author'})
101 |             for author in authors:
102 |                 # print(author)
103 |                 author = author.attrs['content'].split(" ")
104 |                 # print(author)
105 |                 author = author[-1] + ', ' + ' '.join(author[:-1])
106 |                 f.write('A1  - ' + author + '\n')
107 |             f.write('ER  - ' + '\n\n\n')
108 |             f.close()
109 |         time.sleep(1)
110 | 
111 | 
112 | def crawl_article_url(nums):
113 |     article_urls = []
114 |     for num in range(1, nums+1):
115 | 
116 |         url = 'https://link.springer.com/search/page/' + str(num) + '?date-facet-mode=between&facet-start-year=2010&facet-language=%22En%22&query=printing%2C+AND+Cu+AND+pattern%2C+AND+film%2C+AND+flexible%2C+AND+plastic%2C+AND+substrate%2C+AND+copper&facet-end-year=2019&showAll=true&facet-content-type=%22Article%22'
117 | 
118 |         html = requests.get(url, headers=headers, stream=True, timeout=20, verify=True)
119 |         html.encoding = 'utf-8'
120 |         text = html.text
121 |         # print(text)
122 |         bsop = BeautifulSoup(text, 'html.parser')
123 |         divs = bsop.find('ol', {'id': 'results-list'}).findAll('li')
124 |         for i in divs:
125 |             # print(i)
126 |             article_url = 'https://link.springer.com' + i.find('h2').find('a').attrs['href']
127 |             print(article_url)
128 |             article_urls.append(article_url)
129 |         print("第" + str(num) + "页爬取完毕")
130 |         time.sleep(1)
131 |     return article_urls
132 | 
133 | 
134 | # 构造headers
135 | UserAgent_List = [
136 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
137 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
138 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
139 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
140 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
141 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
142 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
143 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
144 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
145 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
146 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
147 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
148 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
149 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
150 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
151 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
152 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
153 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
154 | ]
155 | headers = {'User-Agent': random.choice(UserAgent_List),
156 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
157 |            'Accept-Encoding': 'gzip',
158 |            }
159 | nums = 1  # 爬取的页数
160 | 
161 | article_urls = crawl_article_url(nums)
162 | royal(article_urls)


--------------------------------------------------------------------------------
/download_biao_qing_win.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | '''
  4 | 在以下环境测试通过：
  5 | python 2.7.15或者3.7.0
  6 | win10或者lubuntu
  7 | '''
  8 | 
  9 | # 导入模块
 10 | import time
 11 | import requests, re, random, os
 12 | from bs4 import BeautifulSoup
 13 | 
 14 | '''
 15 | 给定页数，爬取每页所有图片的url，通过此url可以打开图片所在的网页
 16 | 所有url存在一个列表中
 17 | '''
 18 | def scrapy_img_urls(nums):
 19 |     lss = []
 20 |     for num in range(1, nums+1):
 21 |         url = 'http://www.doutula.com/photo/list/?page=' + str(num)
 22 |         html = requests.get(url, headers=headers)
 23 |         html.encoding = 'utf-8'
 24 | 
 25 |         text = html.text
 26 |         bsop = BeautifulSoup(text, 'html.parser')
 27 |         ass = bsop.find('div', {'class': 'page-content'}).find('div').findAll('a')
 28 |         
 29 |         for a in ass:
 30 |             # print(a.attrs['href'])
 31 |             lss.append(a.attrs['href'])
 32 |         time.sleep(1)
 33 |     return lss
 34 | 
 35 | '''
 36 | 接收每个图片的url，打开此url，找到图片真实的地址，通过此地址可以下载图片
 37 | 找到图片真实的url和名字之后调用download_url函数可以下载图片
 38 | '''
 39 | def download_img_url(url):
 40 |     html = requests.get(url, headers=headers)
 41 |     html.encoding = 'utf-8'
 42 | 
 43 |     text = html.text
 44 |     bsop = BeautifulSoup(text, 'html.parser')
 45 |     img = bsop.find('div', {'class': 'col-xs-12 col-sm-12 artile_des'})
 46 |     img_url = img.find('img').attrs['src']
 47 |     img_title = img.find('img').attrs['alt']
 48 |     print(img_url + " " + img_title)
 49 | 
 50 |     download_img(img_url, img_title)
 51 | 
 52 | '''
 53 | 下载图片，该函数接收两个参数，一个是图片的真实地址，一个是图片的名字
 54 | 名字中如果有特殊字符则需要处理，不然windows下可能无法保存，处理名字调用format_name函数
 55 | 打开指定文件夹保存图片，如果没有则创建。
 56 | '''
 57 | def download_img(img_url, img_title):
 58 |     img_title = format_name(img_title)  # 如果图册名字有特殊字符需要处理。不然在windows下保存不了文件夹
 59 |     if not os.path.exists(file_path):
 60 |         os.makedirs(file_path)
 61 |     os.chdir(file_path)
 62 | 
 63 |     # 图片保存到本地
 64 |     exists = os.path.exists(img_title)
 65 |     if not exists:
 66 |         img_html = requests.get(img_url, headers=headers, stream=True, timeout=20, verify=True)
 67 |         img_html.encoding = 'utf-8'
 68 |         with open(img_title + ".gif", 'wb') as f:
 69 |             f.write(img_html.content)
 70 |             f.close()
 71 | 
 72 | 
 73 | def format_name(img_title):
 74 |     '''
 75 |     对名字进行处理，如果包含下属字符，则直接剔除该字符
 76 |     :param img_title:
 77 |     :return:
 78 |     '''
 79 |     for i in ['\\','/',':','*','?','"','<','>','!','|']:
 80 |         while i in img_title:
 81 |             img_title = img_title.strip().replace(i, '')
 82 |     return img_title
 83 | 
 84 | # 构造headers
 85 | UserAgent_List = [
 86 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
 87 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
 88 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
 89 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
 90 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
 91 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
 92 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
 93 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 94 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 95 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 96 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
 97 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
 98 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
 99 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
100 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
101 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
102 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
103 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
104 | ]
105 | headers = {'User-Agent': random.choice(UserAgent_List),
106 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
107 |            'Accept-Encoding': 'gzip',
108 |            }
109 | 
110 | nums=5
111 | # 图片存储路径，在linux系统下
112 | # file_path = '/home/zhangyb/downloadfiles/pythonpro/biaoqing'
113 | # 图片存储路径，在windows系统下
114 | 
115 | file_path = 'E:\downloadfiles\pythonpro\biaoqing'
116 | urls = scrapy_img_urls(nums)
117 | for i in urls:
118 |     print(i)
119 |     download_img_url(i)
120 | 
121 | 
122 | # download_img_url('http://www.doutula.com/photo/6437987')
123 | # download_img('https://ws1.sinaimg.cn/large/9150e4e5gy1fx94eo4pdwg203q02g0so.gif', u'好想打死你啊')


--------------------------------------------------------------------------------
/huaban.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | '''
  4 | python 2.7.12
  5 | '''
  6 | 
  7 | import requests
  8 | from parsel import Selector
  9 | import time
 10 | import re, random, os
 11 | 
 12 | 
 13 | def scraw_pin_ids():
 14 | 
 15 | 	pin_ids = []
 16 | 	pin_id = '1068018182'
 17 | 
 18 | 	flag = True
 19 | 	while flag:
 20 | 		try:
 21 | 			url = "http://huaban.com/favorite/beauty/"
 22 | 			headers1 = {
 23 | 			'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',
 24 | 			'Accept':'application/json',
 25 | 			'X-Request':'JSON',
 26 | 			'X-Requested-With':'XMLHttpRequest',
 27 | 			}
 28 | 
 29 | 			params = {
 30 | 				'j0l4lymf':'',
 31 | 				'max':pin_id,
 32 | 				'limit':'20',
 33 | 				'wfl':'1',
 34 | 			}
 35 | 
 36 | 			z1 = requests.get(url, params=params, headers=headers1)
 37 | 
 38 | 			if z1.json()['pins']:
 39 | 				for i in z1.json()['pins']:
 40 | 					pin_ids.append(i['pin_id'])
 41 | 					pin_id = pin_ids[-1]
 42 | 					print i['pin_id']
 43 | 					# with open("pin_ids.txt",'ab') as f:
 44 | 					# 	f.write(str(i['pin_id'])+"\n")
 45 | 					# 	f.close()
 46 | 					time.sleep(0.001)
 47 | 			else:
 48 | 				flag = False
 49 | 				return set(pin_ids)
 50 | 		except:
 51 | 			continue
 52 | 
 53 | def scraw_urls(pin_ids):
 54 | 
 55 | 	urls = []
 56 | 
 57 | 	urlss = ['http://huaban.com/pins/' + str(i) +'/' for i in pin_ids]
 58 | 	for url in urlss:
 59 | 		try:
 60 | 			headers = {
 61 | 			'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
 62 | 			}
 63 | 
 64 | 			z3 = requests.get(url, headers=headers)
 65 | 
 66 | 			text = z3.text
 67 | 
 68 | 			pattern = re.compile('"key":"(.*?)"', re.S)
 69 | 			items = re.findall(pattern, text)
 70 | 
 71 | 			urls.extend(items)
 72 | 			print items
 73 | 			print '============================================================================================================'
 74 | 		except:
 75 | 			continue
 76 | 	return set(urls)
 77 | 
 78 | def download(urls):
 79 | 	headers1 = {
 80 | 	'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
 81 | 	}
 82 | 	n = 1
 83 | 	urls = set(urls)
 84 | 	for url in urls:
 85 | 		try:
 86 | 			if not os.path.exists(os.path.join(file_path, "huaban")):
 87 | 				os.makedirs(os.path.join(file_path, "huaban"))
 88 | 			os.chdir(file_path + '\\' + "huaban")
 89 | 			try:
 90 | 				url = 'http://img.hb.aicdn.com/' + url
 91 | 				r = requests.get(url, headers=headers1)
 92 | 				if len(r.content)>40000:
 93 | 					with open(str(n)+".jpg", 'wb') as f:
 94 | 						f.write(r.content)
 95 | 						f.close()
 96 | 						print u"第" + str(n) + u"张图片下载成功"
 97 | 						n+=1
 98 | 						# time.sleep(3)
 99 | 			except:
100 | 				continue
101 | 		except:
102 | 			continue
103 | 
104 | # 图片存储路径
105 | file_path = 'E:\selfprogress\programming\project\pa1024\huabannnnnnn'
106 | pin_ids = scraw_pin_ids()
107 | urls = scraw_urls(pin_ids)
108 | download(urls)
109 | 


--------------------------------------------------------------------------------
/ip_pachong.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | '''
  4 | python 3.7.0
  5 | '''
  6 | 
  7 | # 导入模块
  8 | import time
  9 | import requests, re, random, os
 10 | from bs4 import BeautifulSoup
 11 | 
 12 | def ip_test(ip, url_for_test='https://www.baidu.com', set_timeout=10):
 13 |     '''
 14 |     检测爬取到的ip地址可否使用，能使用返回True，否则返回False，默认去访问百度测试代理
 15 |     :param ip:
 16 |     :param url_for_test:
 17 |     :param set_timeout:
 18 |     :return:
 19 |     '''
 20 |     try:
 21 |         r = requests.get(url_for_test, headers=headers, proxies={'http': ip[0]+':'+ip[1]}, timeout=set_timeout)
 22 |         if r.status_code == 200:
 23 |             return True
 24 |         else:
 25 |             return False
 26 |     except:
 27 |         return False
 28 | 
 29 | def scrawl_ip(url, num, url_for_test='https://www.baidu.com'):
 30 |     '''
 31 |     爬取代理ip地址，代理的url是西祠代理
 32 |     :param url:
 33 |     :param num:
 34 |     :param url_for_test:
 35 |     :return:
 36 |     '''
 37 |     ip_list = []
 38 |     for num_page in range(1, num+1):
 39 |         url = url + str(num_page)
 40 | 
 41 |         response = requests.get(url, headers=headers)
 42 |         response.encoding = 'utf-8'
 43 |         content = response.text
 44 | 
 45 |         pattern = re.compile('<td class="country">.*?alt="Cn" />.*?</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>', re.S)
 46 |         items = re.findall(pattern, content)
 47 |         for ip in items:
 48 |             if ip_test(ip[1], url_for_test):  # 测试爬取到ip是否可用，测试通过则加入ip_list列表之中
 49 |                 print('测试通过，IP地址为' + str(ip[0]) + ':' + str(ip[1]))
 50 |                 ip_list.append(ip[0]+':'+ip[1])
 51 |         return ip_list
 52 | 
 53 |     time.sleep(5)  # 等待5秒爬取下一页
 54 | 
 55 | def get_random_ip():    # 随机获取一个IP
 56 |     ind = random.randint(0, len(total_ip)-1)
 57 |     return total_ip[ind]
 58 | 
 59 | 
 60 | # 爬取代理的url地址，选择的是西祠代理
 61 | url_ip = "http://www.xicidaili.com/nt/"
 62 | 
 63 | # 设定等待时间
 64 | set_timeout = 10
 65 | 
 66 | # 爬取代理的页数，2表示爬取2页的ip地址
 67 | num = 2
 68 | 
 69 | # 代理的使用次数
 70 | count_time = 5
 71 | 
 72 | # 构造headers
 73 | UserAgent_List = [
 74 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
 75 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
 76 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
 77 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
 78 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
 79 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
 80 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
 81 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 82 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 83 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 84 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
 85 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
 86 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
 87 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
 88 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
 89 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
 90 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
 91 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
 92 | ]
 93 | 
 94 | headers = {'User-Agent': random.choice(UserAgent_List),
 95 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
 96 |            'Accept-Encoding': 'gzip',
 97 |            }
 98 | 
 99 | 
100 | # 爬取IP代理
101 | total_ip = scrawl_ip(url_ip, num)
102 | 
103 | 
104 | 
105 | 
106 | 
107 | 


--------------------------------------------------------------------------------
/login.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/login.py


--------------------------------------------------------------------------------
/login2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/login2.py


--------------------------------------------------------------------------------
/meizitu3.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | '''
  4 | python 3.5.2
  5 | '''
  6 | 
  7 | # 导入模块
  8 | import time
  9 | import requests, re, random, os
 10 | from bs4 import BeautifulSoup
 11 | 
 12 | def ip_test(ip, url_for_test='https://www.baidu.com', set_timeout=10):
 13 |     '''
 14 |     检测爬取到的ip地址可否使用，能使用返回True，否则返回False，默认去访问百度测试代理
 15 |     :param ip:
 16 |     :param url_for_test:
 17 |     :param set_timeout:
 18 |     :return:
 19 |     '''
 20 |     try:
 21 |         r = requests.get(url_for_test, headers=headers, proxies={'http': ip[0]+':'+ip[1]}, timeout=set_timeout)
 22 |         if r.status_code == 200:
 23 |             return True
 24 |         else:
 25 |             return False
 26 |     except:
 27 |         return False
 28 | 
 29 | def scrawl_ip(url, num, url_for_test='https://www.baidu.com'):
 30 |     '''
 31 |     爬取代理ip地址，代理的url是西祠代理
 32 |     :param url:
 33 |     :param num:
 34 |     :param url_for_test:
 35 |     :return:
 36 |     '''
 37 |     ip_list = []
 38 |     for num_page in range(1, num+1):
 39 |         url = url + str(num_page)
 40 | 
 41 |         response = requests.get(url, headers=headers)
 42 |         response.encoding = 'utf-8'
 43 |         content = response.text
 44 | 
 45 |         pattern = re.compile('<td class="country">.*?alt="Cn" />.*?</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>', re.S)
 46 |         items = re.findall(pattern, content)
 47 |         for ip in items:
 48 |             if ip_test(ip[1], url_for_test):  # 测试爬取到ip是否可用，测试通过则加入ip_list列表之中
 49 |                 print('测试通过，IP地址为' + str(ip[0]) + ':' + str(ip[1]))
 50 |                 ip_list.append(ip[0]+':'+ip[1])
 51 |         return ip_list
 52 | 
 53 |     time.sleep(5)  # 等待5秒爬取下一页
 54 | 
 55 | def get_random_ip():    # 随机获取一个IP
 56 |     ind = random.randint(0, len(total_ip)-1)
 57 |     return total_ip[ind]
 58 | 
 59 | def download_img(img_list, img_title):
 60 |     '''
 61 |     通过scrawl_url函数获得了单个图册里面所有图片的url列表和图册的名字，就可以下载图片了
 62 |     此函数的作用下载单个图册里面的所有图片
 63 |     接收参数img_list是单个图册里面所有图片的的url，
 64 |     如['http://mm.howkuai.com/wp-content/uploads/2017a/02/07/01.jpg',
 65 |     'http://mm.howkuai.com/wp-content/uploads/2017a/02/07/02.jpg',...]
 66 |     img_title是单个图册的名字，如’香车美女，最完美的黄金搭档‘
 67 |     :param img_list:
 68 |     :param img_title:
 69 |     :return:
 70 |     '''
 71 | 
 72 |     img_title = format_name(img_title) # 如果图册名字有特殊字符需要处理。不然在windows下保存不了文件夹
 73 |     for img_urls in img_list:
 74 |         img_url = img_urls.attrs['src'] # 单个图片的url地址
 75 |         print(img_url)
 76 |         title = img_urls.attrs['alt'] # 单个图片的名字
 77 |         print(title)
 78 | 
 79 |         try:
 80 |             if not os.path.exists(os.path.join(file_path, img_title)):
 81 |                 os.makedirs(os.path.join(file_path, img_title))
 82 |             os.chdir(file_path + '\\' + img_title)
 83 | 
 84 |             # 图片保存到本地
 85 |             exists = os.path.exists(img_title)
 86 |             if not exists:
 87 |                 try:
 88 |                     img_html = requests.get(img_url, headers=headers, stream=True, timeout=20, verify=True)
 89 |                     with open(title+".jpg", 'wb') as f:
 90 |                         f.write(img_html.content)
 91 |                         f.close()
 92 |                 except:
 93 |                     continue
 94 |         except:
 95 |             continue
 96 | 
 97 | def scrawl_list(url_list, proxy_flag=False, try_time=0):
 98 |     '''
 99 |     此函数的作用是爬取每一页面所有图册的url，一个页面包含10个图册，所有调用一次函数则返回一个包含10个url的列表
100 |     格式如['http://www.meizitu.com/a/list_1_1.html',...]
101 |     :param url_list:
102 |     :param proxy_flag:
103 |     :param try_time:
104 |     :return:
105 |     '''
106 |     if not proxy_flag:  # 不使用代理
107 |         try:
108 |             html = requests.get(url_list, headers=headers,  timeout=10)
109 |             html.encoding = 'gb2312'
110 |             text = html.text
111 | 
112 |             bsop = BeautifulSoup(text, 'html.parser')
113 | 
114 |             url_imgs = []
115 |             li_list = bsop.find('ul', {'class': 'wp-list clearfix'}).findAll('li', {'class':'wp-item'})
116 |             for i in li_list:
117 |                 url_img = i.find('h3',{'class':'tit'}).find('a').attrs['href']
118 |                 url_imgs.append(url_img)
119 |             return url_imgs
120 |         except:
121 |             return scrawl_list(url_list, proxy_flag=True)  # 否则调用自己，使用3次IP代理
122 |     else:   # 使用代理时
123 |         if try_time<count_time:
124 |             try:
125 |                 print('尝试第'+str(try_time+1)+'次使用代理下载')
126 |                 html = requests.get(url_list, headers=headers, proxies={'http': get_random_ip()}, timeout=10)
127 |                 html.encoding = 'gb2312'
128 |                 text = html.text
129 | 
130 |                 bsop = BeautifulSoup(text, 'html.parser')
131 | 
132 |                 url_imgs = []
133 |                 # url_titles = []
134 |                 li_list = bsop.find('ul', {'class': 'wp-list clearfix'}).findAll('li', {'class': 'wp-item'})
135 |                 for i in li_list:
136 |                     url_img = i.find('h3', {'class': 'tit'}).find('a').attrs['href']
137 |                     url_imgs.append(url_img)
138 |                 print('状态码为'+str(html.status_code))
139 |                 if html.status_code==200:
140 |                     print('url_imgs通过IP代理处理成功！')
141 |                     return url_imgs  # 代理成功下载！
142 |                 else:
143 |                     return scrawl_list(url_list, proxy_flag=True, try_time=(try_time + 1))
144 |             except:
145 |                 print('url_imgs代理下载失败，尝试下次代理')
146 |                 return scrawl_list(url_list, proxy_flag=True, try_time=(try_time+1))  # 否则调用自己，使用3次IP代理
147 |         else:
148 |             print('url_imgs爬取失败，请检查网页')
149 |             return None
150 | 
151 | def scrawl_url(url, proxy_flag=False, try_time=0):
152 |     '''
153 |     此函数的作用是爬取单个图册里面的所有图片的url，一个图册包含几张图片，每个图片有个真实的url地址，需要获取得到
154 |     此函数接收图册url作为参数，如'http://www.meizitu.com/a/5499.html',返回该图册里面所有图片的url列表和图册的名字
155 |     所有图片共用一个名字，可作为文件夹名字存储
156 |     :param url:
157 |     :param proxy_flag:
158 |     :param try_time:
159 |     :return:
160 |     '''
161 |     if not proxy_flag:  # 不使用代理
162 |         try:
163 |             html = requests.get(url, headers=headers,  timeout=10)
164 |             html.encoding = 'gb2312'
165 |             text = html.text
166 | 
167 |             bsop = BeautifulSoup(text, 'html.parser')
168 |             img_list = bsop.find('div', {'class': 'postContent'}).find('p').findAll('img')
169 |             img_title = bsop.find('div', {'class': 'metaRight'}).find('h2').find('a').text
170 | 
171 |             return img_list, img_title
172 | 
173 |         except:
174 |             return scrawl_url(url, proxy_flag=True)  # 否则调用自己，使用3次IP代理
175 |     else:   # 使用代理时
176 |         if try_time<count_time:
177 |             try:
178 |                 print('尝试第'+str(try_time+1)+'次使用代理下载')
179 | 
180 |                 html = requests.get(url, headers=headers, proxies={'http': get_random_ip()},timeout=30)
181 |                 html.encoding = 'gb2312'
182 | 
183 |                 text = html.text
184 |                 bsop = BeautifulSoup(text, 'html.parser')
185 |                 img_list = bsop.find('div', {'class': 'postContent'}).find('p').findAll('img')
186 |                 img_title = bsop.find('div', {'class': 'metaRight'}).find('h2').find('a').text
187 | 
188 |                 print('状态码为'+str(html.status_code))
189 |                 if html.status_code==200:
190 |                     print('图片通过IP代理处理成功！')
191 |                     return img_list, img_title  # 代理成功下载！
192 |                 else:
193 |                     return scrawl_url(url, proxy_flag=True, try_time=(try_time + 1))
194 |             except:
195 |                 print('IP代理下载失败')
196 |                 return scrawl_url(url, proxy_flag=True, try_time=(try_time+1))  # 否则调用自己，使用3次IP代理
197 |         else:
198 |             print('图片url列表未能爬取，请检查网页')
199 |             return None
200 | 
201 | def download_urls(pages):
202 |     '''
203 |      此函数的作用是爬取所有页面的url，最后返回的是包含所有页面url的二位列表，格式如下
204 |      url_imgss = [
205 |                   ['http://www.meizitu.com/a/list_1_1.html',...],
206 |                   ['http://www.meizitu.com/a/list_1_2.html',...],
207 |                   ...
208 |                  ]
209 |     '''
210 |     url_imgss = []
211 |     for i in range(1, pages+1):
212 |         try:
213 |             url_list = 'http://www.meizitu.com/a/list_1_' + str(i) + '.html'
214 |             url_imgs = scrawl_list(url_list)
215 |             if not url_imgs:
216 |                 continue
217 |             url_imgss.append(url_imgs)
218 |             print("第"+str(i)+"页url爬取成功")
219 |             time.sleep(5)   #休息5秒篇爬取下一页
220 |         except: # 如果其中某一页出错，则跳过该页，继续爬取下一页，从而不使程序中断
221 |             continue
222 |     return url_imgss
223 | 
224 | def format_name(img_title):
225 |     '''
226 |     对名字进行处理，如果包含下属字符，则直接剔除该字符
227 |     :param img_title:
228 |     :return:
229 |     '''
230 |     for i in ['\\','/',':','*','?','"','<','>','!','|']:
231 |         while i in img_title:
232 |             img_title = img_title.strip().replace(i, '')
233 |     return img_title
234 | 
235 | def get_total_pages(first_url):
236 |     '''
237 |     获取妹子图所有页面
238 |     :param first_url:
239 |     :return:
240 |     '''
241 |     html = requests.get(first_url, headers=headers, timeout=10)
242 |     html.encoding = 'gb2312'
243 |     text = html.text
244 |     bsop = BeautifulSoup(text, 'html.parser')
245 |     lis =bsop.find('div',{'id':'wp_page_numbers'}).find('ul').findAll('li')
246 |     pages = lis[-1].find('a').attrs['href'].split('.')[0].split('_')[-1]
247 |     pages = int(pages)
248 |     return pages
249 | 
250 | 
251 | # 妹子图的首页，用来获取总的页数
252 | first_url = 'http://www.meizitu.com/a/list_1_1.html'
253 | 
254 | # 爬取代理的url地址，选择的是西祠代理
255 | url_ip = "http://www.xicidaili.com/nt/"
256 | 
257 | # 设定等待时间
258 | set_timeout = 10
259 | 
260 | # 爬取代理的页数，2表示爬取2页的ip地址
261 | num = 2
262 | 
263 | # 代理的使用次数
264 | count_time = 5
265 | 
266 | # 构造headers
267 | UserAgent_List = [
268 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
269 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
270 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
271 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
272 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
273 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
274 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
275 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
276 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
277 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
278 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
279 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
280 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
281 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
282 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
283 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
284 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
285 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
286 | ]
287 | headers = {'User-Agent': random.choice(UserAgent_List),
288 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
289 |            'Accept-Encoding': 'gzip',
290 |            }
291 | 
292 | # 图片存储路径
293 | file_path = 'E:\selfprogress\programming\project\meizitu'
294 | 
295 | # 获取总页数
296 | pages = get_total_pages(first_url)
297 | 
298 | # 爬取IP代理
299 | total_ip = scrawl_ip(url_ip, num)
300 | 
301 | # 带爬取的url
302 | url_imgss = download_urls(pages)
303 | 
304 | for i in url_imgss:
305 |     for j in i:
306 |         try:
307 |             with open('url.txt','a') as f:
308 |                 f.write(j+"\n")
309 |                 f.close()
310 |                 print("写入url.txt文件成功")
311 |         except:
312 |             print("写入url.txt文件失败")
313 | 
314 | for url_imgs in url_imgss:
315 |     for url_img in url_imgs:
316 |         img_list, img_title = scrawl_url(url_img)
317 |         if not img_list:
318 |             continue
319 |         download_img(img_list, img_title)
320 | 
321 |         time.sleep(5)
322 | 
323 | 
324 | 
325 | 
326 | 
327 | 


--------------------------------------------------------------------------------
/meizitu_pro.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | # 导入模块
  4 | import time
  5 | import requests, re, random, os
  6 | from bs4 import BeautifulSoup
  7 | 
  8 | def ip_test(ip, url_for_test='https://www.baidu.com', set_timeout=30):
  9 |     try:
 10 |         r = requests.get(url_for_test, headers=headers, proxies={'http': ip[0]+':'+ip[1]}, timeout=set_timeout)
 11 |         if r.status_code == 200:
 12 |             return True
 13 |         else:
 14 |             return False
 15 |     except:
 16 |         return False
 17 | 
 18 | def scrawl_ip(url, num, url_for_test='https://www.baidu.com'):
 19 |     ip_list = []
 20 |     for num_page in range(1, num):
 21 |         url = url + str(num_page)
 22 | 
 23 |         response = requests.get(url, headers=headers)
 24 |         response.encoding = 'utf-8'
 25 |         content = response.text
 26 | 
 27 |         pattern = re.compile('<td class="country">.*?alt="Cn" />.*?</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>', re.S)
 28 |         items = re.findall(pattern, content)
 29 |         for ip in items:
 30 |             if ip_test(ip[1], url_for_test):  # 测试爬取到ip是否可用，测试通过则加入ip_list列表之中
 31 |                 print('测试通过，IP地址为' + str(ip[0]) + ':' + str(ip[1]))
 32 |                 ip_list.append(ip[0]+':'+ip[1])
 33 |         return ip_list
 34 | 
 35 |     time.sleep(10)  # 等待10秒爬取下一页
 36 | 
 37 | def get_random_ip():    # 随机获取一个IP
 38 |     ind = random.randint(0, len(total_ip)-1)
 39 |     # print(total_ip[ind])
 40 |     return total_ip[ind]
 41 | 
 42 | 
 43 | def download_img(img_list):
 44 |     img_title = img_list[0].attrs['alt']
 45 |     for img_url in img_list:
 46 |         img_url = img_url.attrs['src']
 47 |         title = img_url.split('/')[-1]
 48 | 
 49 |         if not os.path.exists(os.path.join(file_path, img_title)):
 50 |             os.makedirs(os.path.join(file_path, img_title))
 51 |         os.chdir(file_path + '\\' + img_title)
 52 | 
 53 |         # 图片保存到本地
 54 |         exists = os.path.exists( title)
 55 |         if not exists:
 56 |             img_html = requests.get(img_url, headers=headers, stream=True, timeout=30, verify=True)
 57 |             with open(title, 'wb') as f:
 58 |                 f.write(img_html.content)
 59 |                 f.close()
 60 | 
 61 | def scrawl_url(url, proxy_flag=False, try_time=0):
 62 |     if not proxy_flag:  # 不使用代理
 63 |         try:
 64 |             html = requests.get(url, headers=headers,  timeout=30)
 65 |             html.encoding = 'gb2312'
 66 | 
 67 |             text = html.text
 68 |             code = html.status_code
 69 |             print(code)
 70 |             bsop = BeautifulSoup(text, 'html.parser')
 71 |             img_list = bsop.find('div', {'class': 'postContent'}).find('p').findAll('img')
 72 | 
 73 |             return img_list
 74 | 
 75 |         except:
 76 |             return scrawl_url(url, proxy_flag=True)  # 否则调用自己，使用3次IP代理
 77 |     else:   # 使用代理时
 78 |         if try_time<count_time:
 79 |             try:
 80 |                 print('尝试第'+str(try_time+1)+'次使用代理下载')
 81 |                 # IP_address=get_random_IP()[0]
 82 |                 html = requests.get(url, headers=headers, proxies={'http': get_random_ip()},timeout=30)
 83 |                 html.encoding = 'gb2312'
 84 | 
 85 |                 text = html.text
 86 |                 code = html.status_code
 87 |                 print(code)
 88 |                 bsop = BeautifulSoup(text, 'html.parser')
 89 |                 img_list = bsop.find('div', {'class': 'postContent'}).find('p').findAll('img')
 90 | 
 91 |                 print('状态码为'+str(html.status_code))
 92 |                 if html.status_code==200:
 93 |                     print('图片通过IP代理处理成功！')
 94 |                     return img_list  # 代理成功下载！
 95 |                 else:
 96 |                     return scrawl_url(url, proxy_flag=True, try_time=(try_time + 1))
 97 |             except:
 98 |                 print('IP代理下载失败')
 99 |                 return scrawl_url(url, proxy_flag=True, try_time=(try_time+1))  # 否则调用自己，使用3次IP代理
100 |         else:
101 |             print('图片未能下载')
102 |             return None
103 | 
104 | def scrawl_title(img_list):
105 |     img_title = img_list[0].attrs['alt']
106 |     return img_title
107 | 
108 | # 爬取代理的url
109 | url_ip = "http://www.xicidaili.com/nt/"
110 | 
111 | # 设定等待时间
112 | set_timeout = 30
113 | 
114 | # 爬取代理的页数，2表示爬取2页的ip地址
115 | num = 3
116 | 
117 | count_time = 5
118 | 
119 | # 构造headers
120 | UserAgent_List = [
121 | 	"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
122 | 	"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
123 | 	"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
124 | 	"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
125 | 	"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
126 | 	"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
127 | 	"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
128 | 	"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
129 | 	"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
130 | 	"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
131 | 	"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
132 | 	"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
133 | 	"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
134 | 	"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
135 | 	"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
136 | 	"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
137 | 	"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
138 | 	"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
139 | ]
140 | headers = {'User-Agent':random.choice(UserAgent_List),
141 |             'Accept':"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
142 |             'Accept-Encoding':'gzip',
143 |           }
144 | 
145 | file_path='E:\selfprogress\programming\project\pa1024\meizitu'  # 存储的地址
146 | 
147 | # 带爬取的url
148 | for i in range(10,20):
149 |     url = 'http://www.meizitu.com/a/' + str(i) + '.html'
150 | 
151 |     total_ip = scrawl_ip(url_ip, num)
152 |     img_list = scrawl_url(url)
153 | 
154 |     download_img(img_list)
155 | 
156 |     time.sleep(10)
157 | 
158 | 
159 | 
160 | 
161 | 
162 | 


--------------------------------------------------------------------------------
/meizitu_pro2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/meizitu_pro2.py


--------------------------------------------------------------------------------
/my_blog/article/templatetags/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/my_blog/article/templatetags/__init__.py


--------------------------------------------------------------------------------
/my_blog/article/templatetags/custom_markdown.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/my_blog/article/templatetags/custom_markdown.py


--------------------------------------------------------------------------------
/my_blog/templates/aboutme.html:
--------------------------------------------------------------------------------
 1 | <!DOCTYPE html>
 2 | <html lang="en">
 3 | <head>
 4 |     <meta charset="UTF-8">
 5 |     <title>$Title$</title>
 6 | </head>
 7 | <body>
 8 | $END$
 9 | </body>
10 | </html>


--------------------------------------------------------------------------------
/my_blog/templates/archives.html:
--------------------------------------------------------------------------------
 1 | {% extends "base.html" %}
 2 | 
 3 | {% block content %}
 4 | <div class="posts">
 5 |     {% for post in post_list %}
 6 |         <section class="post">
 7 |             <header class="post-header">
 8 |                 <h2 class="post-title"><a href="{% url "detail" id=post.id %}">{{ post.title }}</a></h2>
 9 | 
10 |                     <p class="post-meta">
11 |                         Time:  <a class="post-author" href="#">{{ post.date_time |date:"Y /m /d"}}</a> <a class="post-category post-category-js" href="#">{{ post.category }}</a>
12 |                     </p>
13 |             </header>
14 |         </section>
15 |     {% endfor %}
16 | </div><!-- /.blog-post -->
17 | {% endblock %}


--------------------------------------------------------------------------------
/my_blog/templates/base.html:
--------------------------------------------------------------------------------
 1 | <!DOCTYPE html>
 2 | <html lang="en">
 3 | <head>
 4 |     <meta charset="UTF-8">
 5 |     <title>$Title$</title>
 6 | </head>
 7 | <body>
 8 | $END$
 9 | </body>
10 | </html>


--------------------------------------------------------------------------------
/my_blog/templates/home.html:
--------------------------------------------------------------------------------
 1 | <!DOCTYPE html>
 2 | <html lang="en">
 3 | <head>
 4 |     <meta charset="UTF-8">
 5 |     <title>$Title$</title>
 6 | </head>
 7 | <body>
 8 | $END$
 9 | </body>
10 | </html>


--------------------------------------------------------------------------------
/my_blog/templates/post.html:
--------------------------------------------------------------------------------
 1 | <!DOCTYPE html>
 2 | <html lang="en">
 3 | <head>
 4 |     <meta charset="UTF-8">
 5 |     <title>$Title$</title>
 6 | </head>
 7 | <body>
 8 | $END$
 9 | </body>
10 | </html>


--------------------------------------------------------------------------------
/my_blog/templates/tag.html:
--------------------------------------------------------------------------------
 1 | <!DOCTYPE html>
 2 | <html lang="en">
 3 | <head>
 4 |     <meta charset="UTF-8">
 5 |     <title>$Title$</title>
 6 | </head>
 7 | <body>
 8 | $END$
 9 | </body>
10 | </html>


--------------------------------------------------------------------------------
/my_blog/templates/test.html:
--------------------------------------------------------------------------------
 1 | <!DOCTYPE html>
 2 | <html lang="en">
 3 | <head>
 4 |     <meta charset="UTF-8">
 5 |     <title>$Title$</title>
 6 | </head>
 7 | <body>
 8 | $END$
 9 | </body>
10 | </html>


--------------------------------------------------------------------------------
/paqubiaoqing.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | '''
  4 | 在以下环境测试通过：
  5 | python 2.7.15或者3.7.0
  6 | win10或者lubuntu
  7 | '''
  8 | 
  9 | # 导入模块
 10 | import time
 11 | import requests, re, random, os
 12 | from bs4 import BeautifulSoup
 13 | 
 14 | '''
 15 | 给定页数，爬取每页所有图片的url，通过此url可以打开图片所在的网页
 16 | 所有url存在一个列表中
 17 | '''
 18 | def scrapy_img_urls(nums):
 19 |     lss = []
 20 |     for num in range(1, nums+1):
 21 |         url = 'http://www.doutula.com/photo/list/?page=' + str(num)
 22 |         html = requests.get(url, headers=headers)
 23 |         html.encoding = 'utf-8'
 24 | 
 25 |         text = html.text
 26 |         bsop = BeautifulSoup(text, 'html.parser')
 27 |         ass = bsop.find('div', {'class': 'page-content'}).find('div').findAll('a')
 28 |         
 29 |         for a in ass:
 30 |             # print(a.attrs['href'])
 31 |             lss.append(a.attrs['href'])
 32 |         time.sleep(1)
 33 |     return lss
 34 | 
 35 | '''
 36 | 接收每个图片的url，打开此url，找到图片真实的地址，通过此地址可以下载图片
 37 | 找到图片真实的url和名字之后调用download_url函数可以下载图片
 38 | '''
 39 | def download_img_url(url):
 40 |     html = requests.get(url, headers=headers)
 41 |     html.encoding = 'utf-8'
 42 | 
 43 |     text = html.text
 44 |     bsop = BeautifulSoup(text, 'html.parser')
 45 |     img = bsop.find('div', {'class': 'col-xs-12 col-sm-12 artile_des'})
 46 |     img_url = img.find('img').attrs['src']
 47 |     img_title = img.find('img').attrs['alt']
 48 |     print(img_url + " " + img_title)
 49 | 
 50 |     download_img(img_url, img_title)
 51 | 
 52 | '''
 53 | 下载图片，该函数接收两个参数，一个是图片的真实地址，一个是图片的名字
 54 | 名字中如果有特殊字符则需要处理，不然windows下可能无法保存，处理名字调用format_name函数
 55 | 打开指定文件夹保存图片，如果没有则创建。
 56 | '''
 57 | def download_img(img_url, img_title):
 58 |     img_title = format_name(img_title)  # 如果图册名字有特殊字符需要处理。不然在windows下保存不了文件夹
 59 |     if not os.path.exists(file_path):
 60 |         os.makedirs(file_path)
 61 |     os.chdir(file_path)
 62 | 
 63 |     # 图片保存到本地
 64 |     exists = os.path.exists(img_title)
 65 |     if not exists:
 66 |         img_html = requests.get(img_url, headers=headers, stream=True, timeout=20, verify=True)
 67 |         img_html.encoding = 'utf-8'
 68 |         with open(img_title + ".gif", 'wb') as f:
 69 |             f.write(img_html.content)
 70 |             f.close()
 71 | 
 72 | 
 73 | def format_name(img_title):
 74 |     '''
 75 |     对名字进行处理，如果包含下属字符，则直接剔除该字符
 76 |     :param img_title:
 77 |     :return:
 78 |     '''
 79 |     for i in ['\\','/',':','*','?','"','<','>','!','|']:
 80 |         while i in img_title:
 81 |             img_title = img_title.strip().replace(i, '')
 82 |     return img_title
 83 | 
 84 | # 构造headers
 85 | UserAgent_List = [
 86 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
 87 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
 88 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
 89 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
 90 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
 91 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
 92 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
 93 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 94 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 95 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
 96 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
 97 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
 98 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
 99 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
100 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
101 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
102 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
103 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
104 | ]
105 | headers = {'User-Agent': random.choice(UserAgent_List),
106 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
107 |            'Accept-Encoding': 'gzip',
108 |            }
109 | 
110 | nums=5
111 | # 图片存储路径，在linux系统下
112 | file_path = '/home/zhangyb/downloadfiles/pythonpro/biaoqing'
113 | # 图片存储路径，在windows系统下
114 | # file_path = 'E:\downloadfiles\pythonpro\biaoqing'
115 | urls = scrapy_img_urls(nums)
116 | for i in urls:
117 |     print(i)
118 |     download_img_url(i)
119 | 
120 | 
121 | # download_img_url('http://www.doutula.com/photo/6437987')
122 | # download_img('https://ws1.sinaimg.cn/large/9150e4e5gy1fx94eo4pdwg203q02g0so.gif', u'好想打死你啊')


--------------------------------------------------------------------------------
/porn/down_video.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/porn/down_video.py


--------------------------------------------------------------------------------
/porn/test1.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/porn/test1.py


--------------------------------------------------------------------------------
/requests1.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | import requests
 3 | from bs4 import BeautifulSoup
 4 | 
 5 | 
 6 | url = 'http://tieba.baidu.com/p/4468445702'
 7 | html = requests.get(url)
 8 | html.encoding = 'utf-8'
 9 | 
10 | text = html.text
11 | bsop = BeautifulSoup(text,'html.parser')
12 | img_list = bsop.find('div',{'id':'post_content_87286618651'}).findAll('img')
13 | img_src = img_list[0].attrs['src']
14 | 
15 | print(img_src)
16 | img = requests.get(img_src)
17 | with open('a.jpg', 'ab') as f:
18 |     f.write(img.content)
19 |     f.close()
20 | 
21 | 
22 | # content = html.content
23 | # print(text)
24 | # print(content)


--------------------------------------------------------------------------------
/requests2.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | import requests
 3 | from bs4 import BeautifulSoup
 4 | 
 5 | 
 6 | url = 'http://tieba.baidu.com/p/4468445702'
 7 | html = requests.get(url)
 8 | html.encoding = 'utf-8'
 9 | 
10 | text = html.text
11 | bsop = BeautifulSoup(text,'html.parser')
12 | img_list = bsop.find('div',{'id':'post_content_87286618651'}).findAll('img')
13 | img_src = img_list[0].attrs['src']
14 | 
15 | print(img_src)
16 | img = requests.get(img_src)
17 | with open('a.jpg', 'ab') as f:
18 |     f.write(img.content)
19 |     f.close()
20 | 
21 | 
22 | # content = html.content
23 | # print(text)
24 | # print(content)


--------------------------------------------------------------------------------
/requests3.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/requests3.py


--------------------------------------------------------------------------------
/scraping_ajax.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/scraping_ajax.py


--------------------------------------------------------------------------------
/selenium/test1.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/selenium/test1.py


--------------------------------------------------------------------------------
/selenium/test2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/selenium/test2.py


--------------------------------------------------------------------------------
/selenium/test3.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/selenium/test3.py


--------------------------------------------------------------------------------
/selenium/test4.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/selenium/test4.py


--------------------------------------------------------------------------------
/some/aj.py:
--------------------------------------------------------------------------------
 1 | # -*- coding:utf-8 -*_
 2 | 
 3 | import requests
 4 | import json
 5 | 
 6 | headers = {
 7 |     'Accept': 'application/json',
 8 |     'Accept-Encoding': 'gzip, deflate, br',
 9 |     'Accept-Language': 'zh-CN,zh;q=0.9',
10 |     'Connection': 'keep-alive',
11 |     'Content-Length': '1919',
12 |     'Content-Type': 'application/json',
13 |     'Cookie': 'bid=FvGxnjrHNYI; gr_user_id=c211a350-d924-429f-9028-afd61661913f; _vwo_uuid_v2=DD2B02C913FD5A4D2EFE19BBBB71F1473|8e6abeedccfd8ccd3b590f121d180376; __utmc=30149280; __utmz=30149280.1545471350.6.6.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); viewed="10756112_5273955_1088168_27069345_26601155_10590856"; _ga=GA1.3.497061328.1543886034; ap_v=0,6.0; __utma=30149280.497061328.1543886034.1545471350.1545887406.7; _gid=GA1.3.452249281.1545887527; _pk_ref.100001.a7dd=%5B%22%22%2C%22%22%2C1545887527%2C%22https%3A%2F%2Fwww.jianshu.com%2Fp%2Fb29375404479%22%5D; _pk_ses.100001.a7dd=*; _pk_id.100001.a7dd=ee586b77c5c08a27.1545487781.2.1545889502.1545488713.',
14 |     'DNT': '1',
15 |     'Host': 'read.douban.com',
16 |     'Origin': 'https://read.douban.com',
17 |     'Referer': 'https://read.douban.com/category/?kind=114',
18 |     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
19 |     'X-CSRF-Token': 'null',
20 | }
21 | 
22 | data = {"sort":"hot","page":1,"kind":114,"query":"\n    query getFilterWorksList($works_ids: [ID!], $user_id: ID) {\n      worksList(worksIds: $works_ids) {\n        \n    \n    title\n    cover\n    url\n    isBundle\n  \n    \n    url\n    title\n  \n    \n    author {\n      name\n      url\n    }\n    origAuthor {\n      name\n      url\n    }\n    translator {\n      name\n      url\n    }\n  \n    \n    abstract\n    editorHighlight\n  \n    \n    isOrigin\n    kinds {\n      \n    name @skip(if: true)\n    shortName @include(if: true)\n    id\n  \n    }\n    ... on WorksBase @include(if: true) {\n      wordCount\n      wordCountUnit\n    }\n    ... on WorksBase @include(if: true) {\n      \n    isEssay\n    \n    ... on EssayWorks {\n      favorCount\n    }\n  \n    \n    isNew\n    \n    averageRating\n    ratingCount\n    url\n  \n  \n  \n    }\n    ... on WorksBase @include(if: false) {\n      isColumn\n      isEssay\n      onSaleTime\n      ... on ColumnWorks {\n        updateTime\n      }\n    }\n    ... on WorksBase @include(if: true) {\n      isColumn\n      ... on ColumnWorks {\n        isFinished\n      }\n    }\n    ... on EssayWorks {\n      essayActivityData {\n        \n    title\n    uri\n    tag {\n      name\n      color\n      background\n      icon2x\n      icon3x\n      iconSize {\n        height\n      }\n      iconPosition {\n        x y\n      }\n    }\n  \n      }\n    }\n    highlightTags {\n      name\n    }\n  \n    ... on WorksBase @include(if: false) {\n      \n    fixedPrice\n    salesPrice\n    isRebate\n  \n    }\n    ... on EbookWorks {\n      \n    fixedPrice\n    salesPrice\n    isRebate\n  \n    }\n    ... on WorksBase @include(if: true) {\n      ... on EbookWorks {\n        id\n        isPurchased(userId: $user_id)\n        isInWishlist(userId: $user_id)\n      }\n    }\n  \n        id\n        isOrigin\n      }\n    }\n  ","variables":{"user_id":""}}
23 | 
24 | url = 'https://read.douban.com/j/kind/'
25 | 
26 | r = requests.post(url, headers=headers, data=json.dumps(data))
27 | text = r.text
28 | text = json.loads(text)
29 | total = text["total"]
30 | lists = text["list"]
31 | for i in lists:
32 |     title = i.['title']
33 |     cover = i.['cover']
34 |     book_url = 'https://read.douban.com' + i.['book_url']
35 |     book_url = 'https://read.douban.com' + i.['book_url']
36 | # print(total)
37 | # print(lists)
38 | 


--------------------------------------------------------------------------------
/some/pa.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | '''
  4 | 在以下环境测试通过：
  5 | python 2.7.15或者3.7.0
  6 | win10或者lubuntu
  7 | '''
  8 | 
  9 | # 导入模块
 10 | import time
 11 | import requests, re, random, os
 12 | from bs4 import BeautifulSoup
 13 | from requests import Session
 14 | 
 15 | session = Session()
 16 | 
 17 | 
 18 | '''
 19 | 给定页数，爬取每页所有图片的url，通过此url可以打开图片所在的网页
 20 | 所有url存在一个列表中
 21 | '''
 22 | 
 23 | 
 24 | def scrapy_img_urls(nums):
 25 |     lss = []
 26 |     for num in range(1, nums + 1):
 27 |         url = 'http://www.doutula.com/photo/list/?page=' + str(num)
 28 |         html = requests.get(url, headers=headers)
 29 |         html.encoding = 'utf-8'
 30 | 
 31 |         text = html.text
 32 |         bsop = BeautifulSoup(text, 'html.parser')
 33 |         ass = bsop.find('div', {'class': 'page-content'}).find('div').findAll('a')
 34 | 
 35 |         for a in ass:
 36 |             # print(a.attrs['href'])
 37 |             lss.append(a.attrs['href'])
 38 |         time.sleep(1)
 39 |     return lss
 40 | 
 41 | 
 42 | '''
 43 | 接收每个图片的url，打开此url，找到图片真实的地址，通过此地址可以下载图片
 44 | 找到图片真实的url和名字之后调用download_url函数可以下载图片
 45 | '''
 46 | 
 47 | 
 48 | def download_img_url(url):
 49 |     html = requests.get(url, headers=headers)
 50 |     html.encoding = 'utf-8'
 51 | 
 52 |     text = html.text
 53 |     bsop = BeautifulSoup(text, 'html.parser')
 54 |     img = bsop.find('div', {'class': 'col-xs-12 col-sm-12 artile_des'})
 55 |     img_url = img.find('img').attrs['src']
 56 |     img_title = img.find('img').attrs['alt']
 57 |     print(img_url + " " + img_title)
 58 | 
 59 |     download_img(img_url, img_title)
 60 | 
 61 | 
 62 | '''
 63 | 下载图片，该函数接收两个参数，一个是图片的真实地址，一个是图片的名字
 64 | 名字中如果有特殊字符则需要处理，不然windows下可能无法保存，处理名字调用format_name函数
 65 | 打开指定文件夹保存图片，如果没有则创建。
 66 | '''
 67 | 
 68 | 
 69 | def download_img(img_url, img_title):
 70 |     img_title = format_name(img_title)  # 如果图册名字有特殊字符需要处理。不然在windows下保存不了文件夹
 71 |     if not os.path.exists(file_path):
 72 |         os.makedirs(file_path)
 73 |     os.chdir(file_path)
 74 | 
 75 |     # 图片保存到本地
 76 |     exists = os.path.exists(img_title)
 77 |     if not exists:
 78 |         img_html = requests.get(img_url, headers=headers, stream=True, timeout=20, verify=True)
 79 |         img_html.encoding = 'utf-8'
 80 |         with open(img_title + ".gif", 'wb') as f:
 81 |             f.write(img_html.content)
 82 |             f.close()
 83 | 
 84 | 
 85 | def format_name(img_title):
 86 |     '''
 87 |     对名字进行处理，如果包含下属字符，则直接剔除该字符
 88 |     :param img_title:
 89 |     :return:
 90 |     '''
 91 |     for i in ['\\', '/', ':', '*', '?', '"', '<', '>', '!', '|']:
 92 |         while i in img_title:
 93 |             img_title = img_title.strip().replace(i, '')
 94 |     return img_title
 95 | 
 96 | 
 97 | def royal(url):
 98 |     html = requests.get(url, headers=headers, stream=True, timeout=20, verify=True)
 99 |     html.encoding = 'utf-8'
100 |     text = html.text
101 |     bsop = BeautifulSoup(text, 'html.parser')
102 |     timeofissued = bsop.find('meta', {'name':'DC.issued'}).attrs['content'].split('/')[0]
103 |     citation_title = bsop.find('meta', {'name':'citation_title'}).attrs['content']
104 |     citation_journal_title = bsop.find('meta', {'name':'citation_journal_title'}).attrs['content']
105 |     citation_journal_abbrev = bsop.find('meta', {'name':'citation_journal_abbrev'}).attrs['content']
106 |     citation_volume = bsop.find('meta', {'name':'citation_volume'}).attrs['content']
107 |     citation_issue = bsop.find('meta', {'name':'citation_issue'}).attrs['content']
108 |     citation_firstpage = bsop.find('meta', {'name':'citation_firstpage'}).attrs['content']
109 |     citation_lastpage = bsop.find('meta', {'name':'citation_lastpage'}).attrs['content']
110 |     citation_doi = bsop.find('meta', {'name':'citation_doi'}).attrs['content']
111 |     PB = bsop.find('meta', {'name':'DC.publisher'}).attrs['content']
112 |     M3 = citation_doi
113 |     citation_url = 'http://dx.doi.org/' + citation_doi
114 |     citation_abstract = bsop.find('meta', {'name':'citation_abstract'}).attrs['content'].strip()
115 |     SN = bsop.find('div', {'class':'article-nav__issue autopad--h'}).find('a').attrs['href'].split('=')[-1]
116 | 
117 |     with open(citation_title + ".ris", 'w') as f:
118 |         f.write('TY  - JOUR\n')
119 |         f.write('T1  - ' + citation_title + '\n')
120 |         f.write('Y1  - ' + timeofissued + '\n')
121 |         f.write('SP  - ' + citation_firstpage + '\n')
122 |         f.write('EP  - ' + citation_lastpage + '\n')
123 |         f.write('JF  - ' + citation_journal_title + '\n')
124 |         f.write('JO  - ' + citation_journal_abbrev + '\n')
125 |         f.write('VL  - ' + citation_volume + '\n')
126 |         f.write('RS  - ' + citation_issue + '\n')
127 |         f.write('PB  - ' + PB + '\n')
128 |         f.write('SN  - ' + SN + '\n')
129 |         f.write('DO  - ' + citation_doi + '\n')
130 |         f.write('M3  - ' + M3 + '\n')
131 |         f.write('UR  - ' + citation_url + '\n')
132 |         print(citation_url)
133 |         f.write('N2  - ' + citation_abstract + '\n')
134 |         print(citation_abstract)
135 | 
136 |         authors = bsop.findAll('span', {'class': 'article__author-link'})
137 |         for author in authors:
138 |             author = author.find('a').text.split(' ')
139 |             author = author[-1] + ', ' + ' '.join(author[:-1])
140 |             f.write('A1  - ' + author + '\n')
141 |         f.write('ER  - ' + '\n')
142 |         f.close()
143 | 
144 |     # authors = bsop.findAll('span', {'class':'article__author-link'})
145 |     # for author in authors:
146 |     #     author = author.find('a').text.split(' ')
147 |     #     author = author[-1] + ', ' + ' '.join(author[:-1])
148 |     #     with open(author + ".ris", 'w') as f:
149 |     #         f.write('TY  - JOUR')
150 |     #         f.write('T1  - ' + citation_title)
151 |     #         f.write('T1  - ' + authors)
152 |     #         f.close()
153 | 
154 |     #     print(author)
155 |     # print(timeofissued)
156 | 
157 | 
158 | 
159 | 
160 | 
161 |     # print(authors)
162 |     # with open("ro.ris", 'wb') as f:
163 |     #     f.write(html.content)
164 |     #     f.close()
165 | 
166 | 
167 | def scawurls(url):
168 | 
169 |     headers1 = {
170 |         'Accept':'text/html, */*; q=0.01',
171 |         'Connection': 'keep-alive',
172 |         'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
173 |         'DNT':'1',
174 |         'Host':'pubs.rsc.org',
175 |         'Origin':'https://pubs.rsc.org',
176 |         'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',
177 |         'X-NewRelic-ID':'VQYFWF9aDBABV1laBgcFUw ==',
178 |         'X-Requested-With':'XMLHttpRequest'
179 |     }
180 | 
181 |     data = {
182 |         'searchterm': 'AAEAAAD/////AQAAAAAAAAAMAgAAAGNSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGwFAQAAADlSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLlNlYXJjaFRlcm0OAAAAGTxDYXRlZ29yeT5rX19CYWNraW5nRmllbGQcPFN1YkNhdGVnb3J5PmtfX0JhY2tpbmdGaWVsZBw8Q29udGVudFR5cGU + a19fQmFja2luZ0ZpZWxkGjxDcml0ZXJpYXM + a19fQmFja2luZ0ZpZWxkFzxGYWNldHM + a19fQmFja2luZ0ZpZWxkHDxSZXF1ZXN0VGltZT5rX19CYWNraW5nRmllbGQfPEF1dGhvckNyaXRlcmlhPmtfX0JhY2tpbmdGaWVsZCA8UHVibGljYXRpb25EYXRlPmtfX0JhY2tpbmdGaWVsZBk8RXhjbHVkZXM + a19fQmFja2luZ0ZpZWxkFzxTb3VyY2U + a19fQmFja2luZ0ZpZWxkHzxPdXRwdXRTdGFuZGFyZD5rX19CYWNraW5nRmllbGQePFJlc3VsdHNGb3JtYXQ + a19fQmFja2luZ0ZpZWxkHjxEaXNwbGF5Q291bnRzPmtfX0JhY2tpbmdGaWVsZCA8UHJvZHVjdFBhZ2VTaXplPmtfX0JhY2tpbmdGaWVsZAEBAQMDAAQEAwEBAQEBwgFTeXN0ZW0uQ29sbGVjdGlvbnMuR2VuZXJpYy5MaXN0YDFbW1JTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXcIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0NPVJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guQXV0aG9yQ3JpdGVyaWECAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlAgAAAMIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0CAAAABgMAAAADQWxsCgYEAAAAA0FsbAkFAAAACQYAAAAAAAAAAAAAAAkHAAAACQgAAAAJCQAAAAoKCgoKBAUAAADCAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWUsIFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cywgVmVyc2lvbj0yMDE4LjAuNTQ5LjAsIEN1bHR1cmU9bmV1dHJhbCwgUHVibGljS2V5VG9rZW49bnVsbF1dAwAAAAZfaXRlbXMFX3NpemUIX3ZlcnNpb24EAAA6UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWVbXQIAAAAICAkKAAAABAAAAAQAAAABBgAAAAUAAAAJCwAAAAAAAAAAAAAABQcAAAA9UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JDcml0ZXJpYQIAAAAgPEJvb2xlYW5PcGVyYXRvcj5rX19CYWNraW5nRmllbGQYPEF1dGhvcnM + a19fQmFja2luZ0ZpZWxkAQPDAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JJbmZvLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXQIAAAAKCgUIAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlBQAAAB88SXNTZWxlY3RlZERhdGU + a19fQmFja2luZ0ZpZWxkGTxEYXRlVHlwZT5rX19CYWNraW5nRmllbGQbPFdpdGhJbkxhc3Q + a19fQmFja2luZ0ZpZWxkGjxEYXRlUmFuZ2U + a19fQmFja2luZ0ZpZWxkHDxEaXNwbGF5RGF0ZT5rX19CYWNraW5nRmllbGQAAQQEAQE5UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5XaXRoSW5MYXN0AgAAADhSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLkRhdGVSYW5nZQIAAAACAAAAAAoKCgoBCQAAAAUAAAAJCwAAAAAAAAAAAAAABwoAAAAAAQAAAAQAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAkMAAAACQ0AAAAJDgAAAAkPAAAABwsAAAAAAQAAAAAAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAUMAAAAOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlBAAAABU8TmFtZT5rX19CYWNraW5nRmllbGQcPERpc3BsYXlOYW1lPmtfX0JhY2tpbmdGaWVsZBY8VmFsdWU + a19fQmFja2luZ0ZpZWxkIDxCb29sZWFuT3BlcmF0b3I + a19fQmFja2luZ0ZpZWxkAQEBAQIAAAAGEAAAAAhmcmVldGV4dAoGEQAAAG9kZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtIEFORCBDdSwgT1IgY29wcGVyLCBPUiBlbGVjdHJvbGVzcywgT1IgcHJpbnRpbmcsIE9SIGZsZXhpYmxlLCBPUiBzdWJzdHJhdGUsIE9SIHBsYXN0aWMKAQ0AAAAMAAAABhIAAAAHQWxsVGV4dAoGEwAAABlkZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtCgEOAAAADAAAAAYUAAAAC0F0bGVhc3RUZXh0CgYVAAAAP0N1LCBjb3BwZXIsIGVsZWN0cm9sZXNzLCBwcmludGluZywgZmxleGlibGUsIHN1YnN0cmF0ZSwgcGxhc3RpYwoBDwAAAAwAAAAGFgAAABBPcmlnaW5hbEZyZWVUZXh0CgYXAAAAb2RlcG9zaXRpb24sIHBhdHRlcm4sIGZpbG0gQU5EIEN1LCBPUiBjb3BwZXIsIE9SIGVsZWN0cm9sZXNzLCBPUiBwcmludGluZywgT1IgZmxleGlibGUsIE9SIHN1YnN0cmF0ZSwgT1IgcGxhc3RpYwoL',
183 |         'resultcount': '282607',
184 |         'category': 'all',
185 |         'pageno': '2'
186 |     }
187 | 
188 |     html = requests.post(url, data=data, headers=headers1, stream=True, timeout=20, verify=True)
189 |     html.encoding = 'utf-8'
190 |     text = html.text
191 |     # print(text)
192 |     bsop = BeautifulSoup(text, 'html.parser')
193 |     divs = bsop.findAll('div', {'class': 'capsule capsule--article '})
194 |     for i in divs:
195 |         article_url = 'https://pubs.rsc.org' + i.find('a').attrs['href']
196 |         print(article_url)
197 |         # royal(article_url)
198 | 
199 |     # with open("ros.html", 'wb') as f:
200 |     #     f.write(html.content)
201 |     #     f.close()
202 |     # print(text)
203 | 
204 | # session.head('https://pubs.rsc.org/en/results/all?Category=All&AllText=deposition%2C%20pattern%2C%20film&AtleastText=Cu%2C%20copper%2C%20electroless%2C%20printing%2C%20flexible%2C%20substrate%2C%20plastic&IncludeReference=false&SelectJournal=false&DateRange=false&SelectDate=false&Type=Months&DateFromMonth=Months&DateToMonth=Months&PriceCode=False&OpenAccess=false')
205 | 
206 | # 构造headers
207 | UserAgent_List = [
208 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
209 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
210 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
211 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
212 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
213 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
214 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
215 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
216 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
217 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
218 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
219 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
220 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
221 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
222 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
223 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
224 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
225 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
226 | ]
227 | headers = {'User-Agent': random.choice(UserAgent_List),
228 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
229 |            'Accept-Encoding': 'gzip',
230 |            }
231 | 
232 | url = 'https://pubs.rsc.org/en/search/journalresult'
233 | scawurls(url)
234 | 
235 | 
236 | 
237 | # url = 'https://pubs.rsc.org/en/content/articlelanding/2017/tc/c7tc00038c#!divAbstract'
238 | # royal(url)
239 | 
240 | # nums = 5
241 | # # 图片存储路径，在linux系统下
242 | # file_path = '/home/zhangyb/downloadfiles/pythonpro/biaoqing'
243 | # # 图片存储路径，在windows系统下
244 | # # file_path = 'E:\downloadfiles\pythonpro\biaoqing'
245 | # urls = scrapy_img_urls(nums)
246 | # for i in urls:
247 | #     print(i)
248 | #     download_img_url(i)
249 | 
250 | 
251 | # url = 'https://pubs.rsc.org/en/results/all?Category=All&AllText=deposition%2C%20pattern%2C%20film&AtleastText=Cu%2C%20copper%2C%20electroless%2C%20printing%2C%20flexible%2C%20substrate%2C%20plastic&IncludeReference=false&SelectJournal=false&DateRange=false&SelectDate=false&Type=Months&DateFromMonth=Months&DateToMonth=Months&PriceCode=False&OpenAccess=false'
252 | # r = requests.get(url, headers=headers)
253 | # print(r.text)
254 | 


--------------------------------------------------------------------------------
/some/pa1.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import requests
  4 | import random
  5 | from bs4 import BeautifulSoup
  6 | import time
  7 | 
  8 | download_time = time.strftime("%Y-%m-%d", time.localtime())
  9 | 
 10 | 
 11 | def royal(article_urls):
 12 |     for article_url in article_urls:
 13 |         # try:
 14 |         html = requests.get(article_url, headers=headers, stream=True, timeout=20, verify=True)
 15 |         html.encoding = 'utf-8'
 16 |         text = html.text
 17 |         bsop = BeautifulSoup(text, 'html.parser')
 18 |         try:
 19 |             timeofissued = bsop.find('meta', {'name':'DC.issued'}).attrs['content'].split('/')[0]
 20 |         except:
 21 |             pass
 22 |         try:
 23 |             citation_title = bsop.find('meta', {'name':'citation_title'}).attrs['content']
 24 |         except:
 25 |             pass
 26 |         try:
 27 |             citation_journal_title = bsop.find('meta', {'name':'citation_journal_title'}).attrs['content']
 28 |         except:
 29 |             pass
 30 |         try:
 31 |             citation_journal_abbrev = bsop.find('meta', {'name':'citation_journal_abbrev'}).attrs['content']
 32 |         except:
 33 |             pass
 34 |         try:
 35 |             citation_volume = bsop.find('meta', {'name':'citation_volume'}).attrs['content']
 36 |         except:
 37 |             pass
 38 |         try:
 39 |             citation_issue = bsop.find('meta', {'name':'citation_issue'}).attrs['content']
 40 |         except:
 41 |             pass
 42 |         try:
 43 |             citation_firstpage = bsop.find('meta', {'name':'citation_firstpage'}).attrs['content']
 44 |         except:
 45 |             pass
 46 |         try:
 47 |             citation_lastpage = bsop.find('meta', {'name':'citation_lastpage'}).attrs['content']
 48 |         except:
 49 |             pass
 50 |         try:
 51 |             citation_doi = bsop.find('meta', {'name':'citation_doi'}).attrs['content']
 52 |         except:
 53 |             pass
 54 |         try:
 55 |             PB = bsop.find('meta', {'name':'DC.publisher'}).attrs['content']
 56 |         except:
 57 |             pass
 58 |         try:
 59 |             M3 = citation_doi
 60 |         except:
 61 |             pass
 62 |         try:
 63 |             citation_url = 'http://dx.doi.org/' + citation_doi
 64 |         except:
 65 |             pass
 66 |         try:
 67 |             citation_abstract = bsop.find('meta', {'name':'citation_abstract'}).attrs['content'].strip()
 68 |         except:
 69 |             pass
 70 |         try:
 71 |             SN = bsop.find('div', {'class':'article-nav__issue autopad--h'}).find('a').attrs['href'].split('=')[-1]
 72 |         except:
 73 |             pass
 74 |         # except:
 75 |         #     print(article_url)
 76 |         #     continue
 77 | 
 78 |         with open(download_time + ".ris", 'a', encoding='utf-8') as f:
 79 |             f.write('TY  - JOUR\n')
 80 |             f.write('T1  - ' + citation_title + '\n')
 81 |             f.write('Y1  - ' + timeofissued + '\n')
 82 |             f.write('SP  - ' + citation_firstpage + '\n')
 83 |             f.write('EP  - ' + citation_lastpage + '\n')
 84 |             f.write('JF  - ' + citation_journal_title + '\n')
 85 |             f.write('JO  - ' + citation_journal_abbrev + '\n')
 86 |             f.write('VL  - ' + citation_volume + '\n')
 87 |             f.write('RS  - ' + citation_issue + '\n')
 88 |             f.write('PB  - ' + PB + '\n')
 89 |             f.write('SN  - ' + SN + '\n')
 90 |             f.write('DO  - ' + citation_doi + '\n')
 91 |             f.write('M3  - ' + M3 + '\n')
 92 |             f.write('UR  - ' + citation_url + '\n')
 93 |             print(citation_url)
 94 |             f.write('N2  - ' + citation_abstract + '\n')
 95 |             # print(citation_abstract)
 96 | 
 97 |             authors = bsop.findAll('span', {'class': 'article__author-link'})
 98 |             for author in authors:
 99 |                 author = author.find('a').text.split(' ')
100 |                 author = author[-1] + ', ' + ' '.join(author[:-1])
101 |                 f.write('A1  - ' + author + '\n')
102 |             f.write('ER  - ' + '\n\n\n')
103 |             f.close()
104 |         time.sleep(1)
105 | 
106 | 
107 | def crawl_article_url(nums):
108 |     article_urls = []
109 |     for num in range(1, nums+1):
110 | 
111 |         url = 'https://pubs.rsc.org/en/search/journalresult'
112 | 
113 |         headers1 = {
114 |             'Accept':'text/html, */*; q=0.01',
115 |             'Connection': 'keep-alive',
116 |             'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
117 |             'DNT':'1',
118 |             'Host':'pubs.rsc.org',
119 |             'Origin':'https://pubs.rsc.org',
120 |             'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36',
121 |             'X-NewRelic-ID':'VQYFWF9aDBABV1laBgcFUw ==',
122 |             'X-Requested-With':'XMLHttpRequest'
123 |         }
124 | 
125 |         data = {
126 |             'searchterm': 'AAEAAAD/////AQAAAAAAAAAMAgAAAGNSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGwFAQAAADlSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLlNlYXJjaFRlcm0OAAAAGTxDYXRlZ29yeT5rX19CYWNraW5nRmllbGQcPFN1YkNhdGVnb3J5PmtfX0JhY2tpbmdGaWVsZBw8Q29udGVudFR5cGU + a19fQmFja2luZ0ZpZWxkGjxDcml0ZXJpYXM + a19fQmFja2luZ0ZpZWxkFzxGYWNldHM + a19fQmFja2luZ0ZpZWxkHDxSZXF1ZXN0VGltZT5rX19CYWNraW5nRmllbGQfPEF1dGhvckNyaXRlcmlhPmtfX0JhY2tpbmdGaWVsZCA8UHVibGljYXRpb25EYXRlPmtfX0JhY2tpbmdGaWVsZBk8RXhjbHVkZXM + a19fQmFja2luZ0ZpZWxkFzxTb3VyY2U + a19fQmFja2luZ0ZpZWxkHzxPdXRwdXRTdGFuZGFyZD5rX19CYWNraW5nRmllbGQePFJlc3VsdHNGb3JtYXQ + a19fQmFja2luZ0ZpZWxkHjxEaXNwbGF5Q291bnRzPmtfX0JhY2tpbmdGaWVsZCA8UHJvZHVjdFBhZ2VTaXplPmtfX0JhY2tpbmdGaWVsZAEBAQMDAAQEAwEBAQEBwgFTeXN0ZW0uQ29sbGVjdGlvbnMuR2VuZXJpYy5MaXN0YDFbW1JTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXcIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0NPVJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guQXV0aG9yQ3JpdGVyaWECAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlAgAAAMIBU3lzdGVtLkNvbGxlY3Rpb25zLkdlbmVyaWMuTGlzdGAxW1tSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuRW50aXR5Lk5hbWVWYWx1ZSwgUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLCBWZXJzaW9uPTIwMTguMC41NDkuMCwgQ3VsdHVyZT1uZXV0cmFsLCBQdWJsaWNLZXlUb2tlbj1udWxsXV0CAAAABgMAAAADQWxsCgYEAAAAA0FsbAkFAAAACQYAAAAAAAAAAAAAAAkHAAAACQgAAAAJCQAAAAoKCgoKBAUAAADCAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWUsIFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cywgVmVyc2lvbj0yMDE4LjAuNTQ5LjAsIEN1bHR1cmU9bmV1dHJhbCwgUHVibGljS2V5VG9rZW49bnVsbF1dAwAAAAZfaXRlbXMFX3NpemUIX3ZlcnNpb24EAAA6UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLkVudGl0eS5OYW1lVmFsdWVbXQIAAAAICAkKAAAABAAAAAQAAAABBgAAAAUAAAAJCwAAAAAAAAAAAAAABQcAAAA9UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JDcml0ZXJpYQIAAAAgPEJvb2xlYW5PcGVyYXRvcj5rX19CYWNraW5nRmllbGQYPEF1dGhvcnM + a19fQmFja2luZ0ZpZWxkAQPDAVN5c3RlbS5Db2xsZWN0aW9ucy5HZW5lcmljLkxpc3RgMVtbUlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5BdXRob3JJbmZvLCBSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMsIFZlcnNpb249MjAxOC4wLjU0OS4wLCBDdWx0dXJlPW5ldXRyYWwsIFB1YmxpY0tleVRva2VuPW51bGxdXQIAAAAKCgUIAAAAPlJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5TZWFyY2guUHVibGljYXRpb25EYXRlBQAAAB88SXNTZWxlY3RlZERhdGU + a19fQmFja2luZ0ZpZWxkGTxEYXRlVHlwZT5rX19CYWNraW5nRmllbGQbPFdpdGhJbkxhc3Q + a19fQmFja2luZ0ZpZWxkGjxEYXRlUmFuZ2U + a19fQmFja2luZ0ZpZWxkHDxEaXNwbGF5RGF0ZT5rX19CYWNraW5nRmllbGQAAQQEAQE5UlNDcHVicy5lUGxhdGZvcm0uU2VydmljZS5EYXRhQ29udHJhY3RzLlNlYXJjaC5XaXRoSW5MYXN0AgAAADhSU0NwdWJzLmVQbGF0Zm9ybS5TZXJ2aWNlLkRhdGFDb250cmFjdHMuU2VhcmNoLkRhdGVSYW5nZQIAAAACAAAAAAoKCgoBCQAAAAUAAAAJCwAAAAAAAAAAAAAABwoAAAAAAQAAAAQAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAkMAAAACQ0AAAAJDgAAAAkPAAAABwsAAAAAAQAAAAAAAAAEOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlAgAAAAUMAAAAOFJTQ3B1YnMuZVBsYXRmb3JtLlNlcnZpY2UuRGF0YUNvbnRyYWN0cy5FbnRpdHkuTmFtZVZhbHVlBAAAABU8TmFtZT5rX19CYWNraW5nRmllbGQcPERpc3BsYXlOYW1lPmtfX0JhY2tpbmdGaWVsZBY8VmFsdWU + a19fQmFja2luZ0ZpZWxkIDxCb29sZWFuT3BlcmF0b3I + a19fQmFja2luZ0ZpZWxkAQEBAQIAAAAGEAAAAAhmcmVldGV4dAoGEQAAAG9kZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtIEFORCBDdSwgT1IgY29wcGVyLCBPUiBlbGVjdHJvbGVzcywgT1IgcHJpbnRpbmcsIE9SIGZsZXhpYmxlLCBPUiBzdWJzdHJhdGUsIE9SIHBsYXN0aWMKAQ0AAAAMAAAABhIAAAAHQWxsVGV4dAoGEwAAABlkZXBvc2l0aW9uLCBwYXR0ZXJuLCBmaWxtCgEOAAAADAAAAAYUAAAAC0F0bGVhc3RUZXh0CgYVAAAAP0N1LCBjb3BwZXIsIGVsZWN0cm9sZXNzLCBwcmludGluZywgZmxleGlibGUsIHN1YnN0cmF0ZSwgcGxhc3RpYwoBDwAAAAwAAAAGFgAAABBPcmlnaW5hbEZyZWVUZXh0CgYXAAAAb2RlcG9zaXRpb24sIHBhdHRlcm4sIGZpbG0gQU5EIEN1LCBPUiBjb3BwZXIsIE9SIGVsZWN0cm9sZXNzLCBPUiBwcmludGluZywgT1IgZmxleGlibGUsIE9SIHN1YnN0cmF0ZSwgT1IgcGxhc3RpYwoL',
127 |             'resultcount': '282607',
128 |             'category': 'all',
129 |             'pageno': str(num)
130 |         }
131 | 
132 |         html = requests.post(url, data=data, headers=headers1, stream=True, timeout=20, verify=True)
133 |         html.encoding = 'utf-8'
134 |         text = html.text
135 |         # print(text)
136 |         bsop = BeautifulSoup(text, 'html.parser')
137 |         divs = bsop.findAll('div', {'class': 'capsule capsule--article '})
138 |         for i in divs:
139 |             article_url = 'https://pubs.rsc.org' + i.find('a').attrs['href']
140 |             # print(article_url)
141 |             article_urls.append(article_url)
142 |         print("第" + str(num) + "页爬取完毕")
143 |         time.sleep(1)
144 |     return article_urls
145 | 
146 | 
147 | # 构造headers
148 | UserAgent_List = [
149 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
150 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
151 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
152 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
153 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
154 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
155 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
156 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
157 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
158 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
159 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
160 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
161 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
162 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
163 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
164 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
165 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
166 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
167 | ]
168 | headers = {'User-Agent': random.choice(UserAgent_List),
169 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
170 |            'Accept-Encoding': 'gzip',
171 |            }
172 | nums = 5  # 爬取的页数
173 | 
174 | article_urls = crawl_article_url(nums)
175 | royal(article_urls)
176 | 
177 | 
178 | 
179 | # url = 'https://pubs.rsc.org/en/content/articlelanding/2017/tc/c7tc00038c#!divAbstract'
180 | # royal(url)
181 | 


--------------------------------------------------------------------------------
/some/springer.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import requests
  4 | import random
  5 | from bs4 import BeautifulSoup
  6 | import time
  7 | 
  8 | download_time = time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime())
  9 | 
 10 | 
 11 | def royal(article_urls):
 12 |     for article_url in article_urls:
 13 |         # try:
 14 |         html = requests.get(article_url, headers=headers, stream=True, timeout=20, verify=True)
 15 |         html.encoding = 'utf-8'
 16 |         text = html.text
 17 |         bsop = BeautifulSoup(text, 'html.parser')
 18 |         try:
 19 |             timeofissued = bsop.find('meta', {'name':'citation_cover_date'}).attrs['content'].split('/')[0]
 20 |         except:
 21 |             pass
 22 |         try:
 23 |             citation_title = bsop.find('meta', {'name':'citation_title'}).attrs['content']
 24 |         except:
 25 |             pass
 26 |         try:
 27 |             citation_journal_title = bsop.find('meta', {'name':'citation_journal_title'}).attrs['content']
 28 |         except:
 29 |             pass
 30 |         try:
 31 |             citation_journal_abbrev = bsop.find('meta', {'name':'citation_journal_abbrev'}).attrs['content']
 32 |         except:
 33 |             pass
 34 |         try:
 35 |             citation_volume = bsop.find('meta', {'name':'citation_volume'}).attrs['content']
 36 |         except:
 37 |             pass
 38 |         try:
 39 |             # citation_issue = bsop.find('meta', {'name':'citation_issue'}).attrs['content']
 40 |             citation_issue = bsop.find('span', {'id':'electronic-issn'}).text
 41 |         except:
 42 |             pass
 43 |         try:
 44 |             citation_firstpage = bsop.find('meta', {'name':'citation_firstpage'}).attrs['content']
 45 |         except:
 46 |             pass
 47 |         try:
 48 |             citation_lastpage = bsop.find('meta', {'name':'citation_lastpage'}).attrs['content']
 49 |         except:
 50 |             pass
 51 |         try:
 52 |             citation_doi = bsop.find('meta', {'name':'citation_doi'}).attrs['content']
 53 |         except:
 54 |             pass
 55 |         try:
 56 |             PB = bsop.find('meta', {'name':'citation_publisher'}).attrs['content']
 57 |         except:
 58 |             pass
 59 |         try:
 60 |             M3 = citation_doi
 61 |         except:
 62 |             pass
 63 |         try:
 64 |             citation_url = 'http://dx.doi.org/' + citation_doi
 65 |         except:
 66 |             pass
 67 |         try:
 68 |             # citation_abstract = bsop.find('p', {'id':'Par1'}).attrs['content'].strip()
 69 |             citation_abstract = bsop.find('p', {'id':'Par1'}).text
 70 |         except:
 71 |             pass
 72 |         try:
 73 |             # SN = bsop.find('div', {'class':'article-nav__issue autopad--h'}).find('a').attrs['href'].split('=')[-1]
 74 |             SN = bsop.find('span', {'id':'electronic-issn'}).text
 75 |         except:
 76 |             pass
 77 |         # except:
 78 |         #     print(article_url)
 79 |         #     continue
 80 | 
 81 |         with open(download_time + ".ris", 'a', encoding='utf-8') as f:
 82 |             f.write('TY  - JOUR\n')
 83 |             f.write('T1  - ' + citation_title + '\n')
 84 |             f.write('Y1  - ' + timeofissued + '\n')
 85 |             f.write('SP  - ' + citation_firstpage + '\n')
 86 |             f.write('EP  - ' + citation_lastpage + '\n')
 87 |             f.write('JF  - ' + citation_journal_title + '\n')
 88 |             f.write('JO  - ' + citation_journal_abbrev + '\n')
 89 |             f.write('VL  - ' + citation_volume + '\n')
 90 |             f.write('RS  - ' + citation_issue + '\n')
 91 |             f.write('PB  - ' + PB + '\n')
 92 |             f.write('SN  - ' + SN + '\n')
 93 |             f.write('DO  - ' + citation_doi + '\n')
 94 |             f.write('M3  - ' + M3 + '\n')
 95 |             f.write('UR  - ' + citation_url + '\n')
 96 |             print(citation_url)
 97 |             f.write('N2  - ' + citation_abstract + '\n')
 98 |             # print(citation_abstract)
 99 | 
100 |             authors = bsop.findAll('meta', {'name': 'citation_author'})
101 |             for author in authors:
102 |                 # print(author)
103 |                 author = author.attrs['content']
104 |                 # print(author)
105 |                 author = author[-1] + ', ' + ' '.join(author[:-1])
106 |                 f.write('A1  - ' + author + '\n')
107 |             f.write('ER  - ' + '\n\n\n')
108 |             f.close()
109 |         time.sleep(1)
110 | 
111 | 
112 | def crawl_article_url(nums):
113 |     article_urls = []
114 |     for num in range(1, nums+1):
115 | 
116 |         url = 'https://link.springer.com/search/page/' + str(num) + '?date-facet-mode=between&facet-start-year=2010&facet-language=%22En%22&query=printing%2C+AND+Cu+AND+pattern%2C+AND+film%2C+AND+flexible%2C+AND+plastic%2C+AND+substrate%2C+AND+copper&facet-end-year=2019&showAll=true&facet-content-type=%22Article%22'
117 | 
118 |         html = requests.get(url, headers=headers, stream=True, timeout=20, verify=True)
119 |         html.encoding = 'utf-8'
120 |         text = html.text
121 |         # print(text)
122 |         bsop = BeautifulSoup(text, 'html.parser')
123 |         divs = bsop.find('ol', {'id': 'results-list'}).findAll('li')
124 |         for i in divs:
125 |             # print(i)
126 |             article_url = 'https://link.springer.com' + i.find('h2').find('a').attrs['href']
127 |             print(article_url)
128 |             article_urls.append(article_url)
129 |         print("第" + str(num) + "页爬取完毕")
130 |         time.sleep(1)
131 |     return article_urls
132 | 
133 | 
134 | # 构造headers
135 | UserAgent_List = [
136 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
137 |     "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
138 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
139 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
140 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
141 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
142 |     "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
143 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
144 |     "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
145 |     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
146 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
147 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
148 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
149 |     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
150 |     "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
151 |     "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
152 |     "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
153 |     "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
154 | ]
155 | headers = {'User-Agent': random.choice(UserAgent_List),
156 |            'Accept': "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
157 |            'Accept-Encoding': 'gzip',
158 |            }
159 | nums = 1  # 爬取的页数
160 | 
161 | article_urls = crawl_article_url(nums)
162 | royal(article_urls)


--------------------------------------------------------------------------------
/some/xuanke.py:
--------------------------------------------------------------------------------
 1 | # -*- coding:utf-8 -*_
 2 | 
 3 | import requests, time
 4 | import hmac, json
 5 | from bs4 import BeautifulSoup
 6 | from hashlib import sha1
 7 | 
 8 | def get_captcha(url):
 9 |     ''' 处理验证码 '''
10 | 
11 |     r = requests.get(url, headers=headers)
12 |     text = r.text
13 |     obj = BeautifulSoup(text, 'html.parser')
14 |     captchaurl = 'http://zhjwxk.cic.tsinghua.edu.cn' + obj.find("img", {"id":"captcha"}).attrs['src']
15 |     rr = requests.get(captchaurl, headers=headers)
16 |     textt = rr.content
17 | 
18 |     with open('captcha.gif', 'wb') as fb:
19 |         fb.write(textt)
20 |         a = input('captcha:')
21 |         print(a)
22 |     return a
23 | 
24 | 
25 | s = requests.Session()
26 | url = 'https://zhjwxk.cic.tsinghua.edu.cn/j_acegi_formlogin_xsxk.do'
27 | 
28 | headers = {
29 |     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
30 |     'Accept-Encoding': 'gzip, deflate, br',
31 |     'Accept-Language': 'zh-CN,zh;q=0.9',
32 |     'Cache-Control': 'max-age=0',
33 |     'Connection': 'keep-alive',
34 |     'Content-Length': '66',
35 |     'Content-Type': 'application/x-www-form-urlencoded',
36 |     'Cookie': 'JSESSIONID=cafgDstvY9fVWd2VutTFw; thuwebcookie=990146470.20480.0000',
37 |     'DNT': '1',
38 |     'Host': 'zhjwxk.cic.tsinghua.edu.cn',
39 |     'Origin': 'http://zhjwxk.cic.tsinghua.edu.cn',
40 |     'Referer': 'http://zhjwxk.cic.tsinghua.edu.cn/xklogin.do',
41 |     'Upgrade-Insecure-Requests': '1',
42 |     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
43 | }
44 | data = {
45 |     'j_username': 'zhang-yb18',
46 |     'j_password': 'ZHANG2338',
47 |     'captchaflag': 'login1',
48 |     '_login_image_': get_captcha(url),
49 | }
50 | 
51 | 
52 | r = s.post(url, headers=headers, data=data)
53 | text = r.text
54 | print(text)


--------------------------------------------------------------------------------
/some/xuanke2.py:
--------------------------------------------------------------------------------
  1 | # -*- coding:UTF-8 -*-
  2 | 
  3 | import requests, time
  4 | import hmac, json
  5 | from bs4 import BeautifulSoup
  6 | from hashlib import sha1
  7 | 
  8 | 
  9 | 
 10 | 
 11 | def get_captcha(url):
 12 |     ''' 处理验证码 '''
 13 | 
 14 |     r = requests.get(url, headers=headers)
 15 |     text = r.text
 16 |     obj = BeautifulSoup(text, 'html.parser')
 17 |     captchaurl = 'http://zhjwxk.cic.tsinghua.edu.cn' + obj.find("img", {"id":"captcha"}).attrs['src']
 18 |     rr = requests.get(captchaurl, headers=headers)
 19 |     textt = rr.content
 20 | 
 21 |     with open('captcha.gif', 'wb') as fb:
 22 |         fb.write(textt)
 23 |     return input('captcha:')
 24 | 
 25 | 
 26 | 
 27 | 
 28 | 
 29 | def login(username, password, oncaptcha, sessiona, headers):
 30 |     ''' 处理登录 '''
 31 | 
 32 |     resp1 = sessiona.get('https://www.zhihu.com/signin', headers=headers)  # 拿cookie:_xsrf
 33 |     resp2 = sessiona.get('https://www.zhihu.com/api/v3/oauth/captcha?lang=cn',
 34 |                          headers=headers)  # 拿cookie:capsion_ticket
 35 |     need_cap = json.loads(resp2.text)["show_captcha"]  # {"show_captcha":false} 表示不用验证码
 36 | 
 37 |     grantType = 'password'
 38 |     clientId = 'c3cef7c66a1843f8b3a9e6a1e3160e20'
 39 |     source = 'com.zhihu.web'
 40 |     timestamp = str((time.time() * 1000)).split('.')[0]  # 签名只按这个时间戳变化
 41 | 
 42 |     captcha_content = sessiona.get('https://www.zhihu.com/captcha.gif?r=%d&type=login' % (time.time() * 1000),
 43 |                                    headers=headers).content
 44 | 
 45 |     data = {
 46 |         "client_id": clientId,
 47 |         "grant_type": grantType,
 48 |         "timestamp": timestamp,
 49 |         "source": source,
 50 |         "signature": get_signature(grantType, clientId, source, timestamp),  # 获取签名
 51 |         "username": username,
 52 |         "password": password,
 53 |         "lang": "cn",
 54 |         "captcha": oncaptcha(captcha_content, need_cap),  # 获取图片验证码
 55 |         "ref_source": "other_",
 56 |         "utm_source": ""
 57 |     }
 58 | 
 59 |     print("**2**: " + str(data))
 60 |     print("-" * 50)
 61 |     resp = sessiona.post('https://www.zhihu.com/api/v3/oauth/sign_in', data, headers=headers).content
 62 |     print(BeautifulSoup(resp, 'html.parser'))
 63 | 
 64 |     print("-" * 50)
 65 |     return resp
 66 | 
 67 | 
 68 | 
 69 | headers = {
 70 |     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
 71 |     'Accept-Encoding': 'gzip, deflate, br',
 72 |     'Accept-Language': 'zh-CN,zh;q=0.9',
 73 |     'Cache-Control': 'max-age=0',
 74 |     'Connection': 'keep-alive',
 75 |     'Content-Length': '66',
 76 |     'Content-Type': 'application/x-www-form-urlencoded',
 77 |     'Cookie': 'JSESSIONID=cafgDstvY9fVWd2VutTFw; thuwebcookie=990146470.20480.0000',
 78 |     'DNT': '1',
 79 |     'Host': 'zhjwxk.cic.tsinghua.edu.cn',
 80 |     'Origin': 'http://zhjwxk.cic.tsinghua.edu.cn',
 81 |     'Referer': 'http://zhjwxk.cic.tsinghua.edu.cn/xklogin.do',
 82 |     'Upgrade-Insecure-Requests': '1',
 83 |     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
 84 | }
 85 | data = {
 86 |     'j_username': 'zhang-yb18',
 87 |     'j_password': 'ZHANG2338',
 88 |     'captchaflag': 'login1',
 89 |     '_login_image_': get_captcha,
 90 | }
 91 | 
 92 | 
 93 | if __name__ == "__main__":
 94 |     sessiona = requests.Session()
 95 | 
 96 |     login('fendushu@163.com', 'ZHANG2338', get_captcha, sessiona, headers)  # 用户名密码换自己的就好了
 97 |     resp = sessiona.get('https://www.zhihu.com/inbox', headers=headers)  # 登录进去了，可以看私信了
 98 |     print(BeautifulSoup(resp.content, 'html.parser'))
 99 | 
100 | 


--------------------------------------------------------------------------------
/some/zhihu.py:
--------------------------------------------------------------------------------
 1 | # -*- coding:utf-8 -*_
 2 | 
 3 | from selenium import webdriver
 4 | 
 5 | import requests
 6 | 
 7 | from time import sleep
 8 | 
 9 | from bs4 import BeautifulSoup
10 | 
11 | browser = webdriver.Chrome(executable_path='F:\\pro\\blog\herokublog\\blogtestgithub\\royal\\chromedriver.exe')
12 | 
13 | url= 'https://www.zhihu.com/'
14 | 
15 | s = requests.Session()
16 | 
17 | s.headers.clear()#清除requests头部中的Python机器人信息，否则登录失败
18 | 
19 | browser.get(url)
20 | 
21 | browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[2]/span').click()#避免屏幕失去焦点
22 | 
23 | browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[1]/form/div[1]/div[2]/div[1]/input').send_keys('fendushu@163.com')
24 | 
25 | browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[1]/form/div[2]/div/div[1]/input').send_keys('ZHANG2338')
26 | 
27 | try:
28 | 
29 |   img = browser.find_element_by_xpath('//*    [@id="root"]/div/main/div/div/div/div[2]/div[1]/form/div[3]/div/div[2]/img')#验证码图片链接--倒立文字
30 | 
31 |   sleep(10)
32 | 
33 | except:
34 | 
35 |   img= browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[1]/form/div[3]/div/span/div/img').get_attribute("src")#验证码图片链接--字母数字
36 | 
37 |   sleep(10)#填写验证码
38 | 
39 | else:
40 | 
41 |   pass
42 | 
43 | browser.find_element_by_xpath('//*[@id="root"]/div/main/div/div/div/div[2]/div[1]/form/button').submit()#登录
44 | 
45 | sleep(5)#等待Cookies加载
46 | 
47 | cookies = browser.get_cookies()
48 | 
49 | browser.quit()
50 | 
51 | for cookie in cookies:
52 |     s.cookies.set(cookie['name'],cookie['value'])#为session设置cookies
53 | 
54 | html=s.get(url).text
55 | 
56 | soup = BeautifulSoup(html)
57 | 
58 | items = soup.find_all('a',attrs={'data-za-detail-view-element_name':"Title"})#获取登录后加载出的前几个话题的标题
59 | 
60 | for item in items:
61 |     print(item.string)
62 | 
63 | 


--------------------------------------------------------------------------------
/some/zhihu2.py:
--------------------------------------------------------------------------------
  1 | # -*- coding:utf-8 -*_
  2 | 
  3 | 
  4 | __author__ = 'zkqiang'
  5 | __zhihu__ = 'https://www.zhihu.com/people/z-kqiang'
  6 | __github__ = 'https://github.com/zkqiang/Zhihu-Login'
  7 | 
  8 | import requests
  9 | import time
 10 | import re
 11 | import base64
 12 | import hmac
 13 | import hashlib
 14 | import json
 15 | import matplotlib.pyplot as plt
 16 | from http import cookiejar
 17 | from PIL import Image
 18 | 
 19 | 
 20 | class ZhihuAccount(object):
 21 | 
 22 |     def __init__(self):
 23 |         self.login_url = 'https://www.zhihu.com/signup'
 24 |         self.login_api = 'https://www.zhihu.com/api/v3/oauth/sign_in'
 25 |         self.login_data = {
 26 |             'client_id': 'c3cef7c66a1843f8b3a9e6a1e3160e20',
 27 |             'grant_type': 'password',
 28 |             'source': 'com.zhihu.web',
 29 |             'username': '',
 30 |             'password': '',
 31 |             # 传入'cn'是倒立汉字验证码
 32 |             'lang': 'en',
 33 |             'ref_source': 'homepage',
 34 |         }
 35 |         self.session = requests.session()
 36 |         self.session.headers = {
 37 |             'Host': 'www.zhihu.com',
 38 |             'Referer': 'https://www.zhihu.com/',
 39 |             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
 40 |                           '(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
 41 |         }
 42 |         self.session.cookies = cookiejar.LWPCookieJar(filename='./cookies.txt')
 43 | 
 44 |     def login(self, username=None, password=None, captcha_lang='en', load_cookies=True):
 45 |         """
 46 |         模拟登录知乎
 47 |         :param username: 登录手机号
 48 |         :param password: 登录密码
 49 |         :param captcha_lang: 验证码类型 'en' or 'cn'
 50 |         :param load_cookies: 是否读取上次保存的 Cookies
 51 |         :return: bool
 52 |         """
 53 |         if load_cookies and self.load_cookies():
 54 |             if self.check_login():
 55 |                 print('登录成功')
 56 |                 return True
 57 | 
 58 |         headers = self.session.headers.copy()
 59 |         headers.update({
 60 |             'xsrftoken': self._get_xsrf(),
 61 |             'x-zse-83': '3_1.1'
 62 |         })
 63 |         self.session.headers = headers['x-udid'] = self._get_udid(headers)
 64 |         username, password = self._check_user_pass(username, password)
 65 |         self.login_data.update({
 66 |             'username': username,
 67 |             'password': password,
 68 |             'captcha_lang': captcha_lang
 69 |         })
 70 |         timestamp = str(int(time.time()*1000))
 71 |         self.login_data.update({
 72 |             'captcha': self._get_captcha(self.login_data['lang'], headers),
 73 |             'timestamp': timestamp,
 74 |             'signature': self._get_signature(timestamp)
 75 |         })
 76 | 
 77 |         resp = self.session.post(self.login_api, data=self.login_data, headers=headers)
 78 |         if 'error' in resp.text:
 79 |             print(json.loads(resp.text)['error']['message'])
 80 |         if self.check_login():
 81 |             print('登录成功')
 82 |             return True
 83 |         print('登录失败')
 84 |         return False
 85 | 
 86 |     def load_cookies(self):
 87 |         """
 88 |         读取 Cookies 文件加载到 Session
 89 |         :return: bool
 90 |         """
 91 |         try:
 92 |             self.session.cookies.load(ignore_discard=True)
 93 |             return True
 94 |         except FileNotFoundError:
 95 |             return False
 96 | 
 97 |     def check_login(self):
 98 |         """
 99 |         检查登录状态，访问登录页面出现跳转则是已登录，
100 |         如登录成功保存当前 Cookies
101 |         :return: bool
102 |         """
103 |         resp = self.session.get(self.login_url, allow_redirects=False)
104 |         if resp.status_code == 302:
105 |             self.session.cookies.save()
106 |             return True
107 |         return False
108 | 
109 |     def _get_xsrf(self):
110 |         """
111 |         从登录页面获取 xsrf
112 |         :return: str
113 |         """
114 |         resp = self.session.get('https://www.zhihu.com/', allow_redirects=False)
115 |         xsrf = resp.cookies['_xsrf']
116 |         return xsrf
117 | 
118 |     def _get_udid(self, headers):
119 |         """
120 |         从uuid接口获得 uuid
121 |         :param headers: 带授权信息的请求头部
122 |         :return: str
123 |         """
124 |         resp = self.session.post('https://www.zhihu.com/udid', headers=headers)
125 |         udid = re.search(r'[\w=\-]+', resp.cookies['d_c0'])[0]
126 |         return udid
127 | 
128 |     def _get_captcha(self, lang, headers):
129 |         """
130 |         请求验证码的 API 接口，无论是否需要验证码都需要请求一次
131 |         如果需要验证码会返回图片的 base64 编码
132 |         根据 lang 参数匹配验证码，需要人工输入
133 |         :param lang: 返回验证码的语言(en/cn)
134 |         :param headers: 带授权信息的请求头部
135 |         :return: 验证码的 POST 参数
136 |         """
137 |         if lang == 'cn':
138 |             api = 'https://www.zhihu.com/api/v3/oauth/captcha?lang=cn'
139 |         else:
140 |             api = 'https://www.zhihu.com/api/v3/oauth/captcha?lang=en'
141 |         resp = self.session.get(api, headers=headers)
142 |         show_captcha = re.search(r'true', resp.text)
143 | 
144 |         if show_captcha:
145 |             put_resp = self.session.put(api, headers=headers)
146 |             json_data = json.loads(put_resp.text)
147 |             img_base64 = json_data['img_base64'].replace(r'\n', '')
148 |             with open('./captcha.jpg', 'wb') as f:
149 |                 f.write(base64.b64decode(img_base64))
150 |             img = Image.open('./captcha.jpg')
151 |             if lang == 'cn':
152 |                 plt.imshow(img)
153 |                 print('点击所有倒立的汉字，按回车提交')
154 |                 points = plt.ginput(7)
155 |                 capt = json.dumps({'img_size': [200, 44],
156 |                                    'input_points': [[i[0]/2, i[1]/2] for i in points]})
157 |             else:
158 |                 img.show()
159 |                 capt = input('请输入图片里的验证码：')
160 |             # 这里必须先把参数 POST 验证码接口
161 |             self.session.post(api, data={'input_text': capt}, headers=headers)
162 |             return capt
163 |         return ''
164 | 
165 |     def _get_signature(self, timestamp):
166 |         """
167 |         通过 Hmac 算法计算返回签名
168 |         实际是几个固定字符串加时间戳
169 |         :param timestamp: 时间戳
170 |         :return: 签名
171 |         """
172 |         ha = hmac.new(b'd1b964811afb40118a12068ff74a12f4', digestmod=hashlib.sha1)
173 |         grant_type = self.login_data['grant_type']
174 |         client_id = self.login_data['client_id']
175 |         source = self.login_data['source']
176 |         ha.update(bytes((grant_type + client_id + source + timestamp), 'utf-8'))
177 |         return ha.hexdigest()
178 | 
179 |     def _check_user_pass(self, username, password):
180 |         """
181 |         检查用户名和密码是否已输入，若无则手动输入
182 |         """
183 |         if username is None:
184 |             username = self.login_data.get('username')
185 |             if not username:
186 |                 username = input('请输入手机号：')
187 |         if len(username) == 11 and username.isdigit() and '+86' not in username:
188 |             username = '+86' + username
189 | 
190 |         if password is None:
191 |             password = self.login_data.get('password')
192 |             if not password:
193 |                 password = input('请输入密码：')
194 |         return username, password
195 | 
196 | 
197 | if __name__ == '__main__':
198 |     account = ZhihuAccount()
199 |     account.login(username=None, password=None, captcha_lang='en', load_cookies=True)


--------------------------------------------------------------------------------
/some/zhihu3.py:
--------------------------------------------------------------------------------
 1 | # -*- coding:UTF-8 -*-
 2 | 
 3 | import requests, time
 4 | import hmac, json
 5 | from bs4 import BeautifulSoup
 6 | from hashlib import sha1
 7 | 
 8 | 
 9 | def get_captcha(data, need_cap):
10 |     ''' 处理验证码 '''
11 |     if need_cap is False:
12 |         return
13 |     with open('captcha.gif', 'wb') as fb:
14 |         fb.write(data)
15 |     return input('captcha:')
16 | 
17 | 
18 | def get_signature(grantType, clientId, source, timestamp):
19 |     ''' 处理签名 '''
20 | 
21 |     hm = hmac.new(b'd1b964811afb40118a12068ff74a12f4', None, sha1)
22 |     hm.update(str.encode(grantType))
23 |     hm.update(str.encode(clientId))
24 |     hm.update(str.encode(source))
25 |     hm.update(str.encode(timestamp))
26 | 
27 |     return str(hm.hexdigest())
28 | 
29 | 
30 | def login(username, password, oncaptcha, sessiona, headers):
31 |     ''' 处理登录 '''
32 | 
33 |     resp1 = sessiona.get('https://www.zhihu.com/signin', headers=headers)  # 拿cookie:_xsrf
34 |     resp2 = sessiona.get('https://www.zhihu.com/api/v3/oauth/captcha?lang=cn',
35 |                          headers=headers)  # 拿cookie:capsion_ticket
36 |     need_cap = json.loads(resp2.text)["show_captcha"]  # {"show_captcha":false} 表示不用验证码
37 | 
38 |     grantType = 'password'
39 |     clientId = 'c3cef7c66a1843f8b3a9e6a1e3160e20'
40 |     source = 'com.zhihu.web'
41 |     timestamp = str((time.time() * 1000)).split('.')[0]  # 签名只按这个时间戳变化
42 | 
43 |     captcha_content = sessiona.get('https://www.zhihu.com/captcha.gif?r=%d&type=login' % (time.time() * 1000),
44 |                                    headers=headers).content
45 | 
46 |     data = {
47 |         "client_id": clientId,
48 |         "grant_type": grantType,
49 |         "timestamp": timestamp,
50 |         "source": source,
51 |         "signature": get_signature(grantType, clientId, source, timestamp),  # 获取签名
52 |         "username": username,
53 |         "password": password,
54 |         "lang": "cn",
55 |         "captcha": oncaptcha(captcha_content, need_cap),  # 获取图片验证码
56 |         "ref_source": "other_",
57 |         "utm_source": ""
58 |     }
59 | 
60 |     print("**2**: " + str(data))
61 |     print("-" * 50)
62 |     resp = sessiona.post('https://www.zhihu.com/api/v3/oauth/sign_in', data, headers=headers).content
63 |     print(BeautifulSoup(resp, 'html.parser'))
64 | 
65 |     print("-" * 50)
66 |     return resp
67 | 
68 | 
69 | if __name__ == "__main__":
70 |     sessiona = requests.Session()
71 |     headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:47.0) Gecko/20100101 Firefox/47.0',
72 |                'authorization': 'oauth c3cef7c66a1843f8b3a9e6a1e3160e20'}
73 | 
74 |     login('fendushu@163.com', 'ZHANG2338', get_captcha, sessiona, headers)  # 用户名密码换自己的就好了
75 |     resp = sessiona.get('https://www.zhihu.com/inbox', headers=headers)  # 登录进去了，可以看私信了
76 |     print(BeautifulSoup(resp.content, 'html.parser'))
77 | 
78 | ### chcp 65001 (win下改变cmd字符集)
79 | ### python  c:\python34\login_zhihu.py
80 | ### 有非常无语的事情发生，还以为代码没生效


--------------------------------------------------------------------------------
/zhihu/denglu.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Jim-bin/Python-spider/511e2679925725f8e0a3e003bb0c9247faf73f4a/zhihu/denglu.py


--------------------------------------------------------------------------------