├── .gitattributes
├── LICENSE
├── README.md
├── qq音乐的框架
    ├── __pycache__
    │   └── music_db.cpython-37.pyc
    ├── main.py
    ├── music_db.py
    ├── sign.js
    └── test.py
├── 中国疫情地图
    └── 地图.py
├── 京东框架
    ├── Celery.py
    ├── client.py
    ├── main.py
    ├── shop.csv
    └── test.py
├── 抖音爬取签名，喜欢列表和关注列表
    └── 爬取抖音的用户信息和视频连接
    │   ├── __pycache__
    │       ├── shujuku.cpython-37.pyc
    │       └── xgorgon.cpython-37.pyc
    │   ├── ceshi.py
    │   ├── douying.py
    │   ├── main.py
    │   ├── shujuku.py
    │   ├── wangyexingxi.py
    │   ├── xgorgon.py
    │   └── 抖音里面的xg算法，因为一些原因就不适合开源了。.md
├── 最好大学网
    └── daxue.py
├── 爬取快代理构建代理池
    └── dailici.py
├── 爬取房天下的框架
    ├── __pycache__
    │   └── shujuku.cpython-37.pyc
    ├── main.py
    ├── shujuku.py
    ├── test.py
    ├── 清洗后城市二手房数据.csv
    └── 爬取房天下的信息
    │   ├── code
    │       ├── FTXSpider.py
    │       ├── chromedriver.exe
    │       ├── zufangcitymatch.xlsx
    │       └── 租房2020-10-10
    │       │   ├── 包头2020-10-10房天下租房.xlsx
    │       │   ├── 北海2020-10-10房天下租房.xlsx
    │       │   └── 安庆2020-10-10房天下租房.xlsx
    │   └── main.py
├── 爬取抖音无水印视频
    └── douying.py
├── 爬取淘宝商品信息基于selenium框架
    ├── taobao.py
    ├── taobaopachong.py
    ├── 对数据进行清洗.py
    └── 爬取商品属性.py
├── 爬取百度文库的doc格式
    ├── paqubaiduwenku.py
    └── 抓取百度文库所有内容
    │   ├── paqu-ppt
    │       └── pdf.py
    │   ├── paqubaiduwenku.py
    │   ├── 作文.pptx
    │   ├── 带GUI的爬取百度文库
    │       ├── README.md
    │       ├── img
    │       │   ├── 1.png
    │       │   ├── 2.png
    │       │   ├── 3.png
    │       │   ├── 4.png
    │       │   ├── 5.png
    │       │   └── 6.png
    │       ├── requirements.txt
    │       ├── setup.bat
    │       ├── src
    │       │   ├── chromedriver.exe
    │       │   └── wenku.py
    │       ├── 代码分析
    │       │   ├── Ajax知识点补充.md
    │       │   ├── JSP知识的小补充.md
    │       │   └── 爬虫代码解读.md
    │       └── 爬取百度文库.exe
    │   └── 泪水作文8篇.pdf
├── 爬取豆瓣图书生成Excel表和词云
    ├── axis.png
    └── main.py
├── 用异步去爬取天猫的商品信息
    └── paqutianmao.py
├── 破解千图批量下载图片
    └── paqutupian.py
├── 破解有道翻译，做成自己的小字典
    └── youdao-pojie.py
├── 获取新冠肺炎实时数据
    └── paqufeiyang.py
└── 酷狗音乐
    └── main.py


/.gitattributes:
--------------------------------------------------------------------------------
1 | *.js linguist-language=Python
2 | *.css linguist-language=Python
3 | *.html linguist-language=Python
4 | 


--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
 1 | MIT License
 2 | 
 3 | Copyright (c) 2020 有猫腻
 4 | 
 5 | Permission is hereby granted, free of charge, to any person obtaining a copy
 6 | of this software and associated documentation files (the "Software"), to deal
 7 | in the Software without restriction, including without limitation the rights
 8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
 9 | copies of the Software, and to permit persons to whom the Software is
10 | furnished to do so, subject to the following conditions:
11 | 
12 | The above copyright notice and this permission notice shall be included in all
13 | copies or substantial portions of the Software.
14 | 
15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
21 | SOFTWARE.
22 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # 项目和个人笔记
 2 | 一些有趣的小项目，实现一些小功能，需要的可以下载来玩玩
 3 | 
 4 | 一些注意事项：
 5 | 
 6 | # 1、关于怎么爬取抖音，这里我们得先用夜神模拟器去模拟手机的登录环境，然后再通过fiddler去抓包，然后就和我们怎么去爬取网页那就怎么去爬取APP
 7 | 
 8 | 
 9 | 
10 | # 2、关于百度文库和千图，房天下，京东，都有涉及到反爬虫机制，这里你必须得会一点JavaScript才可以知道怎么去破解
11 | 
12 | 
13 | 
14 | # 3、这里大多数知识，你要看得懂还是建议先学好爬虫基础，再来实现这些项目
15 | 
16 | 
17 | 
18 | # 4、关于京东的，还有一些小缺陷没有完善，因为这里涉及到分布式的知识，说实话我分布式这块没有学好，所以不太完整，得自己去慢慢探索才行
19 | 
20 | 
21 | 
22 | # 5、关于未来的发展道路，可以的话可以去学习docker和k8s，这些大多数用go语言写的，对了如果学java的话，其实对于我们这些爬虫工程师来说还不如学习go语言，因为go语言大多数是基于C语言的，对于我们这些python工程师来说，比较友好
23 | 
24 | 
25 | 
26 | # 6、Redis内存数据库 MySQL关系数据库 mongobd文档数据库 不同的数据库对应不同的功能，大多数我们爬虫工程师都是用到Redis和MySQL，而且很多应聘都是必须要求熟练使用Redis内存数据库，善用于Redis可以大大提高我们的爬取速率
27 | 
28 | 
29 | 
30 | # 7、关于js破解这块，首先我们得先把破解好的js文件写一个接口去对接我们的python文件，因为毕竟这两门是不同的语言
31 | 
32 | ```javascript
33 | rsaPassword = function(t){
34 |     var e= new D;
35 |     return e.setPublic("xxx")
36 |     e.encrypt(t)
37 | }
38 | function getPwd(pwd){
39 |     return rsaPassword(pwd);
40 | }
41 | //通过这个接口把我们要破解的内容放回到getPwd这个函数里面
42 | ```
43 | 
44 | 
45 | 
46 | ```python
47 | #先导入我们的接口包
48 | import execjs
49 | #设置函数
50 | def getpwd(password):
51 |     #读取我们的js文件，格式为utf8
52 |     with open("xxx.js",'r',encoding='utf8')as f:
53 |         content = f.read()
54 |         #然后去解析这个读取的内容
55 |     jsdata = execjs.compile(content)
56 |     #去看js那个函数，并且传入参数
57 |     pw = jsdata.call('getPwd',password)
58 |     print('pw:',pw)
59 |     return pw
60 | 
61 | 
62 | if __name__ == '__main__':
63 |     getpwd('123456')
64 | 
65 | ```
66 | 
67 | 这个固定格式，基本上照着这样写就完事了，可以百分之99获取我们想要的内容
68 | 
69 | 


--------------------------------------------------------------------------------
/qq音乐的框架/__pycache__/music_db.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/qq音乐的框架/__pycache__/music_db.cpython-37.pyc


--------------------------------------------------------------------------------
/qq音乐的框架/main.py:
--------------------------------------------------------------------------------
  1 | import requests
  2 | from urllib import parse
  3 | #导入数学库
  4 | import math
  5 | #导入数据库
  6 | from music_db import SQLsession,Song
  7 | import os
  8 | #导入多线程，多进程
  9 | from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor
 10 | 
 11 | headers = {
 12 |     "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36",
 13 |     "accept-language": "zh-CN,zh;q=0.9",
 14 |     "accept-encoding": "gzip, deflate, br",
 15 |     "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
 16 |     "cache-control": "max-age=600",
 17 |     "Referer": "https://y.qq.com/portal/singer_list.html",
 18 | }
 19 | #根据url下载歌曲
 20 | def download(song_mid,sing_name):
 21 |     #定义headers请求头
 22 |     headers = {
 23 |         'cookie': 'pgv_pvid=2128245208; pac_uid=0_6b1c785781d54; pgv_pvi=772980736; RK=8x5lwvVnY1;'
 24 |                   ' ptcz=baca3422f148c8897bd71cb3765e7c08bf0dddc2aac46b34eb2f6b669e38d215;'
 25 |                   ' ptui_loginuin=1766228968@qq.com; ts_refer=www.baidu.com/link; ts_uid=2958609676; '
 26 |                   'pgv_si=s6667516928; pgv_info=ssid=s1048782460; player_exist=1; qqmusic_fromtag=66;'
 27 |                   ' userAction=1; yqq_stat=0; _qpsvr_localtk=0.5664181233633159;'
 28 |                   'psrf_qqunionid=E7D5E8B282E958B5ED555246677BCD41; psrf_qqrefresh_'
 29 |                   'token=DC32336F11952FA5867192F46CF15FD5; tmeLoginType=2; qqmusic_'
 30 |                   'key=Q_H_L_2Sqn2y50eyOV1i5dcbk613wim45KnxmEK5ofj1RsBgxgHN-xLkK25EjEAQ2jvs1;'
 31 |                   ' psrf_qqopenid=33B542A190FCA799A663FDDCB25EA8F0; qm_'
 32 |                   'keyst=Q_H_L_2Sqn2y50eyOV1i5dcbk613wim45KnxmEK5ofj1RsBgxgHN-xLkK25EjEAQ2jvs1; '
 33 |                   'euin=oK4qNe-l7KvPoz**; psrf_access_token_expiresAt=1601793607; '
 34 |                   'psrf_musickey_createtime=1594017607; psrf_qqaccess_token=8838D613ABE40CD4A345D8E550EBB967; '
 35 |                   'uin=1598275443; ts_last=y.qq.com/portal/player.html; yplayer_open=1; yq_index=3',
 36 |         'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
 37 |         'referer': 'https://y.qq.com/portal/player.html'
 38 |     }
 39 |     #导入data参数并且用parse加入url里面，从而获得不同歌曲的URL达到下载
 40 |     data = '{"req_0":{"module":"vkey.GetVkeyServer","method":"CgiGetVkey","param":' \
 41 |            '{"guid":"2128245208","songmid":["%s"],"songtype":[0],"uin":"1598275443","loginflag"' \
 42 |            ':1,"platform":"20"}},"comm":{"uin":1598275443,"format":"json","ct":24,"cv":0}}' % str(
 43 |         song_mid)
 44 |     url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getplaysongvkey17693804549459324' \
 45 |           '&g_tk=5381&loginUin=3262637034&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8' \
 46 |           '&notice=0&platform=yqq.json&needNewCode=0&data={}'.format(parse.quote(data))
 47 |     #去获取这个网页的的json值
 48 |     vkey = requests.get(url, headers=headers)
 49 |     #用去定位到purl
 50 |     purl = vkey.json()['req_0']['data']['midurlinfo'][0]['purl']
 51 |     url = 'https://ws.stream.qqmusic.qq.com/' + purl
 52 |     html = requests.get(url)
 53 |     filename = 'qq音乐'
 54 |     #创建一个文件夹，当这个文件不存在的时候自动生成一个文件夹
 55 |     if not os.path.exists(filename):
 56 |         os.makedirs(filename)
 57 |     #通过获取到的URL下载对应的歌曲
 58 |     with open('./{}/{}.m4a'.format(filename, sing_name), 'wb') as f:
 59 |         print('\n正在下载{}歌曲.....\n'.format(sing_name))
 60 |         #下载并保存这个html的全部内容也就是下载歌曲
 61 |         f.write(html.content)
 62 | 
 63 | #获取歌手信息
 64 | def get_singer_data(mid,singer_name):
 65 |     params = '{"comm":{"ct":24,"cv":0},"singerSongList":{"method":"GetSingerSongList",' \
 66 |              '"param":{"order":1,"singerMid":"%s","begin":0,"num":10},' \
 67 |              '"module":"musichall.song_list_server"}}' % str(mid)
 68 | 
 69 |     url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getSingerSong9513357793133783&' \
 70 |           'g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8' \
 71 |           '&notice=0&platform=yqq.json&needNewCode=0*&data={}'.format(parse.quote(params))
 72 |     #做到中转的作用
 73 |     html = requests.session()
 74 |     #用get来获取这个网页的内容，并且转化为json
 75 |     content = html.get(url, headers=headers).json()
 76 |     #定位这个歌手总歌曲的数量
 77 |     songs_num = content['singerSongList']['data']['totalNum']
 78 |     #连接数据库
 79 |     session = SQLsession()
 80 | 
 81 |     #因为一个歌手一次性最多只能获取80首歌，所以我们做一个循环
 82 |     if int(songs_num) <= 80:
 83 |         params = '{"comm":{"ct":24,"cv":0},"singerSongList":{"method":"GetSingerSongList",' \
 84 |                  '"param":{"order":1,"singerMid":"%s","begin":0,"num":%s},' \
 85 |                  '"module":"musichall.song_list_server"}}' % (str(mid), str(songs_num))
 86 | 
 87 |         url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getSingerSong9513357793133783&' \
 88 |               'g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8' \
 89 |               '&notice=0&platform=yqq.json&needNewCode=0*&data={}'.format(parse.quote(params))
 90 |         html = requests.session()
 91 |         content = html.get(url, headers=headers).json()
 92 |         #开始定位到相对位置
 93 |         datas = content['singerSongList']['data']['songList']
 94 |         for song in datas:
 95 |             #去获取相应歌曲的名字，mid,歌手名字，歌曲的专辑
 96 |             song_name = song['songInfo']['name']
 97 |             song_ablum = song['songInfo']['album']['name']
 98 |             singer_name = singer_name
 99 |             song_mid = song['songInfo']['mid']
100 |             try:
101 |                 #存入数据库
102 |                 song = Song(
103 |                     # 第一个是你数据库的名字，第二个就是存进入的信息
104 |                     song_name=song_name,
105 |                     song_ablum=song_ablum,
106 |                     song_mid=song_mid,
107 |                     singer_name=singer_name,
108 |                 )
109 |                 session.add(song)
110 |                 session.commit()
111 |                 print('commit')
112 |             except:
113 |                 session.rollback()
114 |                 print('rollback')
115 |             print(singer_name,song_name,song_ablum,song_mid)
116 |             #获取对应的参数，传入到下载的参数里面
117 |             download(song_mid,singer_name)
118 | 
119 |     else:
120 |         for a in range(0, songs_num, 80):
121 |             params = '{"comm":{"ct":24,"cv":0},"singerSongList":{"method":"GetSingerSongList",' \
122 |                      '"param":{"order":1,"singerMid":"%s","begin":%s,"num":%s},' \
123 |                      '"module":"musichall.song_list_server"}}' % (str(mid), int(a), int(songs_num))
124 | 
125 |             url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getSingerSong9513357793133783&' \
126 |                   'g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8' \
127 |                   '&notice=0&platform=yqq.json&needNewCode=0*&data={}'.format(parse.quote(params))
128 |             html = requests.session()
129 |             content = html.get(url, headers=headers).json()
130 |             datas = content['singerSongList']['data']['songList']
131 |             for song in datas:
132 |                 song_name = song['songInfo']['name']
133 |                 song_ablum = song['songInfo']['album']['name']
134 |                 singer_name = singer_name
135 |                 song_mid = song['songInfo']['mid']
136 |                 try:
137 |                     song = Song(
138 |                         # 第一个是你数据库的名字，第二个就是存进入的信息
139 |                         song_name=song_name,
140 |                         song_ablum=song_ablum,
141 |                         song_mid=song_mid,
142 |                         singer_name=singer_name,
143 |                     )
144 |                     session.add(song)
145 |                     session.commit()
146 |                     print('commit')
147 |                 except:
148 |                     session.rollback()
149 |                     print('rollback')
150 |                 print(singer_name, song_name, song_ablum, song_mid)
151 |                 download(song_mid, singer_name)
152 | 
153 | #去获取每一页的全部歌手的mid和名字
154 | def get_singer_mid(index):
155 |     #index=1---27
156 |     data='{"comm":{"ct":24,"cv":0},"singerList":{"module":"Music.SingerListServer"' \
157 |           ',"method":"get_singer_list","param":{"area":-100,"sex":-100,"genre":-100,' \
158 |             '"index":%s,"sin":0,"cur_page":1}}}' % (str(index))
159 |     url='https://u.y.qq.com/cgi-bin/musicu.fcg?-=getUCGI0432880619182503' \
160 |           '&g_tk=571600846&loginUin=0&hostUin=0&format=json&inCharset=utf8&out' \
161 |           'Charset=utf-8&notice=0&platform=yqq.json&needNewCode=0' \
162 |           '&data={}'.format(parse.quote(data))
163 |     html = requests.get(url).json()
164 |     #总共一共有多少歌手
165 |     total = html['singerList']['data']['total']
166 |     #一页只有80个歌手，除以80可以知道每一个字母的总的页数有多少
167 |     pages = int(math.floor(int(total) / 80))
168 |     thread_number = pages
169 |     Thread=ThreadPoolExecutor(max_workers=thread_number)
170 |     #设置一个翻页，这里sin=80为1页
171 |     sin = 0
172 |     for page in range(1, pages):
173 |         data = '{"comm":{"ct":24,"cv":0},"singerList":{"module":"Music.SingerListServer",' \
174 |                '"method":"get_singer_list","param":{"area":-100,"sex":-100,"genre":-100,"' \
175 |                'index":%s,"sin":%d,"cur_page":%s}}}' % (str(index), sin, str(page))
176 | 
177 |         url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getUCGI0432880619182503' \
178 |               '&g_tk=571600846&loginUin=0&hostUin=0&format=json&inCharset=utf8&out' \
179 |               'Charset=utf-8&notice=0&platform=yqq.json&needNewCode=0' \
180 |               '&data={}'.format(parse.quote(data))
181 |         html=requests.get(url,headers=headers).json()
182 |         sings=html['singerList']['data']['singerlist']
183 |         for sing in sings:
184 |             singer_name = sing['singer_name']
185 |             mid = sing['singer_mid']
186 |             Thread.submit(get_singer_data, mid, singer_name)
187 |         sin += 80
188 | 
189 | 
190 | def myProcess():
191 |     #开5个进程，加快爬取的速度
192 |     with ProcessPoolExecutor(max_workers=5) as exe:
193 |         #i为一个字母，这里一共有26个字母加一个#号，所以，就写一个循环函数，来爬取全部内容
194 |         for i in range(1,28):
195 |             exe.submit(get_singer_mid,i)
196 | 
197 | 
198 | if __name__ == '__main__':
199 |     myProcess()


--------------------------------------------------------------------------------
/qq音乐的框架/music_db.py:
--------------------------------------------------------------------------------
 1 | from sqlalchemy import *
 2 | from sqlalchemy.orm import sessionmaker, scoped_session
 3 | from sqlalchemy.ext.declarative import declarative_base
 4 | engine = create_engine(
 5 |     "mysql+pymysql://root:root@127.0.0.1:3306/test",
 6 |     #超过连接池大小外最多可以创建的连接数
 7 |     max_overflow=500,
 8 |     #连接池的大小
 9 |     pool_size=100,
10 |     #是否显示开发信息
11 |     echo=False,
12 | )
13 | #创建一个基类
14 | BASE= declarative_base()
15 | 
16 | class Song(BASE):
17 |     #定义这个数据库表的名字
18 |     __tablename__ = 'song'
19 |     #设置一些对应的值
20 |     song_id = Column(Integer,primary_key=True,autoincrement=True)
21 |     singer_name= Column(String(50))
22 |     song_name = Column(String(64))
23 |     song_ablum = Column(String(64))
24 |     song_number = Column(String(50))
25 |     song_mid = Column(String(50))
26 | 
27 | 
28 | #把引擎加入基类里面
29 | BASE.metadata.create_all(engine)
30 | DBsession = sessionmaker(bind=engine)
31 | SQLsession = scoped_session(DBsession)


--------------------------------------------------------------------------------
/qq音乐的框架/sign.js:
--------------------------------------------------------------------------------
  1 | this.window=this;
  2 | var youmaoni=null;
  3 | 
  4 | !function(n, t) {
  5 |     "object" == typeof exports && "undefined" != typeof module ? module.exports = t() : "function" == typeof define && define.amd ? define(t) : (n = n || self).getSecuritySign = t()
  6 | } (this,
  7 | function() {
  8 |     "use strict";
  9 |     var n = function() {
 10 |         if ("undefined" != typeof self) return self;
 11 |         if ("undefined" != typeof window) return window;
 12 |         if ("undefined" != typeof global) return global;
 13 |         throw new Error("unable to locate global object")
 14 |     } ();
 15 |     n.__sign_hash_20200305 = function(n, t) {
 16 |         function f(n, t) {
 17 |             return n << t | n >>> 32 - t
 18 |         }
 19 |         function h(n, t) {
 20 |             var o, e, u, p, r;
 21 |             return u = 2147483648 & n,
 22 |             p = 2147483648 & t,
 23 |             r = (1073741823 & n) + (1073741823 & t),
 24 |             (o = 1073741824 & n) & (e = 1073741824 & t) ? 2147483648 ^ r ^ u ^ p: o | e ? 1073741824 & r ? 3221225472 ^ r ^ u ^ p: 1073741824 ^ r ^ u ^ p: r ^ u ^ p
 25 |         }
 26 |         function o(n, t, o, e, u, p, r) {
 27 |             var i;
 28 |             return n = h(n, h(h((i = t) & o | ~i & e, u), r)),
 29 |             h(f(n, p), t)
 30 |         }
 31 |         function e(n, t, o, e, u, p, r) {
 32 |             var i;
 33 |             return n = h(n, h(h(t & (i = e) | o & ~i, u), r)),
 34 |             h(f(n, p), t)
 35 |         }
 36 |         function u(n, t, o, e, u, p, r) {
 37 |             return n = h(n, h(h(t ^ o ^ e, u), r)),
 38 |             h(f(n, p), t)
 39 |         }
 40 |         function p(n, t, o, e, u, p, r) {
 41 |             return n = h(n, h(h(o ^ (t | ~e), u), r)),
 42 |             h(f(n, p), t)
 43 |         }
 44 |         function r(n) {
 45 |             var t, o = "",
 46 |             e = "";
 47 |             for (t = 0; t <= 3; t++) o += (e = "0" + (n >>> 8 * t & 255).toString(16)).substr(e.length - 2, 2);
 48 |             return o
 49 |         }
 50 |         var i, l, c, g, a, s, v, d, y, b;
 51 |         for (t = t || 32, i = function(n) {
 52 |             for (var t, o = n.length,
 53 |             e = o + 8,
 54 |             u = 16 * (1 + (e - e % 64) / 64), p = Array(u - 1), r = 0, i = 0; i < o;) r = i % 4 * 8,
 55 |             p[t = (i - i % 4) / 4] = p[t] | n.charCodeAt(i) << r,
 56 |             i++;
 57 |             return r = i % 4 * 8,
 58 |             p[t = (i - i % 4) / 4] = p[t] | 128 << r,
 59 |             p[u - 2] = o << 3,
 60 |             p[u - 1] = o >>> 29,
 61 |             p
 62 |         } (n = function(n) {
 63 |             n = n.replace(/\r\n/g, "\n");
 64 |             for (var t = "",
 65 |             o = 0; o < n.length; o++) {
 66 |                 var e = n.charCodeAt(o);
 67 |                 e < 128 ? t += String.fromCharCode(e) : (127 < e && e < 2048 ? t += String.fromCharCode(e >> 6 | 192) : (t += String.fromCharCode(e >> 12 | 224), t += String.fromCharCode(e >> 6 & 63 | 128)), t += String.fromCharCode(63 & e | 128))
 68 |             }
 69 |             return t
 70 |         } (n)), v = 1732584193, d = 4023233417, y = 2562383102, b = 271733878, l = 0; l < i.length; l += 16) v = o(c = v, g = d, a = y, s = b, i[l + 0], 7, 3614090360),
 71 |         b = o(b, v, d, y, i[l + 1], 12, 3905402710),
 72 |         y = o(y, b, v, d, i[l + 2], 17, 606105819),
 73 |         d = o(d, y, b, v, i[l + 3], 22, 3250441966),
 74 |         v = o(v, d, y, b, i[l + 4], 7, 4118548399),
 75 |         b = o(b, v, d, y, i[l + 5], 12, 1200080426),
 76 |         y = o(y, b, v, d, i[l + 6], 17, 2821735955),
 77 |         d = o(d, y, b, v, i[l + 7], 22, 4249261313),
 78 |         v = o(v, d, y, b, i[l + 8], 7, 1770035416),
 79 |         b = o(b, v, d, y, i[l + 9], 12, 2336552879),
 80 |         y = o(y, b, v, d, i[l + 10], 17, 4294925233),
 81 |         d = o(d, y, b, v, i[l + 11], 22, 2304563134),
 82 |         v = o(v, d, y, b, i[l + 12], 7, 1804603682),
 83 |         b = o(b, v, d, y, i[l + 13], 12, 4254626195),
 84 |         y = o(y, b, v, d, i[l + 14], 17, 2792965006),
 85 |         v = e(v, d = o(d, y, b, v, i[l + 15], 22, 1236535329), y, b, i[l + 1], 5, 4129170786),
 86 |         b = e(b, v, d, y, i[l + 6], 9, 3225465664),
 87 |         y = e(y, b, v, d, i[l + 11], 14, 643717713),
 88 |         d = e(d, y, b, v, i[l + 0], 20, 3921069994),
 89 |         v = e(v, d, y, b, i[l + 5], 5, 3593408605),
 90 |         b = e(b, v, d, y, i[l + 10], 9, 38016083),
 91 |         y = e(y, b, v, d, i[l + 15], 14, 3634488961),
 92 |         d = e(d, y, b, v, i[l + 4], 20, 3889429448),
 93 |         v = e(v, d, y, b, i[l + 9], 5, 568446438),
 94 |         b = e(b, v, d, y, i[l + 14], 9, 3275163606),
 95 |         y = e(y, b, v, d, i[l + 3], 14, 4107603335),
 96 |         d = e(d, y, b, v, i[l + 8], 20, 1163531501),
 97 |         v = e(v, d, y, b, i[l + 13], 5, 2850285829),
 98 |         b = e(b, v, d, y, i[l + 2], 9, 4243563512),
 99 |         y = e(y, b, v, d, i[l + 7], 14, 1735328473),
100 |         v = u(v, d = e(d, y, b, v, i[l + 12], 20, 2368359562), y, b, i[l + 5], 4, 4294588738),
101 |         b = u(b, v, d, y, i[l + 8], 11, 2272392833),
102 |         y = u(y, b, v, d, i[l + 11], 16, 1839030562),
103 |         d = u(d, y, b, v, i[l + 14], 23, 4259657740),
104 |         v = u(v, d, y, b, i[l + 1], 4, 2763975236),
105 |         b = u(b, v, d, y, i[l + 4], 11, 1272893353),
106 |         y = u(y, b, v, d, i[l + 7], 16, 4139469664),
107 |         d = u(d, y, b, v, i[l + 10], 23, 3200236656),
108 |         v = u(v, d, y, b, i[l + 13], 4, 681279174),
109 |         b = u(b, v, d, y, i[l + 0], 11, 3936430074),
110 |         y = u(y, b, v, d, i[l + 3], 16, 3572445317),
111 |         d = u(d, y, b, v, i[l + 6], 23, 76029189),
112 |         v = u(v, d, y, b, i[l + 9], 4, 3654602809),
113 |         b = u(b, v, d, y, i[l + 12], 11, 3873151461),
114 |         y = u(y, b, v, d, i[l + 15], 16, 530742520),
115 |         v = p(v, d = u(d, y, b, v, i[l + 2], 23, 3299628645), y, b, i[l + 0], 6, 4096336452),
116 |         b = p(b, v, d, y, i[l + 7], 10, 1126891415),
117 |         y = p(y, b, v, d, i[l + 14], 15, 2878612391),
118 |         d = p(d, y, b, v, i[l + 5], 21, 4237533241),
119 |         v = p(v, d, y, b, i[l + 12], 6, 1700485571),
120 |         b = p(b, v, d, y, i[l + 3], 10, 2399980690),
121 |         y = p(y, b, v, d, i[l + 10], 15, 4293915773),
122 |         d = p(d, y, b, v, i[l + 1], 21, 2240044497),
123 |         v = p(v, d, y, b, i[l + 8], 6, 1873313359),
124 |         b = p(b, v, d, y, i[l + 15], 10, 4264355552),
125 |         y = p(y, b, v, d, i[l + 6], 15, 2734768916),
126 |         d = p(d, y, b, v, i[l + 13], 21, 1309151649),
127 |         v = p(v, d, y, b, i[l + 4], 6, 4149444226),
128 |         b = p(b, v, d, y, i[l + 11], 10, 3174756917),
129 |         y = p(y, b, v, d, i[l + 2], 15, 718787259),
130 |         d = p(d, y, b, v, i[l + 9], 21, 3951481745),
131 |         v = h(v, c),
132 |         d = h(d, g),
133 |         y = h(y, a),
134 |         b = h(b, s);
135 |         return 32 == t ? r(v) + r(d) + r(y) + r(b) : r(d) + r(y)
136 |     },
137 |     function i(f, h, l, c, g) {
138 |         g = g || [[this], [{}]];
139 |         for (var t = [], o = null, n = [function() {
140 |             return ! 0
141 |         },
142 |         function() {},
143 |         function() {
144 |             g.length = l[h++]
145 |         },
146 |         function() {
147 |             g.push(l[h++])
148 |         },
149 |         function() {
150 |             g.pop()
151 |         },
152 |         function() {
153 |             var n = l[h++],
154 |             t = g[g.length - 2 - n];
155 |             g[g.length - 2 - n] = g.pop(),
156 |             g.push(t)
157 |         },
158 |         function() {
159 |             g.push(g[g.length - 1])
160 |         },
161 |         function() {
162 |             g.push([g.pop(), g.pop()].reverse())
163 |         },
164 |         function() {
165 |             g.push([c, g.pop()])
166 |         },
167 |         function() {
168 |             g.push([g.pop()])
169 |         },
170 |         function() {
171 |             var n = g.pop();
172 |             g.push(n[0][n[1]])
173 |         },
174 |         function() {
175 |             g.push(g[g.pop()[0]][0])
176 |         },
177 |         function() {
178 |             var n = g[g.length - 2];
179 |             n[0][n[1]] = g[g.length - 1]
180 |         },
181 |         function() {
182 |             g[g[g.length - 2][0]][0] = g[g.length - 1]
183 |         },
184 |         function() {
185 |             var n = g.pop(),
186 |             t = g.pop();
187 |             g.push([t[0][t[1]], n])
188 |         },
189 |         function() {
190 |             var n = g.pop();
191 |             g.push([g[g.pop()][0], n])
192 |         },
193 |         function() {
194 |             var n = g.pop();
195 |             g.push(delete n[0][n[1]])
196 |         },
197 |         function() {
198 |             var n = [];
199 |             for (var t in g.pop()) n.push(t);
200 |             g.push(n)
201 |         },
202 |         function() {
203 |             g[g.length - 1].length ? g.push(g[g.length - 1].shift(), !0) : g.push(void 0, !1)
204 |         },
205 |         function() {
206 |             var n = g[g.length - 2],
207 |             t = Object.getOwnPropertyDescriptor(n[0], n[1]) || {
208 |                 configurable: !0,
209 |                 enumerable: !0
210 |             };
211 |             t.get = g[g.length - 1],
212 |             Object.defineProperty(n[0], n[1], t)
213 |         },
214 |         function() {
215 |             var n = g[g.length - 2],
216 |             t = Object.getOwnPropertyDescriptor(n[0], n[1]) || {
217 |                 configurable: !0,
218 |                 enumerable: !0
219 |             };
220 |             t.set = g[g.length - 1],
221 |             Object.defineProperty(n[0], n[1], t)
222 |         },
223 |         function() {
224 |             h = l[h++]
225 |         },
226 |         function() {
227 |             var n = l[h++];
228 |             g[g.length - 1] && (h = n)
229 |         },
230 |         function() {
231 |             throw g[g.length - 1]
232 |         },
233 |         function() {
234 |             var n = l[h++],
235 |             t = n ? g.slice( - n) : [];
236 |             g.length -= n,
237 |             g.push(g.pop().apply(c, t))
238 |         },
239 |         function() {
240 |             var n = l[h++],
241 |             t = n ? g.slice( - n) : [];
242 |             g.length -= n;
243 |             var o = g.pop();
244 |             g.push(o[0][o[1]].apply(o[0], t))
245 |         },
246 |         function() {
247 |             var n = l[h++],
248 |             t = n ? g.slice( - n) : [];
249 |             g.length -= n,
250 |             t.unshift(null),
251 |             g.push(new(Function.prototype.bind.apply(g.pop(), t)))
252 |         },
253 |         function() {
254 |             var n = l[h++],
255 |             t = n ? g.slice( - n) : [];
256 |             g.length -= n,
257 |             t.unshift(null);
258 |             var o = g.pop();
259 |             g.push(new(Function.prototype.bind.apply(o[0][o[1]], t)))
260 |         },
261 |         function() {
262 |             g.push(!g.pop())
263 |         },
264 |         function() {
265 |             g.push(~g.pop())
266 |         },
267 |         function() {
268 |             g.push(typeof g.pop())
269 |         },
270 |         function() {
271 |             g[g.length - 2] = g[g.length - 2] == g.pop()
272 |         },
273 |         function() {
274 |             g[g.length - 2] = g[g.length - 2] === g.pop()
275 |         },
276 |         function() {
277 |             g[g.length - 2] = g[g.length - 2] > g.pop()
278 |         },
279 |         function() {
280 |             g[g.length - 2] = g[g.length - 2] >= g.pop()
281 |         },
282 |         function() {
283 |             g[g.length - 2] = g[g.length - 2] << g.pop()
284 |         },
285 |         function() {
286 |             g[g.length - 2] = g[g.length - 2] >> g.pop()
287 |         },
288 |         function() {
289 |             g[g.length - 2] = g[g.length - 2] >>> g.pop()
290 |         },
291 |         function() {
292 |             g[g.length - 2] = g[g.length - 2] + g.pop()
293 |         },
294 |         function() {
295 |             g[g.length - 2] = g[g.length - 2] - g.pop()
296 |         },
297 |         function() {
298 |             g[g.length - 2] = g[g.length - 2] * g.pop()
299 |         },
300 |         function() {
301 |             g[g.length - 2] = g[g.length - 2] / g.pop()
302 |         },
303 |         function() {
304 |             g[g.length - 2] = g[g.length - 2] % g.pop()
305 |         },
306 |         function() {
307 |             g[g.length - 2] = g[g.length - 2] | g.pop()
308 |         },
309 |         function() {
310 |             g[g.length - 2] = g[g.length - 2] & g.pop()
311 |         },
312 |         function() {
313 |             g[g.length - 2] = g[g.length - 2] ^ g.pop()
314 |         },
315 |         function() {
316 |             g[g.length - 2] = g[g.length - 2] in g.pop()
317 |         },
318 |         function() {
319 |             g[g.length - 2] = g[g.length - 2] instanceof g.pop()
320 |         },
321 |         function() {
322 |             g[g[g.length - 1][0]] = void 0 === g[g[g.length - 1][0]] ? [] : g[g[g.length - 1][0]]
323 |         },
324 |         function() {
325 |             for (var e = l[h++], u = [], n = l[h++], t = l[h++], p = [], o = 0; o < n; o++) u[l[h++]] = g[l[h++]];
326 |             for (var r = 0; r < t; r++) p[r] = l[h++];
327 |             g.push(function n() {
328 |                 var t = u.slice(0);
329 |                 t[0] = [this],
330 |                 t[1] = [arguments],
331 |                 t[2] = [n];
332 |                 for (var o = 0; o < p.length && o < arguments.length; o++) 0 < p[o] && (t[p[o]] = [arguments[o]]);
333 |                 return i(f, e, l, c, t)
334 |             })
335 |         },
336 |         function() {
337 |             t.push([l[h++], g.length, l[h++]])
338 |         },
339 |         function() {
340 |             t.pop()
341 |         },
342 |         function() {
343 |             return !! o
344 |         },
345 |         function() {
346 |             o = null
347 |         },
348 |         function() {
349 |             g[g.length - 1] += String.fromCharCode(l[h++])
350 |         },
351 |         function() {
352 |             g.push("")
353 |         },
354 |         function() {
355 |             g.push(void 0)
356 |         },
357 |         function() {
358 |             g.push(null)
359 |         },
360 |         function() {
361 |             g.push(!0)
362 |         },
363 |         function() {
364 |             g.push(!1)
365 |         },
366 |         function() {
367 |             g.length -= l[h++]
368 |         },
369 |         function() {
370 |             g[g.length - 1] = l[h++]
371 |         },
372 |         function() {
373 |             var n = g.pop(),
374 |             t = g[g.length - 1];
375 |             t[0][t[1]] = g[n[0]][0]
376 |         },
377 |         function() {
378 |             var n = g.pop(),
379 |             t = g[g.length - 1];
380 |             t[0][t[1]] = n[0][n[1]]
381 |         },
382 |         function() {
383 |             var n = g.pop(),
384 |             t = g[g.length - 1];
385 |             g[t[0]][0] = g[n[0]][0]
386 |         },
387 |         function() {
388 |             var n = g.pop(),
389 |             t = g[g.length - 1];
390 |             g[t[0]][0] = n[0][n[1]]
391 |         },
392 |         function() {
393 |             g[g.length - 2] = g[g.length - 2] < g.pop()
394 |         },
395 |         function() {
396 |             g[g.length - 2] = g[g.length - 2] <= g.pop()
397 |         }];;) try {
398 |             for (; ! n[l[h++]](););
399 |             if (o) throw o;
400 |             return g.pop()
401 |         } catch(n) {
402 |             var e = t.pop();
403 |             if (void 0 === e) throw n;
404 |             o = n,
405 |             h = e[0],
406 |             g.length = e[1],
407 |             e[2] && (g[e[2]][0] = o)
408 |         }
409 |     } (120731, 0, [21, 34, 50, 100, 57, 50, 102, 50, 98, 99, 101, 52, 54, 97, 52, 99, 55, 56, 52, 49, 57, 54, 57, 49, 56, 98, 102, 100, 100, 48, 48, 55, 55, 102, 2, 10, 3, 2, 9, 48, 61, 3, 9, 48, 61, 4, 9, 48, 61, 5, 9, 48, 61, 6, 9, 48, 61, 7, 9, 48, 61, 8, 9, 48, 61, 9, 9, 48, 4, 21, 427, 54, 2, 15, 3, 2, 9, 48, 61, 3, 9, 48, 61, 4, 9, 48, 61, 5, 9, 48, 61, 6, 9, 48, 61, 7, 9, 48, 61, 8, 9, 48, 61, 9, 9, 48, 61, 10, 9, 48, 61, 11, 9, 48, 61, 12, 9, 48, 61, 13, 9, 48, 61, 14, 9, 48, 61, 10, 9, 55, 54, 97, 54, 98, 54, 99, 54, 100, 54, 101, 54, 102, 54, 103, 54, 104, 54, 105, 54, 106, 54, 107, 54, 108, 54, 109, 54, 110, 54, 111, 54, 112, 54, 113, 54, 114, 54, 115, 54, 116, 54, 117, 54, 118, 54, 119, 54, 120, 54, 121, 54, 122, 54, 48, 54, 49, 54, 50, 54, 51, 54, 52, 54, 53, 54, 54, 54, 55, 54, 56, 54, 57, 13, 4, 61, 11, 9, 55, 54, 77, 54, 97, 54, 116, 54, 104, 8, 55, 54, 102, 54, 108, 54, 111, 54, 111, 54, 114, 14, 55, 54, 77, 54, 97, 54, 116, 54, 104, 8, 55, 54, 114, 54, 97, 54, 110, 54, 100, 54, 111, 54, 109, 14, 25, 0, 3, 4, 9, 11, 3, 3, 9, 11, 39, 3, 1, 38, 40, 3, 3, 9, 11, 38, 25, 1, 13, 4, 61, 12, 9, 55, 13, 4, 61, 13, 9, 3, 0, 13, 4, 4, 3, 13, 9, 11, 3, 11, 9, 11, 66, 22, 306, 4, 21, 422, 24, 4, 3, 14, 9, 55, 54, 77, 54, 97, 54, 116, 54, 104, 8, 55, 54, 102, 54, 108, 54, 111, 54, 111, 54, 114, 14, 55, 54, 77, 54, 97, 54, 116, 54, 104, 8, 55, 54, 114, 54, 97, 54, 110, 54, 100, 54, 111, 54, 109, 14, 25, 0, 3, 10, 9, 55, 54, 108, 54, 101, 54, 110, 54, 103, 54, 116, 54, 104, 15, 10, 40, 25, 1, 13, 4, 61, 12, 9, 6, 11, 3, 10, 9, 3, 14, 9, 11, 15, 10, 38, 13, 4, 61, 13, 9, 6, 11, 6, 5, 1, 5, 0, 3, 1, 38, 13, 4, 61, 0, 5, 0, 43, 4, 21, 291, 61, 3, 12, 9, 11, 0, 3, 9, 9, 49, 72, 0, 2, 3, 4, 13, 4, 61, 8, 9, 21, 721, 3, 2, 8, 3, 2, 9, 48, 61, 3, 9, 48, 61, 4, 9, 48, 61, 5, 9, 48, 61, 6, 9, 48, 61, 7, 9, 48, 4, 55, 54, 115, 54, 101, 54, 108, 54, 102, 8, 10, 30, 55, 54, 117, 54, 110, 54, 100, 54, 101, 54, 102, 54, 105, 54, 110, 54, 101, 54, 100, 32, 28, 22, 510, 4, 21, 523, 22, 4, 55, 54, 115, 54, 101, 54, 108, 54, 102, 8, 10, 0, 55, 54, 119, 54, 105, 54, 110, 54, 100, 54, 111, 54, 119, 8, 10, 30, 55, 54, 117, 54, 110, 54, 100, 54, 101, 54, 102, 54, 105, 54, 110, 54, 101, 54, 100, 32, 28, 22, 566, 4, 21, 583, 3, 4, 55, 54, 119, 54, 105, 54, 110, 54, 100, 54, 111, 54, 119, 8, 10, 0, 55, 54, 103, 54, 108, 54, 111, 54, 98, 54, 97, 54, 108, 8, 10, 30, 55, 54, 117, 54, 110, 54, 100, 54, 101, 54, 102, 54, 105, 54, 110, 54, 101, 54, 100, 32, 28, 22, 626, 4, 21, 643, 25, 4, 55, 54, 103, 54, 108, 54, 111, 54, 98, 54, 97, 54, 108, 8, 10, 0, 55, 54, 69, 54, 114, 54, 114, 54, 111, 54, 114, 8, 55, 54, 117, 54, 110, 54, 97, 54, 98, 54, 108, 54, 101, 54, 32, 54, 116, 54, 111, 54, 32, 54, 108, 54, 111, 54, 99, 54, 97, 54, 116, 54, 101, 54, 32, 54, 103, 54, 108, 54, 111, 54, 98, 54, 97, 54, 108, 54, 32, 54, 111, 54, 98, 54, 106, 54, 101, 54, 99, 54, 116, 27, 1, 23, 56, 0, 49, 444, 0, 0, 24, 0, 13, 4, 61, 8, 9, 55, 54, 95, 54, 95, 54, 103, 54, 101, 54, 116, 54, 83, 54, 101, 54, 99, 54, 117, 54, 114, 54, 105, 54, 116, 54, 121, 54, 83, 54, 105, 54, 103, 54, 110, 15, 21, 1126, 49, 2, 14, 3, 2, 9, 48, 61, 3, 9, 48, 61, 4, 9, 48, 61, 5, 9, 48, 61, 6, 9, 48, 61, 7, 9, 48, 61, 8, 9, 48, 61, 9, 9, 48, 61, 10, 9, 48, 61, 11, 9, 48, 61, 9, 9, 55, 54, 108, 54, 111, 54, 99, 54, 97, 54, 116, 54, 105, 54, 111, 54, 110, 8, 10, 30, 55, 54, 117, 54, 110, 54, 100, 54, 101, 54, 102, 54, 105, 54, 110, 54, 101, 54, 100, 32, 28, 22, 862, 21, 932, 21, 4, 55, 54, 108, 54, 111, 54, 99, 54, 97, 54, 116, 54, 105, 54, 111, 54, 110, 8, 55, 54, 104, 54, 111, 54, 115, 54, 116, 14, 55, 54, 105, 54, 110, 54, 100, 54, 101, 54, 120, 54, 79, 54, 102, 14, 55, 54, 121, 54, 46, 54, 113, 54, 113, 54, 46, 54, 99, 54, 111, 54, 109, 25, 1, 3, 0, 3, 1, 39, 32, 22, 963, 4, 55, 54, 67, 54, 74, 54, 66, 54, 80, 54, 65, 54, 67, 54, 114, 54, 82, 54, 117, 54, 78, 54, 121, 54, 55, 21, 974, 50, 4, 3, 12, 9, 11, 3, 8, 3, 10, 24, 2, 13, 4, 61, 10, 9, 3, 13, 9, 55, 54, 95, 54, 95, 54, 115, 54, 105, 54, 103, 54, 110, 54, 95, 54, 104, 54, 97, 54, 115, 54, 104, 54, 95, 54, 50, 54, 48, 54, 50, 54, 48, 54, 48, 54, 51, 54, 48, 54, 53, 15, 10, 22, 1030, 21, 1087, 22, 4, 3, 13, 9, 55, 54, 95, 54, 95, 54, 115, 54, 105, 54, 103, 54, 110, 54, 95, 54, 104, 54, 97, 54, 115, 54, 104, 54, 95, 54, 50, 54, 48, 54, 50, 54, 48, 54, 48, 54, 51, 54, 48, 54, 53, 15, 3, 9, 9, 11, 3, 3, 9, 11, 38, 25, 1, 13, 4, 61, 11, 9, 3, 12, 9, 11, 3, 10, 3, 53, 3, 37, 39, 24, 2, 13, 4, 4, 55, 54, 122, 54, 122, 54, 97, 3, 11, 9, 11, 38, 3, 10, 9, 11, 38, 0, 49, 771, 2, 1, 12, 9, 13, 8, 3, 12, 4, 4, 56, 0], n);
410 |     var t = n.__getSecuritySign;
411 | youmaoni=t;
412 |     return t
413 | });
414 | 
415 | function test(){
416 | 	return youmaoni("123");
417 | }
418 | 
419 | function getSIgn(data) {
420 |     return youmaoni(data);
421 | }


--------------------------------------------------------------------------------
/qq音乐的框架/test.py:
--------------------------------------------------------------------------------
  1 | import requests
  2 | import uuid
  3 | from urllib import parse
  4 | import math
  5 | import execjs
  6 | import os
  7 | from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor
  8 | headers = {
  9 |     "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36",
 10 |     "accept-language": "zh-CN,zh;q=0.9",
 11 |     "accept-encoding": "gzip, deflate, br",
 12 |     "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
 13 |     "cache-control": "max-age=600",
 14 |     "Referer": "https://y.qq.com/portal/singer_list.html",
 15 | }
 16 | def get_singer_mid(index):
 17 |     #index=1---27
 18 |     data='{"comm":{"ct":24,"cv":0},"singerList":{"module":"Music.SingerListServer"' \
 19 |           ',"method":"get_singer_list","param":{"area":-100,"sex":-100,"genre":-100,' \
 20 |             '"index":%s,"sin":0,"cur_page":1}}}' % (str(index))
 21 |     url='https://u.y.qq.com/cgi-bin/musicu.fcg?-=getUCGI0432880619182503' \
 22 |           '&g_tk=571600846&loginUin=0&hostUin=0&format=json&inCharset=utf8&out' \
 23 |           'Charset=utf-8&notice=0&platform=yqq.json&needNewCode=0' \
 24 |           '&data={}'.format(parse.quote(data))
 25 |     html=requests.get(url).json()
 26 |     total=html["singerList"]["data"]["total"]
 27 |     pages=int(math.floor(int(total)/80))
 28 |     thread_number=pages
 29 |     Thread=ThreadPoolExecutor(max_workers=thread_number)
 30 |     sin = 0
 31 |     for page in range(1, pages):
 32 |         data = '{"comm":{"ct":24,"cv":0},"singerList":{"module":"Music.SingerListServer",' \
 33 |                '"method":"get_singer_list","param":{"area":-100,"sex":-100,"genre":-100,"' \
 34 |                'index":%s,"sin":%d,"cur_page":%s}}}' % (str(index), sin, str(page))
 35 | 
 36 |         url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getUCGI0432880619182503' \
 37 |               '&g_tk=571600846&loginUin=0&hostUin=0&format=json&inCharset=utf8&out' \
 38 |               'Charset=utf-8&notice=0&platform=yqq.json&needNewCode=0' \
 39 |               '&data={}'.format(parse.quote(data))
 40 |         html=requests.get(url,headers=headers).json()
 41 |         sings=html['singerList']['data']['singerlist']
 42 |         for sing in sings:
 43 |             singer_name = sing['singer_name']
 44 |             mid = sing['singer_mid']
 45 |             get_singer_data(mid,singer_name)
 46 |         sin += 80
 47 | 
 48 | def get_singer_data(mid,singer_name):
 49 |     params = '{"comm":{"ct":24,"cv":0},"singerSongList":{"method":"GetSingerSongList",' \
 50 |              '"param":{"order":1,"singerMid":"%s","begin":0,"num":10},' \
 51 |              '"module":"musichall.song_list_server"}}' % str(mid)
 52 | 
 53 |     url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getSingerSong9513357793133783&' \
 54 |           'g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8' \
 55 |           '&notice=0&platform=yqq.json&needNewCode=0*&data={}'.format(parse.quote(params))
 56 |     html=requests.session()
 57 |     content=html.get(url,headers=headers).json()
 58 |     songs_num=content['singerSongList']['data']['totalNum']
 59 | 
 60 |     if int(songs_num)<=80:
 61 |         params = '{"comm":{"ct":24,"cv":0},"singerSongList":{"method":"GetSingerSongList",' \
 62 |                  '"param":{"order":1,"singerMid":"%s","begin":0,"num":%s},' \
 63 |                  '"module":"musichall.song_list_server"}}' % (str(mid), str(songs_num))
 64 | 
 65 |         url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getSingerSong9513357793133783&' \
 66 |               'g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8' \
 67 |               '&notice=0&platform=yqq.json&needNewCode=0*&data={}'.format(parse.quote(params))
 68 |         html = requests.session()
 69 |         content =html.get(url,headers=headers).json()
 70 |         datas = content['singerSongList']['data']['songList']
 71 |         for song in datas:
 72 |             song_name = song['songInfo']['name']
 73 |             song_ablum = song['songInfo']['album']['name']
 74 |             singer_name = singer_name
 75 |             song_mid = song['songInfo']['mid']
 76 |             print(singer_name,song_name,song_ablum,song_mid)
 77 | 
 78 |     else:
 79 |         for a in range(0,songs_num,80):
 80 |             params = '{"comm":{"ct":24,"cv":0},"singerSongList":{"method":"GetSingerSongList",' \
 81 |                      '"param":{"order":1,"singerMid":"%s","begin":%s,"num":%s},' \
 82 |                      '"module":"musichall.song_list_server"}}' % (str(mid), int(a), int(songs_num))
 83 | 
 84 |             url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getSingerSong9513357793133783&' \
 85 |                   'g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8' \
 86 |                   '&notice=0&platform=yqq.json&needNewCode=0*&data={}'.format(parse.quote(params))
 87 |             html = requests.session()
 88 |             content = html.get(url, headers=headers).json()
 89 |             datas = content['singerSongList']['data']['songList']
 90 |             for song in datas:
 91 |                 song_name = song['songInfo']['name']
 92 |                 song_ablum = song['songInfo']['album']['name']
 93 |                 singer_name = singer_name
 94 |                 song_mid = song['songInfo']['mid']
 95 |                 print(singer_name,song_name,song_ablum,song_mid)
 96 |                 download(song_mid,singer_name)
 97 | def download(song_mid,sing_name):
 98 |     headers = {
 99 |         'cookie': 'pgv_pvid=2128245208; pac_uid=0_6b1c785781d54; pgv_pvi=772980736; RK=8x5lwvVnY1;'
100 |                   ' ptcz=baca3422f148c8897bd71cb3765e7c08bf0dddc2aac46b34eb2f6b669e38d215;'
101 |                   ' ptui_loginuin=1766228968@qq.com; ts_refer=www.baidu.com/link; ts_uid=2958609676; '
102 |                   'pgv_si=s6667516928; pgv_info=ssid=s1048782460; player_exist=1; qqmusic_fromtag=66;'
103 |                   ' userAction=1; yqq_stat=0; _qpsvr_localtk=0.5664181233633159;'
104 |                   'psrf_qqunionid=E7D5E8B282E958B5ED555246677BCD41; psrf_qqrefresh_'
105 |                   'token=DC32336F11952FA5867192F46CF15FD5; tmeLoginType=2; qqmusic_'
106 |                   'key=Q_H_L_2Sqn2y50eyOV1i5dcbk613wim45KnxmEK5ofj1RsBgxgHN-xLkK25EjEAQ2jvs1;'
107 |                   ' psrf_qqopenid=33B542A190FCA799A663FDDCB25EA8F0; qm_'
108 |                   'keyst=Q_H_L_2Sqn2y50eyOV1i5dcbk613wim45KnxmEK5ofj1RsBgxgHN-xLkK25EjEAQ2jvs1; '
109 |                   'euin=oK4qNe-l7KvPoz**; psrf_access_token_expiresAt=1601793607; '
110 |                   'psrf_musickey_createtime=1594017607; psrf_qqaccess_token=8838D613ABE40CD4A345D8E550EBB967; '
111 |                   'uin=1598275443; ts_last=y.qq.com/portal/player.html; yplayer_open=1; yq_index=3',
112 |         'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36',
113 |         'referer': 'https://y.qq.com/portal/player.html'
114 |     }
115 | 
116 |     data = '{"req_0":{"module":"vkey.GetVkeyServer","method":"CgiGetVkey","param":' \
117 |            '{"guid":"2128245208","songmid":["%s"],"songtype":[0],"uin":"1598275443","loginflag"' \
118 |            ':1,"platform":"20"}},"comm":{"uin":1598275443,"format":"json","ct":24,"cv":0}}' % str(
119 |         song_mid)
120 |     url = 'https://u.y.qq.com/cgi-bin/musicu.fcg?-=getplaysongvkey17693804549459324' \
121 |           '&g_tk=5381&loginUin=3262637034&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8' \
122 |           '&notice=0&platform=yqq.json&needNewCode=0&data={}'.format(parse.quote(data))
123 |     vkey = requests.get(url, headers=headers)
124 |     purl = vkey.json()['req_0']['data']['midurlinfo'][0]['purl']
125 |     url = 'https://ws.stream.qqmusic.qq.com/' + purl
126 |     html = requests.get(url)
127 |     filename = 'qq音乐'
128 |     if not os.path.exists(filename):
129 |         os.makedirs(filename)
130 |     with open('./{}/{}.m4a'.format(filename, sing_name), 'wb') as f:
131 |         print('\n正在下载{}歌曲.....\n'.format(sing_name))
132 |         f.write(html.content)
133 | 
134 | 
135 | 
136 | 
137 | if __name__ == '__main__':
138 |     get_singer_mid(2)


--------------------------------------------------------------------------------
/中国疫情地图/地图.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import json
 3 | import re
 4 | from pyecharts.charts import Map
 5 | from pyecharts import options
 6 | #先请求到数据的页面
 7 | result = requests.get(
 8 |     'https://interface.sina.cn/news/wap/fymap2020_data.d.json?1580097300739&&callback=sinajp_1580097300873005379567841634181')
 9 | #用正则去获取具体的数字
10 | json_str = re.search("\(+([^)]*)\)+", result.text).group(1)
11 | html = f"{json_str}"
12 | #然后用json把json转化为python
13 | table = json.loads(f"{html}")
14 | province_data = []
15 | for province in table['data']['list']:
16 |     province_data.append((province['name'], province['value']))
17 | city_data = []
18 | # 循环获取城市名称和对应的确诊数据
19 | for city in province['city']:
20 |     # 这里要注意对应上地图的名字需要使用mapName这个字段
21 |     city_data.append((city['mapName'], city['conNum']))
22 | # 使用Map，创建省份地图
23 | map_province = Map()
24 | # 设置地图上的标题和数据标记，添加省份和确诊人数
25 | map_province.set_global_opts(title_opts=options.TitleOpts(
26 |     title=province['name'] + "全国疫情的总数：" + province['value']),
27 |     visualmap_opts=options.VisualMapOpts(is_piecewise=True,  # 设置是否为分段显示
28 |                                          # 自定义数据范围和对应的颜色，这里我是取色工具获取的颜色值，不容易呀。
29 |                                          pieces=[
30 |                                              {"min": 1000, "label": '>1000',
31 |                                               "color": "#6F171F"},
32 |                                              {"min": 500, "max": 1000,
33 |                                               "label": '500-1000', "color": "#C92C34"},
34 |                                              {"min": 100, "max": 499,
35 |                                               "label": '100-499', "color": "#E35B52"},
36 |                                              {"min": 10, "max": 99,
37 |                                               "label": '10-99', "color": "#F39E86"},
38 |                                              {"min": 1, "max": 9, "label": '1-9', "color": "#FDEBD0"}]))
39 | # 将 数据添加进去，生成省份地图，所以maptype要对应省份。
40 | map_province.add("确诊人数：", city_data, maptype=province['name'])
41 | # 一切完成，那么生成一个省份的html网页文件，取上对应省份的名字。
42 | 
43 | # 创建国家地图
44 | map_country = Map()
45 | # 设置地图上的标题和数据标记，添加确诊人数
46 | map_country.set_global_opts(title_opts=options.TitleOpts(
47 |     title="全国确诊人数：" + str(table['data']["gntotal"])),
48 |     visualmap_opts=options.VisualMapOpts(is_piecewise=True,  # 设置是否为分段显示
49 |                                          # 自定义数据范围和对应的颜色，这里我是取色工具获取的颜色值，不容易呀。
50 |                                          pieces=[
51 |                                              # 不指定 max，表示 max 为无限大（Infinity）。
52 |                                              {"min": 1000, "label": '>1000',
53 |                                               "color": "#6F171F"},
54 |                                              {"min": 500, "max": 1000,
55 |                                               "label": '500-1000', "color": "#C92C34"},
56 |                                              {"min": 100, "max": 499,
57 |                                               "label": '100-499', "color": "#E35B52"},
58 |                                              {"min": 10, "max": 99,
59 |                                               "label": '10-99', "color": "#F39E86"},
60 |                                              {"min": 1, "max": 9, "label": '1-9', "color": "#FDEBD0"}]))
61 | # 将数据添加进去，生成中国地图，所以maptype要对应china。
62 | map_country.add("确诊人数：", province_data, maptype="china")
63 | # 一切完成，那么生成一个html网页文件。
64 | map_country.render("country.html")
65 | print("生成完成！！！")


--------------------------------------------------------------------------------
/京东框架/Celery.py:
--------------------------------------------------------------------------------
 1 | from celery import Celery
 2 | import requests,re,json
 3 | app = Celery(
 4 |     'tasks',
 5 |     backend='redis://127.0.0.1:6379/2',
 6 |     broker='redis://127.0.0.1:6379/1',
 7 | )
 8 | headers = {
 9 | 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
10 | }
11 | def get_id(url):
12 |     id = re.compile('\d+')
13 |     res = id.findall(url)
14 |     return res[0]
15 | @app.task
16 | def get_comm(url,comm_num):
17 |     #存放结果
18 |     good_comments = ""
19 |     #获取评论
20 |     item_id = get_id(url)
21 |     pages = comm_num//10
22 |     if pages>99:
23 |         pages = 99
24 |     for page in range(0,pages):
25 |         comm_url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={}&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&rid=0&fold=1'.format(item_id,page)
26 |         headers['Referer'] = url
27 |         json_decode = requests.get(comm_url,headers = headers).text
28 |         try:
29 |             if json_decode:
30 |                 start = json_decode.find('{"productAttr"')
31 |                 end = json_decode.find('"afterDays":0}]}') + len('"afterDays":0}]}')
32 |                 results = json.loads(json_decode[start:end])['comments']
33 |                 for result in results:
34 |                     content = result['content']
35 |                     good_comments += "{}|".format(content)
36 |         except Exception as e:
37 |             pass
38 |     return item_id,good_comments
39 | 


--------------------------------------------------------------------------------
/京东框架/client.py:
--------------------------------------------------------------------------------
 1 | import redis
 2 | import json
 3 | def write_csv(row):
 4 |     with open('shop.txt','a+',encoding='utf8')as f:
 5 |         f.write(str(row)+'\n')
 6 | r = redis.Redis(host='127.0.0.1',port=6379,db=2)
 7 | keys = r.keys()
 8 | for key in keys():
 9 |     res = r.get(key)
10 |     res = json.loads(res.decode('utf-8'))
11 |     results = res.get('result')
12 |     write_csv(results)


--------------------------------------------------------------------------------
/京东框架/main.py:
--------------------------------------------------------------------------------
  1 | import requests
  2 | from bs4 import BeautifulSoup
  3 | import re,json,csv
  4 | import threadpool
  5 | from urllib import parse
  6 | headers = {
  7 |     'cookie': 'unpl=V2_ZzNtbRAEQxYiDBNTKR1cAmIGEg1KVEYVcgxFBH4ZCQIyABpbclRCFnQUR1NnGlQUZwEZWUtcQRdFCEdkeB5fA2AFEFlBZxVLK14bADlNDEY1WnwHBAJfF3ILQFJ8HlQMZAEUbXJUQyV1CXZdeR1aB2QHE1tyZ0QlRThGXXMbXQZXAiJcchUXSXEKQVVzGBEMZQcUX0FTQhNFCXZX; __jdv=76161171|google-search|t_262767352_googlesearch|cpc|kwd-362776698237_0_cb12f5d6c516441a9241652a41d6d297|1593410310158; __jdu=835732507; areaId=19; ipLoc-djd=19-1601-50256-0; PCSYCityID=CN_440000_440100_440114; shshshfpa=b3947298-5c63-ba93-8e7d-b89e3e422382-1593410312; shshshfpb=eVvsT1HAgXe1EsnsQQ6HTpQ%3D%3D; __jda=122270672.835732507.1593410309.1593410309.1593410310.1; __jdc=122270672; shshshfp=158c0090e5888d932458419e12bac1d7; rkv=V0100; 3AB9D23F7A4B3C9B=VLVTNQOO6BLWETXYSO5XADLGXR7OIDM3NHDDPRNYKWBPH45RRTYXIJNGG5TFHJ5YYFBFDEARKUWAM3XO4ZWTNCDX7U; qrsc=3; shshshsID=0c6834aad4a33312fc6c9eadbfb29e65_6_1593410449685; __jdb=122270672.6.835732507|1.1593410310',
  8 |     'referer': 'https://search.jd.com/Search?keyword=python&wq=python&page=3&s=61&click=0',
  9 |     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
 10 | }
 11 | id_comm_dict = {}
 12 | KEYWORD = parse.quote('python')
 13 | 
 14 | def get_comm(url,comm_num):
 15 |     #存放结果
 16 |     good_comments = ""
 17 |     #获取评论
 18 |     item_id = get_id(url)
 19 |     pages = comm_num//10
 20 |     if pages>99:
 21 |         pages = 99
 22 |     for page in range(0,pages):
 23 |         comm_url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={}&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&rid=0&fold=1'.format(item_id,page)
 24 |         headers['Referer'] = url
 25 |         html = requests.get(comm_url, headers=headers)
 26 |         json_decode = html.text
 27 |         try:
 28 |             if json_decode:
 29 |                 start = json_decode.find('{"productAttr"')
 30 |                 end = json_decode.find('"afterDays":0}]}') + len('"afterDays":0}]}')
 31 |                 results = json.loads(json_decode[start:end])['comments']
 32 |                 for result in results:
 33 |                     content = result['content']
 34 |                     good_comments += "{}|".format(content)
 35 |         except Exception as e:
 36 |             pass
 37 |     return item_id,good_comments
 38 | 
 39 | def get_index(url):
 40 |     session = requests.Session()
 41 |     session.headers = headers
 42 |     html = session.get(url)
 43 |     soup = BeautifulSoup(html.text,'lxml')
 44 |     items = soup.select('li.gl-item')
 45 |     for item in items:
 46 |         base = 'https://item.jd.com/'
 47 |         inner_url = item.select_one('.gl-i-wrap div.p-img a').get('href')
 48 |         inner_url = parse.urljoin(base,inner_url)
 49 |         item_id = get_id(inner_url)
 50 |         comm_num = get_comm_num(inner_url)
 51 |         # if comm_num>0:
 52 |         #     id_comm_dict[item_id] = get_comm.delay(inner_url,comm_num)
 53 |         shop_info_data = get_shop_info(inner_url)
 54 |         price = item.select('div.p-price strong i')[0].text
 55 |         shop_info_data['price'] = price
 56 |         shop_info_data['comm_num'] = comm_num
 57 |         shop_info_data['item_id'] = item_id
 58 |         print(shop_info_data)
 59 |         write_csv(shop_info_data)
 60 | 
 61 | head = ['shop_name','shop_evaluation','logistics','sale_server','shop_brand','price','comm_num','item_id']
 62 | def write_csv(row):
 63 |     with open('shop.csv','a+',encoding='utf-8')as f:
 64 |         csv_write = csv.DictWriter(f,head)
 65 |         csv_write.writerow(row)
 66 | 
 67 | def get_comm_num(url):
 68 |     item_id  = get_id(url)
 69 |     comm_url = 'https://club.jd.com/comment/productCommentSummaries.action?referenceIds={}&callback=jQuery5999681'.format(item_id)
 70 |     comment = requests.get(comm_url,headers = headers)
 71 |     json_decode = comment.text
 72 |     start = json_decode.find('{"CommentsCount":')
 73 |     end = json_decode.find('PoorRateStyle":1}]}') + len('PoorRateStyle":1}]}')
 74 |     try:
 75 |         result = json.loads(json_decode[start:end])['CommentsCount']
 76 |     except:
 77 |         return 0
 78 |     comm_num = result[0]['CommentCount']
 79 |     return comm_num
 80 | def get_shop_info(url):
 81 |     shop_data = {}
 82 |     html = requests.get(url,headers = headers)
 83 |     soup = BeautifulSoup(html.text,'lxml')
 84 |     try:
 85 |         shop_name = soup.select('div.mt h3 a')[0].text
 86 |     except:
 87 |         shop_name = '京东'
 88 |     shop_score = soup.select('.score-part span.score-detail em')
 89 |     try:
 90 |         shop_evaluation = shop_score[0].text
 91 |         logistics = shop_score[1].text
 92 |         sale_server = shop_score[2].text
 93 |     except:
 94 |         shop_evaluation = None
 95 |         logistics = None
 96 |         sale_server = None
 97 |     shop_info = soup.select('div.p-parameter ul')
 98 |     shop_brand = shop_info[0].select('ul li a')[0].text
 99 |     try:
100 |         shop_other = shop_info[1].select('li')
101 |         for s in shop_other:
102 |             data = s.text.split(':')
103 |             key = data[0]
104 |             value = data[1]
105 |             shop_data[key] = value
106 |     except:
107 |         pass
108 |     shop_data['shop_name']= shop_name
109 |     shop_data['shop_evaluation'] = shop_evaluation
110 |     shop_data['logistics'] = logistics
111 |     shop_data['sale_server'] = sale_server
112 |     shop_data['shop_brand'] = shop_brand
113 |     return shop_data
114 | 
115 | def get_id(url):
116 |     id = re.compile('\d+')
117 |     res = id.findall(url)
118 |     return res[0]
119 | if __name__ == '__main__':
120 |     #先创建一个列表用来存放URL
121 |     urls = []
122 |     #找到他们的规律，创建一个个URL
123 |     for i in range(1,200,2):
124 |         url = "https://search.jd.com/Search?keyword={}&wq={}&page={}".format(KEYWORD,KEYWORD,i)
125 |         #把创建好的URL用空元组这种形式一条条存入URLS列表里面
126 |         urls.append(([url,],None))
127 |     #创建100个线程
128 |     pool = threadpool.ThreadPool(100)
129 |     #往线程里面添加URL，makeRequests创建任务，创建100个任务
130 |     reque = threadpool.makeRequests(get_index,urls)
131 |     #用一个for循环线程池
132 |     for r in reque:
133 |         #putRequest提交这100个任务，往线程池里面提交100个任务
134 |         pool.putRequest(r)
135 |     #最后等待这个线程池结束
136 |     pool.wait()


--------------------------------------------------------------------------------
/京东框架/shop.csv:
--------------------------------------------------------------------------------
  1 | 电子工业出版社,,,,电子工业出版社,41.00,4502,12393882
  2 | 电子工业出版社,,,,电子工业出版社,66.20,25415,12367744
  3 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12418677
  4 | 电子工业出版社,,,,电子工业出版社,54.40,0,12528357
  5 | 机械工业出版社,,,,机械工业出版社,61.40,15155,12593612
  6 | 人民邮电出版社,,,,人民邮电出版社,81.90,0,12835020
  7 | 电子工业出版社,,,,电子工业出版社,70.20,0,12827014
  8 | 静默时光图书专营店,9.01 高,9.67 高,9.03 中,静默时光图书专营店,72.00,0,40906323506
  9 | 电子工业出版社,,,,电子工业出版社,54.40,25415,12480719
 10 | 广东人民出版社图书专营店,9.14 高,9.35 高,8.71 低,广东人民出版社图书专营店,69.80,0,65651547064
 11 | 人民邮电出版社,,,,人民邮电出版社,66.20,0,12592731
 12 | 电子工业出版社官方旗舰店,9.17 中,8.92 中,8.77 低,电子工业出版社官方旗舰店,84.96,0,39232866417
 13 | 人民邮电出版社,,,,人民邮电出版社,115.60,0,12568882
 14 | 华心图书专营店,8.63 低,9.74 高,9.10 中,华心图书专营店,413.96,0,62760270425
 15 | 清华大学出版社,,,,清华大学出版社,58.70,0,12600117
 16 | 品阅轩图书专营店,8.49 低,8.29 低,9.40 高,品阅轩图书专营店,70.30,0,66406991415
 17 | 电子工业出版社,,,,电子工业出版社,74.50,25415,12261161
 18 | 人民邮电出版社,,,,人民邮电出版社,82.90,0,11896385
 19 | 人民邮电出版社,,,,人民邮电出版社,41.00,0,11666319
 20 | 中国人民大学出版社,,,,中国人民大学出版社,27.90,0,12296243
 21 | 人民邮电出版社,,,,人民邮电出版社,91.10,0,12832594
 22 | 清华大学出版社,,,,清华大学出版社,42.30,0,12418597
 23 | 电子工业出版社,,,,电子工业出版社,74.50,0,12365097
 24 | 翔坤图书专营店,9.06 中,9.87 高,8.75 低,翔坤图书专营店,155.25,0,46330246763
 25 | 文轩网旗舰店,9.36 高,9.78 高,8.87 低,文轩网旗舰店,76.80,436,25740989105
 26 | 化学工业出版社,,,,化学工业出版社,58.40,0,12711528
 27 | 电子工业出版社,,,,电子工业出版社,78.00,18185,12333252
 28 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12899622
 29 | 博库网旗舰店,9.28 高,9.00 中,9.01 中,博库网旗舰店,22.50,0,1392325966
 30 | 清华大学出版社,,,,清华大学出版社,21.90,0,11760279
 31 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,11485222
 32 | 淘乐思图书专营店,9.21 高,9.09 中,9.06 中,淘乐思图书专营店,55.50,0,34183052585
 33 | 中国电力出版社,,,,中国电力出版社,66.00,0,12777434
 34 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12382259
 35 | 华心图书专营店,8.63 低,9.74 高,9.10 中,华心图书专营店,39.90,0,34550128533
 36 | 人民邮电出版社,,,,人民邮电出版社,49.40,0,12163851
 37 | 电子工业出版社,,,,电子工业出版社,62.30,0,12801066
 38 | 机械工业出版社,,,,机械工业出版社,149.50,0,12808812
 39 | 电子工业出版社,,,,电子工业出版社,78.00,0,12385123
 40 | 机械工业出版社,,,,机械工业出版社,97.00,29006,12656938
 41 | 明日科技京东自营旗舰店,,,,吉林大学出版社,191.30,43745,12597786
 42 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12323267
 43 | 亿书图书专营店,-- --,-- --,-- --,亿书图书专营店,48.00,0,67462338606
 44 | 电子工业出版社,,,,电子工业出版社,46.50,0,12820408
 45 | 机械工业出版社,,,,机械工业出版社,61.40,0,12591062
 46 | 电子工业出版社,,,,电子工业出版社,41.00,13800,12071148
 47 | 京东,,,,北京大学出版社,92.20,0,12659301
 48 | 电子工业出版社,,,,电子工业出版社,54.40,0,12364204
 49 | 电子工业出版社,,,,电子工业出版社,55.00,0,12516591
 50 | 京东,,,,北京大学出版社,83.70,0,12673001
 51 | 人民邮电出版社,,,,人民邮电出版社,65.60,0,12736346
 52 | 人民邮电出版社,,,,人民邮电出版社,37.70,0,12303057
 53 | 润知天下图书专营店,-- --,-- --,-- --,润知天下图书专营店,79.80,0,39979430016
 54 | 京东,,,,华中科技大学出版社,69.30,0,12793050
 55 | 书香神州图书专营店,8.81 低,9.59 高,8.80 低,书香神州图书专营店,179.00,0,41425888019
 56 | 清华大学出版社,,,,清华大学出版社,84.20,0,12276775
 57 | 机械工业出版社,,,,机械工业出版社,65.20,511,11889583
 58 | 电子工业出版社,,,,电子工业出版社,70.20,65996,12700534
 59 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12273412
 60 | 机械工业出版社,,,,机械工业出版社,65.20,0,12391038
 61 | 机械工业出版社,,,,机械工业出版社,70.30,0,12741670
 62 | 清华大学出版社,,,,清华大学出版社,50.20,0,12227940
 63 | 中国铁道出版社,,,,中国铁道出版社,56.80,0,12700670
 64 | 机械工业出版社,,,,机械工业出版社,56.90,0,12506442
 65 | 墨涵图书专营店,9.37 高,9.32 高,9.56 高,墨涵图书专营店,118.00,0,36818666321
 66 | 人民邮电出版社,,,,人民邮电出版社,41.00,0,12550065
 67 | 清华大学出版社,,,,清华大学出版社,33.20,0,12810084
 68 | 清华大学出版社,,,,清华大学出版社,84.20,698,12578878
 69 | 华研外语官方旗舰店,8.38 低,9.64 高,8.78 低,华研外语官方旗舰店,49.80,0,47862468421
 70 | 机械工业出版社,,,,机械工业出版社,105.60,0,12482000
 71 | 机械工业出版社,,,,机械工业出版社,65.20,0,12442779
 72 | 人民邮电出版社,,,,人民邮电出版社,68.30,0,12651725
 73 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12283479
 74 | 人民邮电出版社,,,,人民邮电出版社,74.50,0,12550997
 75 | 书香神州图书专营店,8.81 低,9.59 高,8.80 低,书香神州图书专营店,320.00,0,49719079251
 76 | 清华大学出版社,,,,清华大学出版社,30.60,0,12509361
 77 | 机械工业出版社,,,,机械工业出版社,40.40,0,12012431
 78 | 人民邮电出版社,,,,人民邮电出版社,66.20,0,12832968
 79 | 中国法律图书旗舰店,8.89 中,9.70 高,9.01 中,中国法律图书旗舰店,61.00,0,65353249462
 80 | 清华大学出版社,,,,清华大学出版社,58.70,0,12482971
 81 | 电子工业出版社,,,,电子工业出版社,93.80,0,12838698
 82 | 中国水利水电出版社,,,,中国水利水电出版社,85.30,0,12615304
 83 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12418677
 84 | 人民邮电出版社,,,,人民邮电出版社,61.40,0,11993134
 85 | 人民邮电出版社,,,,人民邮电出版社,82.90,0,12219342
 86 | 电子工业出版社,,,,电子工业出版社,100.90,0,12844424
 87 | 静默时光图书专营店,9.01 高,9.67 高,9.03 中,静默时光图书专营店,72.00,0,40906323506
 88 | 人民邮电出版社,,,,人民邮电出版社,156.60,0,12842874
 89 | 明日科技京东自营旗舰店,,,,吉林大学出版社,82.30,0,12647829
 90 | 电子工业出版社,,,,电子工业出版社,70.20,0,12654474
 91 | 人民邮电出版社,,,,人民邮电出版社,66.20,0,12592731
 92 | 明日科技京东自营旗舰店,,,,吉林大学出版社,67.00,0,12353915
 93 | 明日科技京东自营旗舰店,,,,吉林大学出版社,67.00,0,12859710
 94 | 人民邮电出版社,,,,人民邮电出版社,74.50,0,12794078
 95 | 华心图书专营店,8.63 低,9.74 高,9.10 中,华心图书专营店,413.96,0,62760270425
 96 | 机械工业出版社,,,,机械工业出版社,98.20,0,12398725
 97 | 机械工业出版社,,,,机械工业出版社,81.70,2292,12568751
 98 | 电子工业出版社,,,,电子工业出版社,70.20,47782,12654873
 99 | 人民邮电出版社,,,,人民邮电出版社,41.00,0,11666319
100 | 智博尚书京东自营旗舰店,,,,中国水利水电出版社,63.80,6356,12821118
101 | 机械工业出版社,,,,机械工业出版社,180.70,29009,12452929
102 | 人民邮电出版社,,,,人民邮电出版社,66.30,0,12585125
103 | 翔坤图书专营店,9.06 中,9.87 高,8.75 低,翔坤图书专营店,155.25,0,46330246763
104 | 北京大学出版社,,,,北京大学出版社,61.20,3546,12776266
105 | 清华大学出版社,,,,清华大学出版社,108.80,3331,12417265
106 | 人民邮电出版社,,,,人民邮电出版社,54.30,0,12863192
107 | 电子工业出版社,,,,电子工业出版社,78.00,18185,12333252
108 | 机械工业出版社,,,,机械工业出版社,86.00,0,12425597
109 | 人民邮电出版社,,,,人民邮电出版社,78.00,0,12682860
110 | 人民邮电出版社,,,,人民邮电出版社,63.50,0,11943853
111 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,11485222
112 | 人民邮电出版社,,,,人民邮电出版社,54.40,0,12335366
113 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12063813
114 | 人民邮电出版社,,,,人民邮电出版社,66.30,0,12279949
115 | 华心图书专营店,8.63 低,9.74 高,9.10 中,华心图书专营店,39.90,0,34550128533
116 | 明日科技京东自营旗舰店,,,,吉林大学出版社,82.30,76665,12859724
117 | 文轩网旗舰店,9.36 高,9.78 高,8.87 低,文轩网旗舰店,57.10,0,1060018965
118 | 电子工业出版社,,,,电子工业出版社,78.00,0,12385123
119 | 电子工业出版社,,,,电子工业出版社,43.90,47784,12492797
120 | 中国水利水电出版社,,,,中国水利水电出版社,72.90,0,12458274
121 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12230702
122 | 亿书图书专营店,-- --,-- --,-- --,亿书图书专营店,48.00,0,67462338606
123 | 电子工业出版社,,,,电子工业出版社,101.70,12479,12829246
124 | 人民邮电出版社,,,,人民邮电出版社,91.30,0,12293703
125 | 人民邮电出版社,,,,人民邮电出版社,99.40,47402,12627795
126 | 电子工业出版社,,,,电子工业出版社,41.00,13800,12071148
127 | 清华大学出版社,,,,清华大学出版社,71.20,135910,12594658
128 | 中国水利水电出版社,,,,中国水利水电出版社,63.80,0,12392747
129 | 智博尚书京东自营旗舰店,,,,中国水利水电出版社,94.80,0,12626565
130 | 人民邮电出版社,,,,人民邮电出版社,65.60,0,12736346
131 | 人民邮电出版社,,,,人民邮电出版社,105.80,0,12186192
132 | 人民邮电出版社,,,,人民邮电出版社,82.90,0,12219342
133 | 人民邮电出版社,,,,人民邮电出版社,127.90,0,12830348
134 | 书香神州图书专营店,8.81 低,9.59 高,8.80 低,书香神州图书专营店,179.00,0,41425888019
135 | 中国水利水电出版社,,,,中国水利水电出版社,74.80,0,12645941
136 | 明日科技京东自营旗舰店,,,,吉林大学出版社,82.30,0,12647829
137 | 人民邮电出版社,,,,人民邮电出版社,66.20,0,12570153
138 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12273412
139 | 明日科技京东自营旗舰店,,,,吉林大学出版社,107.50,76665,12512461
140 | 人民邮电出版社,,,,人民邮电出版社,74.50,0,12794078
141 | 文轩网旗舰店,9.36 高,9.78 高,8.87 低,文轩网旗舰店,67.60,0,21738292624
142 | 中国铁道出版社,,,,中国铁道出版社,56.80,0,12700670
143 | 明日科技京东自营旗舰店,,,,吉林大学出版社,83.80,76665,12451724
144 | 电子工业出版社,,,,电子工业出版社,70.20,47782,12654873
145 | 清华大学出版社,,,,清华大学出版社,33.20,0,12810084
146 | 机械工业出版社,,,,机械工业出版社,48.70,29008,11864820
147 | 人民邮电出版社,,,,人民邮电出版社,75.40,0,12333540
148 | 人民邮电出版社,,,,人民邮电出版社,66.30,0,12585125
149 | 机械工业出版社,,,,机械工业出版社,65.20,0,12442779
150 | 北京大学出版社,,,,北京大学出版社,61.20,3546,12776266
151 | 凤凰新华书店旗舰店,8.74 低,8.71 低,8.73 低,凤凰新华书店旗舰店,78.00,0,31329707691
152 | 人民邮电出版社,,,,人民邮电出版社,79.70,0,12409581
153 | 机械工业出版社,,,,机械工业出版社,86.00,0,12425597
154 | 书香神州图书专营店,8.81 低,9.59 高,8.80 低,书香神州图书专营店,320.00,0,49719079251
155 | 人民邮电出版社,,,,人民邮电出版社,54.30,0,11896415
156 | 人民邮电出版社,,,,人民邮电出版社,46.50,0,12372646
157 | 人民邮电出版社,,,,人民邮电出版社,54.40,0,12335366
158 | 中国法律图书旗舰店,8.89 中,9.70 高,9.01 中,中国法律图书旗舰店,61.00,0,65353249462
159 | 人民邮电出版社,,,,人民邮电出版社,66.20,0,12301195
160 | 人民邮电出版社,,,,人民邮电出版社,78.00,0,11936238
161 | 文轩网旗舰店,9.36 高,9.78 高,8.87 低,文轩网旗舰店,57.10,0,1060018965
162 | 清华大学出版社,,,,清华大学出版社,67.20,92609,12460540
163 | 文轩网旗舰店,9.36 高,9.78 高,8.87 低,文轩网旗舰店,149.50,1152,40580160814
164 | 清华大学出版社,,,,清华大学出版社,67.80,92612,12467272
165 | 人民邮电出版社,,,,人民邮电出版社,57.80,0,12230702
166 | 机械工业出版社,,,,机械工业出版社,53.60,13140,12450676
167 | 人民邮电出版社,,,,人民邮电出版社,49.40,0,12786896
168 | 高等教育出版社,,,,高等教育出版社,27.30,0,12128326
169 | 人民邮电出版社,,,,人民邮电出版社,99.40,47402,12627795
170 | 电子工业出版社,,,,电子工业出版社,62.30,0,12580392
171 | 人民邮电出版社,,,,人民邮电出版社,85.10,0,11681561
172 | 友杰图书专营店,8.86 低,9.64 高,8.79 低,友杰图书专营店,54.50,0,27176955108
173 | 清华大学出版社,,,,清华大学出版社,67.20,0,12667860
174 | 智博尚书京东自营旗舰店,,,,中国水利水电出版社,94.80,0,12626565
175 | 机械工业出版社,,,,机械工业出版社,164.20,29006,12461168
176 | 人民邮电出版社,,,,人民邮电出版社,74.50,0,12631217
177 | 翔坤图书专营店,9.06 中,9.87 高,8.75 低,翔坤图书专营店,54.50,0,45873713471
178 | 人民邮电出版社,,,,人民邮电出版社,127.90,0,12830348
179 | 中国水利水电出版社,,,,中国水利水电出版社,212.50,0,12562129
180 | 清华大学出版社,,,,清华大学出版社,75.70,44370,12788164
181 | 人民邮电出版社,,,,人民邮电出版社,66.20,0,12570153
182 | 静默时光图书专营店,9.01 高,9.67 高,9.03 中,静默时光图书专营店,299.00,0,70445819119
183 | 人民邮电出版社,,,,人民邮电出版社,109.50,0,12659831
184 | 文轩网旗舰店,9.36 高,9.78 高,8.87 低,文轩网旗舰店,44.20,0,65865938532
185 | 文轩网旗舰店,9.36 高,9.78 高,8.87 低,文轩网旗舰店,67.60,0,21738292624
186 | 人民邮电出版社,,,,人民邮电出版社,41.40,0,12526039
187 | 电子工业出版社,,,,电子工业出版社,93.00,0,12456107
188 | 人民邮电出版社,,,,人民邮电出版社,41.00,0,11948817
189 | 机械工业出版社,,,,机械工业出版社,75.10,0,12614732
190 | 机械工业出版社,,,,机械工业出版社,48.70,29008,11864820
191 | 


--------------------------------------------------------------------------------
/京东框架/test.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import json
 3 | url = 'https://club.jd.com/comment/productCommentSummaries.action?referenceIds=12611705,12660454,12610002,64397711026,12669803,24675618191,12598158,12675942,69543169703,12241204,69257978102,12622435,31373896774,12445029,29308861250,12585016,12375644,37830680848,12052200,12346637,12661197,11748995,12397576,12660458,11487324,12701880,68665370422,12613720,12513593,69004796494,12509944&callback=jQuery5999681&_=1593412248445'
 4 | headers = {
 5 |     "Cookie": "unpl=V2_ZzNtbRAEQxYiDBNTKR1cAmIGEg1KVEYVcgxFBH4ZCQIyABpbclRCFnQUR1NnGlQUZwEZWUtcQRdFCEdkeB5fA2AFEFlBZxVLK14bADlNDEY1WnwHBAJfF3ILQFJ8HlQMZAEUbXJUQyV1CXZdeR1aB2QHE1tyZ0QlRThGXXMbXQZXAiJcchUXSXEKQVVzGBEMZQcUX0FTQhNFCXZX; __jdv=76161171|google-search|t_262767352_googlesearch|cpc|kwd-362776698237_0_cb12f5d6c516441a9241652a41d6d297|1593410310158; __jdu=835732507; areaId=19; ipLoc-djd=19-1601-50256-0; PCSYCityID=CN_440000_440100_440114; shshshfpa=b3947298-5c63-ba93-8e7d-b89e3e422382-1593410312; shshshfpb=eVvsT1HAgXe1EsnsQQ6HTpQ%3D%3D; __jdc=122270672; shshshfp=158c0090e5888d932458419e12bac1d7; 3AB9D23F7A4B3C9B=VLVTNQOO6BLWETXYSO5XADLGXR7OIDM3NHDDPRNYKWBPH45RRTYXIJNGG5TFHJ5YYFBFDEARKUWAM3XO4ZWTNCDX7U; shshshsID=86f31dd02161606d1c9bf211a7b066fd_1_1593415724113; __jda=122270672.835732507.1593410309.1593410310.1593415724.2; __jdb=122270672.1.835732507|2.1593415724; JSESSIONID=F5D0DC3E7CDA9CFFAA42F672B5826835.s1; jwotest_product=99",
 6 |     "Host": "club.jd.com",
 7 |     "Referer": "https://item.jd.com/12611705.html",
 8 |     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
 9 | }
10 | # html = requests.get(url,headers=headers)
11 | # json_decode = html.text
12 | # start = json_decode.find('{"CommentsCount":')
13 | # end = json_decode.find('PoorRateStyle":1}]}')+len('PoorRateStyle":1}]}')
14 | # results = json.loads(json_decode[start:end])
15 | # for result in results['CommentsCount']:
16 | #     print(result['CommentCount'])
17 | url2= 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=12611705&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1'
18 | html = requests.get(url2,headers= headers)
19 | json_decode = html.text
20 | start = json_decode.find('{"productAttr"')
21 | end = json_decode.find('"afterDays":0}]}')+len('"afterDays":0}]}')
22 | results = json.loads(json_decode[start:end])
23 | for result in results['comments']:
24 |     print(result["content"])
25 | 
26 | 


--------------------------------------------------------------------------------
/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/__pycache__/shujuku.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/__pycache__/shujuku.cpython-37.pyc


--------------------------------------------------------------------------------
/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/__pycache__/xgorgon.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/__pycache__/xgorgon.cpython-37.pyc


--------------------------------------------------------------------------------
/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/ceshi.py:
--------------------------------------------------------------------------------
  1 | from urllib import parse
  2 | from xgorgon import douyin_xgorgon
  3 | import requests
  4 | import re
  5 | import time
  6 | cookies = "sessionid="
  7 | xtttoken = ""
  8 | 
  9 | device_dict ={'iid': '',
 10 |               'device_id': '',
 11 |               'openudid': '',
 12 |               'uuid': '',
 13 |               'cdid': ''
 14 |               }
 15 | 
 16 | def change_params(url,device_dict=None):
 17 |     params_item = {}
 18 |     lot_url = url.split('?')[0]+'?'
 19 |     for i in parse.urlparse(url).query.split('&'):
 20 |         k = i.split('=')[0]
 21 |         try:
 22 |             params_item[k] = i.split('=')[1]
 23 |         except:
 24 |             params_item[k] = None
 25 |     if device_dict:
 26 |         params_item['openudid'] = device_dict['openudid']
 27 |         params_item['iid']= device_dict['iid']
 28 |         params_item['device_id']= device_dict['device_id']
 29 |         params_item['uuid']= device_dict['uuid']
 30 |         params_item['cdid']= device_dict['cdid']
 31 |     new_url = lot_url+parse.unquote_plus(parse.urlencode(params_item))
 32 |     return new_url
 33 | 
 34 | 
 35 | def get(url,proxies=None):
 36 |     headers = douyin_xgorgon(url=url,cookies=cookies,xtttoken=xtttoken)
 37 |     doc = requests.get(url, headers=headers,proxies=proxies).json()
 38 |     return doc
 39 | 
 40 | def user_name(keyword):
 41 |     url = 'https://search-hl.amemv.com/aweme/v1/discover/search/?ts=1596089594&_rticket=1596089584130&os_api=23&device_platform=android&device_type=MI%205s&iid=3535618201363773&version_code=100400&app_name=aweme&openudid=68d42b816654c06d&device_id=2638416712040606&os_version=6.0.1&aid=1128&channel=tengxun_new&ssmix=a&manifest_version_code=100401&dpi=270&cdid=6beadddd-ede3-4fc1-99f0-d351d4c76445&version_name=10.4.0&resolution=810*1440&language=zh&device_brand=Xiaomi&app_type=normal&ac=wifi&update_version_code=10409900&uuid=350000000060778'
 42 |     url = change_params(url, device_dict)
 43 |     headers = douyin_xgorgon(url=url, cookies=cookies, xtttoken=xtttoken)
 44 |     data = {
 45 |         'cursor':0,
 46 |         'keyword':keyword,
 47 |         'count': 1,
 48 |         'hot_search': 0,
 49 |         'is_pull_refresh': 1,
 50 |         'search_source': None,
 51 |         'search_id': None,
 52 |         'type': 1,
 53 |         'query_correct_type': 1
 54 |     }
 55 |     requests.packages.urllib3.disable_warnings()
 56 |     doc = requests.post(url, headers=headers,data=data,verify=False).text
 57 |     sec_uids = re.compile('"sec_uid":"(.*?)"',re.I|re.S)
 58 |     sec_uid = sec_uids.findall(doc)
 59 |     user_ids = re.compile('"uid":"(.*?)"', re.I | re.S)
 60 |     user_id= user_ids.findall(doc)
 61 |     try:
 62 |         for i in range(len(sec_uid)):
 63 |             uid = sec_uid[i]
 64 |             id = user_id[i]
 65 |             time.sleep(1)
 66 |             user_list(id,uid)
 67 |             count_list(uid)
 68 |     except:
 69 |         pass
 70 | 
 71 | 
 72 | def user_list(id,uid):
 73 |     url = 'https://api3-normal-c-lf.amemv.com/aweme/v1/user/following/list/?user_id={}&sec_user_id={}' \
 74 |           '&max_time=1595739196&count=20&offset=0' \
 75 |           '&source_type=1&address_book_access=2&gps_access=1&vcd_count=0&vcd_auth_first_time=0&ts=1595737080&cpu_support64=false&storage_type=2' \
 76 |           '&host_abi=armeabi-v7a&_rticket=1595737080341&mac_address=F4%3A09%3AD8%3A33%3AEE%3A9A&mcc_mnc=46001&os_api=23' \
 77 |           '&device_platform=android&device_type=SM-G9008V&iid=2339350999993501&version_code=110800&app_name=aweme&openudid=c5c0babc0b33a19b' \
 78 |           '&device_id=2743971277974349&os_version=6.0.1&aid=1128&channel=douyin-huidu-guanwang-control1&ssmix=a&manifest_version_code=110801&dpi=480&cdid=92d6111d-fa05-4987-a2bf-13b22d7caec2' \
 79 |           '&version_name=11.8.0&resolution=1080*1920&language=zh&device_brand=samsung&app_type=normal&ac=wifi&update_version_code=11809900&uuid=866174600901389'.format(id,uid)
 80 |     url = change_params(url, device_dict)
 81 |     headers = douyin_xgorgon(url=url, cookies=cookies, xtttoken=xtttoken)
 82 |     requests.packages.urllib3.disable_warnings()
 83 |     doc = requests.post(url, headers=headers,verify=False).json()
 84 |     try:
 85 |         total = doc["total"]
 86 |         for i in range(total):
 87 |             uid = doc["followings"][i]["uid"]
 88 |             print(uid)
 89 |             guangzhu_uid(uid)
 90 |     except:
 91 |         pass
 92 | 
 93 | def count_list(uid):
 94 |     url_base = 'https://api3-normal-c-lf.amemv.com/aweme/v1/aweme/favorite/?invalid_item_count=0&' \
 95 |           'is_hiding_invalid_item=0&max_cursor=0&' \
 96 |           'sec_user_id={}&count=20&os_api=22&device_type=MI%209&ssmix=a&manifest_version_code=110801&' \
 97 |           'dpi=320&uuid=866174600901389&app_name=aweme&version_name=11.8.0&ts=1596114855&cpu_support64=false&' \
 98 |           'storage_type=0&app_type=normal&ac=wifi&host_abi=armeabi-v7a&update_version_code=11809900&channel=tengxun_new&' \
 99 |           '_rticket=1596114842311&device_platform=android&iid=2339350999993501&version_code=110800&' \
100 |           'mac_address=80%3AC5%3AF2%3A70%3A8A%3A3B&cdid=92d6111d-fa05-4987-a2bf-13b22d7caec2&' \
101 |           'openudid=c5c0babc0b33a19b&device_id=2743971277974349&resolution=1600*900&os_version=5.1.1&language=zh&' \
102 |           'device_brand=Xiaomi&aid=1128&mcc_mnc=46007&os_api=23' \
103 |           '&device_platform=android&device_type=SM-G9008V&iid=2339350999993501&version_code=110800&app_name=aweme&' \
104 |           'openudid=c5c0babc0b33a19b' \
105 |           '&device_id=2743971277974349&os_version=6.0.1&aid=1128&channel=douyin-huidu-guanwang-control1&' \
106 |           'ssmix=a&manifest_version_code=110801&dpi=480&cdid=92d6111d-fa05-4987-a2bf-13b22d7caec2' \
107 |           '&version_name=11.8.0&resolution=1080*1920&language=zh&device_brand=samsung&app_type=normal&ac=wifi&' \
108 |           'update_version_code=11809900&uuid=866174600901389'.format(uid)
109 | 
110 |     page = 0
111 |     while 1:
112 |         url = change_params(url_base.replace('max_cursor=0','max_cursor={}'.format(page)), device_dict)
113 |         headers = douyin_xgorgon(url=url, cookies=cookies, xtttoken=xtttoken)
114 |         requests.packages.urllib3.disable_warnings()
115 |         doc = requests.post(url, headers=headers, verify=False).json()
116 | 
117 |         if doc['has_more'] !=1:
118 |             print("没有下一页了")
119 |             break
120 |         if len(doc['aweme_list']) == 0:
121 |             raise ("aweme_list Error")
122 | 
123 |         page = doc['max_cursor']
124 |         time.sleep(1)
125 |         try:
126 |             for i in range(20):
127 |                 uid = doc['aweme_list'][i]['author']['uid']
128 |                 print(uid)
129 |                 xihuan_uid(uid)
130 |         except:
131 |             pass
132 |         continue
133 | 
134 | def xihuan_uid(uid):
135 |     with open("喜欢列表.txt","a+")as f:
136 |         f.write(uid+"\n")
137 |         print("写入成功")
138 | 
139 | def guangzhu_uid(uid):
140 |     with open("关注列表.txt","a+")as f:
141 |         f.write(uid+"\n")
142 |         print("写入成功")
143 | 
144 | if __name__ == '__main__':
145 |     while True:
146 |         user_name("dy6i3fk5dhj4")
147 | 
148 | 
149 | 


--------------------------------------------------------------------------------
/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/douying.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import urllib3
 3 | '''
 4 | GET https://api3-core-c-hl.amemv.com/aweme/v1/aweme/post/?source=0&publish_video_strategy_type=0&max_cursor=1587528101000&sec_user_id=MS4wLjABAAAA4s3jerVDPUA_xvyoGhRypnn8ijAtUfrt9rCWL2aXxtU&count=10&ts=1587635299&host_abi=armeabi-v7a&_rticket=1587635299508&mcc_mnc=46007& HTTP/1.1
 5 | Host: api3-core-c-hl.amemv.com
 6 | Connection: keep-alive
 7 | Cookie: odin_tt=fab0188042f9c0722c90b1fbaf5233d30ddb78a41267bacbfc7c1fb216d37344df795f4e08e975d557d0c274b1c761da039574e4eceaae4a8441f72167d64afb
 8 | X-SS-REQ-TICKET: 1587635299505
 9 | sdk-version: 1
10 | X-SS-DP: 1128
11 | x-tt-trace-id: 00-a67026290de17aa15402ce8ee4a90468-a67026290de17aa1-01
12 | User-Agent: com.ss.android.ugc.aweme/100801 (Linux; U; Android 5.1.1; zh_CN; MI 9; Build/NMF26X; Cronet/TTNetVersion:8109b77c 2020-04-15 QuicVersion:0144d358 2020-03-24)
13 | X-Gorgon: 0404c0d100004fe124c18b36d03baf0768c181e105b1af5e8167
14 | X-Khronos: 1587635299
15 | x-common-params-v2: os_api=22&device_platform=android&device_type=MI%209&iid=78795828897640&version_code=100800&app_name=aweme&openudid=80c5f2708a3b6304&device_id=3966668942355688&os_version=5.1.1&aid=1128&channel=tengxun_new&ssmix=a&manifest_version_code=100801&dpi=320&cdid=e390170c-0cb5-42ad-8bf6-d25dc4c7e3a3&version_name=10.8.0&resolution=900*1600&language=zh&device_brand=Xiaomi&app_type=normal&ac=wifi&update_version_code=10809900&uuid=863254643501389
16 | 
17 | 
18 | '''
19 | 
20 | 
21 | # 下载视频代码，创建一个文件夹来存放抖音的视频
22 | def download_video(url, title):
23 |     with open("{}.mp4".format(title), "wb") as f:
24 |         f.write(requests.get(url).content)
25 |     print("下载视频{}完毕".format(title))
26 | 
27 | #怎么去爬取APP里面的视频
28 | def get_video():
29 |     #通过我们的fiddler这个抓包工具来获取我们想要爬取某个账户里面全部视频的URL
30 |     url = "GET https://api3-core-c-lf.amemv.com/aweme/v1/aweme/post/?source=0&publish_video_strategy_type=0&max_cursor=1590752981000&sec_user_id=MS4wLjABAAAAcXW9VYbv07hczERdiLoQil_TRW6GbwWc_BuRU1pczaCq9GQavlvKFhl_qIqE4yZ6&count=10&ts=1594477988&cpu_support64=false&storage_type=0&host_abi=armeabi-v7a&_rticket=1594477986155&mac_address=80%3AC5%3AF2%3A70%3A8A%3A3B&mcc_mnc=46007& HTTP/1.1"
31 |     #构建我们的headers，这些对应的数据都是通过我们的fiddler获取的
32 |     headers = {
33 |         'Host': 'api3-core-c-lf.amemv.com',
34 |         'Connection': 'keep-alive',
35 |         'Cookie': 'install_id=2339350999993501; ttreq=1$7a4d72914f4cef66e2e2ff13b5dc74a9ab180c06; passport_csrf_token=a4f3fb89f64b4fa8c707293c951c0c17; d_ticket=19b0a970bd0b508bdde6a5128f580f540c2d6; odin_tt=c3c9b378984696b77432b71b951c0e34a773411cce385120c69196cc6529b214c7d5c8716d1fc6f4cc2cb701d61a48b4; sid_guard=fdbd63a338be8acb4a08a1621c41fea6%7C1594464835%7C5184000%7CWed%2C+09-Sep-2020+10%3A53%3A55+GMT; uid_tt=760bb76af4748dcf85a4a0c5a9c5b146; uid_tt_ss=760bb76af4748dcf85a4a0c5a9c5b146; sid_tt=fdbd63a338be8acb4a08a1621c41fea6; sessionid=fdbd63a338be8acb4a08a1621c41fea6; sessionid_ss=fdbd63a338be8acb4a08a1621c41fea6',
36 |         'X-SS-REQ-TICKET': '1594464868804',
37 |         'passport-sdk-version': '17',
38 |         'X-Tt-Token': '00fdbd63a338be8acb4a08a1621c41fea6c5165e3a78a6e6e8bad4d8602a9fba4f29f111b5425b14f07ecf6df18c6b940518',
39 |         'sdk-version': '2',
40 |         'X-SS-DP': '1128',
41 |         'x-tt-trace-id': '00-3d831b3e0d9bfa0994c2b4de0dc30468-3d831b3e0d9bfa09-01',
42 |         'User-Agent': 'com.ss.android.ugc.aweme/110801 (Linux; U; Android 5.1.1; zh_CN; OPPO R11 Plus; Build/NMF26X; Cronet/TTNetVersion:71e8fd11 2020-06-10 QuicVersion:7aee791b 2020-06-05)',
43 |         'Accept-Encoding': 'gzip, deflate',
44 |         'X-Gorgon': '0404d8954001fffd06f451b46c120f09798b487f8c591c2f6bce',
45 |         'X-Khronos': '1594464868',
46 |         'x-common-params-v2': 'os_api=22&device_platform=android&device_type=OPPO%20R11%20Plus&iid=2339350999993501&version_code=110800&app_name=aweme&openudid=c5c0babc0b33a19b&device_id=2743971277974349&os_version=5.1.1&aid=1128&channel=tengxun_new&ssmix=a&manifest_version_code=110801&dpi=320&cdid=92d6111d-fa05-4987-a2bf-13b22d7caec2&version_name=11.8.0&resolution=900*1600&language=zh&device_brand=OPPO&app_type=normal&ac=wifi&update_version_code=11809900&uuid=866174600901389',
47 |     }
48 | 
49 |     #无视证书的请求
50 |     requests.packages.urllib3.disable_warnings()
51 |     html = requests.get(url, headers=headers, verify=False)
52 |     #把数据用json来全部获取下来
53 |     json_data = html.json()["aweme_list"]
54 |     #循环叠带我们的数据，把它们一一展示出来
55 |     for j in json_data:
56 |         title = j['desc']
57 |         print(title)
58 |         print(j['video']['play_addr']['url_list'][0])
59 |         #把最后每个视频对应的URL打印出来，再根据我们的下载函数，把它们全部下载到自己的电脑里面
60 |         download_video(j['video']['play_addr']['url_list'][0], title)
61 | 
62 | 
63 | if __name__ == '__main__':
64 |     get_video()


--------------------------------------------------------------------------------
/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/main.py:
--------------------------------------------------------------------------------
 1 | from urllib import parse
 2 | from xgorgon import douyin_xgorgon
 3 | import requests
 4 | import re
 5 | 
 6 | cookies = "sessionid="
 7 | xtttoken = ""
 8 | 
 9 | device_dict ={'iid': '',
10 |               'device_id': '',
11 |               'openudid': '',
12 |               'uuid': '',
13 |               'cdid': ''
14 |               }
15 | 
16 | def change_params(url,device_dict=None):
17 |     params_item = {}
18 |     lot_url = url.split('?')[0]+'?'
19 |     for i in parse.urlparse(url).query.split('&'):
20 |         k = i.split('=')[0]
21 |         try:
22 |             params_item[k] = i.split('=')[1]
23 |         except:
24 |             params_item[k] = None
25 |     if device_dict:
26 |         params_item['openudid'] = device_dict['openudid']
27 |         params_item['iid']= device_dict['iid']
28 |         params_item['device_id']= device_dict['device_id']
29 |         params_item['uuid']= device_dict['uuid']
30 |         params_item['cdid']= device_dict['cdid']
31 |     new_url = lot_url+parse.unquote_plus(parse.urlencode(params_item))
32 |     return new_url
33 | 
34 | def get(url,proxies=None):
35 |     headers = douyin_xgorgon(url=url,cookies=cookies,xtttoken=xtttoken)
36 |     doc = requests.get(url, headers=headers,proxies=proxies, verify=False).json()
37 |     return doc
38 | 
39 | 
40 | device_dict ={'iid': '3729134641503981',
41 |               'device_id': '2743971277974349',
42 |               'openudid': 'c5c0babc0b33a19b',
43 |               'uuid': '866174600901389',
44 |               'cdid': 'a4ff527f-e409-47ce-ae32-59c555cdd653'
45 |               }
46 | 
47 | 
48 | 
49 | '''搜索用户列表'''
50 | def search_user(keyword,cursor):
51 |     """
52 |     搜索用户信息
53 |     keyword: 关键词
54 |     :return: response->json
55 |     """
56 |     url ='https://search-hl.amemv.com/aweme/v1/discover/search/?ts=1594792387&_rticket=1594187269781&os_api=23&device_platform=android&device_type=MI%205s&iid=3729134641503981&version_code=100400&app_name=aweme&openudid=c5c0babc0b33a19b&device_id=2743971277974349&os_version=6.0.1&aid=1128&channel=tengxun_new&ssmix=a&manifest_version_code=100401&dpi=270&cdid=a4ff527f-e409-47ce-ae32-59c555cdd653&version_name=10.4.0&resolution=810*1440&language=zh&device_brand=Xiaomi&app_type=normal&ac=wifi&update_version_code=10409900&uuid=866174600901389'
57 |     url = change_params(url)
58 |     headers = douyin_xgorgon(url=url,cookies=cookies,xtttoken=xtttoken)
59 |     data = {
60 |             'cursor': cursor,
61 |             'keyword':keyword,
62 |             'count': 10,
63 |             'hot_search': 0,
64 |             'is_pull_refresh': 1,
65 |             'search_source': None,
66 |             'search_id':None,
67 |             'type':1,
68 |             'query_correct_type': 1
69 |             }
70 |     requests.packages.urllib3.disable_warnings()
71 |     doc = requests.post(url, headers=headers,data=data, verify=False).text
72 |     print(doc)
73 |     # sec_uid = re.compile('"sec_uid":"(.*?)"',re.I | re.S)
74 |     # sec_uids = sec_uid.findall(doc)
75 |     # has_more = re.compile('"has_more":(.*?),', re.I | re.S)
76 |     # result = has_more.findall(doc)
77 |     # for i in sec_uids:
78 |     #     with open('shuju6.text','a+')as f:
79 |     #         f.write(i)
80 |     #         f.write('\n')
81 |     #         print('保存完毕')
82 |     #     print(i)
83 |     # print(result)
84 | 
85 | 
86 | if __name__ == '__main__':
87 |     # for i in range(0,1000,30):
88 |     search_user('美妆',30)
89 | 
90 | 
91 | 
92 | 


--------------------------------------------------------------------------------
/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/shujuku.py:
--------------------------------------------------------------------------------
 1 | from sqlalchemy import create_engine
 2 | from sqlalchemy import Column,Integer,String,Text
 3 | from sqlalchemy.orm import sessionmaker,scoped_session
 4 | from sqlalchemy.ext.declarative import declarative_base
 5 | 
 6 | Base = declarative_base()
 7 | engine = create_engine(
 8 |     "mysql+pymysql://root:root@127.0.0.1:3306/test?charset=utf8mb4",
 9 |     #超过连接池大小外最多可以创建的连接数
10 |     max_overflow=500,
11 |     #连接池的大小
12 |     pool_size=100,
13 |     #是否显示开发信息
14 |     echo=False,
15 | )
16 | 
17 | class Tik(Base):
18 |     __tablename__ = 'tik'
19 |     id = Column(Integer, primary_key=True, autoincrement=True)
20 |     name = Column(String(40))
21 |     user_id = Column(String(40))
22 |     intro = Column(Text())
23 |     fans = Column(String(50))
24 | 
25 | Base.metadata.create_all(engine)
26 | session = sessionmaker(engine)
27 | sess = scoped_session(session)


--------------------------------------------------------------------------------
/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/wangyexingxi.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import re
 3 | from shujuku import sess,Tik
 4 | from concurrent.futures import ThreadPoolExecutor
 5 | 
 6 | 
 7 | list = []
 8 | with open('shuju6.text', 'r')as f:
 9 |     contents = f.readlines()
10 |     for c in contents:
11 |         content = c.strip()
12 |         list.append(content)
13 | headers = {
14 |     'accept': 'application/json',
15 |     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
16 | }
17 | 
18 | 
19 | def get_html(url):
20 |     html = requests.get(url,headers= headers)
21 |     contents = html.text
22 |     #抖音个人简介
23 |     signature = re.compile('signature":"(.*?)"',re.I | re.S)
24 |     intro = signature.findall(contents)
25 |     #抖音用户的名字
26 |     nickname = re.compile('"nickname":"(.*?)"',re.I | re.S)
27 |     name = nickname.findall(contents)
28 |     #抖音上面的粉丝数量
29 |     follower_count = re.compile('"follower_count":(.*?),',re.I | re.S)
30 |     fans = follower_count.findall(contents)
31 |     #抖音ID
32 |     unique_id = re.compile('"unique_id":"(.*?)"',re.I | re.S)
33 |     ID = unique_id.findall(contents)
34 |     print('用户名称：{}\n用户ID：{}\n个人简介：{}\n粉丝数量：{}\n'.format(name,ID,intro,fans))
35 |     try:
36 |         tik = Tik(
37 |             name = name,
38 |             user_id = ID,
39 |             intro = intro,
40 |             fans = fans
41 |         )
42 |         sess.add(tik)
43 |         sess.commit()
44 |         print('commit')
45 |     except Exception as e:
46 |         print("rollback",e)
47 |         sess.rollback()
48 | 
49 | if __name__ == '__main__':
50 |     count = 0
51 |     for uid in list:
52 |         url = 'https://www.iesdouyin.com/web/api/v2/user/info/?' \
53 |           'sec_uid={}'.format(uid)
54 |         with ThreadPoolExecutor(max_workers=10)as e:
55 |             futures = [e.submit(get_html,url)]
56 |         count += 1
57 |         print(count)
58 |     sess.close()


--------------------------------------------------------------------------------
/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/xgorgon.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | import hashlib
  4 | from urllib import request
  5 | import time
  6 | import gzip
  7 | 
  8 | 
  9 | byteTable1 ="D6 28 3B 71 70 76 BE 1B A4 FE 19 57 5E 6C BC 21 B2 14 37 7D 8C A2 FA 67 55 6A 95 E3 FA 67 78 ED 8E 55 33 89 A8 CE 36 B3 5C D6 B2 6F 96 C4 34 B9 6A EC 34 95 C4 FA 72 FF B8 42 8D FB EC 70 F0 85 46 D8 B2 A1 E0 CE AE 4B 7D AE A4 87 CE E3 AC 51 55 C4 36 AD FC C4 EA 97 70 6A 85 37 6A C8 68 FA FE B0 33 B9 67 7E CE E3 CC 86 D6 9F 76 74 89 E9 DA 9C 78 C5 95 AA B0 34 B3 F2 7D B2 A2 ED E0 B5 B6 88 95 D1 51 D6 9E 7D D1 C8 F9 B7 70 CC 9C B6 92 C5 FA DD 9F 28 DA C7 E0 CA 95 B2 DA 34 97 CE 74 FA 37 E9 7D C4 A2 37 FB FA F1 CF AA 89 7D 55 AE 87 BC F5 E9 6A C4 68 C7 FA 76 85 14 D0 D0 E5 CE FF 19 D6 E5 D6 CC F1 F4 6C E9 E7 89 B2 B7 AE 28 89 BE 5E DC 87 6C F7 51 F2 67 78 AE B3 4B A2 B3 21 3B 55 F8 B3 76 B2 CF B3 B3 FF B3 5E 71 7D FA FC FF A8 7D FE D8 9C 1B C4 6A F9 88 B5 E5"
 10 | 
 11 | def getXGon(url,stub,cookies):
 12 |     NULL_MD5_STRING = "00000000000000000000000000000000"
 13 |     sb=""
 14 |     if len(url)<1 :
 15 |         sb =NULL_MD5_STRING
 16 |     else:
 17 |         sb =encryption(url)
 18 |     if len(stub)<1:
 19 |         sb+=NULL_MD5_STRING
 20 |     else:
 21 |         sb+=stub
 22 |     if len(cookies)<1:
 23 |         sb+=NULL_MD5_STRING
 24 |     else:
 25 |         sb+=encryption(cookies)
 26 |     index = cookies.index("sessionid=")
 27 |     if index == -1:
 28 |         sb+=NULL_MD5_STRING
 29 |     else:
 30 |         sessionid = cookies[index+10:]
 31 |         if sessionid.__contains__(';'):
 32 |             endIndex = sessionid.index(';')
 33 |             sessionid = sessionid[:endIndex]
 34 |         sb+=encryption(sessionid)
 35 |     return sb
 36 | 
 37 | 
 38 | 
 39 | def encryption(url):
 40 |     obj = hashlib.md5()
 41 |     obj.update(url.encode("UTF-8"))
 42 |     secret = obj.hexdigest()
 43 |     return secret.lower()
 44 | 
 45 | 
 46 | 
 47 | def initialize(data):
 48 |     myhex = 0
 49 |     byteTable2 = byteTable1.split(" ")
 50 |     for i in range(len(data)):
 51 |         hex1 = 0
 52 |         if i==0:
 53 |             hex1= int(byteTable2[int(byteTable2[0],16)-1],16)
 54 |             byteTable2[i]=hex(hex1)
 55 |             # byteTable2[i] = Integer.toHexString(hex1);
 56 |         elif i==1:
 57 |             temp=   int("D6",16)+int("28",16)
 58 |             if temp>256:
 59 |                 temp-=256
 60 |             hex1 = int(byteTable2[temp-1],16)
 61 |             myhex = temp
 62 |             byteTable2[i] = hex(hex1)
 63 |         else:
 64 |             temp = myhex+int(byteTable2[i], 16)
 65 |             if temp > 256:
 66 |                 temp -= 256
 67 |             hex1 = int(byteTable2[temp - 1], 16)
 68 |             myhex = temp
 69 |             byteTable2[i] = hex(hex1)
 70 |         if hex1*2>256:
 71 |             hex1 = hex1*2 - 256
 72 |         else:
 73 |             hex1 = hex1*2
 74 |         hex2 = byteTable2[hex1 - 1]
 75 |         result = int(hex2,16)^int(data[i],16)
 76 |         data[i] = hex(result)
 77 |     for i in range(len(data)):
 78 |         data[i] = data[i].replace("0x", "")
 79 |     return data
 80 | 
 81 | 
 82 | 
 83 | def handle(data):
 84 |     for i in range(len(data)):
 85 |         byte1 = data[i]
 86 |         if len(byte1)<2:
 87 |             byte1+='0'
 88 |         else:
 89 |             byte1 = data[i][1] +data[i][0]
 90 |         if i<len(data)-1:
 91 |             byte1 = hex(int(byte1,16)^int(data[i+1],16)).replace("0x","")
 92 |         else:
 93 |             byte1 = hex(int(byte1, 16) ^ int(data[0], 16)).replace("0x","")
 94 |         byte1 = byte1.replace("0x","")
 95 |         a =  (int(byte1, 16) & int("AA", 16)) / 2
 96 |         a = int(abs(a))
 97 |         byte2 =((int(byte1,16)&int("55",16))*2)|a
 98 |         byte2 = ((byte2&int("33",16))*4)|(int)((byte2&int("cc",16))/4)
 99 |         byte3 = hex(byte2).replace("0x","")
100 |         if len(byte3)>1:
101 |             byte3 = byte3[1] +byte3[0]
102 |         else:
103 |             byte3+="0"
104 |         byte4 = int(byte3,16)^int("FF",16)
105 |         byte4 = byte4 ^ int("14",16)
106 |         data[i] = hex(byte4).replace("0x","")
107 |     return data
108 | 
109 | 
110 | 
111 | def xGorgon(timeMillis,inputBytes):
112 |     data1 = []
113 |     data1.append("3")
114 |     data1.append("61")
115 |     data1.append("41")
116 |     data1.append("10")
117 |     data1.append("80")
118 |     data1.append("0")
119 |     data2 = input(timeMillis,inputBytes)
120 |     data2 = initialize(data2)
121 |     data2 = handle(data2)
122 |     for i in range(len(data2)):
123 |         data1.append(data2[i])
124 | 
125 |     xGorgonStr = ""
126 |     for i in range(len(data1)):
127 |         temp = data1[i]+""
128 |         if len(temp)>1:
129 |             xGorgonStr += temp
130 |         else:
131 |             xGorgonStr +="0"
132 |             xGorgonStr+=temp
133 |     return xGorgonStr
134 | 
135 | 
136 | 
137 | def input(timeMillis,inputBytes):
138 |     result = []
139 |     for i in range(4):
140 |         if inputBytes[i]<0:
141 |             temp = hex(inputBytes[i])+''
142 |             temp = temp[6:]
143 |             result.append(temp)
144 |         else:
145 |             temp = hex(inputBytes[i]) + ''
146 |             result.append(temp)
147 |     for i in range(4):
148 |         result.append("0")
149 |     for  i in range(4):
150 |         if inputBytes[i+32]<0:
151 |             result.append(hex(inputBytes[i+32])+'')[6:]
152 |         else:
153 |             result.append(hex(inputBytes[i + 32]) + '')
154 |     for i in range(4):
155 |         result.append("0")
156 |     tempByte = hex(int(timeMillis))+""
157 |     tempByte = tempByte.replace("0x","")
158 |     for i in range(4):
159 |         a = tempByte[i * 2:2 * i + 2]
160 |         result.append(tempByte[i*2:2*i+2])
161 |     for i in range(len(result)):
162 |         result[i] = result[i].replace("0x","")
163 |     return result
164 | 
165 | 
166 | 
167 | def strToByte(str):
168 |     length = len(str)
169 |     str2 = str
170 |     bArr =[]
171 |     i=0
172 |     while i < length:
173 |         # bArr[i/2] = b'\xff\xff\xff'+(str2hex(str2[i]) << 4+str2hex(str2[i+1])).to_bytes(1, "big")
174 |         a = str2[i]
175 |         b = str2[1+i]
176 |         c = ((str2hex(a) << 4)+str2hex(b))
177 |         bArr.append(c)
178 |         i+=2
179 |     return bArr
180 | 
181 | 
182 | 
183 | def str2hex(s):
184 |     odata = 0
185 |     su =s.upper()
186 |     for c in su:
187 |         tmp=ord(c)
188 |         if tmp <= ord('9') :
189 |             odata = odata << 4
190 |             odata += tmp - ord('0')
191 |         elif ord('A') <= tmp <= ord('F'):
192 |             odata = odata << 4
193 |             odata += tmp - ord('A') + 10
194 |     return odata
195 | 
196 | 
197 | def doGetGzip(url,headers,charset):
198 |     req = request.Request(url)
199 |     for key in headers:
200 |         req.add_header(key,headers[key])
201 |     with request.urlopen(req) as f:
202 |         data = f.read()
203 |         return gzip.decompress(data).decode()
204 | 
205 | 
206 | 
207 | 
208 | def douyin_xgorgon(url,cookies,xtttoken):
209 |     ts = str(time.time()).split(".")[0]
210 |     _rticket = str(time.time() * 1000).split(".")[0]
211 |     params = url[url.index('?')+1:]
212 |     STUB = ""
213 |     s = getXGon(params,STUB,cookies)
214 |     gorgon = xGorgon(ts,strToByte(s))
215 | 
216 |     headers={
217 |         "X-Gorgon":gorgon,
218 |         "X-Khronos": ts,
219 |         "sdk-version":"1",
220 |         "Cookie": cookies,
221 |         "Accept-Encoding": "gzip",
222 |         "X-SS-REQ-TICKET": _rticket,
223 |         "Host": "aweme.snssdk.com",
224 |         "Connection": "Keep-Alive",
225 |         'User-Agent': 'okhttp/3.10.0.1',
226 |         "x-tt-token":xtttoken
227 |             }
228 | 
229 |     return headers
230 | 
231 | 
232 | 
233 | 


--------------------------------------------------------------------------------
/抖音爬取签名，喜欢列表和关注列表/爬取抖音的用户信息和视频连接/抖音里面的xg算法，因为一些原因就不适合开源了。.md:
--------------------------------------------------------------------------------
1 | # 抖音里面的xg算法，因为一些原因就不适合开源了。


--------------------------------------------------------------------------------
/最好大学网/daxue.py:
--------------------------------------------------------------------------------
  1 | import requests
  2 | import re
  3 | from bs4 import BeautifulSoup
  4 | import time
  5 | headers = {
  6 |     "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
  7 |     "Cookie": "Hm_lvt_2ce94714199fe618dcebb5872c6def14=1594741637; Hm_lpvt_2ce94714199fe618dcebb5872c6def14=1594741768",
  8 |     "Host": "www.zuihaodaxue.cn",
  9 |     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
 10 | }
 11 | session = requests.session()
 12 | session.headers = headers
 13 | 
 14 | def get_html9(url):
 15 |     html = session.get(url)
 16 |     #它的解码等于他当前的页面的解码，这样破解里面字体的反爬
 17 |     html.encoding = html.apparent_encoding
 18 |     if html.status_code == 200:
 19 |         content = html.text
 20 |         #用正则去定位排名
 21 |         rankings = re.compile('"><td>(.*?)</td>',re.I|re.S)
 22 |         ranking = rankings.findall(content)
 23 |         soup = BeautifulSoup(content,'lxml')
 24 |         list = []
 25 |         for i in range(len(ranking)):
 26 |             #定位大学名称
 27 |             daxues = soup.select("td.align-left a")[i].text
 28 |             list.append(daxues)
 29 |             print(list)
 30 |         #定位大学排名
 31 |         states = re.compile('title="查看(.*?)大学排名">', re.I | re.S)
 32 |         state = states.findall(content)
 33 |         state_ranks = re.compile('</a></td><td class="hidden-xs">(.*?)</td><td>',re.I|re.S)
 34 |         state_rank = state_ranks.findall(content)
 35 |         grades = re.compile('\d+</td><td>(.*?)</td><td', re.I | re.S)
 36 |         grade = grades.findall(content)
 37 |         indexs = re.compile('class="hidden-xs need-hidden alumni">(.*?)</td><td', re.I | re.S)
 38 |         index = indexs.findall(content)
 39 |         for j in range(len(ranking)):
 40 |             with open('2019.text', 'a+',encoding='utf-8')as f:
 41 |                 f.write('{} {} {} {} {} {}'.format(ranking[j],list[j],state[j],state_rank[j],grade[j],index[j]))
 42 |                 f.write('\n')
 43 |                 print('写入成功')
 44 |             print('{} {} {} {} {} {}'.format(ranking[j],list[j],state[j],state_rank[j],grade[j],index[j]))
 45 |     else:
 46 |         print(html.status_code)
 47 | 
 48 | def get_html8(url):
 49 |     html = session.get(url)
 50 |     html.encoding = html.apparent_encoding
 51 |     if html.status_code == 200:
 52 |         content = html.text
 53 |         rankings = re.compile('"><td>(.*?)</td>',re.I|re.S)
 54 |         ranking = rankings.findall(content)
 55 |         soup = BeautifulSoup(content,'lxml')
 56 |         list = []
 57 |         for i in range(len(ranking)):
 58 |             daxues = soup.select("td.align-left a")[i].text
 59 |             list.append(daxues)
 60 |             print(list)
 61 |         states = re.compile('title="查看(.*?)大学排名">', re.I | re.S)
 62 |         state = states.findall(content)
 63 |         state_ranks = re.compile('</a></td><td class="hidden-xs">(.*?)</td><td>',re.I|re.S)
 64 |         state_rank = state_ranks.findall(content)
 65 |         grades = re.compile('\d+</td><td>(.*?)</td><td', re.I | re.S)
 66 |         grade = grades.findall(content)
 67 |         indexs = re.compile('class="hidden-xs need-hidden alumni">(.*?)</td><td', re.I | re.S)
 68 |         index = indexs.findall(content)
 69 |         for j in range(len(ranking)):
 70 |             with open('2018.text', 'a+',encoding='utf-8')as f:
 71 |                 f.write('{} {} {} {} {} {}'.format(ranking[j],list[j],state[j],state_rank[j],grade[j],index[j]))
 72 |                 f.write('\n')
 73 |                 print('写入成功')
 74 |             print('{} {} {} {} {} {}'.format(ranking[j],list[j],state[j],state_rank[j],grade[j],index[j]))
 75 |     else:
 76 |         print(html.status_code)
 77 | 
 78 | def get_html7(url):
 79 |     html = session.get(url)
 80 |     html.encoding = html.apparent_encoding
 81 |     if html.status_code == 200:
 82 |         content = html.text
 83 |         rankings = re.compile('"><td>(.*?)</td>',re.I|re.S)
 84 |         ranking = rankings.findall(content)
 85 |         soup = BeautifulSoup(content,'lxml')
 86 |         list = []
 87 |         for i in range(len(ranking)):
 88 |             daxues = soup.select("td.align-left a")[i].text
 89 |             list.append(daxues)
 90 |             print(list)
 91 |         states = re.compile('title="查看(.*?)大学排名">', re.I | re.S)
 92 |         state = states.findall(content)
 93 |         state_ranks = re.compile('</a></td><td class="hidden-xs">(.*?)</td><td>',re.I|re.S)
 94 |         state_rank = state_ranks.findall(content)
 95 |         grades = re.compile('\d+</td><td>(.*?)</td><td', re.I | re.S)
 96 |         grade = grades.findall(content)
 97 |         indexs = re.compile('class="hidden-xs need-hidden alumni">(.*?)</td><td', re.I | re.S)
 98 |         index = indexs.findall(content)
 99 |         for j in range(len(ranking)):
100 |             with open('2017.text', 'a+',encoding='utf-8')as f:
101 |                 f.write('{} {} {} {} {} {}'.format(ranking[j],list[j],state[j],state_rank[j],grade[j],index[j]))
102 |                 f.write('\n')
103 |                 print('写入成功')
104 |             print('{} {} {} {} {} {}'.format(ranking[j],list[j],state[j],state_rank[j],grade[j],index[j]))
105 |     else:
106 |         print(html.status_code)
107 | 
108 | 
109 | 
110 | 
111 | if __name__ == '__main__':
112 |     start = time.time()
113 |     url = "http://www.zuihaodaxue.cn/ARWU2019.html"
114 |     get_html9(url)
115 |     time.sleep(90)
116 |     url2 = "http://www.zuihaodaxue.cn/ARWU2018.html"
117 |     get_html8(url2)
118 |     time.sleep(90)
119 |     url3 = "http://www.zuihaodaxue.cn/ARWU2017.html"
120 |     get_html7(url3)
121 |     print(time.time()-start)


--------------------------------------------------------------------------------
/爬取快代理构建代理池/dailici.py:
--------------------------------------------------------------------------------
 1 | import concurrent
 2 | import requests
 3 | from lxml import etree
 4 | import json
 5 | from concurrent.futures import ThreadPoolExecutor
 6 | headers = {
 7 |     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.62 Safari/537.36",
 8 |     "Cookie":"channelid=0; sid=1589982237213115; _ga=GA1.2.1825006235.1589983601; _gid=GA1.2.280479633.1589983601; _gat=1; Hm_lvt_7ed65b1cc4b810e9fd37959c9bb51b31=1589983601; Hm_lpvt_7ed65b1cc4b810e9fd37959c9bb51b31=1589983601"
 9 | }
10 | #先解析我们的页面，看看状态码怎么样
11 | def get_html(i):
12 |     url ="https://www.kuaidaili.com/free/inha/{}/".format(i)
13 |     html = requests.get(url,headers = headers)
14 |     if html.status_code == 200:
15 |         print("获取成功...")
16 |         parse_html(html)
17 |     else:
18 |         print("error")
19 | 
20 | #然后用xpath语法来定位获取我们需要的东西
21 | def parse_html(html):
22 |     soup = etree.HTML(html.text)
23 |     trs = soup.xpath('//div[@id = "list"]/table/tbody/tr')
24 |     for tr in trs:
25 |         ip = tr.xpath('./td[@data-title = "IP"]/text()')[0]
26 |         port = tr.xpath('./td[@data-title = "PORT"]/text()')[0]
27 |         if ip and port:
28 |             daili = ip + ":" + port
29 |             #构建一个代理池来检测IP地址是否能用
30 |             proxies = {
31 |                 "http":"http://" + daili,
32 |                 "https":"http://"+daili
33 |             }
34 |             verify_ip(proxies)
35 | 
36 | #构建一个函数来解析我们的IP地址是否能用，并且保存下来
37 | def verify_ip(proxies):
38 |     try:
39 |         html = requests.get("https://www.baidu.com/",proxies=proxies,timeout =3)
40 |         print("可以使用的代理:{}".format(proxies))
41 |         write_txt(proxies)
42 |     except :
43 |         print("代理有问题:{}".format(proxies))
44 | 
45 | #构建一个把数据用json保存下来的函数
46 | def write_txt(row):
47 |     with open('ip_pool.json','a+',encoding='utf8')as f:
48 |         json.dump(row,f)
49 | 
50 | #构建一个可以读取json的函数，用于读取json文件里面的ip地址是否失效了
51 | def read_txt():
52 |     with open('ip_pool.json','r',encoding='utf8')as f:
53 |         content = json.load(f)
54 |         print(content)
55 |         html = requests.get('https://www.baidu.com/',proxies=content,timeout=3)
56 |         print(html.text)
57 | 
58 | 
59 | if __name__ == '__main__':
60 |     #采用多线程的方法，开10个多线程，大大提高效率，这个是固定写法得牢记
61 |     with concurrent.futures.ThreadPoolExecutor(max_workers = 10 )as e:
62 |         #创建一个列表，在里面开始循环200次这个函数
63 |         futures = [e.submit(get_html,i) for i in range(200,400,1)]
64 |         #用叠带方法把内容一一打印出来，防止CPU瞬间占满，这个用于多线程循环的固定写法
65 |         for future in concurrent.futures.as_completed(futures):
66 |             print(future.result())
67 |     #调用读取这个函数
68 |     # read_txt()


--------------------------------------------------------------------------------
/爬取房天下的框架/__pycache__/shujuku.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取房天下的框架/__pycache__/shujuku.cpython-37.pyc


--------------------------------------------------------------------------------
/爬取房天下的框架/main.py:
--------------------------------------------------------------------------------
  1 | import requests
  2 | from lxml import etree
  3 | import re
  4 | #获取连接需要用到的
  5 | from urllib import parse
  6 | #判断是否连接正确用到的
  7 | import logging
  8 | #调用我们的多线程和多进程
  9 | from concurrent.futures import ProcessPoolExecutor,ThreadPoolExecutor
 10 | #连接数据库，并且把数据储存到数据库里面
 11 | from shujuku import sess,House
 12 | 
 13 | #定义我们的headers请求头，用于伪装
 14 | headers = {
 15 |         'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
 16 |         'cookie': 'global_cookie=80ezxa0k3wcub77m99wr791kw18kbvumxyn; fang_hao123_layed=1; integratecover=1; g_sourcepage=zf_fy%5Elb_pc; __utmc=147393320; city=gz; ASP.NET_SessionId=prdsdu5v3woxvlrafi4wr32a; keyWord_recenthousegz=%5b%7b%22name%22%3a%22%e7%99%bd%e4%ba%91%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a076%2f%22%2c%22sort%22%3a1%7d%5d; Captcha=32684870505770397A38634E33774A525034374964615650397858356D577A4E664475386933586A304A6835784A76696F4D574B4B51547A573442393562527666304836557954436A64413D; unique_cookie=U_80ezxa0k3wcub77m99wr791kw18kbvumxyn*4; __utma=147393320.1634598515.1593155184.1593155184.1593157145.2; __utmz=147393320.1593157145.2.2.utmcsr=gz.zu.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; __utmb=147393320.3.10.1593157145',
 17 |         'referer': 'https://gz.zu.fang.com/',
 18 |         'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
 19 |         'Connection': 'keep-alive'
 20 |     }
 21 | #长连接，就是把几个请求连接起来变成一个，防止对那个网站损害太大
 22 | session = requests.session()
 23 | session.headers = headers
 24 | 
 25 | #先写一个判断函数，是否get成功
 26 | def get_index(url):
 27 |     html = session.get(url,headers = headers)
 28 |     if html.status_code == 200:
 29 |         get_data(html)
 30 |     else:
 31 |         print("请求页面{}出错".format(url))
 32 | #获取我们想要获取的数据
 33 | def get_data(html):
 34 |     #页数是根据它给出来的URL来构造的
 35 |     pages = get_pages(html)
 36 |     if not pages:
 37 |         pages=1
 38 |     #根据它的页数，用一个循环函数把它给叠带出来
 39 |     urls =['https://gz.zu.fang.com/house-a078/i3%d/'%i for i in range(1,pages+1)]
 40 |     #因为是爬取页面信息，所以用我们的多线程去爬
 41 |     with ThreadPoolExecutor(max_workers =5)as t:
 42 |         for url in urls:
 43 |             print('crawl page {}'.format(url))
 44 |             #多线程调用函数的固定格式
 45 |             t.submit(get_data_next,url)
 46 | #判断这个URL有多少页
 47 | def get_pages(html):
 48 |     #用到的是xpath语法
 49 |     soup = etree.HTML(html.text)
 50 |     pages = soup.xpath('//div[@class = "fanye"]/span[@class = "txt"]/text()')
 51 |     number = get_number(pages[0])
 52 |     if number:
 53 |         #获取成功之后返还一个页面的数字
 54 |         return int(number)
 55 |     return None
 56 | #根据URL去获取它页面对应的数字，因为每一页对应的数字
 57 | def get_number(text):
 58 |     number = re.compile('\d+')
 59 |     return number.findall(text)[0]
 60 | #获取首页里面的全部信息
 61 | def get_data_next(url):
 62 |     html = session.get(url)
 63 |     soup = etree.HTML(html.text)
 64 |     contents = soup.xpath('//div[@class = "houseList"]/dl')
 65 |     for content in contents:
 66 |         try:
 67 |             block = content.xpath('dd/p[@class = "gray6 mt12"]/text()')[0]
 68 |             title = content.xpath('dd/p/a/text()')[0]
 69 |             rent = content.xpath('dd/div/p/span[@class = "price"]/text()')[0]
 70 |             href = parse.urljoin('https://gz.zu.fang.com/',content.xpath('dd/p[@class = "title"]/a/@href')[0])
 71 |             get_house_data(href,rent,title,block)
 72 |         except IndexError as e:
 73 |             print('content error')
 74 | 
 75 | #并且进一步获取它页面里每一个房子的信息
 76 | def get_house_data(href,*args):
 77 |     #这里因为涉及到反爬虫机制，我们用到了跳转机制，跳了2次才来到我们真正需要的页面
 78 |     url = 'http://search.fang.com/captcha-baac44ca368c9f491e/redirect?h='+href
 79 |     html = session.get(url)
 80 |     content = html.text
 81 |     #用到正则表达式去获取url的连接
 82 |     location_url = re.compile('location.href="(.*?)"')
 83 |     #把URL打印出来
 84 |     next_url = location_url.findall(content)[0]
 85 |     #判断这个URL是否是正确的
 86 |     logging.captureWarnings(True)
 87 |     #无视证书要求
 88 |     html = session.get(next_url, verify=False)
 89 |     second_url = location_url.findall(html.text)[0]
 90 |     #获取最终url
 91 |     html = session.get(second_url)
 92 |     #然后开始我们爬虫最拿手的获取信息了
 93 |     soup = etree.HTML(html.text)
 94 |     liandian = soup.xpath(
 95 |         '//div[@class = "mscont"]/ul/li[@class = "font14 fyld"]/div[@class = "fyms_con floatl gray3"]/text()')
 96 |     if liandian:
 97 |         liandian = "|".join(liandian)
 98 |     else:
 99 |         print("无信息")
100 |     jieshao = soup.xpath(
101 |         '//div[@class = "mscont"]/ul/li[@class = "font14 xqjs"]/div[@class = "fyms_con floatl gray3"]/text()')
102 |     if jieshao:
103 |         jieshao = "|".join(jieshao)
104 |     else:
105 |         print("无信息")
106 |     tiaojian = soup.xpath(
107 |         '//div[@class = "mscont"]/ul/li[@class = "font14 zbpt"]/div[@class = "fyms_con floatl gray3"]/text()')
108 |     if tiaojian:
109 |         tiaojian = "|".join(tiaojian)
110 |     else:
111 |         print("无信息")
112 |     traffic = soup.xpath(
113 |         '//div[@class = "mscont"]/ul/li[@class = "font14 jtcx"]/div[@class = "fyms_con floatl gray3"]/text()')
114 |     if traffic:
115 |         traffic = "|".join(traffic)
116 |     else:
117 |         print("无信息")
118 |     fuzeren = soup.xpath(
119 |         '//div[@class = "mscont"]/ul/li[@class = "font14 fwjs"]/div[@class = "fyms_con floatl gray3"]/text()')[0].strip()
120 |     if fuzeren:
121 |         fuzeren = "|".join(fuzeren)
122 |     else:
123 |         print("无信息")
124 |     print("房源亮点：{}\n".format(liandian),"小区介绍：{}\n".format(jieshao),"周边配套：{}\n".format(tiaojian),"交通出行：{}\n".format(traffic),"服务介绍：{}\n".format(fuzeren))
125 |     try:
126 |         #这里用到防错机制，因为有一些房子可能没有信息
127 |         house = House(
128 |             #第一个是你数据库的名字，第二个就是存进入的信息
129 |             block = args[2],
130 |             title = args[1],
131 |             rent = args[0],
132 |             data=liandian,
133 |             data2=jieshao,
134 |             data3=tiaojian,
135 |             data4=traffic,
136 |             data5=fuzeren
137 |         )
138 |         #全部增加到数据库里面
139 |         sess.add(house)
140 |         #连接数据库
141 |         sess.commit()
142 |         print('commit')
143 |         #如果失败了启动回滚
144 |     except Exception as e:
145 |         print('rollback',e)
146 |         sess.rollback()
147 | 
148 | 
149 | def main():
150 |     #获取地区的连接，这个也是根据网页的URL来模拟的
151 |     urls = ["https://gz.zu.fang.com/house-a0{}/".format(i) for i in range(70,81)]
152 |     #然后开启我们的多进程来对每个地方不同的区进行分开爬取，来提高爬取速度
153 |     with ProcessPoolExecutor(max_workers =4)as p:
154 |         for url in urls:
155 |             p.submit(get_index,url)
156 | 
157 | if __name__ == '__main__':
158 |     main()
159 |     session.close()
160 | 


--------------------------------------------------------------------------------
/爬取房天下的框架/shujuku.py:
--------------------------------------------------------------------------------
 1 | #创建我们的引擎
 2 | from sqlalchemy import create_engine
 3 | #为数据库创建一些类
 4 | from sqlalchemy import Column,Integer,String,Text
 5 | #创建一个包，把引擎包含进去，解决线性安全问题
 6 | from sqlalchemy.orm import sessionmaker,scoped_session
 7 | #创建一个基类
 8 | from sqlalchemy.ext.declarative import declarative_base
 9 | 
10 | #创建一个基类
11 | BASE = declarative_base()
12 | #创建一个数据库的引擎，去调用我们的数据库
13 | engine = create_engine(
14 |     "mysql+pymysql://root:root@127.0.0.1:3306/test",
15 |     #超过连接池大小外最多可以创建的连接数
16 |     max_overflow=500,
17 |     #连接池的大小
18 |     pool_size=100,
19 |     #是否显示开发信息
20 |     echo=True,
21 | )
22 | #创建一个类并且调用基类
23 | class House(BASE):
24 |     #数据库中表的名字
25 |     __tablename__ = 'house'
26 |     #数据库存储数据类型的形式
27 |     id = Column(Integer,primary_key=True,autoincrement=True)
28 |     block = Column(String(125))
29 |     title = Column(String(125))
30 |     rent = Column(String(125))
31 |     data = Column(Text())
32 |     data2 = Column(Text())
33 |     data3 = Column(Text())
34 |     data4 = Column(Text())
35 |     data5 = Column(Text())
36 | 
37 | #创建数据表，也就第一次有效，第二次创建相同的数据表则失效
38 | BASE.metadata.create_all(engine)
39 | #sessionmaker是把引擎包含进去，为了方便我们创建一个事物
40 | Session = sessionmaker(engine)
41 | #把Session包含起来，为了避免线性安全问题,一般你是写多线程的时候才需要用到
42 | sess = scoped_session(Session)


--------------------------------------------------------------------------------
/爬取房天下的框架/test.py:
--------------------------------------------------------------------------------
  1 | import requests
  2 | import re
  3 | import logging
  4 | from lxml import etree
  5 | from urllib import parse
  6 | from shujuku import sess,House
  7 | # url1 ="https://gz.zu.fang.com/chuzu/3_249354911_1.htm"
  8 | headers = {
  9 |     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
 10 |     'cookie': 'global_cookie=80ezxa0k3wcub77m99wr791kw18kbvumxyn; fang_hao123_layed=1; integratecover=1; g_sourcepage=zf_fy%5Elb_pc; __utmc=147393320; city=gz; ASP.NET_SessionId=prdsdu5v3woxvlrafi4wr32a; keyWord_recenthousegz=%5b%7b%22name%22%3a%22%e7%99%bd%e4%ba%91%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a076%2f%22%2c%22sort%22%3a1%7d%5d; Captcha=32684870505770397A38634E33774A525034374964615650397858356D577A4E664475386933586A304A6835784A76696F4D574B4B51547A573442393562527666304836557954436A64413D; unique_cookie=U_80ezxa0k3wcub77m99wr791kw18kbvumxyn*4; __utma=147393320.1634598515.1593155184.1593155184.1593157145.2; __utmz=147393320.1593157145.2.2.utmcsr=gz.zu.fang.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; __utmb=147393320.3.10.1593157145',
 11 |     'referer': 'https://gz.zu.fang.com/',
 12 |     'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
 13 |     'Connection': 'keep-alive'
 14 | }
 15 | # location_url = re.compile('location.href="(.*?)"')
 16 | session = requests.session()
 17 | session.headers = headers
 18 | def get_data_next():
 19 |     url = 'https://gz.zu.fang.com/house-a078/?rfss=2-25c88db39d1d1fcc5e-86#'
 20 |     html = session.get(url)
 21 |     soup = etree.HTML(html.text)
 22 |     contents = soup.xpath('//div[@class = "houseList"]/dl')
 23 |     for content in contents:
 24 |         try:
 25 |             block = content.xpath('dd/p[@class = "gray6 mt12"]/text()')[0]
 26 |             title = content.xpath('dd/p/a/text()')[0]
 27 |             rent = content.xpath('dd/div/p/span[@class = "price"]/text()')[0]
 28 |             href = parse.urljoin('https://gz.zu.fang.com/',content.xpath('dd/p[@class = "title"]/a/@href')[0])
 29 |             get_house_data(href,block)
 30 |         except IndexError as e:
 31 |             print('content error')
 32 |         # try:
 33 |         #     house = House(
 34 |         #         block=block,
 35 |         #         title=title,
 36 |         #         rent=rent,
 37 |         #     )
 38 |         #     sess.add(house)
 39 |         #     sess.commit()
 40 |         #     print('commit')
 41 |         # except Exception as e:
 42 |         #     print('rollback', e)
 43 |         #     sess.rollback()
 44 | 
 45 | def get_house_data(url,block):
 46 |     url = 'http://search.fang.com/captcha-baac44ca368c9f491e/redirect?h='+url
 47 |     html = session.get(url)
 48 |     content = html.text
 49 |     location_url = re.compile('location.href="(.*?)"')
 50 |     next_url = location_url.findall(content)[0]
 51 |     logging.captureWarnings(True)
 52 |     html = session.get(next_url, verify=False)
 53 |     second_url = location_url.findall(html.text)[0]
 54 |     html = session.get(second_url)
 55 |     soup = etree.HTML(html.text)
 56 |     liandian = soup.xpath(
 57 |         '//div[@class = "mscont"]/ul/li[@class = "font14 fyld"]/div[@class = "fyms_con floatl gray3"]/text()')
 58 |     if liandian:
 59 |         liandian = "|".join(liandian)
 60 |     else:
 61 |         print("无信息")
 62 |     # jieshao = soup.xpath(
 63 |     #     '//div[@class = "mscont"]/ul/li[@class = "font14 xqjs"]/div[@class = "fyms_con floatl gray3"]/text()')
 64 |     # if jieshao:
 65 |     #     jieshao = "|".join(jieshao)
 66 |     # else:
 67 |     #     print("无信息")
 68 |     # tiaojian = soup.xpath(
 69 |     #     '//div[@class = "mscont"]/ul/li[@class = "font14 zbpt"]/div[@class = "fyms_con floatl gray3"]/text()')
 70 |     # if tiaojian:
 71 |     #     tiaojian = "|".join(tiaojian)
 72 |     # else:
 73 |     #     print("无信息")
 74 |     # traffic = soup.xpath(
 75 |     #     '//div[@class = "mscont"]/ul/li[@class = "font14 jtcx"]/div[@class = "fyms_con floatl gray3"]/text()')
 76 |     # if traffic:
 77 |     #     traffic = "|".join(traffic)
 78 |     # else:
 79 |     #     print("无信息")
 80 |     # fuzeren = soup.xpath(
 81 |     #     '//div[@class = "mscont"]/ul/li[@class = "font14 fwjs"]/div[@class = "fyms_con floatl gray3"]/text()')[0].strip()
 82 |     # if fuzeren:
 83 |     #     fuzeren = "|".join(fuzeren)
 84 |     # else:
 85 |     #     print("无信息")
 86 |     # print("房源亮点：{}\n".format(liandian),"小区介绍：{}\n".format(jieshao),"周边配套：{}\n".format(tiaojian),"交通出行：{}\n".format(traffic),"服务介绍：{}\n".format(fuzeren))
 87 |     try:
 88 |         house = House(
 89 |             block = block,
 90 |             data = liandian
 91 |         )
 92 |         sess.add(house)
 93 |         sess.commit()
 94 |         print('commit')
 95 |     except Exception as e:
 96 |         print('rollback',e)
 97 |         sess.rollback()
 98 | if __name__ == '__main__':
 99 |     get_data_next()
100 | # url = 'http://search.fang.com/captcha-baac44ca368c9f491e/redirect?h='+url1
101 | # html = session.get(url)
102 | # content1 = html.text
103 | # next_url = location_url.findall(content1)[0]
104 | #
105 | # logging.captureWarnings(True)
106 | # html = session.get(next_url,verify=False)
107 | # second_url = location_url.findall(html.text)[0]
108 | # html = session.get(second_url)
109 | # soup = etree.HTML(html.text)
110 | # # contexts = soup.xpath('//div[@class = "mscont"]/ul')
111 | # # for context in contexts:
112 | # #     try:
113 | # #         liandian = context.xpath('li[@class = "font14 fyld"]/div[@class = "fyms_con floatl gray3"]/text()')
114 | # #         jieshao = context.xpath('li[@class = "font14 xqjs"]/div[@class = "fyms_con floatl gray3"]/text()')
115 | # #         tiaojian = context.xpath('li[@class = "font14 zbpt"]/div[@class = "fyms_con floatl gray3"]/text()')
116 | # #         traffic = context.xpath('li[@class = "font14 jtcx"]/div[@class = "fyms_con floatl gray3"]/text()')
117 | # #         fuzeren = context.xpath('li[@class = "font14 fwjs"]/div[@class = "fyms_con floatl gray3"]/text()')[0].strip()
118 | # #         print("房源亮点：{}\n".format(liandian),"小区介绍：{}\n".format(jieshao),"周边配套：{}\n".format(tiaojian),"交通出行：{}\n".format(traffic),"服务介绍：{}\n".format(fuzeren))
119 | # #     except:
120 | # #         print("没有相关内容")
121 | #
122 | #
123 | # results = soup.xpath(
124 | #     '//div[@class = "mscont"]/ul/li[@class = "font14 fyld"]/div[@class = "fyms_con floatl gray3"]/text()')
125 | # if results:
126 | #     results = "|".join(results)
127 | # else:
128 | #     print("无信息")
129 | # jieshao = soup.xpath(
130 | #     '//div[@class = "mscont"]/ul/li[@class = "font14 xqjs"]/div[@class = "fyms_con floatl gray3"]/text()')
131 | # if jieshao:
132 | #     results = "|".join(jieshao)
133 | # else:
134 | #     print("无信息")
135 | # try:
136 | #     house = House(
137 | #         data = results+jieshao
138 | #
139 | #     )
140 | #     sess.add(house)
141 | #     sess.commit()
142 | # except Exception as e:
143 | #     sess.rollback()
144 | 


--------------------------------------------------------------------------------
/爬取房天下的框架/清洗后城市二手房数据.csv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取房天下的框架/清洗后城市二手房数据.csv


--------------------------------------------------------------------------------
/爬取房天下的框架/爬取房天下的信息/code/FTXSpider.py:
--------------------------------------------------------------------------------
  1 | #!/usr/bin/env python
  2 | # encoding: utf-8
  3 | '''
  4 | @author: taiyc
  5 | @file: FTXSpider
  6 | @time: 2019/7/28 0:23
  7 | '''
  8 | 
  9 | import requests, time, re, os, xlsxwriter, openpyxl
 10 | import pandas as pd
 11 | from datetime import datetime
 12 | from lxml.html import etree
 13 | from requests.cookies import RequestsCookieJar
 14 | from multiprocessing.dummy import Pool as ThreadPool  # 线程池
 15 | import requests
 16 | import time
 17 | from selenium import webdriver
 18 | from selenium.webdriver.common.by import By
 19 | from selenium.webdriver.support.wait import WebDriverWait
 20 | from selenium.webdriver.support import expected_conditions as EC
 21 | from selenium.common.exceptions import TimeoutException
 22 | from bs4 import BeautifulSoup
 23 | import re
 24 | 
 25 | 
 26 | 
 27 | class FTXSpider(object):
 28 |     def __init__(self):
 29 |         self.start_urls = pd.read_excel('zufangcitymatch.xlsx')['https'][0:82]
 30 |         self.quchong = {}
 31 |         self.cookies = RequestsCookieJar()
 32 |         self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
 33 |                                       ' (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'}
 34 |         self.cookies1 = {
 35 |             # 'Captcha': '754E4D4C6C3454576165636C4F786A793030484B7875746246667043665230336E67495A783976326A63564C56503765366D4E47384F495370303938534C627A567934485735562B5636343D',
 36 |            # 'global_cookie': '85twvihds1cqccau5cnwwlrhn20jyo3nlrm',
 37 |             #'unique_cookie': 'U_85twvihds1cqccau5cnwwlrhn20jyo3nlrm*6',
 38 |             'global_cookie': '2a8hamrvwdz0punlkee3ifojo26jyqn1d1y',
 39 |             'unique_cookie': 'U_2a8hamrvwdz0punlkee3ifojo26jyqn1d1y*1',
 40 |             'city': 'www',
 41 |             'vh_newhouse': '',
 42 |             'logGuid': '',
 43 |             'g_sourcepage': '',
 44 |             'Integrateactivity': ''
 45 |              }
 46 |         self.excel_head = ['date','city','tupian', 'price', 'renttype', 'shiting', 'mianji', 'chaoxiang', 'xiaqu', 'jiedao', 'xiaoqu', 'jiaotong']
 47 |         self.today_str = datetime.strftime(datetime.now(), '%Y-%m-%d')
 48 |     def get_html(self, url):
 49 |         browser.get(url)
 50 |         time.sleep(3)
 51 |         html = browser.page_source
 52 |         return html
 53 |         # # self.headers['Referer'] = url
 54 |         # # self.headers['Cookie'] = getcookie(url)
 55 |         # headers = {'Cookie':getcookie(url),
 56 |         #            'Refer':url,
 57 |         #            'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3724.8 Safari/537.36'}
 58 |         # try:
 59 |         #     response = requests.get(url, headers=headers, timeout=3, allow_redirects=False)#, cookies=self.cookies1)
 60 |         # except:
 61 |         #     time.sleep(2)
 62 |         #     return self.get_html(url)
 63 |         # if response.status_code == 200:
 64 |         #     return response.content.decode('gb2312', errors='ignore')
 65 |         # elif response.status_code == 403:
 66 |         #     print(response.status_code)
 67 |         #     time.sleep(1)
 68 |         #     return self.get_html(url)
 69 |         # elif response.status_code == 302:
 70 |         #     print(url)
 71 |         #     print('cookies失效')
 72 |         #     html = browser.page_source
 73 |         #     return html
 74 |         # else:
 75 |         #     time.sleep(1)
 76 |         #     print(response.status_code)
 77 |         #     return self.get_html(url)
 78 | 
 79 |     def parse(self, current_city_url, html, city_name):
 80 |         file_name = f'租房{self.today_str}/{city_name}{self.today_str}房天下租房.xlsx'
 81 |         if not os.path.exists(file_name):
 82 |             wb = openpyxl.Workbook()
 83 |             ws = wb.worksheets[0]
 84 |             self.save_to_excel(ws, 0, self.excel_head)
 85 |             wb.save(file_name)
 86 |         wb = openpyxl.load_workbook(file_name)
 87 |         ws = wb.worksheets[0]
 88 |         next_url = True
 89 |         row_count = 1
 90 |         while next_url:
 91 |             html_eles = etree.HTML(html)
 92 |             # 获取下一页
 93 |             next_url = html_eles.xpath('//a[text()="下一页"]/@href')
 94 |             next_url = current_city_url + next_url[0][1:] if next_url else None
 95 |             # 获取网页houseList类所有租房信息
 96 |             house_eles = html_eles.xpath('//div[@class="houseList"]/dl')
 97 |             # 遍历每个房子获取租房信息
 98 |             for house_ele in house_eles:
 99 |                 # 获取房子id（用于去重）
100 |                 house_id = house_ele.xpath('./dd/p[1]/a/@href')
101 |                 if house_id:  # 图片数量不存在说明，是广告，不做处理
102 |                     try:
103 |                         house_id = house_id[0].split('/')[-1].split('.')[0]  # 简化id
104 |                         # 图片数量
105 |                         tupian = house_ele.xpath('.//span[@class="iconImg"]/text()')[0]
106 |                         # 价格
107 |                         price = house_ele.xpath('.//span[@class="price"]/text()')[0]
108 |                         # renttype/shiting/mianji/chaoxiang
109 |                         main_info = [re.sub('\r|\n| |', '', field).replace('�O', '㎡') for field in
110 |                                      house_ele.xpath('./dd/p[2]//text()') if field != '|']
111 |                         if len(main_info) != 4:
112 |                             continue
113 |                         renttype = main_info[0]
114 |                         shiting = main_info[1]
115 |                         mianji = main_info[2]
116 |                         chaoxiang = main_info[3]
117 |                         # 辖区、 街道、小区名
118 |                         position_info = [field for field in house_ele.xpath('./dd/p[3]/a/span/text()')]
119 |                         if len(position_info) != 3:
120 |                             continue
121 |                         xiaqu = position_info[0]
122 |                         jiedao = position_info[1]
123 |                         xiaoqu = position_info[2]
124 |                         jiaotong = ''.join(house_ele.xpath('.//span[@class="note subInfor"]//text()'))
125 |                         jiaotong = jiaotong if jiaotong else '无'
126 |                     except:
127 |                         pass
128 |                     else:
129 |                         if row_count > 3000:
130 |                             wb.save(file_name)
131 |                             return
132 |                         if house_id not in self.quchong[city_name]:
133 |                             # print(house_id, tupian, price, renttype, shiting, mianji, chaoxiang, xiaqu, jiedao, xiaoqu, jiaotong)
134 |                             print(f'正在爬取:{city_name}-->第{row_count}条租房信息', )
135 |                             # 保存数据
136 | 
137 |                             self.save_to_excel(ws, row_count, [self.today_str,city_name,tupian, price, renttype, shiting, mianji, chaoxiang, xiaqu, jiedao, xiaoqu,jiaotong,])
138 |                             row_count += 1
139 |                             self.quchong[city_name].append(house_id)  # 将爬取过的房子id放进去，用于去重
140 |                         else:
141 |                             print('已存在')
142 |             if next_url:
143 |                 html = self.get_html(next_url)
144 |         wb.save(file_name)
145 | 
146 |     def run_spider(self, city_url_list):
147 |         for city_url in city_url_list:
148 |             try:
149 |                 current_city_url = city_url
150 |                 html = self.get_html(city_url)
151 |                 print(city_url)
152 |                 city_name = re.findall(re.compile('class="s4Box"><a href="#">(.*?)</a>'), html)[0]  # 获取城市名
153 |                 self.quchong[city_name] = []  # 构建{'城市名': [租房1,2,3,4,]}用于去重
154 |                 self.parse(current_city_url, html, city_name)
155 |             except:
156 |                 pass
157 | 
158 |     # 数组拆分 (将一个大元组拆分多个小元组，用于多线程任务分配)
159 |     def div_list(self, ls, n):
160 |        result = []
161 |        cut = int(len(ls)/n)
162 |        if cut == 0:
163 |            ls = [[x] for x in ls]
164 |            none_array = [[] for i in range(0, n-len(ls))]
165 |            return ls+none_array
166 |        for i in range(0, n-1):
167 |            result.append(ls[cut*i:cut*(1+i)])
168 |        result.append(ls[cut*(n-1):len(ls)])
169 |        return result
170 | 
171 |     def save_to_excel(self, ws, row_count, data):
172 |         for index, value in enumerate(data):
173 |             ws.cell(row=row_count+1, column=index + 1, value=value)  # openpyxl 是以1，开始第一行，第一列
174 | 
175 | if __name__ == '__main__':
176 |     options = webdriver.ChromeOptions()
177 |     options.add_experimental_option('excludeSwitches', ['enable-automation'])
178 |     # options.add_argument('--headless')
179 |     browser = webdriver.Chrome(options=options,executable_path='chromedriver.exe')
180 |     wait = WebDriverWait(browser, 10)
181 |     spider = FTXSpider()
182 |     if not os.path.exists(f'租房{spider.today_str}'):
183 |         os.mkdir(f'租房{spider.today_str}')
184 |     pool = ThreadPool(1)  # 创建一个包含5个线程的线程池
185 |     pool.map(spider.run_spider, spider.div_list(spider.start_urls, 1))
186 |     pool.close()  # 关闭线程池的写入
187 |     pool.join()  # 阻塞，保证子线程运行完毕后再继续主进程
188 | 
189 | 
190 | 
191 |     # 单线程
192 |     # for city_url in spider.start_urls:
193 |     #     spider.run_spider([city_url])
194 | 
195 | 


--------------------------------------------------------------------------------
/爬取房天下的框架/爬取房天下的信息/code/chromedriver.exe:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取房天下的框架/爬取房天下的信息/code/chromedriver.exe


--------------------------------------------------------------------------------
/爬取房天下的框架/爬取房天下的信息/code/zufangcitymatch.xlsx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取房天下的框架/爬取房天下的信息/code/zufangcitymatch.xlsx


--------------------------------------------------------------------------------
/爬取房天下的框架/爬取房天下的信息/code/租房2020-10-10/包头2020-10-10房天下租房.xlsx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取房天下的框架/爬取房天下的信息/code/租房2020-10-10/包头2020-10-10房天下租房.xlsx


--------------------------------------------------------------------------------
/爬取房天下的框架/爬取房天下的信息/code/租房2020-10-10/北海2020-10-10房天下租房.xlsx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取房天下的框架/爬取房天下的信息/code/租房2020-10-10/北海2020-10-10房天下租房.xlsx


--------------------------------------------------------------------------------
/爬取房天下的框架/爬取房天下的信息/code/租房2020-10-10/安庆2020-10-10房天下租房.xlsx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取房天下的框架/爬取房天下的信息/code/租房2020-10-10/安庆2020-10-10房天下租房.xlsx


--------------------------------------------------------------------------------
/爬取房天下的框架/爬取房天下的信息/main.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取房天下的框架/爬取房天下的信息/main.py


--------------------------------------------------------------------------------
/爬取抖音无水印视频/douying.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | 
 3 | '''
 4 | GET https://api3-core-c-hl.amemv.com/aweme/v1/aweme/post/?source=0&publish_video_strategy_type=0&max_cursor=1587528101000&sec_user_id=MS4wLjABAAAA4s3jerVDPUA_xvyoGhRypnn8ijAtUfrt9rCWL2aXxtU&count=10&ts=1587635299&host_abi=armeabi-v7a&_rticket=1587635299508&mcc_mnc=46007& HTTP/1.1
 5 | Host: api3-core-c-hl.amemv.com
 6 | Connection: keep-alive
 7 | Cookie: odin_tt=fab0188042f9c0722c90b1fbaf5233d30ddb78a41267bacbfc7c1fb216d37344df795f4e08e975d557d0c274b1c761da039574e4eceaae4a8441f72167d64afb
 8 | X-SS-REQ-TICKET: 1587635299505
 9 | sdk-version: 1
10 | X-SS-DP: 1128
11 | x-tt-trace-id: 00-a67026290de17aa15402ce8ee4a90468-a67026290de17aa1-01
12 | User-Agent: com.ss.android.ugc.aweme/100801 (Linux; U; Android 5.1.1; zh_CN; MI 9; Build/NMF26X; Cronet/TTNetVersion:8109b77c 2020-04-15 QuicVersion:0144d358 2020-03-24)
13 | X-Gorgon: 0404c0d100004fe124c18b36d03baf0768c181e105b1af5e8167
14 | X-Khronos: 1587635299
15 | x-common-params-v2: os_api=22&device_platform=android&device_type=MI%209&iid=78795828897640&version_code=100800&app_name=aweme&openudid=80c5f2708a3b6304&device_id=3966668942355688&os_version=5.1.1&aid=1128&channel=tengxun_new&ssmix=a&manifest_version_code=100801&dpi=320&cdid=e390170c-0cb5-42ad-8bf6-d25dc4c7e3a3&version_name=10.8.0&resolution=900*1600&language=zh&device_brand=Xiaomi&app_type=normal&ac=wifi&update_version_code=10809900&uuid=863254643501389
16 | 
17 | 
18 | '''
19 | 
20 | 
21 | # 下载视频代码，创建一个文件夹来存放抖音的视频
22 | def download_video(url, title):
23 |     with open("{}.mp4".format(title), "wb") as f:
24 |         f.write(requests.get(url).content)
25 |     print("下载视频{}完毕".format(title))
26 | 
27 | #怎么去爬取APP里面的视频
28 | def get_video():
29 |     #通过我们的fiddler这个抓包工具来获取我们想要爬取某个账户里面全部视频的URL
30 |     url = "https://api3-core-c-hl.amemv.com/aweme/v1/aweme/post/?source=0&publish_video_strategy_type=0&max_cursor=1587528101000&sec_user_id=MS4wLjABAAAA4s3jerVDPUA_xvyoGhRypnn8ijAtUfrt9rCWL2aXxtU&count=10&ts=1587635299&host_abi=armeabi-v7a&_rticket=1587635299508&mcc_mnc=46007&"
31 |     #构建我们的headers，这些对应的数据都是通过我们的fiddler获取的
32 |     headers = {
33 |         'Cookie': 'odin_tt=fab0188042f9c0722c90b1fbaf5233d30ddb78a41267bacbfc7c1fb216d37344df795f4e08e975d557d0c274b1c761da039574e4eceaae4a8441f72167d64afb',
34 |         'X-SS-REQ-TICKET': '1587635299505',
35 |         'sdk-version': '1',
36 |         'X-SS-DP': '1128',
37 |         'x-tt-trace-id': '00-a67026290de17aa15402ce8ee4a90468-a67026290de17aa1-01',
38 |         'User-Agent': 'com.ss.android.ugc.aweme/100801 (Linux; U; Android 5.1.1; zh_CN; MI 9; Build/NMF26X; Cronet/TTNetVersion:8109b77c 2020-04-15 QuicVersion:0144d358 2020-03-24)',
39 |         'X-Gorgon': '0404c0d100004fe124c18b36d03baf0768c181e105b1af5e8167',
40 |         'X-Khronos': '1587635299',
41 |         'x-common-params-v2': 'os_api=22&device_platform=android&device_type=MI%209&iid=78795828897640&version_code=100800&app_name=aweme&openudid=80c5f2708a3b6304&device_id=3966668942355688&os_version=5.1.1&aid=1128&channel=tengxun_new&ssmix=a&manifest_version_code=100801&dpi=320&cdid=e390170c-0cb5-42ad-8bf6-d25dc4c7e3a3&version_name=10.8.0&resolution=900*1600&language=zh&device_brand=Xiaomi&app_type=normal&ac=wifi&update_version_code=10809900&uuid=863254643501389'
42 |     }
43 |     #无视证书的请求
44 |     html = requests.get(url, headers=headers, verify=False)
45 |     #把数据用json来全部获取下来
46 |     json_data = html.json()["aweme_list"]
47 |     #循环叠带我们的数据，把它们一一展示出来
48 |     for j in json_data:
49 |         title = j['desc']
50 |         print(title)
51 |         print(j['video']['play_addr']['url_list'][0])
52 |         #把最后每个视频对应的URL打印出来，再根据我们的下载函数，把它们全部下载到自己的电脑里面
53 |         download_video(j['video']['play_addr']['url_list'][0], title)
54 | 
55 | 
56 | if __name__ == '__main__':
57 |     get_video()


--------------------------------------------------------------------------------
/爬取淘宝商品信息基于selenium框架/taobao.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import re
 3 | from urllib import parse
 4 | headers = {
 5 |     "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36",
 6 |     "referer": "https://tb.alicdn.com/snapshot/index.html",
 7 |     'cookie': 't=884491259d4aed9aac3cd83e5798c433; cna=UU81Fxb46woCAWUv7c0BLoMd; sgcookie=ERElHyZEXq%2FBxbIAKkMLf; tracknick=%5Cu53F6%5Cu95EE%5Cu8C01%5Cu662F%5Cu8FB0%5Cu5357; _cc_=V32FPkk%2Fhw%3D%3D; enc=UvoaKN2E%2F5qKScgssIA7s34lg2c%2B7mFKY6bD58vrwGvLTZKDyYj7UQ0p3hGnXJK11f8JrZT5ky54YNi0i73Few%3D%3D; tfstk=cIOdBdvB3cmha_TF3QHGFR3VyY-dafFd2ys4w4-E6MTnQmN8NsxviIpfnv_Yv13O.; thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; cookie2=1165897f57a1ed424d42db9d3a99ff7d; v=0; _tb_token_=77a6e3fa3eb98; alitrackid=tb.alicdn.com; lastalitrackid=tb.alicdn.com; JSESSIONID=42FB5C5D5D65C270436BAF43224830CB; isg=BPb2H7f2tUx9pkBnqiw8IaAaRyz4FzpR25dtfWDcO1mro5U9yaZ-YfUau3_PPzJp; l=eBTUSTCcQZnRM5Q_BO5alurza77TaQdf1nVzaNbMiInca6TFta8TVNQqOBKvSdtjgt5j2eKrb3kJjRhM8W4LRjkDBeYBRs5mpfpp8e1..',
 8 | }
 9 | 
10 | keyword = input("请输入你要搜索的信息：")
11 | def get_parse(url):
12 |     html = requests.get(url,headers= headers)
13 |     if html.status_code ==200:
14 |         print('页面正常')
15 |         get_html(html)
16 |     else:
17 |         print(html.status_code)
18 | 
19 | def get_html(html):
20 |     #用正则表达式去获取商品的名称，价格，商家名称和商家位置
21 |     content = html.text
22 |     #定位商品名称
23 |     names = re.compile('"raw_title":"(.*?)"', re.I | re.S)
24 |     name = names.findall(content)
25 |     #定位价格
26 |     prices = re.compile('"view_price":"(.*?)"',re.I|re.S)
27 |     price = prices.findall(content)
28 |     #定位商家名称
29 |     nicks = re.compile('"nick":"(.*?)"',re.I|re.S)
30 |     nick = nicks.findall(content)
31 |     #定位商家位置
32 |     item_locs = re.compile('"item_loc":"(.*?)"', re.I | re.S)
33 |     item_loc= item_locs.findall(content)
34 |     #先算出爬出来正则的长度，从而确定循环，把商品的名称，价格，位置全部有序的全部打印出来
35 |     for j in range(len(name)):
36 |         print('商品名称：{}\n价格：{}\n商家名称：{}\n商家位置：{}\n'.format(name[j], price[j], nick[j], item_loc[j]))
37 | 
38 | if __name__ == '__main__':
39 |     for i in range(0,45,44):
40 |         url = 'https://s.taobao.com/search?q={}&imgfile=&commend=all&ssid=s5-e&' \
41 |               'search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&' \
42 |               'ie=utf8&initiative_id=tbindexz_20170306&bcoffset=1&ntoffset=1&p4ppushleft=2%2C48&s={}'.format(parse.quote(keyword),i)
43 |         get_parse(url)
44 | 
45 | 
46 | 
47 | 


--------------------------------------------------------------------------------
/爬取淘宝商品信息基于selenium框架/taobaopachong.py:
--------------------------------------------------------------------------------
  1 | from selenium import webdriver
  2 | from selenium.common.exceptions import TimeoutException
  3 | from selenium.webdriver.common.by import By
  4 | from selenium.webdriver.support import expected_conditions as EC
  5 | from selenium.webdriver.support.ui import WebDriverWait
  6 | from urllib import parse
  7 | import pandas as pd
  8 | from pyquery import PyQuery
  9 | import time
 10 | import json
 11 | import re
 12 | #定义一个变量，最好用大写这个是约定俗成
 13 | KEYWORD = '月饼'
 14 | #定位Chromedriver这个工具的位置
 15 | options = webdriver.ChromeOptions()
 16 | options.add_experimental_option("prefs",{"profile.mamaged_default_content_settings.images":2})
 17 | options.add_experimental_option('excludeSwitches',['enable-automation'])
 18 | browser = webdriver.Chrome(executable_path="C:\\Users\\96075\\Desktop\\全部资料\\Python\\爬虫\\chromedriver.exe",options=options)
 19 | #设置等待时间
 20 | wait = WebDriverWait(browser,10)
 21 | url ='https://www.taobao.com/'
 22 | 
 23 | def crawl_page():
 24 |     try:
 25 |         browser.get(url)#获取网页
 26 |         #用xpath语法定位到输入框
 27 |         input = wait.until(EC.presence_of_element_located((
 28 |             By.XPATH,'//*[@id="q"]'
 29 |         )))
 30 |         #用xpath语法定位到搜索框
 31 |         button = wait.until(EC.element_to_be_clickable((
 32 |             By.XPATH,'//*[@id="J_TSearchForm"]/div[1]/button'
 33 |         )))
 34 |         input.send_keys(KEYWORD)#输入关键词
 35 |         button.click()#模拟鼠标点击
 36 |         #等到python爬虫页面的总页数加载出来
 37 |         total = wait.until(EC.presence_of_element_located((
 38 |             By.XPATH,'//*[@id="mainsrp-pager"]/div/div/div/div[1]'
 39 |         ))).text
 40 |         # 发现总页数有逗号
 41 |         total = re.sub(r',|，','',total)
 42 |         #数据清洗，将共100页后面的逗号去掉,淘宝里的是大写的逗号
 43 |         print(total)
 44 |         totalnum = int(re.compile('(\d+)').search(total).group(1))
 45 |         # 只取出100这个数字
 46 |         print("第1页:")
 47 |         # 获取数据
 48 |         get_products()
 49 |         #返回总的页数
 50 |         return totalnum
 51 |     except:
 52 |         crawl_page()
 53 | 
 54 | def get_products():
 55 |     list_price = []
 56 |     list_title = []
 57 |     list_deal = []
 58 |     list_picture = []
 59 |     # 用工具去爬取这个页面
 60 |     html = browser.page_source
 61 |     # 打印这个页面的信息
 62 |     doc = PyQuery(html)
 63 |     # 去定位获取我们需要的信息
 64 |     items = doc("#mainsrp-itemlist .items .item").items()
 65 |     for item in items:
 66 |         price = item.find(".price").text(),
 67 |         list_price.append(price)
 68 |         title = item.find(".title").text(),
 69 |         list_title.append(title)
 70 |         deal = item.find(".deal-cnt").text(),
 71 |         list_deal.append(deal)
 72 |         picture = parse.urljoin('http:', item.find(".img").attr("data-src"))
 73 |         list_picture.append(picture)
 74 |     df = pd.DataFrame()
 75 |     df["商品名称"] = list_title
 76 |     df["商品价格"] = list_price
 77 |     df["商品销量"] = list_deal
 78 |     df["图片链接"] = list_picture
 79 |     try:
 80 |         df.to_csv("商品的基本信息.csv", mode="a+", header=None, index=None, encoding="utf-8")
 81 |         print("写入成功")
 82 |     except:
 83 |         print("当页数据写入失败")
 84 | 
 85 | def next_page():
 86 |     # 获取总页数的值，并且调用search获取第一页数据
 87 |     totalnum = crawl_page()
 88 |     # 初始为1，因为我第一页已经获取过数据了
 89 |     num = 1
 90 |     # 首先进来的是第1页，共100页，所以只需要翻页99次
 91 |     while num != totalnum - 1:
 92 |         print("第%s页:" %str(num+1) )
 93 |         # 用修改s属性的方式翻页
 94 |         browser.get('https://s.taobao.com/search?q={}&s={}'.format(KEYWORD,44 * num))
 95 |         # 等待10秒
 96 |         browser.implicitly_wait(10)
 97 |         # 获取数据
 98 |         get_products()
 99 |         #延迟3秒
100 |         time.sleep(3)
101 |         # 自增
102 |         num +=1
103 | 
104 | #写一个循环函数，用于爬取多页信息的内容
105 | def main():
106 |     next_page()
107 | if __name__ == '__main__':
108 |     main()


--------------------------------------------------------------------------------
/爬取淘宝商品信息基于selenium框架/对数据进行清洗.py:
--------------------------------------------------------------------------------
 1 | def clearBlankLine():
 2 |     file1 = open(input("请输入要清洗的文本(包括后缀):"), 'r',encoding="utf-8") # 要去掉空行的文件
 3 |     file2 = open('清洗好的文本.txt', 'w', encoding='utf-8') # 生成没有空行的文件
 4 |     try:
 5 |         for line in file1.readlines():
 6 |             line = line.replace("'","").replace('"',"").replace('[','').replace(']','').replace(",)","").replace("(","")
 7 |             file2.write(line)
 8 |     finally:
 9 |         file1.close()
10 |         file2.close()
11 | 
12 | 
13 | if __name__ == '__main__':
14 |     clearBlankLine()
15 | 


--------------------------------------------------------------------------------
/爬取淘宝商品信息基于selenium框架/爬取商品属性.py:
--------------------------------------------------------------------------------
  1 | from selenium import webdriver
  2 | from selenium.common.exceptions import TimeoutException
  3 | from selenium.webdriver.common.by import By
  4 | from selenium.webdriver.support import expected_conditions as EC
  5 | from selenium.webdriver.support.ui import WebDriverWait
  6 | from pyquery import PyQuery
  7 | import time
  8 | import json
  9 | import re
 10 | 
 11 | #定义一个变量，最好用大写这个是约定俗成
 12 | KEYWORD = '月饼'
 13 | #定位Chromedriver这个工具的位置
 14 | options = webdriver.ChromeOptions()
 15 | options.add_experimental_option("prefs",{"profile.mamaged_default_content_settings.images":2})
 16 | options.add_experimental_option('excludeSwitches',['enable-automation'])
 17 | browser = webdriver.Chrome(executable_path="C:\\Users\\96075\\Desktop\\全部资料\\Python\\爬虫\\chromedriver.exe",options=options)
 18 | #设置等待时间
 19 | wait = WebDriverWait(browser,10)
 20 | url ='https://www.taobao.com/'
 21 | 
 22 | list_property = []
 23 | #先写一个去调动输入框定位一个商品类型的函数，并且获取总的页数
 24 | def crawl_page():
 25 |     try:
 26 |         browser.get(url)#获取网页
 27 |         #用xpath语法定位到输入框
 28 |         input = wait.until(EC.presence_of_element_located((
 29 |             By.XPATH,'//*[@id="q"]'
 30 |         )))
 31 |         #用xpath语法定位到搜索框
 32 |         button = wait.until(EC.element_to_be_clickable((
 33 |             By.XPATH,'//*[@id="J_TSearchForm"]/div[1]/button'
 34 |         )))
 35 |         input.send_keys(KEYWORD)#输入关键词
 36 |         button.click()#模拟鼠标点击
 37 |         #等到python爬虫页面的总页数加载出来
 38 |         total = wait.until(EC.presence_of_element_located((
 39 |             By.XPATH,'//*[@id="mainsrp-pager"]/div/div/div/div[1]'
 40 |         ))).text
 41 |         # 发现总页数有逗号
 42 |         total = re.sub(r',|，','',total)
 43 |         #数据清洗，将共100页后面的逗号去掉,淘宝里的是大写的逗号
 44 |         print(total)
 45 |         totalnum = int(re.compile('(\d+)').search(total).group(1))
 46 |         # 只取出100这个数字
 47 |         print("第1页:")
 48 |         # 获取数据
 49 |         get_products()
 50 |         #返回总的页数
 51 |         return totalnum
 52 |     except:
 53 |         crawl_page()
 54 | #然后根据获取总的页数来获取每一页商品的内容和信息
 55 | def next_page():
 56 |     # 获取总页数的值，并且调用search获取第一页数据
 57 |     totalnum = crawl_page()
 58 |     # 初始为1，因为我第一页已经获取过数据了
 59 |     num = 1
 60 |     # 首先进来的是第1页，共100页，所以只需要翻页99次
 61 |     while num != totalnum - 1:
 62 |         print("第%s页:" %str(num+1) )
 63 |         # 用修改s属性的方式翻页
 64 |         browser.get('https://s.taobao.com/search?q={}&s={}'.format(KEYWORD,44 * num))
 65 |         # 等待10秒
 66 |         browser.implicitly_wait(10)
 67 |         # 获取数据
 68 |         get_products()
 69 |         #延迟3秒
 70 |         time.sleep(3)
 71 |         # 自增
 72 |         num +=1
 73 | #再根据获取到的商品信息来定位来商品的链接从而进入商品的详细页面
 74 | def get_products():
 75 |     #用工具去爬取这个页面
 76 |     html = browser.page_source
 77 |     #打印这个页面的信息
 78 |     doc = PyQuery(html)
 79 |     #去定位获取我们需要的信息
 80 |     items = doc("#mainsrp-itemlist .items .item").items()
 81 |     for item in items:
 82 |         product ={
 83 |             "href":item.find(".pic-link").attr("href"),
 84 |         }
 85 |         href = product["href"]
 86 |         url = "https:{}".format(href).replace("https:https:","https:")
 87 |         get_url(url)
 88 | 
 89 | #获取到详细页面之后去获取每个商品信息的属性，并且把这些属性抓取下来
 90 | def get_url(url):
 91 |     browser.get(url)
 92 |     time.sleep(2)
 93 |     html= browser.page_source
 94 |     doc = PyQuery(html)
 95 |     items = doc('div#attributes.attributes .attributes-list li').text()
 96 | 
 97 |     data = {
 98 |         'property':items
 99 |     }
100 |     print(data['property'])
101 |     save_to_file(data['property'])
102 | #写一个保存文件的函数
103 | def save_to_file(result):
104 |     #a是追加信息的意思
105 |     with open("商品属性.text","a",encoding='utf-8') as f:
106 |         #把python转化为json，然后用json的形式保存下来，ensure_ascii=False是识别有没有中文的意思
107 |         f.write(json.dumps(result,ensure_ascii=False)+"\n")
108 |         print("存储到text成功")
109 | 
110 | if __name__ == '__main__':
111 |     next_page()


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/paqubaiduwenku.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import re
 3 | 
 4 | #首先先去获取这个函数
 5 | def get_html(url):
 6 |     try:
 7 |         #这里用到防错机制先获取这个页面用get方法
 8 |         r = requests.get(url,headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.62 Safari/537.36"})
 9 |         #这句话的意思就是这个HTTP回应内容的编码方式 =这个内容的备用编码方式，
10 |         # 这样写的意义就是不用指定某种编码，而是直接调用这个内容的编码
11 |         r.encoding = r.apparent_encoding
12 |         #放回这个内容以text的形式
13 |         return r.text
14 |     except:
15 |         print("URL request error")
16 | 
17 | #开始解析我们的doc文件
18 | def parse_doc(html):
19 |     #先设置result为空，方便存放
20 |     result = ''
21 |     #用我们的正则去获取我们想要的URL
22 |     url_list = re.findall("(https.*?0.json.*?)\\\\x22}", html)
23 |     #并且把获取到的URL替换成正确的URL
24 |     url_list = [addr.replace("\\\\\\/","/") for addr in url_list]
25 |     #最后打印出来
26 |     print(url_list)
27 |     #开始调用我们的URL，因为最后5条是用不了的，所以对它们进行切片
28 |     for url in url_list[:-5]:
29 |         content = get_html(url)
30 |         y = 0
31 |         #把这个列表全部打印出来，因为这里是用到了反爬虫机制，所以我们要开始解析页面
32 |         txtlists = re.findall('"c":"(.*?)".*?"y":(.*?),',content)
33 |         for item in txtlists:
34 |             if not y==item[1]:
35 |                 y = item[1]
36 |                 n = '\n'
37 |             else:
38 |                 n = ''
39 |             result += n
40 |             #最后的结果，把我们破解好的内容一条条的打印上去，解码方式就是utf-8，因为还有因为解码还没解，所以我采用了最大的解码方法
41 |             result += item[0].encode("utf-8").decode("unicode_escape","ignore")
42 |     return result
43 | 
44 | def main():
45 |     #输入我们想要爬取这个文章的连接
46 |     url = input("请输入你要获取百度文库的URL连接:")
47 |     html = get_html(url)
48 |     #爬取这个页面的一些信息
49 |     wenku_title = re.findall("\'title\'.*?\'(.*?)\'",html)[0]
50 |     wenku_type = re.findall("\'docType\'.*?\'(.*?)\'",html)[0]
51 |     wenku_id = re.findall("'docId'.*?'(.*?)'",html)[0]
52 |     print("文章类型",wenku_type)
53 |     print("文档ID",wenku_id)
54 |     result =parse_doc(html)
55 |     filename= wenku_title+'.doc'
56 |     with open(filename,"w",encoding="utf-8") as f:
57 |         f.write(result)
58 |     print("文件保存为{}.doc".format(wenku_title))
59 | 
60 | if __name__ == '__main__':
61 |     main()


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/paqu-ppt/pdf.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | from selenium import webdriver
 3 | from lxml import etree
 4 | import re
 5 | from selenium.webdriver.common.keys import Keys
 6 | import time
 7 | from PIL import Image
 8 | import os
 9 | from bs4 import BeautifulSoup
10 | from docx import Document
11 | import sys
12 | 
13 | #首先先去获取这个函数
14 | def get_html(url):
15 |     try:
16 |         #这里用到防错机制先获取这个页面用get方法
17 |         r = requests.get(url,headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.62 Safari/537.36"})
18 |         #这句话的意思就是这个HTTP回应内容的编码方式 =这个内容的备用编码方式，
19 |         # 这样写的意义就是不用指定某种编码，而是直接调用这个内容的编码
20 |         r.encoding = r.apparent_encoding
21 |         #放回这个内容以text的形式
22 |         return r.text
23 |     except:
24 |         print("URL request error")
25 | 
26 | 


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/paqubaiduwenku.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import re
 3 | 
 4 | #首先先去获取这个函数
 5 | def get_html(url):
 6 |     try:
 7 |         #这里用到防错机制先获取这个页面用get方法
 8 |         r = requests.get(url,headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.62 Safari/537.36"})
 9 |         #这句话的意思就是这个HTTP回应内容的编码方式 =这个内容的备用编码方式，
10 |         # 这样写的意义就是不用指定某种编码，而是直接调用这个内容的编码
11 |         r.encoding = r.apparent_encoding
12 |         #放回这个内容以text的形式
13 |         return r.text
14 |     except:
15 |         print("URL request error")
16 | 
17 | #开始解析我们的doc文件
18 | def parse_doc(html):
19 |     #先设置result为空，方便存放
20 |     result = ''
21 |     #用我们的正则去获取我们想要的URL
22 |     url_list = re.findall("(https.*?0.json.*?)\\\\x22}", html)
23 |     #并且把获取到的URL替换成正确的URL
24 |     url_list = [addr.replace("\\\\\\/","/") for addr in url_list]
25 |     #最后打印出来
26 |     print(url_list)
27 |     #开始调用我们的URL，因为最后5条是用不了的，所以对它们进行切片
28 |     for url in url_list[:-5]:
29 |         content = get_html(url)
30 |         y = 0
31 |         #把这个列表全部打印出来，因为这里是用到了反爬虫机制，所以我们要开始解析页面
32 |         txtlists = re.findall('"c":"(.*?)".*?"y":(.*?),',content)
33 |         for item in txtlists:
34 |             if not y==item[1]:
35 |                 y = item[1]
36 |                 n = '\n'
37 |             else:
38 |                 n = ''
39 |             result += n
40 |             #最后的结果，把我们破解好的内容一条条的打印上去，解码方式就是utf-8，因为还有因为解码还没解，所以我采用了最大的解码方法
41 |             result += item[0].encode("utf-8").decode("unicode_escape","ignore")
42 |     return result
43 | 
44 | def main():
45 |     #输入我们想要爬取这个文章的连接
46 |     url = input("请输入你要获取百度文库的URL连接:")
47 |     html = get_html(url)
48 |     #爬取这个页面的一些信息
49 |     wenku_title = re.findall("\'title\'.*?\'(.*?)\'",html)[0]
50 |     wenku_type = re.findall("\'docType\'.*?\'(.*?)\'",html)[0]
51 |     wenku_id = re.findall("'docId'.*?'(.*?)'",html)[0]
52 |     print("文章类型",wenku_type)
53 |     print("文档ID",wenku_id)
54 |     result =parse_doc(html)
55 |     filename= wenku_title+'.doc'
56 |     with open(filename,"w",encoding="utf-8") as f:
57 |         f.write(result)
58 |     print("文件保存为{}.doc".format(wenku_title))
59 | 
60 | if __name__ == '__main__':
61 |     main()


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/作文.pptx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取百度文库的doc格式/抓取百度文库所有内容/作文.pptx


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/README.md:
--------------------------------------------------------------------------------
 1 | # 爬取百度文库
 2 | 
 3 | ## Before use:
 4 | 
 5 | ```python
 6 | 执行setup.bat
 7 | ```
 8 | 
 9 | ## Requirements
10 | 
11 | - Python 3 环境
12 | - 将文件夹放置在一个路径文件夹名中**没有空格**的位置
13 | 
14 | ## 使用说明
15 | 
16 | 用户界面：
17 | 
18 | ![1](.\img\1.png)
19 | 
20 | 输入要爬取的百度文库网页的url地址：
21 | 
22 | ![2](.\img\2.png)
23 | 
24 | 如果没有设置环境变量，需要手动输入本地python.exe文件的绝对路径，如果已经设置环境变量，不需要修改该部分：
25 | 
26 | ![3](.\img\3.png)
27 | 
28 | 如果输入了错误的网址或python路径，会弹窗报错：
29 | 
30 | ![4](.\img\5.png)
31 | 
32 | 选择是否爬取文本内容：
33 | 
34 | ![4](.\img\4.png)
35 | 
36 | 爬取成功后会有文字提示，爬出结果保存在文件夹内：
37 | 
38 | ![6](.\img\6.png)
39 | 
40 | 
41 | ## 联系作者
42 | 
43 | 本项目由xkw和zll共同完成，如有疑惑请咨询：
44 | 
45 | xkw：xiasen99@gmail.com  
46 | 
47 | zll：zh20010728@126.com   https://github.com/zll-hust
48 | 
49 | 
50 | 


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/1.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/1.png


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/2.png


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/3.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/3.png


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/4.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/4.png


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/5.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/5.png


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/6.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/img/6.png


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/requirements.txt:
--------------------------------------------------------------------------------
1 | pillow
2 | requests
3 | selenium
4 | lxml
5 | bs4
6 | 


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/setup.bat:
--------------------------------------------------------------------------------
1 | @echo off
2 | pip install -r requirements.txt
3 | pip install python-docx


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/src/chromedriver.exe:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/src/chromedriver.exe


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/src/wenku.py:
--------------------------------------------------------------------------------
  1 | import requests
  2 | from selenium import webdriver
  3 | from lxml import etree
  4 | import re
  5 | from selenium.webdriver.common.keys import Keys
  6 | import time
  7 | from PIL import Image
  8 | import os
  9 | from bs4 import BeautifulSoup
 10 | import bs4
 11 | from docx import Document
 12 | import sys
 13 | 
 14 | def getHTMLText(url):
 15 |     header = {'User-agent': 'Googlebot'}
 16 |     try:
 17 |         r = requests.get(url, headers=header, timeout=30)
 18 |         r.raise_for_status()
 19 |         r.encoding = 'gbk'
 20 |         # r.encoding = r.apparent_encoding
 21 |         return r.text
 22 |     except:
 23 |         return ''
 24 | 
 25 | def parse_type(content):
 26 |     return re.findall(r"docType.*?\:.*?\'(.*?)\'\,", content)[0]
 27 | 
 28 | def parse_txt(html):
 29 |     plist = []
 30 |     soup = BeautifulSoup(html, "html.parser")
 31 |     plist.append(soup.title.string)
 32 |     for div in soup.find_all('div', attrs={"class": "bd doc-reader"}):
 33 |         plist.extend(div.get_text().split('\n'))
 34 |     plist = [c.replace(' ', '') for c in plist]
 35 |     plist = [c.replace('\x0c', '') for c in plist]
 36 |     return plist
 37 | 
 38 | def print_docx(plist, filename):
 39 |     file = open(filename + '.txt', 'w',encoding='utf-8')
 40 |     for str in plist:
 41 |         file.write(str)
 42 |         file.write('\n')
 43 |     file.close()
 44 |     with open(filename + '.txt', encoding='utf-8') as f:
 45 |         docu = Document()
 46 |         docu.add_paragraph(f.read())
 47 |         docu.save(filename + '.docx')
 48 | 
 49 | def parse_doc(url, folderPath):
 50 |     driver = webdriver.Chrome(r'./src/chromedriver.exe')
 51 |     driver.get(url)
 52 |     # 找到‘继续阅读’按钮  定位至<span class="moreBtn goBtn"><span>还剩35页未读，</span><span class="fc2e">继续阅读</span></span>
 53 |     button = driver.find_element_by_xpath("//*[@id='html-reader-go-more']/div[2]/div[1]/span")
 54 |     # 按下按钮
 55 |     driver.execute_script("arguments[0].click();", button)
 56 |     time.sleep(1)
 57 |     source = re.compile(r'<span class="page-count">/(.*?)</span>')
 58 |     number = int(source.findall(driver.page_source)[0])
 59 |     # 获取页码数
 60 |     # number = total[1]
 61 |     time.sleep(1)
 62 |     for i in range(2,number):
 63 |         driver.find_element_by_class_name("page-input").clear()
 64 |         driver.find_element_by_class_name("page-input").send_keys(f'{i}')
 65 |         driver.find_element_by_class_name("page-input").send_keys(Keys.ENTER)
 66 |         time.sleep(1)
 67 |         html=etree.HTML(driver.page_source)
 68 |         # 找到picture容器
 69 |         links=html.xpath("//div[@class='reader-pic-item']/@style")
 70 |         # 找到图片对应的url
 71 |         part = re.compile(r'url[(](.*?)[)]')
 72 |         qa="".join(links)
 73 |         z=part.findall(qa)
 74 |         if i == 2:
 75 |             for m in range(3):
 76 |                 pic = requests.get(z[m]).content
 77 |                 with open(f'./照片/{m+1}.jpg','wb') as f:
 78 |                     f.write(pic)
 79 |                     f.close()
 80 |         else:
 81 |             pic = requests.get(z[2]).content
 82 |             with open(f'./照片/{i+1}.jpg','wb') as f:
 83 |                 f.write(pic)
 84 |                 f.close()
 85 |         time.sleep(1)
 86 |     driver.quit()
 87 | 
 88 | def parse_other(url, folderPath):
 89 |     driver = webdriver.Chrome(r'./src/chromedriver.exe')
 90 |     driver.get(url)
 91 |     # 找到‘继续阅读’按钮  定位至<span class="moreBtn goBtn"><span>还剩35页未读，</span><span class="fc2e">继续阅读</span></span>
 92 |     button = driver.find_element_by_xpath("//*[@id='html-reader-go-more']/div[2]/div[1]/span")
 93 |     # 按下按钮
 94 |     driver.execute_script("arguments[0].click();", button)
 95 |     time.sleep(1)
 96 |     source = re.compile(r'<span class="page-count">/(.*?)</span>')
 97 |     number = int(source.findall(driver.page_source)[0])
 98 |     # 获取页码数
 99 |     # number = total[1]
100 |     time.sleep(1)
101 |     # 获取图片
102 |     for i in range(2,number):
103 |         driver.find_element_by_class_name("page-input").clear()
104 |         driver.find_element_by_class_name("page-input").send_keys(f'{i}')
105 |         driver.find_element_by_class_name("page-input").send_keys(Keys.ENTER)
106 |         time.sleep(1)
107 |         html=etree.HTML(driver.page_source)
108 |         # 找到picture容器"//div[@class='reader-pic-item']/@style"
109 |         z=html.xpath('//div[@class="ppt-image-wrap"]/img/@src')
110 |         # print(z)
111 |         # 保存图片
112 |         if i == 2:
113 |             for m in range(3):
114 |                 pic = requests.get(z[m]).content
115 |                 with open(folderPath + f'/{m + 1}.jpg','wb') as f:
116 |                     f.write(pic)
117 |                     f.close()
118 |         else:
119 |             pic = requests.get(z[i]).content
120 |             with open(folderPath + f'/{i + 1}.jpg','wb') as f:
121 |                 f.write(pic)
122 |                 f.close()
123 |         time.sleep(1)
124 |     driver.quit()
125 | 
126 | 
127 | def print_pdf(folderPath, filename):
128 |     files = os.listdir(folderPath)
129 |     jpgFiles = []
130 |     sources = []
131 |     for file in files:
132 |         if 'jpg' in file:
133 |             jpgFiles.append(file)
134 |     tep = []
135 |     for i in jpgFiles:
136 |         ex = i.split('.')
137 |         tep.append(int(ex[0]))
138 |     tep.sort()
139 |     jpgFiles=[folderPath +'/'+ str(i) + '.jpg' for i in tep]
140 |     output = Image.open(jpgFiles[0])
141 |     jpgFiles.pop(0)
142 |     for file in jpgFiles:
143 |         img = Image.open(file)
144 |         img = img.convert("P")
145 |         sources.append(img)
146 |     output.save(f"{filename}.pdf","PDF",save_all=True,append_images=sources)
147 | 
148 | def main(url, istxt):
149 |     try:
150 |         ticks = time.time() # 获取时间（用于命名文件夹）
151 |         filepath = './照片' + str(ticks) # 保存爬取的图片
152 |         filename = './爬取结果' + str(ticks) # 爬取生成的文件名
153 |         if not os.path.exists(filepath): # 新建文件夹
154 |             os.mkdir(filepath)
155 |         html = getHTMLText(url) # requests库爬取
156 |         type = parse_type(html) # 获取文库文件类型：ppt, pdf, docx
157 | 
158 |         # 当你要爬取文档的文本时，打开下列注释
159 |         if(istxt == "1"):
160 |             type = 'txt'
161 |     
162 |         if type == 'txt' :
163 |             plist = parse_txt(html)
164 |             print_docx(plist, filename)
165 |         elif type == 'doc' or type == 'pdf':
166 |             parse_doc(url, filepath)
167 |             print_pdf(filepath , filename)
168 |         else:
169 |             parse_other(url, filepath)
170 |             print_pdf(filepath, filename)
171 |         print('1')
172 |     except:
173 |         print('0')
174 | 
175 | if __name__ == '__main__':
176 |     main(sys.argv[1],sys.argv[2])
177 |     # url = 'https://wenku.baidu.com/view/5292b2bc0166f5335a8102d276a20029bd64638c.html?fr=search'
178 |     # istxt = "0"
179 |     # main(url,istxt)


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/代码分析/Ajax知识点补充.md:
--------------------------------------------------------------------------------
 1 | # Ajax
 2 | 
 3 |   AJAX技术与其说是一种“技术”，不如说是一种“方案”。如上文所述，在网页中使用JavaScript 加载页面中数据的过程，都可以看作AJAX技术。
 4 | 
 5 | ​	AJAX技术改变了过去用户浏览网站时一个请求对应一个页面的模式，允许浏览器通过异步请求来获取数据，从而使得一个页面能够呈现并容纳更多的内容，同时也就意味着更多的功能。
 6 | 
 7 | ​	只要用户使用的是主流的浏览器，同时允许浏览器执行JavaScript，用户就能够享受网页中的AJAX内容。
 8 | 
 9 |   AJAX技术在逐渐流行的同时，也面临着一些批评和意见。由于JavaScript本身是作为客户端脚本语言在浏览器的基础上执行的，因此，浏览器兼容性成为不可忽视的问题。
10 | 
11 | ​	另外，由于JavaScript在某种程度上实现了业务逻辑的分离（此前的业务逻辑统一由服务器端实现），因此在代码维护上也存在一些效率问题。但总体而言，AJAX技术已经成为现代网站技术中的中流砥柱，受到了广泛的欢迎。AJAX目前的使用场景十分广泛，很多时候普通用户甚至察觉不到网页正在使用AJAX技术。 
12 | 
13 | ​	以知乎的首页信息流为例，与用户的主要交互方式就是用户通过下拉页面（具体操作可通过鼠标滚轮、拖动滚动条等实现）查看更多动态，而在一部分动态（对于知乎而言包括被关注用户的点赞和回答等）展示完毕后，就会显示一段加载动画并呈现后续的动态内容。此处的页面动画其实只是“障眼法”，在这个过程中，JavasScript脚本已向服务器请求发送相关数据，并最终加载到页面之中。这时页面显然没有进行全部刷新，而是只“新”刷新了一部分，通过这种异步加载的方式完成了对新内容的获取和呈现，这个过程就是典型的AJAX应用。
14 | 
15 |   比较尴尬的是，爬虫一般不能执行包括“加载新内容”或者“跳到下一页”等功能在内的各类写在网页中的JavaScript代码。如本节开头所述，爬虫会获取网站的原始HTML页面，由于它没有像浏览器一样的执行JavaScript脚本的能力，因此也就不会为网页运行JavaScript。
16 | 
17 | ​	最终，爬虫爬取到的结果就会和浏览器里显示的结果有所差异，很多时候便不能直接获得想要的关键信息。
18 | 
19 | ​	为解决这个尴尬处境，基于Python编写的爬虫程序可以做出两种改进，一种是通过分析AJAX内容（需要开发者手动观察和实验），观察其请求目标、请求内容和请求的参数等信息，最终编写程序来模拟这样的JavaScript 请求，从而获取信息（这个过程也可以叫作“逆向工程”）。
20 | 
21 | ​	另外一种方式则比较取巧，那就是直接模拟出浏览器环境，使得程序得以通过浏览器模拟工具“移花接木”，最终通过浏览器渲染后的页面来获得信息。这两种方式的选择与JavaScript在网页中的具体使用方法有关。


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/代码分析/JSP知识的小补充.md:
--------------------------------------------------------------------------------
 1 | # JSP知识的小补充
 2 | ## 网页组成
 3 | 
 4 | 网页是由 HTML 、 CSS 、JavaScript 组成的。
 5 | 
 6 | HTML 是用来搭建整个网页的骨架，而 CSS 是为了让整个页面更好看，包括我们看到的颜色，每个模块的大小、位置等都是由 CSS 来控制的， JavaScript 是用来让整个网页“动起来”，这个动起来有两层意思，一层是网页的数据动态交互，还有一层是真正的动，比如我们都见过一些网页上的动画，一般都是由 JavaScript 配合 CSS 来完成的。
 7 | 
 8 | 不同类型的文字通过不同类型的标签来表示，如图片用 <img> 标签表示，视频用 <video> 标签表示，段落用 <p> 标签表示，它们之间的布局又常通过布局标签 <div> 嵌套组合而成，各种标签通过不同的排列和嵌套才形成了网页的框架。
 9 | 
10 | 在右边 Style 标签页中，显示的就是当前选中的 HTML 代码标签的 CSS 层叠样式，“层叠”是指当在HTML中引用了数个样式文件，并且样式发生冲突时，浏览器能依据层叠顺序处理。“样式”指网页中文字大小、颜色、元素间距、排列等格式。
11 | 
12 | 而 JavaScript 就厉害了，它在 HTML 代码中通常使用 <script> 进行包裹，可以直接书写在 HTML 页面中，也可以以文件的形式引入。
13 | 
14 | ## JSP
15 | 
16 | JavaScript的名字使得很多人会将其与Java语言联系起来，认为它是Java的某种派生语言，但实际上JavaScript在设计原则上更多受到了Scheme（一种函数式编程语言）和C语言的影响，除了变量类型和命名规范等细节，JavaScript与Java关系并不大。
17 | 
18 | Netscape公司最初为之命名“LiveScript”，但当时正与Sun公司合作，加上Java语言所获得的巨大成功，为了“蹭热点”，遂将其名字改为“JavaScript”。JavaScript推出后受到了业界的一致肯定，对JavaScript的支持也成为在21世纪出现的现代浏览器的基本要求。
19 | 
20 | 浏览器端的脚本语言还包括用于Flash动画的ActionScript等。
21 | 
22 | 为了在网页中使用JavaScript，开发者一般会把JavaScript脚本程序写在HTML的<script>标签中。在HTML语法里，<script>标签用于定义客户端脚本，如果需要引用外部脚本文件，可以在src属性中设置其地址，如下图所示。
23 | 
24 | ![image-20200427235704505](C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20200427235704505.png)
25 | 
26 | ## 常用操作
27 | - 隐藏百度图片
28 | 
29 | ```python
30 | from selenium import webdriver
31 | 
32 | driver = webdriver.PhantomJS()
33 | driver.get("https://www.baidu.com/")
34 | 
35 | # 给搜索输入框标红的javascript脚本
36 | js = "var q=document.getElementById(\"kw\");q.style.border=\"2px solid red\";"
37 | 
38 | # 调用给搜索输入框标红js脚本
39 | driver.execute_script(js)
40 | 
41 | #查看页面快照
42 | driver.save_screenshot("redbaidu.png")
43 | 
44 | #js隐藏元素，将获取的图片元素隐藏
45 | img = driver.find_element_by_xpath("//*[@id='lg']/img")
46 | driver.execute_script('$(arguments[0]).fadeOut()',img)
47 | 
48 | # 向下滚动到页面底部
49 | driver.execute_script("$('.scroll_top').click(function(){$('html,body').animate({scrollTop: '0px'}, 800);});")
50 | 
51 | #查看页面快照
52 | driver.save_screenshot("nullbaidu.png")
53 | 
54 | driver.quit()
55 | ```
56 | 
57 | - 模拟滚动条滚动到底部
58 | 
59 | ```python
60 | # 
61 | from selenium import webdriver
62 | import time
63 | 
64 | driver = webdriver.PhantomJS()
65 | driver.get("https://movie.douban.com/typerank?type_name=剧情&type=11&interval_id=100:90&action=")
66 | 
67 | # 向下滚动10000像素
68 | js = "document.body.scrollTop=10000"
69 | #js="var q=document.documentElement.scrollTop=10000"
70 | time.sleep(3)
71 | 
72 | #查看页面快照
73 | driver.save_screenshot("douban.png")
74 | 
75 | # 执行JS语句
76 | driver.execute_script(js)
77 | time.sleep(10)
78 | 
79 | #查看页面快照
80 | driver.save_screenshot("newdouban.png")
81 | 
82 | driver.quit()
83 | ```
84 | 
85 | 


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/代码分析/爬虫代码解读.md:
--------------------------------------------------------------------------------
  1 | # 爬取百度文库
  2 | 
  3 | ## Before use:
  4 | 
  5 | ```python
  6 | pip install -r requirements.txt
  7 | ```
  8 | 
  9 | ### 内容说明
 10 | 
 11 | >[1] [src](./src)文件夹为源代码&参考资料
 12 | >
 13 | >[2]User-Agent和Robot协议请看[Robot](./Robot.md)
 14 | >
 15 | >[3]Ajax请看[Ajax补充小知识](./Ajax知识点补充.md)
 16 | >
 17 | >[4]JSP请看[JSP知识点补充](./JSP知识的小补充.md)
 18 | >
 19 | > [5] [爬取案例](./爬取案例)为已爬取的案例，原文url在源文件中
 20 | >
 21 | >源文件位置：**./src/点这里→爬取百度文库.py**
 22 | 
 23 | 
 24 | 
 25 | ### 使用说明
 26 | 
 27 | 在源文件main函数内输入爬取的url地址：
 28 | 
 29 | ![image-20200428102405441](./README/image-20200428102405441.png)
 30 | 
 31 | 当需要爬取文本文档时，打开下方注释：
 32 | 
 33 | ![image-20200428102549413](./README/image-20200428102549413.png)
 34 | 
 35 | 注：代码仍有一些部分无法爬取，目前已知的有一些pdf文档无法爬取，原因是网页结构有所不同，暂时未全部考虑。除此之外，此类付费文档无法爬取：
 36 | 
 37 | ![付费文档](./README/付费文档.png)
 38 | 
 39 | 如果还有无法爬取的内容，欢迎及时反馈作者。作者邮箱在文档底部。
 40 | 
 41 | 如想深入了解代码原理，请阅读下文。
 42 | 
 43 | ## 学习经历
 44 | 
 45 | > 在整个过程中，我们经历了很多东西，但是好在现在已经完成了:joy:。
 46 | >
 47 | > 下面我们分板块进行一些总结以及一些坑，便于大家学习。
 48 | >
 49 | > 本文纯属技术分享，无任何商业用途，不承担任何法律责任，也希望同学们不要用作商业用途。
 50 | 
 51 | 
 52 | 
 53 | *长文预警！！！！*:artificial_satellite:
 54 | 
 55 | 
 56 | 
 57 | 注：本段滑稽语气、丑陋排版皆为xkw成果，与zll无关。在此声明。
 58 | 
 59 | ### 文本文件（TXT & DOCX）
 60 | 
 61 | > ​	在爬取`TXT`和`DOCX`文件的时候，我们采取的思路和后面爬取`PDF`和`PPT`的
 62 | >
 63 | > 想法类似就利用自动化测试工具`seleium`去爬取，但是，我们发现了知乎
 64 | >
 65 | > 上面有一篇文章[1]介绍了如何爬取`TXT`和`DOCX`，并没有使用`seleium`，我
 66 | >
 67 | > 们就很好奇，研究了代码以后发现，原因是User-Agent[2]的不同。
 68 | >
 69 | > ​	百度文库是一个很神奇的地方，如果我们使用我们自己的User-Agent我们
 70 | >
 71 | > 只能访问到我们记忆中的那个页面，就是没有内容，一堆Ajax[3]异步文
 72 | >
 73 | > 件。
 74 | >
 75 | > ​	但是用`BaiduSpider`这个User-Agent就不一样了，顾名思义，这个就是百
 76 | >
 77 | > 度搜索的User-Agent，那么为什么我们使用这个就可以爬到呢？用自己的就
 78 | >
 79 | > 爬不到呢？是不是用百度这个User-Agent我们就可以获取其他所有类型的
 80 | >
 81 | > 呢？在进一步测试中发现，不是的，这个只对文本类有用，原因是什么
 82 | >
 83 | > 呢？
 84 | >
 85 | > ​	在研究了`robot`[2]协议之后，再加上观察直接用百度搜索搜寻一个`TXT`
 86 | >
 87 | > 类文件的时候，确实可以搜到文件中的内容，我们可以大胆猜想，
 88 | >
 89 | > `BaiduiSpider`这个User-Agent其实就是将我们伪装成百度的搜索引擎，
 90 | >
 91 | > 那么我们利用这个User-Agent对网址发起请求和百度搜索引擎发起请求是一
 92 | >
 93 | > 个效果，都可以获得文本内容。
 94 | >
 95 | > ​	后面获得文本内容了之后就很简单了，找文本，存为DOCX文件等等操作
 96 | >
 97 | > 都很简单，也没有什么雷踩的，就不多赘述了。
 98 | 
 99 | ### 图片文件（PDF & PPT）
100 | 
101 | > ​	说起图片类文件，真的是一把心酸泪，诶。
102 | >
103 | > ​	前文已经说过了，直接利用`User-Agent`这个方法行不通，那怎么办？对
104 | >
105 | > 于这种情况我们一般来说两种办法。
106 | >
107 | > ​	第一种就是找到异步发送请求的`URL`，观察规律，直接向它发送请求，我
108 | >
109 | > 们可以获得图片，但是这种太难实现了，就对于我们一般来说，要找到期
110 | >
111 | > 中的规律，几乎不可能，当然，附件里面的参考文章里面是使用的这种方
112 | >
113 | > 法，我们参考了以后觉得这种方法不现实，因为就普通人而言，很难做到
114 | >
115 | > 这一点的，如果你是一个前端的大神，那就请跳过我刚刚的话。
116 | >
117 | > ​	第二种就是我们这种菜鸟用的`seleium`了。通过`seleium`，我们模仿进入
118 | >
119 | > 目标网页，然后动态的获取源代码，捕获目标。
120 | >
121 | > ​	第二种方法是不是听起来很简单？对于使用过`seleium`这个库的同学来
122 | >
123 | > 说，这肯定是一个很常规的操作。但是，请你务必要先尝试一下自己的想
124 | >
125 | > 法，再回来继续看，因为只有那样，下面对你而言才是最有作用的。
126 | >
127 | > ​	为什么说这个操作听起来简单，实现起来难呢？相信如果你按照上面所
128 | >
129 | > 说的已经实现了一次自己的程序以后，已经有所感受了。
130 | >
131 | > ​	下面列一下我们整个过程。
132 | >
133 | > ​	模拟进入`URL`   ---->  点击继续阅读    ---->  获取全部页数   ---->  循环换
134 | >
135 | > 页+爬取过程     ---->  保存为图片   ---->  转为`PDF`
136 | >
137 | > ​	别急，虽然只有四个过程，但是其中的坑，是你无法想象的多。
138 | >
139 | > ​	按照过程的顺序，我们把遇到的坑以及解决的办法一一列举出来。
140 | >
141 | > ​	模拟进入`URL`这个步骤可以说有坑，也可以说无坑，这里需要提醒的是，
142 | >
143 | > 如果出现`webdriver`失败的问题，多半是没有加入系统变量或者如果懒得
144 | >
145 | > 加入系统变量的话，直接在（）中填写文件所在的位置也可以，注意一定
146 | >
147 | > 要精确到`.exe`。如果你之前已经解决了这个问题，那么这个问题就不是
148 | >
149 | > 坑，如果没有，可能又要耽误一点时间了。
150 | >
151 | > ​	点击继续阅读，这个位置其实是技巧性很强的，如果我们直接通过`xpath`
152 | >
153 | > 锁定这个按钮，然后按照正常的那种`.click`的话，行不通，不行的话，自
154 | >
155 | > 己去试试，原因是什么？我也没有仔细研究过，我猜测是反爬机制吧。那
156 | >
157 | > 么我们怎么解决的？我们是调用`JSP`[4]脚本来实现点击的，具体的实现同学们
158 | >
159 | > 可以在源代码中找到，如果在这个位置你不知道应该通过脚本`JSP`脚本实
160 | >
161 | > 现的话，ok，恭喜你，你的爬取已经提前结束了。
162 | >
163 | > ​	获取全部页数，怎么说呢，这个位置可以说是坑，也可以说不是坑，在
164 | >
165 | > 这里需要先介绍一下，我们为什么在已经点击继续阅读的前提下，还要去
166 | >
167 | > 获取全部页面实现换页的操作。
168 | >
169 | > ​	原因还是一样，我希望你自己先去研究一下源代码的规律，自己尝试着
170 | >
171 | > 在检查页面去按`Ctrl F`搜索一下图片，观察一下源代码的规律，再回来继
172 | >
173 | > 续看，不管有没有找到规律，你对下面的话肯定更感触更深。
174 | >
175 | > ​	相信你已经观察了图片的规律了，下面我们说说我们发现的这个规律和
176 | >
177 | > 你所发现的是不是一样的。
178 | >
179 | > ​	百度文库的`PDF`文件，在每个页面下只显示3张图片的源代码，其他的图
180 | >
181 | > 片都没有，在页面向下移动的时候，之前的源代码是不断消失的，后面的
182 | >
183 | > 不断更新的。并且源代码存在这样的规律，每个页面下只有3张图片的
184 | >
185 | > `src`，并且在第一页面时的3张图为1，2，3，第二个页面的3张图为1，2，
186 | >
187 | > 3，第三页面的三张图为2，3，4，那么我们就可以以此类推嘛，找到保存
188 | >
189 | > 图片的规律，那就是先回到第二页把第1，2，3张图片全保存下来，然后再
190 | >
191 | > 换到第3页保存第4张图片，……
192 | >
193 | > ​	嘿嘿-我刚刚说的源代码，大家不会以为就是真正的图片代码的了吧？
194 | >
195 | > 哈哈，当然不是的-如果你按照上述的步骤进行了，你可以发现，我们其实
196 | >
197 | > 是获得了一大串东西，而真正的`URL`是在`url=(……)`,括号里面才是真正
198 | >
199 | > `URL`，那么我们怎么处理的？对，用正则表达式去获取就OK了。一样的，
200 | >
201 | > 想看具体怎么实现的，请直接看代码。
202 | >
203 | > ​	既然已经知道了我们获取页面总数的重要性，那么接下来就是获取页面
204 | >
205 | > 总数了。
206 | >
207 | > ​	在最开始的时候，没有考虑太多，因为很简单的就认为`Baidu`不会在这上
208 | >
209 | > 面设置反爬技术，就直接一个`xpath`获取了，然后在后面很多次测试中都发
210 | >
211 | > 现不行，捕捉不到目标，而且是对于同一个网页，有的时候行，有时候不
212 | >
213 | > 行！！？？？为啥??我最开始认为是电脑的加载问题哈--所以最先采取的是
214 | >
215 | > 利用`time`函数，停一会儿，额--不出大家所料，失败了。那这个时候我们
216 | >
217 | > 就认为可能是这个位置设置了反爬，不同的时候这个位置不同，为了解决
218 | >
219 | > 这个问题，我们测试了部分网页，然后把位置保存下来，发现零零碎碎的
220 | >
221 | > 有了四五种了，而且不是很多很多的测试，这不行啊，要是所有的都找出
222 | >
223 | > 来，不是有几百个?几个的话用`try`就可以，太多了，难道还用`try`吗？当
224 | >
225 | > 然是不可以的--
226 | >
227 | > ​	那么我们最终是怎么解决的？对，就是利用正则表达式直接对源代码进
228 | >
229 | > 行抓取，弄到我们的总页数……看到这里你可能会说，早这样不好吗?嗯-我
230 | >
231 | > 只能说这是我的一个小习惯吧-如果你没有这个习惯，每次都是用正则去捕
232 | >
233 | > 捉，那样更好，这个坑就完整地跳过了。
234 | >
235 | > ​	好了，现在我们的爬取工作差不多已经完成了，但是我们爬取的是网址
236 | >
237 | > 啊，并不是图片啊，也没有把图片用二进制流保存下来啊，怎么办呢？
238 | >
239 | > ​	如果你是第一次爬取图片的话，这个位置可能是一个坑，如果你已经有
240 | >
241 | > 经验了，那么这个位置就不是一个坑了。
242 | >
243 | > ​	我们这个位置可以用`request`向这些图片的地址进行访问，然后把返回结
244 | >
245 | > 构用二进制流保存下来就可以了。
246 | >
247 | > ​	但是，在保存这个位置，也有坑的，一定要关注的地方，就是文件的命
248 | >
249 | > 名，一定要用阿拉伯数字命名，如`1.jpg`，这样子，因为后面因为要转为
250 | >
251 | > `PDF`，不这样的话我们最终的PDF顺序会出错！
252 | >
253 | > ​	在最后的转`PDF`阶段呢，主要是借鉴了网上一位网友的转`PDF`程序，
254 | >
255 | > 嗯……我在运行过程中，对文件用标准`"RGB"`格式去修饰图片的时候一直报
256 | >
257 | > 错，然后用`"P"`格式去修饰图片的时候又可以了，这个原因是说我没
258 | >
259 | > 有"`RGB"`的模板？？为什么？？我也不知道--这可能是版本的问题吧，我用
260 | >
261 | > 的库的版本请见前面的`Before use`。
262 | >
263 | > ​	这里补充一点，一定要对文件进行排序，并且排序的过程我们这里采用
264 | >
265 | > 的方法很特别，详细请看源代码，这里解释一下为什么要排序。
266 | >
267 | > ​	原因其实很简单，因为你用程序去读取文件的时候并不是一个一个读
268 | >
269 | > 的，是并发的读取文件，也就是说小的文件容易先读进来，那么就会打乱
270 | >
271 | > 原来的图片的顺序。
272 | 
273 | ### 小结
274 | 
275 | > 从一个做完的角度去看之前的过程，会觉得，当时真蠢啊，这些问题都会犯，什么什么的，这很正常，人都会这样想。
276 | >
277 | > 但是我觉得吧，我们没有权利站在现在的角度去看待过去的自己做了什么做了什么，这样是不公平的:smile:。
278 | >
279 | > 以前总觉得自己的爬虫挺厉害（注：此话为xkw言论，zll第一次接触爬虫），真正地做一个比较难的项目的时候，就感觉黔驴技穷了，人呐，永远不能自满。
280 | >
281 | > 对于自己想做的东西，一定要及时去做，而不是空想或者只看别人做，自己不做，因为只有做了，才能知道整个过程，才能学到东西。
282 | >
283 | > 还有如果想要做好一件事情，选好伙伴是非常重要的！在本项目的过程中无论少了我们两个中的任何一个人，该项目都不会如此顺利的完成！
284 | >
285 | > 互相鼓励，互相信任，是通往成功路上的利器:crossed_swords:
286 | 
287 | 
288 | 
289 | ## 联系方式
290 | 
291 | > 本项目由向柯玮和周航于2020/4/27共同完成，如有疑惑请咨询
292 | >
293 | > xkw:xiasen99@gmail.com  
294 | >
295 | > zll:zh20010728@126.com   https://github.com/zll-hust
296 | 
297 | 
298 | 
299 | > HUST   xkw  &  zll   
300 | 


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/爬取百度文库.exe:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取百度文库的doc格式/抓取百度文库所有内容/带GUI的爬取百度文库/爬取百度文库.exe


--------------------------------------------------------------------------------
/爬取百度文库的doc格式/抓取百度文库所有内容/泪水作文8篇.pdf:
--------------------------------------------------------------------------------
   1 | 
   2 | 泪水作文8篇
   3 | 泪水作文：
   4 | 快乐的眼泪
   5 | 每一个人都流过泪，有时是喜悦，有时是悲伤的泪，有时是悔恨的泪，在
   6 | 我的记忆中，我就流过一次喜悦的泪。
   7 | 我从小，字就写的不错，可不是我自夸，同学们都羡慕我，我可不是天生
   8 | 就写的好的，大家都明白每个人的优点和缺点都是自我养成的，我常常被练写字
   9 | 累的腰酸背痛，我想休息一会儿，但是手不听使唤，有时为了写好一幅好字，常
  10 | 常放下许多休息的时间。“功夫不负有心人。”我的字最后获奖了，当语文老师
  11 | 告诉我这个好消息时，我的眼眶一下子湿润了，之后泪水像断了线的珠子不停的
  12 | 滚落下来，怎样忍也忍不住，透过眼前薄薄的雾，我仿佛看见了我拿着笔，刻苦
  13 | 努力的写着每一个字的场景，看到了我放下课余时间，认真写字的画面，看到了
  14 | 我为写好每一幅而废寝忘食的情景。我突然明白了一个深刻的道理：滴水能把石
  15 | 穿透，万事功到自然成。是啊，只要刻苦努力，付出艰苦的劳动，再难的题，再
  16 | 困难的事做起来也会易如反掌。
  17 | 透过这次的眼泪，我不但明白了“做什么事都要刻苦努力，
  18 | 这个道理，而且更加在心中坚定了自我的信心，
  19 | 才能取得成功”
  20 | 在以后的学习中不能骄傲，刻苦
  21 | 努力，付出比别人多的努力，洒下比别人多的汗水，只有这样，在成功的道理上
  22 | 才会比别人走得远，我觉得，这天的眼泪是有好处的，眼泪没有白流。
  23 | 泪水作文
  24 | 泪水
  25 | 泪水，是什么？她是感情的流露，是真情的付出。在泪流满面的时候，那
  26 | 一颗颗晶莹的泪珠，诉说着，一段段动人的故事；浇灌着，每一个读者的心田……
  27 | 慢慢的回首，搜索着我记忆宝库，一段往事来到了我的脑海：
  28 | 那，姥姥的病床前，望着床上的姥姥，我哭了，并不清楚自我能够流出那
  29 | 么多，那么多的泪水……
  30 | 姥姥安静地躺在床上，昏迷中的她被手术这么的筋疲力尽，那一双充满慈
  31 | 爱目光的眼睛，一向紧闭……
  32 | 我哭了，泪水，一滴一滴轻轻抚摸着姥姥的手。这，是最悲痛的眼泪么？
  33 | 那一滴滴泪水，似乎带着我的思念，透过那一双温暖的手，一点一点注入了姥姥
  34 | 的身心……
  35 | 我默默的离开了，不想让在场的人发现我内心的波涛，或者说，不想让无
  36 | 助的眼泪在医院消逝……
  37 | 过了一个星期，我又来到了医院，推开了医院房门，姥姥那慈爱的目光定
  38 | 格在了我的身上，我那一颗颗金豆豆，又掉落了下来。但，那似乎是惊喜的眼泪。
  39 | 身形、记忆在那一望中珍惜、珍藏……
  40 | 我坐在姥姥的床前，，抚摸着姥姥的双手，努力使情绪平静下来。让那双无
  41 | 休止的手停止运动。正当我的双手触摸到那一个“机器”时，它竟停止了运动。
  42 | 那时的眼眶一湿，泪水又夺眶而出了……
  43 | 那一天，暑假归来的我来到了姥姥家的院中，发现姥姥正在院子里看小麻
  44 | 雀吃小米。惊奇的叫了一声“姥姥竟回应了一声，
  45 | 悦的泪水，姥姥的眼眶似乎也湿润了几分……我，
  46 | 都归功于那晶莹的眼泪……
  47 | 泪水，是什么？是悲伤的表达，是喜悦的庆祝。在泪水中，我们一次次被
  48 | 感情所磨合，被爱所洗礼……
  49 | 泪水作文：
  50 | 泪水
  51 | 每个人都有寂寞、痛苦、失落的一面，而，却用笑脸来掩盖它们，藏在心
  52 | 里最深，最柔软的地方，任凭它们刺痛着心脏，刺痛心里最深处的他，却不情愿
  53 | 从那里走出来。而是用泪去掩埋这一切。最软弱的是泪，最坚强的还是泪。泪，
  54 | 我任由它刺痛任何一处。
  55 | 夜太深，心跳呢？已经遗失了，不在了。泪水的流逝莫过心跳的存在。我
  56 | 该如存在？心跳已遗失，泪水已流逝，我该如何存在？一心想留住眼泪，却遗忘
  57 | 了心跳。一心在意最深处的他，他却早已不再了。夜太深，眼泪呢？已经遗失了，
  58 | 不在了。我明明白凌晨最害怕情歌的存在，而，我却偏偏想去听，去想。夜深了，
  59 | 我听着情歌，脑子里混沌一片，不知怎的，就是思念，还有瞎想。想未来的你我
  60 | 他。
  61 | 不知觉中，泪水泛红眼睛，睫毛溺了水。没了勇气去想，没了勇气去听。
  62 | 时间静止了，身边没人了，
  63 | 如果停止了这一切，跟谁去诉说你我他。勇气你在哪？思念的勇气在哪？
  64 | 我遗失的心跳你在哪？我没了勇气，没了思念，没了心跳，我如何去存在。
  65 | 哭了一次又一次。凌晨的夜总是那么宁静。再给我两分钟，让我把时间结
  66 | 成冰，别融化了眼泪，你妆都被泪水泛花了，都怪这眼泪，你要我怎样记得，你
  67 | 要我怎样记得？也许我会哭，也许是因为在乎，我才会哭。
  68 | 我愿做自我的阳光，在情绪低落，眼珠子里饱含着泪水的时候仰望太阳，
  69 | 是刺眼的。眼泪会落。周围人的喧闹，让自我感到反感，因为想哭，哭，是一种
  70 | 泪水又夺眶而出了。伴着那喜
  71 | 感到了人与人之间的感情，这
  72 | 解脱的方式么？贱人是矫情，哭是不是矫情？我也不明白。
  73 | 笑看回忆的折磨，不明白回忆可不能够打包。我不想哭，但是想起回忆的
  74 | 折磨，每走一步都是咬着牙挺过来的。一个人的夜晚，唱响寂寞的夜晚，让我坚
  75 | 强，不会哭。掩埋哭，是不是伪装？打包走悲哀好不好？眼眶，不明白什么时候
  76 | 红了。
  77 | 泪水不落好不好。泪水是解脱，可在别人看来是矫情，我会咬牙切齿，不
  78 | 会哭。
  79 | 泪水作文：
  80 | 悲哀的泪水
  81 | 泪水是情感的流露，喜悦时、激动时、委屈或悲哀时，我们都会流泪。每
  82 | 一次流泪都会有一段难忘的经历，都在会在心中留下深深的印迹，我的这次流泪
  83 | 就让我终身难忘。
  84 | 那一次，一向照顾我的爷爷、奶奶都到耒阳去了。爸爸妈妈每一天都要上
  85 | 班，而且要晚上九点多钟才会回家的。所以一天之内我只有一次见到他们的机会，
  86 | 其余的时间都是我一个人在家。我每一天晚上都使劲地睁着眼，挨到九点多钟，
  87 | 就是等见他们一面。但是，就因为我那才一个多月的外甥女得了肺炎，妈妈也急
  88 | 着请假要去耒阳。那天中午，我刚进家门，就见妈妈匆匆拿着一个旅行包，正准
  89 | 备出门，见我回来了，便叮嘱我一个人在家要留意，关好门。我鼻子一酸，心想：
  90 | 留意，你还有时间管我呀？我一个人在家害怕时，你想过我没有？我感冒发烧了，
  91 | 你又在哪？而此刻你为了我的小外甥女，还要请假去看她，你是从来没有请过假
  92 | 的呀。记得上次我感冒了，声音嘶哑了，而且又拉肚子，吃什么都没有胃口。可
  93 | 你却没有请假，只带我去配了些药，让我吃完躺下后，你又匆匆去上班了。我一
  94 | 个人躺在床上，周围静悄悄的，那种无助的感觉真让人悲哀流泪。身上的痛加上
  95 | 心上的痛，我的眼泪将枕巾都弄湿了好大一块。可这些又有谁明白呢？听到
  96 | “啪”的一声门响，妈妈提着她的袋子走了，我的眼泪又一次像雨点一样地掉了
  97 | 下来。晚上一个躺在床上，想着妈妈的狠心，让我一个人在家担惊受怕，我真的
  98 | 好恨。恨妈妈对我的绝情，恨妈妈对我的漠不关心。正
  99 | 在这时，枕边的手机响了起来，是妈妈发来的短讯：燕燕，在家别害怕，
 100 | 你已经长大了，能够独自生活了，妈妈为你感到自豪。外甥女的状况总算稳定下
 101 | 来了，大家都放下心来了。明天我就会回家去的，你好好睡觉，明天还要早起呢。
 102 | 爱你的妈妈。看了妈妈发来的短讯，我才明白妈妈还是很爱我的，只是她太忙了，
 103 | 没有时间跟我讲而已。我含着眼泪睡着了。
 104 | 是呀，天下哪个父母不爱自我的子女呢，只是有时他们没有用语言表达出
 105 | 来而已。所以我们要相信爸妈永远是爱我们的，我们也永远是爱他们的。今后，
 106 | 我再也不会流下这种悲哀的眼泪了。
 107 | 泪水作文：
 108 | 泪水作文
 109 | 这天，我们在上美术课时，老师认真的在黑板上教我们画pop海报，但是
 110 | 由于老师画的太投入了，丝毫没有注意下方的学生，许多人在下方大声的讲话，
 111 | 还有的尽然大胆地吃起了食物，我认真的画着，虽然很吵但老师没有去管。
 112 | “啪”的一声后，我的身上染上了颜料，脸上手上衣服上都是深蓝色的墨
 113 | 迹，待我反应过来时，当事人已经不知所踪了。
 114 | 我的眼泪当时就冒了出来，一滴、两滴、三滴……滴在纸上和颜料混合在
 115 | 一齐像一幅漂亮的水彩画。周围的人都凑热闹的在一旁看着，有几个好朋友看不
 116 | 下去了，拿着餐巾纸帮我擦干泪水，几个在一旁安慰我，几个帮我擦掉桌上的墨
 117 | 迹，而肇事者却一向没来道歉。
 118 | 我不想将事情闹大，便没有再追究下去，但心中的结一向解不开
 119 | 事后，回想起来，觉得这就应就是人性的淡漠吧，这是道个歉而已，而他
 120 | 却怎样都不肯承认是自我做的。
 121 | 人啊，有时不能以为自我是对的而不想向对方道歉，不去顾及对方的感受。
 122 | 泪水作文：
 123 | 泪水
 124 | 泪水伴随着每个人的成长，那次我流泪了，我也长大了……
 125 | 那是一个皎洁的夏夜，我刚刚吃完饭，便到阳台边乘凉。这时，弟弟来了：
 126 | “姐姐，出去看电视吧。”在弟弟的苦苦哀求下，我只好出去和弟弟看电视。
 127 | 但是，看了不一会，弟弟就不断的踢我。起初，我没和他计较。但弟弟却
 128 | 敬酒不吃吃罚酒，我实在按捺不住自我的情绪，把弟弟给痛骂了一顿。弟弟哭了。
 129 | 这时，坐在旁边的爷爷的脸顿时晴转多云，狠狠地打了我一巴掌。我的泪水“哗”
 130 | 的流了下来，如洪水般不可抵挡。我奔跑回卧室。十分不甘心。“为什么？这是
 131 | 为什么？明明是弟弟打了我，爷爷却打我？”
 132 | “砰”，原先是妈妈回来了，我立即向妈妈倾诉自我的苦处。妈妈弄清事
 133 | 情的来龙去脉后，意味声长的对我说：“宝贝，妈妈明白你受委屈了，但是弟弟
 134 | 还小，不懂事，你长大了，就应让着弟弟。”
 135 | “但是……”“好了，快去睡吧，晚安！”
 136 | 我拖着沉重的步伐进了卧室。一晚上，翻来覆去，左思右想，就是不明白……
 137 | 直到第二天清晨，“姐姐早上好！”当我看着弟弟那无知的眼神，我才想
 138 | 明白，我真的错了。
 139 | 我以后必须会好好爱护弟弟，做一个称职的好姐姐。
 140 | 泪水作文：
 141 | 泪水和成长
 142 | 在我最喜欢的一门课上，我流过很多次泪水，那就是我酷爱的跆拳道。
 143 | 在刚开始，每次上课时，都有30分钟的基础训练――拨筋，每当这时候就
 144 | 会十分的害怕，因为每次的拨筋都会很疼，总是拨不开。
 145 | 这时候教练会把我叫到跟前，让我坐下把腿向两侧劈开，教练会抓住我的
 146 | 手，用脚蹬着我的两腿内侧，只要往前一使劲我就疼的哭出声来，
 147 | 会滴满胸前。
 148 | 但在我心里，依然想着再坚持一会，拨开了就不疼了，以后练功也不会吃
 149 | 力了。
 150 | 就这样，我一天天坚持着，每一天的想法都一样，坚持了一段时间，最后
 151 | 我最后成功了。就在那一天我觉得自我收获了，成长了。我的所有努力和坚持都
 152 | 是值得的！
 153 | 泪水作文：
 154 | 激动的泪水作文
 155 | 在我记忆的长河中，有许许多多闪亮的明珠，其中有一颗明珠最亮，那就
 156 | 是我最难忘的一件事。
 157 | 记得三年级时，我成绩平平，充其量是一个中等生，但有一件事却改变了
 158 | 我。
 159 | 一天，老师拿来一堆厚厚的稿纸，对我们说：“省里举行了一次作文大赛，
 160 | 期望大家用心参加。”那时我还小，不懂什么是比赛，也觉得自我和别的优等生
 161 | 差远呢，就没把这件事当回事。正当我准备放下时，老师报出参加比赛人的名字
 162 | 时，我大吃一惊：竟然还有我的名字！
 163 | 但一阵激动之后，我又冷淡了下来，认为自我也没什么，只但是运气好罢
 164 | 了，虽然心里这么想，但还是觉得不甘失败，就鼓足了勇气，参加了比赛。
 165 | 虽说有了勇气，可我觉得还是没有什么水平和经验，便请妈妈指导，而妈
 166 | 妈讲得对我来说又太深奥，我没怎样听，又想放下了。
 167 | 但经过一番思考后，我还是想去写，因为我觉得我不是那种懦夫，就又重
 168 | 张旗鼓，拿起了笔，在纸上写下我竭尽全力却自我感觉不怎样好的作文，
 169 | 老师，也没完全把这事放在心上。
 170 | 到了公布获奖名单时，我若无其事地看着书，但是，当老师报到一等奖的
 171 | 名单时，居然有我，我的内心沸腾了！
 172 | 那时，我觉得我是世界上最幸福的人了，而且，从那以后，我彻底改变了
 173 | 我认为自我永远比不上别人的观念，认为自我同样也是一个优等生。同时在那一
 174 | 交给了
 175 | 不一会泪水就
 176 | 刻，我第一次流下了激动的泪水。
 177 | 20XX—019学年度第一学期生物教研组工作计划
 178 | 指
 179 | 以
 180 | 主
 181 | 一
 182 | 导思想
 183 | 新一轮
 184 | 要工作
 185 | 、教研
 186 | 、深入学
 187 | 组建设
 188 | 习课改
 189 | 级新教
 190 | 挥教研
 191 | 学过程
 192 | 关。要
 193 | 关。
 194 | 关。首
 195 | 关。以
 196 | 关。
 197 | 研组凝
 198 | 教学方
 199 | 组建设
 200 | 要加强
 201 | 活动要
 202 | 展听评
 203 | 制作、
 204 | 续本着
 205 | 课活动
 206 | 星期节
 207 | 四
 208 | 五
 209 | 五
 210 | 王
 211 | 赵
 212 | 赵
 213 | 朱
 214 | 聚力，
 215 | 面：
 216 | 。兴教
 217 | 集体备
 218 | 有计划
 219 | 课活动
 220 | 完善教
 221 | 团结一
 222 | 计划表
 223 | 次开课
 224 | 志忠生
 225 | 夕珍动
 226 | 夕珍生
 227 | 光祥动
 228 | 学生物
 229 | 人员拟
 230 | 物圈
 231 | 物的行
 232 | 态系统
 233 | 物的生
 234 | 教研组
 235 | 为
 236 | 的调节
 237 | 殖
 238 | 开课内容
 239 | 研之风
 240 | 课共
 241 | ，树教
 242 | 同分析
 243 | 施、有
 244 | 教师听
 245 | 页，加
 246 | 沟通，
 247 | 研氛围
 248 | 教材
 249 | 内容，
 250 | 课不少
 251 | 强与兄
 252 | 勤研究
 253 | 。特别
 254 | 研究教法
 255 | 在实效
 256 | 于
 257 | 要把起
 258 | 探讨
 259 | 上下工
 260 | 始年级
 261 | 疑难问
 262 | 夫，要
 263 | 年教师
 264 | 。
 265 | 实效的原则，在总结上一学年经验教训的前提下，出色地完成各项任务。
 266 | 题
 267 | 新教材
 268 | 由备
 269 | 认真落
 270 | 不少于
 271 | 的教研
 272 | 课组长
 273 | 实好组
 274 | 节，
 275 | 活动作
 276 | 牵头每
 277 | 内的公
 278 | 兴“听
 279 | 为工作
 280 | 周集体
 281 | 开课教
 282 | 课，评
 283 | 的重点
 284 | 备课一
 285 | 学。
 286 | 课”之风，大力提倡组内，校内听随堂课。
 287 | 。
 288 | 次，定时间定内容，对下一阶段教学做到有的放矢，把握重点突破难点
 289 | 培养组内老师的团结合作精神，做好新教师带教工作。
 290 | 方面：
 291 | 理论，
 292 | 材为“
 293 | 组的作
 294 | 管理，
 295 | 求教龄
 296 | 先要控
 297 | 确保给
 298 | 积极实
 299 | 切入点
 300 | 用，把
 301 | 转变学
 302 | 五年以
 303 | 制学生
 304 | 学生一
 305 | 施课改
 306 | ”，强
 307 | 先进理
 308 | 生的学
 309 | 下的教
 310 | 作业的
 311 | 个公正
 312 | 实践。
 313 | 化理论
 314 | 念学习
 315 | 习方式
 316 | 师备详
 317 | 量，本
 318 | 、公平
 319 | 学习和
 320 | 和教学
 321 | ，提高
 322 | 案，提
 323 | 着切实
 324 | 的评价
 325 | 教学实
 326 | 实践有
 327 | 课堂效
 328 | 倡其他
 329 | 减轻学
 330 | 环境。
 331 | 践。
 332 | 机的结
 333 | 益，规
 334 | 教师备
 335 | 生负担
 336 | 合起来
 337 | 范教学
 338 | 详案。
 339 | 的精神
 340 | ，做到
 341 | 常规管
 342 | 要求教
 343 | ，要在
 344 | 以学促
 345 | 理，抓
 346 | 师的教
 347 | 作业批
 348 | 研，以
 349 | 好“五
 350 | 案能体
 351 | 改上狠
 352 | 研促教
 353 | 关”。
 354 | 现课改
 355 | 下工夫
 356 | 理念。
 357 | 。
 358 | ，真正实现教学质量的全面提升。
 359 | 课程改革为抓手，更新教育理念，积极推进教学改革。努力实现教学创新，改革教学和学习方式，提高课堂教学效益，促进学校的内涵性发展。同时，以新课程理念为指导，在全面实施新课程过程中，加大教研、教改力度，深化教学方法和学习方式的研究。正确处理改革与发展、创新与质量的关系，积极探索符合新课程理念的生物教学自如化教学方法和自主化学习方式。
 360 | 、
 361 | 、
 362 | 以七年
 363 | 充分发
 364 | 、强化教
 365 | （
 366 | （
 367 | （
 368 | （
 369 | （
 370 | ）备课
 371 | ）上课
 372 | ）作业
 373 | ）考试
 374 | ）质量
 375 | 、加强教
 376 | 二
 377 | 加
 378 | 、常规
 379 | 强教研
 380 | 、教研组
 381 | 、教研组
 382 | 、积极开
 383 | 、进一步
 384 | 我
 385 | 校
 386 | 日
 387 | 们将继
 388 | 内公开
 389 | 期周次
 390 | 127
 391 | 137
 392 | 114
 393 | 、有措
 394 | ，每位
 395 | 研组主
 396 | 致，勤
 397 | 20节，青
 398 | 的交流
 399 | 索，重
 400 | 弟学校
 401 | ，重探
 402 | 10月
 403 | 10月
 404 | 12月
 405 | 12月
 406 | 镇
 407 | xx-
 408 | 20X
 409 | 2818四
 410 | 大港中江新区
 411 | 下学期生物教研组
 412 | 教研组
 413 | 的工作
 414 | 计划
 415 | 组工作
 416 | 研组工
 417 | 教研组
 418 | 教研组
 419 | 工作计
 420 | 研组工
 421 | 划
 422 | 工作计
 423 | 工作计
 424 | 计划
 425 | 划范文
 426 | 划20X年秋季生物
 427 | 化学生物教研组
 428 | 生
 429 | 下
 430 | 年
 431 | 20X
 432 | 20X
 433 | 中
 434 | 第
 435 | 物教研
 436 | 学期生
 437 | 下学期
 438 | 年化
 439 | 年化
 440 | 学生物
 441 | 一学期
 442 | 组工作
 443 | 物教研
 444 | 生物教
 445 | 学生物
 446 | 学生物
 447 | 教研组
 448 | 生物教
 449 | 计划
 450 | 作计划
 451 | 计划
 452 | 计划
 453 | 作计划
 454 | 20XX—019学年度第二学期高中英语教研组工作计划
 455 | XX—XX学
 456 | 一
 457 | 本
 458 | 二
 459 | 组
 460 | ．指导
 461 | 学期，
 462 | ．主要
 463 | ．加强理
 464 | 织本组
 465 | ．加强课
 466 | 强化落实
 467 | ．加强课
 468 | 组
 469 | 制
 470 | 三
 471 | 二
 472 | 三
 473 | 织教师
 474 | 订好本
 475 | ．具体
 476 | 月份：
 477 | 月份：
 478 | 、高一英
 479 | 、组织好
 480 | 四月份：
 481 | 、高三英
 482 | 五月份：
 483 | 、协助开
 484 | 六月份：
 485 | 、收集课
 486 | 年度第
 487 | 思想：
 488 | 我组将
 489 | 工作及
 490 | 论学习
 491 | 教师学
 492 | 堂教学
 493 | 教学常
 494 | 题研究
 495 | 有效开
 496 | 组本学
 497 | 安排：
 498 | 制订好
 499 | 、组织
 500 | 语教学
 501 | 高三第
 502 | 、组织
 503 | 语复习
 504 | 、组织
 505 | 展好我
 506 | 、组织
 507 | 题活动
 508 | 二学期高中英语教研组工作计划
 509 | 进一步
 510 | 活动：
 511 | ，推进
 512 | 习《普
 513 | 常规，
 514 | 规和“
 515 | ，提升
 516 | 展本组
 517 | 期的校
 518 | 确立以
 519 | 新课程
 520 | 通高中
 521 | 提高课
 522 | 礼嘉中
 523 | 教科研
 524 | 的和全
 525 | 公开课
 526 | 人为本
 527 | 改革。
 528 | 英语课
 529 | 堂教学
 530 | 学课堂
 531 | 研究水
 532 | 校的课
 533 | 、示范
 534 | 的教育教学理论，把课程改革作为教学研究的中心工作，深入学习和研究新课程标准，积极、稳妥地实施和推进中学英语课程改革。以新课程理念指导教研工作，加强课程改革，紧紧地围绕新课程实施过程出现的问题，寻求解决问题的方法和途径。加强课题研究，积极支持和开展校本研究，提高教研质量，提升教师的研究水平和研究能力。加强教学常规建设和师资队伍建设，进一步提升我校英语教师的英语教研、教学水平和教学质量，为我校争创“三星”级高中而发挥我组的力量。
 535 | 程标准
 536 | 效率。
 537 | 教学十
 538 | 平；加
 539 | 题研究
 540 | 课、汇
 541 | 》及课标解度，积极实践高中英语牛津教材，组织全组教师进一步学习、熟悉新教材的体系和特点，探索新教材的教学模式，组织好新教材的研究课活动，为全组教师提供交流、学习的平台和机会。
 542 | 项要求
 543 | 强师资
 544 | 工作做
 545 | 报课计
 546 | ”。做
 547 | 队伍建
 548 | 到有计
 549 | 划，并
 550 | 好集体
 551 | 设，提
 552 | 划、有
 553 | 组织好
 554 | 备课和
 555 | 升教师
 556 | 研究、
 557 | 听课、
 558 | 二备以
 559 | 的教学
 560 | 有活动
 561 | 评课等
 562 | 及反思
 563 | 能力。
 564 | 、有总
 565 | 工作。
 566 | 工作。在认真钻研教材的基础上，抓好上课、课后作业、辅导、评价等环节，从而有效地提高课堂教学效率。加强教学方法、手段和策略的研究，引导教师改进教学方法的同时，引导学生改进学习方法和学习策略。
 567 | 结，并在此基础上撰写教育教学论文，并向报刊杂志和年会投稿。
 568 | 教研组
 569 | 理论学
 570 | 研讨活
 571 | 一次模
 572 | 好高三
 573 | 研讨会
 574 | 好高三
 575 | 校的区
 576 | 好高考
 577 | 材料。
 578 | 工作计
 579 | 习。
 580 | 动。
 581 | 考、阅
 582 | 英语口
 583 | 。
 584 | 第二次
 585 | 级公开
 586 | 的复习
 587 | 划、课题组工作计划和本学期公开课名单。
 588 | 卷、评
 589 | 语测试
 590 | 卷和总
 591 | 。
 592 | 结等工作。
 593 | 模考、
 594 | 课。
 595 | 迎考工
 596 | 阅卷、评卷和总结等工作。
 597 | 作。
 598 | 2019学年春季学期小学语文组教研计划
 599 | 一
 600 | 坚
 601 | 本学期教研组重点加强对教师评课的指导，使教师的评课
 602 | 持以《基础教
 603 | ，系统
 604 | 育课程
 605 | 化，定
 606 | 改革纲
 607 | 期举行
 608 | 要》为
 609 | 主题教
 610 | 指导，
 611 | 学沙龙
 612 | 认真学
 613 | 和“会
 614 | 习贯彻
 615 | 诊式行
 616 | 课程改
 617 | 动研究
 618 | 革精神
 619 | ”，促
 620 | ，以贯
 621 | 进新教
 622 | 彻实施
 623 | 师的成
 624 | 基础教
 625 | 长，加
 626 | 育课程
 627 | 快我镇
 628 | 、指导思想
 629 | 以研究
 630 | 队伍成
 631 | 目标
 632 | 激发学
 633 | 用，重
 634 | 能够结
 635 | 学心得
 636 | 生学习
 637 | 找得失
 638 | 施
 639 | 领头羊
 640 | 学有效
 641 | 提高教
 642 | 争取出
 643 | 师的关
 644 | 作计划
 645 | 性研讨
 646 | 师的业
 647 | 成绩。
 648 | 盘、视
 649 | 范文1 
 650 | 频或者教学实录等途径，根据个人教学需要，有选择性地进行局部模仿，从而使新教师形成个人的教学风格。
 651 | ”。
 652 | 活动。
 653 | 务素质
 654 | 低段（
 655 | 。
 656 | 1-2年级）则继续进行识字教学的有效性的探讨。分层、有序地开展教研活动，使教研活动更成熟、有效，切实提高我校语文老师的专业水平。
 657 | 生主动
 658 | 视团队
 659 | 探究意
 660 | 合作智
 661 | 识，培
 662 | 慧、力
 663 | 教研活
 664 | 课不再
 665 | 兴趣，
 666 | 完成各
 667 | 养学生
 668 | 量。开
 669 | 创新精
 670 | 展“师
 671 | 典型课
 672 | ，形式
 673 | 活动中
 674 | 指标。
 675 | 神和实
 676 | 徒结对
 677 | 互动研
 678 | 而是真
 679 | 生的综
 680 | 践能力
 681 | ”活动
 682 | ，努力
 683 | ，以老
 684 | 提高学
 685 | 带新，
 686 | 展教例
 687 | 为提高
 688 | 能力，
 689 | 生语文
 690 | 不断提
 691 | 动。
 692 | 率服务
 693 | 性和谐
 694 | ，提高
 695 | 发展。
 696 | 教师的素质服务。
 697 | 素养。
 698 | 高教师的业务素质。
 699 | 课堂教
 700 | 长速度
 701 | 学为重
 702 | 和小学
 703 | 点，以
 704 | 语文教
 705 | 促进教
 706 | 育质量
 707 | 师队伍
 708 | 的全面
 709 | 建设为
 710 | 提高。
 711 | 根本，
 712 | 结合区
 713 | 以提高
 714 | 里的活
 715 | 教学质
 716 | 动安排
 717 | 量为目
 718 | ，开展
 719 | 标，全
 720 | 各项有
 721 | 面实施
 722 | 意义的
 723 | 素质教
 724 | 学生活
 725 | 育。
 726 | 动，培养提高学生的语文素养，调动启发学生的内在学习动机。
 727 | 改革为
 728 | 小学语
 729 | 二
 730 | 核心，
 731 | 文教师规范化
 732 | 、工作
 733 | 研究，
 734 | 示范作
 735 | 、
 736 | 、进一步加强语
 737 | 以课改
 738 | 文教师
 739 | 、组织教
 740 | 以段为
 741 | 学期制
 742 | 为中心
 743 | 队伍建
 744 | ，组织
 745 | 设，让
 746 | 教师学
 747 | “语文
 748 | 切实有
 749 | 织一次
 750 | 效的说
 751 | 集体备
 752 | 活动计
 753 | 习语文
 754 | 研究小
 755 | 课程标
 756 | 组”，
 757 | 课沙龙
 758 | 课，分
 759 | 准，转
 760 | 充分发
 761 | 沙龙，
 762 | ，赏析
 763 | 多样的
 764 | 加强
 765 | 变教学
 766 | 挥学科
 767 | 观念，
 768 | 带头人
 769 | 深入课
 770 | 、骨干
 771 | 师说课
 772 | 文，进
 773 | 能力，
 774 | 行文本
 775 | 、过关
 776 | 堂教学
 777 | 教师的
 778 | 师开展
 779 | 单位组
 780 | 定的语
 781 | 、评课
 782 | 析教材
 783 | 展形式
 784 | 、
 785 | 提高教
 786 | 重点课
 787 | 学习竞
 788 | 和评课
 789 | 细读，
 790 | 活动，
 791 | 工作，及时分
 792 | 能力，
 793 | 交流教
 794 | 激发学
 795 | 合主题
 796 | 。让备
 797 | 语文的
 798 | 动，对
 799 | 是走场
 800 | 在自主
 801 | 项教学
 802 | 例进行
 803 | 主义，
 804 | 提高学
 805 | 讨，开
 806 | 真实实
 807 | 合实践
 808 | 赏析活
 809 | 课堂效
 810 | 促进个
 811 | 、加强教研组集体备课
 812 | 、
 813 | ，每周
 814 | 根据上文常规划，开赛活动
 815 | 、检测学习质量调查析，寻
 816 | 具体措
 817 | ，确保
 818 | 三
 819 | （
 820 | 、本学期，语文研究小组成员继续充分发挥学科带头人、骨干教师的示范作用，重视团队合作智慧、力量。教研组将围绕“探索实效性语文课堂教
 821 | 、
 822 | 学模式
 823 | 开展“
 824 | ”这个
 825 | 师徒结
 826 | 一）骨干教师
 827 | 、主要
 828 | 示范、
 829 | 深入开
 830 | 动，以
 831 | 轻教师
 832 | 内容可
 833 | 史第二
 834 | 工作及
 835 | 把关，当好“
 836 | 主题，
 837 | 对”活
 838 | 展精读
 839 | 老带新
 840 | 取经、
 841 | 以通过
 842 | 学期
 843 | 课文教
 844 | ，不断
 845 | 学习，
 846 | 观看名
 847 | 教学工
 848 | （二）年
 849 | 、为了提高教学质量，促成新教师迅速成长，—年教龄新教师每一学期上堂模仿课和一堂校内研讨课。上模
 850 | 2019年
 851 | 仿课的
 852 | 高二历
 853 | 一
 854 | 高
 855 | 高
 856 | 按
 857 | 二
 858 | 、指导
 859 | 二的历
 860 | 考的文
 861 | 照《教
 862 | 、教学
 863 | 思想
 864 | 史教学
 865 | 科综合
 866 | 学大纲
 867 | 依据和
 868 | 任务是
 869 | 能力测
 870 | 》和《
 871 | 教材使
 872 | 要使学
 873 | 试更加
 874 | 考试说
 875 | 用
 876 | 生在历
 877 | 强调考
 878 | 明》的
 879 | 史知识
 880 | 生对文
 881 | 要求，
 882 | 、历史
 883 | 科各学
 884 | 认真完
 885 | 学科能
 886 | 科整体
 887 | 成高二
 888 | 力和思
 889 | 知识的
 890 | 阶段的
 891 | 想品德
 892 | 把握、
 893 | 单科复
 894 | 、情感
 895 | 综合分
 896 | 习工作
 897 | 、态度
 898 | 析问题
 899 | 。坚持
 900 | 、价值
 901 | 的思维
 902 | 学科教
 903 | 观各方
 904 | 能力、
 905 | 学为主
 906 | 面得到
 907 | 为解决
 908 | ，落实
 909 | 全面培
 910 | 问题而
 911 | 基础知
 912 | 养锻炼
 913 | 迁移知
 914 | 识要到
 915 | 和发展
 916 | 识运用
 917 | 位，适
 918 | ，为高
 919 | 知识的
 920 | 当兼顾
 921 | 三年级
 922 | 能力。
 923 | 史地政
 924 | 的文科
 925 | 教师在
 926 | 三个学
 927 | 历史教
 928 | 教学中
 929 | 科的综
 930 | 学打下
 931 | 要体现
 932 | 合要求
 933 | 良好的
 934 | 多学科
 935 | ，培养
 936 | 基础，
 937 | 、多层
 938 | 提高学
 939 | 为高校
 940 | 次、多
 941 | 生学科
 942 | 输送有
 943 | 角度分
 944 | 内综合
 945 | 学习潜
 946 | 析解决
 947 | 的能力
 948 | 能和发
 949 | 问题的
 950 | 。从学
 951 | 展前途
 952 | 通识教
 953 | 生的实
 954 | 的合格
 955 | 育理念
 956 | 际出发
 957 | 高中毕
 958 | 。教师
 959 | ，落实
 960 | 业生打
 961 | 要认真
 962 | 基础，
 963 | 下良好
 964 | 学习和
 965 | 提高学
 966 | 基础。
 967 | 研究教
 968 | 科思维
 969 | 材转变教学观
 970 | 辩证唯
 971 | 念，紧
 972 | 物主义
 973 | 跟高考
 974 | 、历史唯物
 975 | 形势的发展
 976 | 主义的理
 977 | ，研究
 978 | 论水平
 979 | 考试的
 980 | 。
 981 | 变化，力争使高二的教学向高三教学的要求靠拢。
 982 | 能力和
 983 | 全班共40人，其中男生15人，女生人。学生的数学基础较一般，多数学生能掌握所学内容，少部分学生由于反映要慢一些，学习方法死板，没有人进行辅导，加之缺乏学习的主动性，不能掌握学习的内容。能跟上课的学生，课上活泼，发言积极，上课专心听讲，完成
 984 | 二
 985 | 作业认真
 986 | 、教材
 987 | ，学习
 988 | 分析
 989 | （
 990 | 容的基
 991 | 目标
 992 | 能：
 993 | 会根据
 994 | 法与减
 995 | 比较积极主动，课后也很自觉，当然与家长的监督分不开。部分学生解答问题的能力较强，不管遇到什么题，只要读了两次，就能找到方法，有的方法还相当的简捷。有的学生只能接受老师教给的方法，稍有一点变动的问题就处理不了。个别学生是老师怎么教也不会。
 996 | 本
 997 | 本册的重点：混合运算和应用题是本册的一个重点，这一册进一步学习三步式题的混合运算顺序，学习使用小括号，继续学习解答两步应用题的学习，进一步学习解答比较容易的三步应用题，使学生进一步理解和掌握复杂的数量关系，提高学生运用所学知识解决得意的实际问题的能力，并继续培养学生检验应用题的
 998 | 册的教
 999 | 解答的
1000 | 学内容：
1001 | 技巧和
1002 | （
1003 | 习惯。
1004 | ）混合运
1005 | 第二单
1006 | 算和应
1007 | 元整数
1008 | 用题；
1009 | 和整数
1010 | （）整
1011 | 的四则
1012 | 数和整
1013 | 运算，
1014 | 数四则
1015 | 是在前
1016 | 运算；
1017 | 三年半
1018 | （）量
1019 | 所学的
1020 | 三
1021 | 的计量；
1022 | 有关内
1023 | 、教学
1024 | ）小数的
1025 | 础上，
1026 | 意义和
1027 | 进行复
1028 | 性质；
1029 | 习、概
1030 | （）小
1031 | 括，整
1032 | 数的加
1033 | 理和提
1034 | 法和减
1035 | 高。先
1036 | 法；（
1037 | 把整数
1038 | ）平行
1039 | 的认数
1040 | 四边形
1041 | 范围扩
1042 | 和梯形
1043 | 展到千亿位，总结十进制计数法，然后对整数四则运算的意义，运算定律加以概括总结，这样就为学习小数，分数打下较好的基础。第四单元量的计量是在前面已学的基础上把所学的计量单位加于系统整理，一方面使学生所学的知识更加巩固，一方面使学生为学习把单名数或复名数改写成用小数表示的单名数做好准备。
1044 | （
1045 | 、使学生认识自
1046 | 、使学生
1047 | 然数和
1048 | 理解整
1049 | 整数，
1050 | 数四则
1051 | 掌握十
1052 | 运算的
1053 | 一）知识与技
1054 | 进制计
1055 | 意义，
1056 | 数法，
1057 | 掌握加
1058 | 数级正
1059 | 法、乘
1060 | 确地读
1061 | 法与除
1062 | 、写含
1063 | 法之间
1064 | 有三级
1065 | 的关系
1066 | 的多位
1067 | 。
1068 | 数。
1069 | ③
1070 | （
1071 | ①
1072 | ②
1073 | 运
1074 | 运
1075 | 身
1076 | 心
1077 | 社
1078 | （
1079 | 采
1080 | 二
1081 | （
1082 | （
1083 | （
1084 | （
1085 | 高
1086 | 高
1087 | 高
1088 | 关
1089 | 20X
1090 | 20X
1091 | 高
1092 | 20X
1093 | 高
1094 | 高
1095 | 提出教
1096 | ）教学
1097 | 总体目
1098 | 具体目
1099 | 动参与
1100 | 动技能
1101 | 体健康
1102 | 理健康
1103 | 会适应
1104 | ）教学
1105 | 用教师
1106 | 、教学
1107 | ）课题
1108 | ）校本
1109 | ）论文
1110 | ）校际
1111 | 二下学
1112 | 二下学
1113 | 二下学
1114 | 于高二
1115 | 学年
1116 | 高二
1117 | 二下学
1118 | 年高
1119 | 二下学
1120 | 二下学
1121 | 学任务
1122 | 目标：
1123 | 标：建
1124 | 标：
1125 | ：
1126 | ：
1127 | ：
1128 | ：
1129 | ：
1130 | 养成
1131 | 认识
1132 | 能通
1133 | 自觉
1134 | 在学
1135 | 措施：
1136 | 示范与
1137 | 研究的
1138 | 研究：
1139 | 教研：
1140 | 撰写：
1141 | 、教研
1142 | 期语文
1143 | 期化学
1144 | 期语文
1145 | 下学期
1146 | 高二下
1147 | 下学期
1148 | 期工作
1149 | 二下学
1150 | 期物理
1151 | 期语文
1152 | ：在全
1153 | 立“健
1154 | 面发展
1155 | 康第一
1156 | 体能的
1157 | ”的理
1158 | 基础上
1159 | 念，培
1160 | ，进一
1161 | 养学生
1162 | 步发展
1163 | 的健康
1164 | 灵敏、
1165 | 意识和
1166 | 力量，
1167 | 体魄，
1168 | 速度和
1169 | 在必修
1170 | 有氧耐
1171 | 田径教
1172 | 力，武
1173 | 学的基
1174 | 德的培
1175 | 础上进
1176 | 养；引
1177 | 一步激
1178 | 导学生
1179 | 发学生
1180 | 学会合
1181 | 学习“
1182 | 理掌握
1183 | 初级长
1184 | 练习与
1185 | 拳”、
1186 | 讨论的
1187 | “剑”
1188 | 时间，
1189 | 的兴趣
1190 | 了解实
1191 | ，培养
1192 | 现目标
1193 | 学生的
1194 | 时可能
1195 | 终身体
1196 | 遇到的
1197 | 育意识
1198 | 困难。
1199 | ，以学
1200 | 在不断
1201 | 生身心
1202 | 体验进
1203 | 健康发
1204 | 步和成
1205 | 展为中
1206 | 功的过
1207 | 心，重
1208 | 程中，
1209 | 视学生
1210 | 表现出
1211 | 主体地
1212 | 适宜的
1213 | 位的同
1214 | 自信心
1215 | 时关注
1216 | ，形成
1217 | 学生的
1218 | 勇于克
1219 | 个体差
1220 | 服困难
1221 | 异与不
1222 | 积极向
1223 | 同需求
1224 | 上，乐
1225 | ，确保
1226 | 观开
1227 | 每一
1228 | 朗的优良
1229 | 个学生都
1230 | 品质；
1231 | 受益，
1232 | 认识现
1233 | 以及多
1234 | 代社会
1235 | 样性和
1236 | 所必需
1237 | 选择性
1238 | 的合作
1239 | 的教学
1240 | 和竞争
1241 | 理念，
1242 | 意识，
1243 | 结合学
1244 | 在武术
1245 | 校的实
1246 | 学习过
1247 | 际情况
1248 | 程中学
1249 | ，设计
1250 | 会尊重
1251 | 本教学
1252 | 和关心
1253 | 工作计
1254 | 他人，
1255 | 划，以
1256 | 将自身
1257 | 满足学
1258 | 健康与
1259 | 生选项
1260 | 社会需
1261 | 学生的
1262 | 要相，
1263 | 需求，
1264 | 表现出
1265 | 加深学
1266 | 良好的
1267 | 生的运
1268 | 体育道
1269 | 动体验
1270 | 德品质
1271 | 和理解
1272 | ，结合
1273 | ，保证
1274 | 本身项
1275 | 学生在
1276 | 目去了
1277 | 高一年
1278 | 解一些
1279 | 田径必
1280 | 武术名
1281 | 修基础
1282 | 人并能
1283 | 上再加
1284 | 对他们
1285 | 上“长
1286 | 进行简
1287 | 拳”来
1288 | 单的评
1289 | 引导男
1290 | 价；加
1291 | 女生学
1292 | 强研究
1293 | 习体育
1294 | 性的学
1295 | 模块的
1296 | 习，去
1297 | 积极性
1298 | 讨论与
1299 | ，再结
1300 | 研究技
1301 | 合高二
1302 | 能的实
1303 | 年的
1304 | 用性，
1305 | “剑”
1306 | 加强同
1307 | 选项课
1308 | 学之间的讨
1309 | 的学习中修满
1310 | 论交流
1311 | 学分
1312 | 的环节
1313 | 。加强
1314 | 。
1315 | 学习“长拳”以及“剑”的基本套路，提升学习的的兴趣，提升学生本身的素质，特别是武德的培养。
1316 | 良好的
1317 | 武术运
1318 | 过多种
1319 | 通过体
1320 | 习活动
1321 | 练武的
1322 | 动项目
1323 | 途径发
1324 | 育活动
1325 | 中表现
1326 | 锻炼习
1327 | 的价值
1328 | 展肌肉
1329 | 改变心
1330 | 出良好
1331 | 惯。
1332 | ，并关
1333 | 力量和
1334 | 理状态
1335 | 的体育
1336 | 根据科
1337 | 注国内
1338 | 耐力。
1339 | ，并努
1340 | 道德与
1341 | 学锻炼
1342 | 外重大
1343 | 了解
1344 | 力获得
1345 | 合作创
1346 | 的原则
1347 | 体赛事
1348 | 一些疾
1349 | 成功感
1350 | 新精神
1351 | ，制定
1352 | 。
1353 | 病等有
1354 | 。
1355 | 。
1356 | 并实施
1357 | 有目的的
1358 | 关知识
1359 | 在武术练
1360 | 具有通过
1361 | 个人锻
1362 | 提高技
1363 | ，并理
1364 | 习活动
1365 | 各种途
1366 | 炼计划
1367 | 术战术
1368 | 解身体
1369 | 中表现
1370 | 径获取
1371 | 。学会评价
1372 | 并进一
1373 | 学习、
1374 | 情绪的
1375 | 健康方
1376 | 体育锻
1377 | 步加强
1378 | 生活中
1379 | 意愿与
1380 | 面知识
1381 | 炼效果
1382 | 技、战
1383 | 和重要
1384 | 行为。
1385 | 和方法
1386 | 的主要
1387 | 术的运
1388 | 意义。
1389 | 在具
1390 | 的能力
1391 | 方法。
1392 | 用能力
1393 | 形成
1394 | 有实用
1395 | 。
1396 | 。学习并掌
1397 | 生活方
1398 | 习中体
1399 | 握社会
1400 | 式与健
1401 | 验到战
1402 | 条件下
1403 | 康行为
1404 | 胜困难
1405 | 活动的
1406 | 。
1407 | 带来喜悦。
1408 | 技能与方法，并掌握运动创伤时和紧急情况下的简易处理方法。水平，
1409 | 健康在
1410 | 出调节
1411 | 体育与
1412 | 良好的
1413 | 技能练
1414 | 讲解，
1415 | 计划
1416 | 加强校
1417 | 加强校
1418 | 结合课
1419 | 组、备
1420 | 备课组
1421 | 教学计
1422 | 教学工
1423 | 班主任
1424 | 学期班
1425 | 班主任
1426 | 计划范
1427 | 期地理
1428 | 教学计
1429 | 教学计
1430 | 学生讨论，练习，教师评价，再进行个别指导，后进行学生练习，最后进行展示与学生的综合评价相结合的方式方法，培养学生的良好的学习习惯、学习方法更好地完成教学任务，达到教学目标；实行培优扶中辅差，，采用学习小组的建立，加强学习小组的相互学习、相互讨论、相互研究的功能，提升学习的效率；加强多边学科的整合，特别是加强心理健康的教育，加强运动力学、运动医学等进行学习，以提升学生的运动自我保护意识与能力。
1431 | 本课程
1432 | 本课程
1433 | 题研究
1434 | 课组教
1435 | 工作计
1436 | 划
1437 | 作计划
1438 | 工作计
1439 | 主任工
1440 | 工作计
1441 | 文
1442 | 教学计
1443 | 划
1444 | 划
1445 | “剑”
1446 | 的开发
1447 | 的内容
1448 | 研活动
1449 | 划
1450 | 、“平
1451 | ，加强
1452 | 进行撰
1453 | ：做为
1454 | 山初级
1455 | 体育备
1456 | 写。
1457 | 晋江市
1458 | 长拳”
1459 | 课组的
1460 | 的开发
1461 | 教研能
1462 | 与教学
1463 | 力，做
1464 | ；做好
1465 | 为备课
1466 | “趣味
1467 | 组长的
1468 | 奥运会
1469 | 我与其
1470 | 进入校
1471 | 他老师
1472 | 园”课
1473 | 加强讨
1474 | 题的开
1475 | 论校本
1476 | 题准备
1477 | 的研究
1478 | 。做为
1479 | 与开发
1480 | “青春
1481 | ，本次
1482 | 期健康
1483 | 校本开
1484 | 教育进
1485 | 发重点
1486 | 入校园
1487 | 放在“
1488 | ”课题
1489 | 剑”、
1490 | 组的成
1491 | “初级
1492 | 员，协
1493 | 长拳”
1494 | 助课题
1495 | 、“花
1496 | 组进行
1497 | 样篮球
1498 | 研究，
1499 | ”三个
1500 | 开展活
1501 | 项目上
1502 | 动。
1503 | ，有所侧重。
1504 | 兼职中学体育教研员及校际组成员，积极参加校际组开展的各项活动，加强提升在校际组的教研水平，做好兼职教研员的本职工作，协助教研员开展教研活动；积极参加教研组的各项活动，提升教研水平；做为备课组长的我，我计划是积极组织本组老师一起提高高中的课改力度与水平，集中老师的备课时间与讨论在备课过程中出现的一系列问题，针对选项会出现的问题进行沟通，加强学习过程的评价，协调选项内容的评价标准及认证过程。
1505 | 划范文
1506 | 作计划
1507 | 划
1508 | 范文
1509 | 划
1510 | 生积极性，要求
1511 | 4. 做好后
1512 | 5.培养学
1513 | 作业在
1514 | 进生的
1515 | 生的分
1516 | 生的抽
1517 | 生的迁
1518 | 生思维
1519 | 安排
1520 | 学期数
1521 | 运算和
1522 | 课堂上
1523 | 辅导工
1524 | 析、比
1525 | 象、概
1526 | 移类推
1527 | 的灵活
1528 | 完成，
1529 | 作，实
1530 | 较和综
1531 | 括能力
1532 | 能力。
1533 | 性。
1534 | 并及时
1535 | 施“课
1536 | 合能力
1537 | 。
1538 | 。
1539 | 反馈。
1540 | 内补课”的方法，组织互帮互学。
1541 | 6. 培养学
1542 | 7. 培养学
1543 | 8. 培养学
1544 | 五
1545 | 四
1546 | 一
1547 | 、课时
1548 | 年级下
1549 | 、混合
1550 | 、混合运
1551 | 、两、三
1552 | 、整理和
1553 | 二、整数
1554 | 、十进制
1555 | 、加法的
1556 | 、减法的
1557 | 、乘法的
1558 | 、除法的
1559 | 、整理和
1560 | 三、量的
1561 | 、常用的
1562 | 、名数的
1563 | 四、小数
1564 | 、小数的
1565 | 、小数的
1566 | 、小数点
1567 | 、小数和
1568 | 、求一个
1569 | 、整理和
1570 | 五
1571 | 小
1572 | 六
1573 | 、小数
1574 | 管家
1575 | 、三角
1576 | 、角的度
1577 | 、垂直和
1578 | 、三角形
1579 | 、平行四
1580 | 、整理和
1581 | 七、总复
1582 | 月
1583 | 学教学
1584 | 应用题
1585 | 安排了
1586 | （
1587 | 题
1588 | 11课时）
1589 | 课时
1590 | 课时的教学内容。各部分教学内容教学课时大致安排
1591 | 算课时
1592 | 步计算的应用
1593 | 复习
1594 | 和整数
1595 | 计数法
1596 | 意义和
1597 | 意义和
1598 | 意义和
1599 | 意义
1600 | 复习
1601 | 计量（
1602 | 计量单
1603 | 改写
1604 | 的意义
1605 | 意义和
1606 | 性质和
1607 | 位置移
1608 | 复名数
1609 | 小数的
1610 | 复习
1611 | 的加法
1612 | 课时
1613 | 形、平
1614 | 量
1615 | 平行
1616 | 课时
1617 | 边形和
1618 | 复习
1619 | 习（
1620 | 26日
1621 | 课
1622 | 梯形
1623 | 课时
1624 | 时）
1625 | 位
1626 | 课时
1627 | 和性质
1628 | 读写法
1629 | 小数的
1630 | 动引起
1631 | 课时
1632 | 近似数
1633 | 课时
1634 | 和减法
1635 | 行四边
1636 | 课时
1637 | 课时
1638 | （
1639 | （
1640 | 课时
1641 | 四则运
1642 | 课时
1643 | 运算定
1644 | 运算定
1645 | 运算定
1646 | 课时
1647 | 课时
1648 | 课时）
1649 | 课
1650 | 算（18课时）
1651 | 律
1652 | 律
1653 | 律
1654 | 课时
1655 | 课时
1656 | 课时
1657 | 时
1658 | 17课
1659 | 课时
1660 | 大小比
1661 | 小数大
1662 | 时）
1663 | 较
1664 | 小的变
1665 | 课时
1666 | 化课时
1667 |  2课时
1668 | 课时）
1669 | 形（10课时）形和梯
1670 | 课时
1671 | XX年
1672 | 向纵深发展。
1673 | 、做好论
1674 | 活
1675 | 二
1676 | 三
1677 | 四
1678 | 五
1679 | 动安排
1680 | 月份：
1681 | 月份：
1682 | 月份：
1683 | 月份：
1684 | 、组织年
1685 | 、选拔教
1686 | （三）教
1687 | 、继续组
1688 | ：
1689 | 课例展
1690 | 课例展
1691 | 课例展
1692 | 课题研
1693 | 轻教师
1694 | 龄
1695 | 研形式
1696 | 织两周
1697 | —
1698 | 示交流
1699 | 示交流。
1700 | 示交流。
1701 | 究小结
1702 | 开展会
1703 | —
1704 | 稳中有
1705 | 一次的
1706 | 。王钧
1707 | （姚爱
1708 | （姚爱
1709 | 、李汪
1710 | 祥）组
1711 | 祥）组
1712 | 俊、罗
1713 | 织课题
1714 | 织课题
1715 | 建上研
1716 | 学习，
1717 | 学习，
1718 | 究课；
1719 | 程中华
1720 | 刘华波
1721 | 课题成
1722 | 、戴辉
1723 | 、曹辉
1724 | 员进行
1725 | 文、孙
1726 | 、钱芸
1727 | 子课题
1728 | 小娟上
1729 | 上研究
1730 | 研究交
1731 | 研究课
1732 | 课；课
1733 | 流。
1734 | ；课题
1735 | 题成员
1736 | 成员进
1737 | 进行子
1738 | 行子课
1739 | 课题研
1740 | 题研究
1741 | 究交流
1742 | 交流。
1743 | 。
1744 | 文的撰写、参评工作。
1745 | 诊式课
1746 | 年新教师
1747 | 变，踏
1748 | 专题学
1749 | 堂教学
1750 | 参加区
1751 | 实而生
1752 | 习沙龙
1753 | 诊断活
1754 | 教研室
1755 | 动。
1756 | 和互动
1757 | 动、同
1758 | 组织的
1759 | 课异构
1760 | 区新生
1761 | 活动、
1762 | 代课堂
1763 | 同构异
1764 | 教学比
1765 | 教活动
1766 | 赛，并
1767 | ，有效
1768 | 做好指
1769 | ，切实
1770 | 导、培
1771 | 提高我
1772 | 训工作
1773 | 校年轻
1774 | 。
1775 | 语文老师的专业水平，获得快速成长。
1776 | 式评课沙龙，结合教研活动的主题组织好教师学习、交流。听展示课的教师对听课内容进行精心、系统的评点，写成评课稿，在两周一次的互动式教学研讨沙龙中进行交流、探讨。与往年不同的是，在保证互动评课活动开展同时，不影响正常教学，本学期安排次集体评课活动，其他评课通过qq群来交流、研讨。
1777 | 泪水作文8篇
1778 | 泪水作文：
1779 | 快乐的眼泪
1780 | 每一个人都流过泪，有时是喜悦，有时是悲伤的泪，有时是悔恨的泪，在
1781 | 我的记忆中，我就流过一次喜悦的泪。
1782 | 我从小，字就写的不错，可不是我自夸，同学们都羡慕我，我可不是天生
1783 | 就写的好的，大家都明白每个人的优点和缺点都是自我养成的，我常常被练写字
1784 | 累的腰酸背痛，我想休息一会儿，但是手不听使唤，有时为了写好一幅好字，常
1785 | 常放下许多休息的时间。“功夫不负有心人。”我的字最后获奖了，当语文老师
1786 | 告诉我这个好消息时，我的眼眶一下子湿润了，之后泪水像断了线的珠子不停的
1787 | 滚落下来，怎样忍也忍不住，透过眼前薄薄的雾，我仿佛看见了我拿着笔，刻苦
1788 | 努力的写着每一个字的场景，看到了我放下课余时间，认真写字的画面，看到了
1789 | 我为写好每一幅而废寝忘食的情景。我突然明白了一个深刻的道理：滴水能把石
1790 | 穿透，万事功到自然成。是啊，只要刻苦努力，付出艰苦的劳动，再难的题，再
1791 | 困难的事做起来也会易如反掌。
1792 | 透过这次的眼泪，我不但明白了“做什么事都要刻苦努力，
1793 | 这个道理，而且更加在心中坚定了自我的信心，
1794 | 才能取得成功”
1795 | 在以后的学习中不能骄傲，刻苦
1796 | 努力，付出比别人多的努力，洒下比别人多的汗水，只有这样，在成功的道理上
1797 | 才会比别人走得远，我觉得，这天的眼泪是有好处的，眼泪没有白流。
1798 | 泪水作文
1799 | 泪水
1800 | 泪水，是什么？她是感情的流露，是真情的付出。在泪流满面的时候，那
1801 | 一颗颗晶莹的泪珠，诉说着，一段段动人的故事；浇灌着，每一个读者的心田……
1802 | 慢慢的回首，搜索着我记忆宝库，一段往事来到了我的脑海：
1803 | 那，姥姥的病床前，望着床上的姥姥，我哭了，并不清楚自我能够流出那
1804 | 么多，那么多的泪水……
1805 | 姥姥安静地躺在床上，昏迷中的她被手术这么的筋疲力尽，那一双充满慈
1806 | 爱目光的眼睛，一向紧闭……
1807 | 我哭了，泪水，一滴一滴轻轻抚摸着姥姥的手。这，是最悲痛的眼泪么？
1808 | 那一滴滴泪水，似乎带着我的思念，透过那一双温暖的手，一点一点注入了姥姥
1809 | 的身心……
1810 | 我默默的离开了，不想让在场的人发现我内心的波涛，或者说，不想让无
1811 | 助的眼泪在医院消逝……
1812 | 过了一个星期，我又来到了医院，推开了医院房门，姥姥那慈爱的目光定
1813 | 格在了我的身上，我那一颗颗金豆豆，又掉落了下来。但，那似乎是惊喜的眼泪。
1814 | 身形、记忆在那一望中珍惜、珍藏……
1815 | 我坐在姥姥的床前，，抚摸着姥姥的双手，努力使情绪平静下来。让那双无
1816 | 休止的手停止运动。正当我的双手触摸到那一个“机器”时，它竟停止了运动。
1817 | 那时的眼眶一湿，泪水又夺眶而出了……
1818 | 那一天，暑假归来的我来到了姥姥家的院中，发现姥姥正在院子里看小麻
1819 | 雀吃小米。惊奇的叫了一声“姥姥竟回应了一声，
1820 | 悦的泪水，姥姥的眼眶似乎也湿润了几分……我，
1821 | 都归功于那晶莹的眼泪……
1822 | 泪水，是什么？是悲伤的表达，是喜悦的庆祝。在泪水中，我们一次次被
1823 | 感情所磨合，被爱所洗礼……
1824 | 泪水作文：
1825 | 泪水
1826 | 每个人都有寂寞、痛苦、失落的一面，而，却用笑脸来掩盖它们，藏在心
1827 | 里最深，最柔软的地方，任凭它们刺痛着心脏，刺痛心里最深处的他，却不情愿
1828 | 从那里走出来。而是用泪去掩埋这一切。最软弱的是泪，最坚强的还是泪。泪，
1829 | 我任由它刺痛任何一处。
1830 | 夜太深，心跳呢？已经遗失了，不在了。泪水的流逝莫过心跳的存在。我
1831 | 该如存在？心跳已遗失，泪水已流逝，我该如何存在？一心想留住眼泪，却遗忘
1832 | 了心跳。一心在意最深处的他，他却早已不再了。夜太深，眼泪呢？已经遗失了，
1833 | 不在了。我明明白凌晨最害怕情歌的存在，而，我却偏偏想去听，去想。夜深了，
1834 | 我听着情歌，脑子里混沌一片，不知怎的，就是思念，还有瞎想。想未来的你我
1835 | 他。
1836 | 不知觉中，泪水泛红眼睛，睫毛溺了水。没了勇气去想，没了勇气去听。
1837 | 时间静止了，身边没人了，
1838 | 如果停止了这一切，跟谁去诉说你我他。勇气你在哪？思念的勇气在哪？
1839 | 我遗失的心跳你在哪？我没了勇气，没了思念，没了心跳，我如何去存在。
1840 | 哭了一次又一次。凌晨的夜总是那么宁静。再给我两分钟，让我把时间结
1841 | 成冰，别融化了眼泪，你妆都被泪水泛花了，都怪这眼泪，你要我怎样记得，你
1842 | 要我怎样记得？也许我会哭，也许是因为在乎，我才会哭。
1843 | 我愿做自我的阳光，在情绪低落，眼珠子里饱含着泪水的时候仰望太阳，
1844 | 是刺眼的。眼泪会落。周围人的喧闹，让自我感到反感，因为想哭，哭，是一种
1845 | 泪水又夺眶而出了。伴着那喜
1846 | 感到了人与人之间的感情，这


--------------------------------------------------------------------------------
/爬取豆瓣图书生成Excel表和词云/axis.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/13060923171/Crawl-Project/320d69b1d9051db6f43836d7d8854fa5af9d56fb/爬取豆瓣图书生成Excel表和词云/axis.png


--------------------------------------------------------------------------------
/爬取豆瓣图书生成Excel表和词云/main.py:
--------------------------------------------------------------------------------
  1 | import time
  2 | from urllib.parse import quote
  3 | from bs4 import BeautifulSoup
  4 | import xlwt
  5 | import requests
  6 | import jieba
  7 | from wordcloud import WordCloud, STOPWORDS
  8 | from imageio import imread
  9 | 
 10 | headers = {
 11 |     "Referer": "https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=20&type=T",
 12 |     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.62 Safari/537.36",
 13 |     "Cookie": "ll='118281'; bid=O7ufDRQf-EM; ap_v=0,6.0; __utma=30149280.824434074.1589705958.1589705958.1589705958.1; __utmc=30149280; __utmz=30149280.1589705958.1.1.utmcsr=google|utmccn=(organic)|utmcmd=organic|utmctr=(not%20provided); __utma=81379588.1042792723.1589705961.1589705961.1589705961.1; __utmc=81379588; __utmz=81379588.1589705961.1.1.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/; gr_user_id=fe84be7b-7be1-48cd-96b7-db1a1bcb1df7; gr_session_id_22c937bbd8ebd703f2d8e9445f7dfd03=8a7d4654-db1a-4780-a80d-426a80bb2eba; gr_cs1_8a7d4654-db1a-4780-a80d-426a80bb2eba=user_id%3A0; _pk_ref.100001.3ac3=%5B%22%22%2C%22%22%2C1589705961%2C%22https%3A%2F%2Fwww.douban.com%2F%22%5D; _pk_ses.100001.3ac3=*; gr_session_id_22c937bbd8ebd703f2d8e9445f7dfd03_8a7d4654-db1a-4780-a80d-426a80bb2eba=true; _pk_id.100001.3ac3=e2ddd2d20afe5226.1589705961.1.1589705990.1589705961.; __utmb=30149280.5.10.1589705958; __utmb=81379588.4.10.1589705961"
 14 | }
 15 | 
 16 | def parse_html(i):
 17 |     url = "https://book.douban.com/tag/{}?start={}&type=T".format(quote(KEYWORD), i)
 18 |     html = requests.get(url,headers= headers)
 19 |     text = html.text
 20 |     try:
 21 |         #这些就是以往的写法了没什么好说的，这里用到的是BeautifulSoup解析器
 22 |         soup = BeautifulSoup(text,"lxml")
 23 |         books = soup.select("li.subject-item")
 24 |         list = []
 25 |         list1 = []
 26 |         list2 = []
 27 |         list3 = []
 28 |         list4 = []
 29 |         for book in books:
 30 |             title = book.select_one(".info h2 a").text.strip().replace(" :","").replace(" ","").replace("\n","")
 31 |             info = book.select_one(".info div.pub").text.strip().replace("\n","")
 32 |             star = book.select_one("span.rating_nums").text
 33 |             pingfeng = book.select_one("span.pl").text.strip().replace("\n","")
 34 |             text = book.select_one(".info p").text
 35 |             print(title,info,star,pingfeng)
 36 |             print(text)
 37 |             print("="*50)
 38 |             write_txt(title)
 39 |             list.append(title)
 40 |             list1.append(info)
 41 |             list2.append(star)
 42 |             list3.append(pingfeng)
 43 |             list4.append(text)
 44 |             write_excel(list,list1,list2,list3,list4)
 45 |     except:
 46 |         pass
 47 | 
 48 | #设置表格样式
 49 | def set_style(name,height,bold=False):
 50 |     style = xlwt.XFStyle()
 51 |     font = xlwt.Font()
 52 |     font.name = name
 53 |     font.bold = bold
 54 |     font.color_index = 4
 55 |     font.height = height
 56 |     style.font = font
 57 |     return style
 58 | 
 59 | #书名保存到txt的函数
 60 | def write_txt(title):
 61 |     with open("test.text","a+",encoding="utf8")as f:
 62 |         f.write(title)
 63 | 
 64 | 
 65 | #写Excel
 66 | def write_excel(list,list1,list2,list3,list4):
 67 |     f = xlwt.Workbook()
 68 |     sheet1 = f.add_sheet('小说',cell_overwrite_ok=True)
 69 |     row0 = ["书名","作家和相关内容","评分","有多少人评价","简介"]
 70 |     #写第一行
 71 |     for i in range(0,len(row0)):
 72 |         sheet1.write(0,i,row0[i],set_style('Times New Roman',220,True))
 73 |     #写第一列
 74 |     for i in range(0,len(list)):
 75 |         sheet1.write(i+1,0,list[i],set_style('Times New Roman',220,True))
 76 |     #写第二列
 77 |     for i in range(0,len(list1)):
 78 |         sheet1.write(i+1,1,list1[i],set_style('Times New Roman',220,True))
 79 |     #写第三列
 80 |     for i in range(0,len(list2)):
 81 |         sheet1.write(i+1,2,list2[i],set_style('Times New Roman',220,True))
 82 |     #写第四列
 83 |     for i in range(0,len(list3)):
 84 |         sheet1.write(i+1,3,list3[i],set_style('Times New Roman',220,True))
 85 |     #写第五列
 86 |     for i in range(0,len(list4)):
 87 |         sheet1.write(i+1,4,list4[i],set_style('Times New Roman',220,True))
 88 |     #保存到Excel表
 89 |     f.save('test.xls')
 90 | 
 91 | #生成词云
 92 | def ciyun():
 93 |     #先读取文件获取相关信息
 94 |     with open("test.text","r",encoding="utf8") as f:
 95 |         contents = f.read()
 96 |     print("contents变量的类型：", type(contents))
 97 | 
 98 |     # 使用jieba分词，获取词的列表
 99 |     contents_cut = jieba.cut(contents)
100 |     print("contents_cut变量的类型：", type(contents_cut))
101 |     contents_list = " ".join(contents_cut)
102 |     print("contents_list变量的类型：", type(contents_list))
103 | 
104 |     # 制作词云图，collocations避免词云图中词的重复，mask定义词云图的形状，图片要有背景色
105 |     wc = WordCloud(stopwords=STOPWORDS.add("一个"), collocations=False,
106 |                    background_color="white",
107 |                    font_path=r"C:\Windows\Fonts\simhei.ttf",
108 |                    width=400, height=300, random_state=42,
109 |                    mask=imread('axis.png', pilmode="RGB"))
110 |     wc.generate(contents_list)
111 |     #要读取的形状的图片
112 |     wc.to_file("ciyun.png")
113 | 
114 | 
115 | 
116 | if __name__ == '__main__':
117 |     KEYWORD = input("请输入你要搜索的类型：")
118 |     #设置爬取的页数
119 |     for i in range(0,100,20):
120 |         parse_html(i)
121 |         #爬取全部内容，等待结束
122 |     ciyun()
123 |     time.sleep(3)
124 | 
125 | 


--------------------------------------------------------------------------------
/用异步去爬取天猫的商品信息/paqutianmao.py:
--------------------------------------------------------------------------------
 1 | #调用第三方库，去请求这个页面，从而获取对应的信息
 2 | import requests
 3 | #BeautifulSoup是用于定位的，一个解析库
 4 | from bs4 import BeautifulSoup
 5 | #转换，把中文转换成计算机看得懂的字符串
 6 | from urllib import parse
 7 | #调用时间库
 8 | import time
 9 | #写入异步爬虫库
10 | import asyncio
11 | #写入异步爬虫库
12 | import aiohttp
13 | #添加一个请求头伪装成一个网页，不让服务器检测出来是一个爬虫
14 | headers = {
15 |     #伪装成浏览器
16 |     "user-agent": "user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36",
17 |     #写入cookie身份验证
18 |     'cookie': 'lid=%E5%8F%B6%E9%97%AE%E8%B0%81%E6%98%AF%E8%BE%B0%E5%8D%97; '
19 |               'enc=UvoaKN2E%2F5qKScgssIA7s34lg2c%2B7mFKY6bD58vrwGvLTZKDyYj7UQ0p3hGnXJK11f8JrZT5ky54YNi0i73Few%3D%3D; '
20 |               'hng=CN%7Czh-CN%7CCNY%7C156; cna=UU81Fxb46woCAWUv7c0BLoMd; sgcookie=ERElHyZEXq%2FBxbIAKkMLf; '
21 |               't=496d0969426724e74173f0da2d1cee9a; tracknick=%5Cu53F6%5Cu95EE%5Cu8C01%5Cu662F%5Cu8FB0%5Cu5357;'
22 |               ' _tb_token_=e1be513fe6183; cookie2=122a786f6e96fdafc60982a260d7da13; _med=dw:1280&dh:720&pw:1920&ph:1080&ist:0; '
23 |               'res=scroll%3A1263*5595-client%3A1263*616-offset%3A1263*5595-screen%3A1280*720; cq=ccp%3D1; pnm_cku822=098%23E1hv5vvUvbpvUpCkvvvvvjiPnLF9gjEHR25vAjnEPmP'
24 |               'W1jiURLSOtj1hPLFyljlWRuwCvvpvvUmmmphvLvpbyvvj4Omxfwowderv%2B8c6gEAfalSXS47BhC3qVUcnDOmOejIUDajxALwpEcqvaNoUrCH%2Bm7zpaNpz%2BFwcoX7aHLQg4vlrlj7Q%2Bu0tvpvIvvvvvhCvvvvvvUUvphvUIpvv99Cvpv'
25 |               '32vvmmvhCvmhWvvUUvphvUpTyCvv9vvUmtH%2B2UhIyCvvOUvvVvJh%2BCvpvVvvpvvhCv2QhvCPMMvvvtvpvhvvvvvv%3D%3D; l=eBS73WTPOgsqiBdBBOfZourza77tLIRvouPzaNbMiOCPOU56HJM5WZkxaOLBCnGVh6z'
26 |               'kR3ow4YKMBeYBqImRv7aStBALu4Hmn; isg=BAYG6NkRpQFaDnF45ewiaNZZV_yIZ0ohS2d9TfAvpSlT86YNWPYEMIOBzy8_7UI5',
27 |     'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
28 |     'accept-encoding': 'gzip, deflate, br',
29 |     'accept-language': 'zh-CN,zh;q=0.9',
30 |     'cache-control': 'max-age=0',
31 |     'referer': 'https://www.tmall.com/',
32 |     'sec-fetch-dest': 'document',
33 |     'sec-fetch-mode': 'navigate',
34 |     'sec-fetch-site': 'same-site',
35 |     'sec-fetch-user': '?1',
36 |     'upgrade-insecure-requests': '1',
37 | 
38 | }
39 | 
40 | keyword = input("请输入你要搜索的信息：")
41 | async def get_parse(url):
42 |     #写成异步函数的固定形式去调用请求头
43 |     async with aiohttp.ClientSession(headers = headers)as session:
44 |         #异步函数调用URL
45 |         async with session.get(url)as rep:
46 |             #去请求网页的状态码
47 |             if rep.status:
48 |                 print(rep.status)
49 |                 content = await rep.text()
50 |     # 使用我们的解析库
51 |     soup = BeautifulSoup(content, 'lxml')
52 |     # 先定位到总的商品数量，然后进行叠带
53 |     products = soup.select('div.product')
54 |     # 写一个防错机制，防止程序出错，不能执行下一步
55 |     try:
56 |         for product in products:
57 |             # 定位标题
58 |             title = product.select_one("p.productTitle").text.strip()
59 |             # 定位价钱
60 |             price = product.select_one("p.productPrice em").text.strip()
61 |             # 定位商铺名称
62 |             shop = product.select_one("div.productShop").text.strip()
63 |             # 定位月成交数量
64 |             status = product.select_one("p.productStatus em").text.strip()
65 |             # 定位评价有多少条
66 |             target = product.select_one("p.productStatus span a").text.strip()
67 |             print('商品名字:{}'.format(title))
68 |             print('商品的价格：{} 月成交：{} 评价：{}'.format(price, status, target))
69 |             print('商铺名称:{}\n'.format(shop))
70 |             print("~" * 50)
71 |     except:
72 |         pass
73 |     else:
74 |         print("网页正常运行")
75 |         print(rep.status)
76 | 
77 | 
78 | 
79 | if __name__ == '__main__':
80 |     # 请求天猫的URL
81 |     url = "https://list.tmall.com/search_product.htm?q={}".format(parse.quote(keyword))
82 |     #写一个测试时间的函数
83 |     s =time.time()
84 |     #开启我们的异步函数
85 |     loop = asyncio.get_event_loop()
86 |     #等到异步执行完毕
87 |     loop.run_until_complete(get_parse(url))
88 |     #输出运行的总时间
89 |     print(time.time() - s)
90 |     #关闭我们的异步
91 |     loop.close()
92 | 
93 | 
94 | 


--------------------------------------------------------------------------------
/破解千图批量下载图片/paqutupian.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import os
 3 | import re
 4 | 
 5 | #用正则表达式去获取这个图片的id
 6 | imageID = re.compile('"imageId":"(.*?)"')
 7 | #构建我们的请求头
 8 | headers= {
 9 |     "Accept-Encoding":"",
10 |     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.62 Safari/537.36"
11 | }
12 | #去获取这个页面的图片并且保存下来
13 | def get_page():
14 |     url = "https://stock.tuchong.com/topic?topicId=49390"
15 |     html = requests.get(url)
16 |     result = imageID.findall(html.text)
17 |     for r in result:
18 |         #这个图片的URL的格式都一样，只是每张图片的ID不同而已，所以只要我们获取它的ID就可以获取它的图片
19 |         imgurl = "https://icweiliimg9.pstatp.com/weili/l/{}.jpg".format(r)
20 |         name = str(r)
21 |         downloadImg(imgurl,name)
22 | #写一个保存图片的函数
23 | def downloadImg(url:str,name:str) ->None:
24 |     if not os.path.exists("./图虫"):
25 |         os.mkdir("./图虫")
26 |     print("正在下载图片,ID:"+name)
27 |     with open("./图虫/{}.jpg".format(name),"wb") as f:
28 |         #通过保存这个图片的URL来保存这个图片
29 |         f.write(requests.get(url,headers=headers).content)
30 | 
31 | if __name__ == '__main__':
32 |     get_page()


--------------------------------------------------------------------------------
/破解有道翻译，做成自己的小字典/youdao-pojie.py:
--------------------------------------------------------------------------------
 1 | #哈希解密，python专门用于解密的包
 2 | import hashlib
 3 | import math
 4 | import time
 5 | import random
 6 | import requests
 7 | #写我们的headers请求头来伪装
 8 | headers = {
 9 |     'Referer': 'http://fanyi.youdao.com/',
10 |     'Host': 'fanyi.youdao.com',
11 |     'Cookie': 'OUTFOX_SEARCH_USER_ID=-1301778021@10.108.160.18; JSESSIONID=aaaZrrAa2NnfU_CTfOXmx; OUTFOX_SEARCH_USER_ID_NCOO=867998809.2797275; ___rl__test__cookies=1594266717266',
12 |     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
13 | }
14 | 
15 | Keyword = input("请输入你要翻译的内容：")
16 | #为了和有道翻译的时间一样，由于python的时间戳和js不一样，所以要乘以1000，并且进行四舍五入，去掉小数点
17 | r = math.floor(time.time()*1000)
18 | #r + parseInt(10 * Math.random(), 10);用python的语法来重写这句js，用于解密来获取ts值
19 | i = r+int(random.random()*10)
20 | salt= i
21 | ts = r
22 | #这里用的是最经典的Md5解密可以用我们的python的哈希来，写法是一样的
23 | #sign: n.md5("fanyideskweb" + e + i + "mmbP%A-r6U3Nw(n]BjuEU")这里e是我们的keyword值，i是我们解密出来的i值，后面再用
24 | #encode('utf8')的解码utf-8来解码，hexdigest() 的意义是返回摘要，作为十六进制数据字符串值
25 | #如果用的是digest() 则返回摘要，作为二进制数据字符串值
26 | sign = hashlib.md5(("fanyideskweb" + Keyword + str(i) + "mmbP%A-r6U3Nw(n]BjuEU").encode('utf8')).hexdigest()
27 | bv = hashlib.md5("5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36".encode('utf8')).hexdigest()
28 | data = {
29 |     'i': Keyword,
30 |     'from': 'AUTO',
31 |     'to': 'AUTO',
32 |     'smartresult': 'dict',
33 |     'client': 'fanyideskweb',
34 |     'salt': salt,
35 |     'sign': sign,
36 |     'ts': ts,
37 |     'bv': bv,
38 |     'doctype': 'json',
39 |     'version': '2.1',
40 |     'keyfrom': 'fanyi.web',
41 |     'action': 'FY_BY_REALTlME'
42 | }
43 | 
44 | 
45 | url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"
46 | html = requests.session()
47 | content = requests.post(url,data=data,headers= headers).json()
48 | fangyi = content['translateResult'][0][0]['tgt']
49 | print("翻译结果：{}".format(fangyi))
50 | 
51 | 


--------------------------------------------------------------------------------
/获取新冠肺炎实时数据/paqufeiyang.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | from lxml import etree
 3 | import json
 4 | import time
 5 | import threading
 6 | headers = {
 7 |     "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.62 Safari/537.36"
 8 | }
 9 | News_set = set()
10 | #单线程版，获取网易新闻里面新冠肺炎的实时数据
11 | def getData():
12 |     url = "https://wp.m.163.com/163/page/news/virus_report/index.html?_nw_=1&_anw_=1"
13 |     html = requests.get(url,headers=headers)
14 |     soup = etree.HTML(html.text)
15 |     #先是获取相应数据，这里是时间和数据
16 |     current_time =soup.xpath('//div[@class = "cover_time"]/text()')[0]
17 |     cover_data = soup.xpath('//div[@class = "cover_data_china"]/div[starts-with(@class,"cover")]')
18 |     #开始一个无限循环
19 |     while 1:
20 |         #进行不断爬取，从而达到我们的目的，实时获取数据
21 |         for cover in cover_data:
22 |             title = cover.xpath('h4/text()')[0]
23 |             number = cover.xpath('div[@class = "number"]/text()')[0]
24 |             result = current_time+" "+title+" "+ number
25 |             if result not in News_set:
26 |                 News_set.add(result)
27 |                 print(result,end=" ")
28 |                 #间隔时间为60秒
29 |         time.sleep(60)
30 | #多线程版，百度版新冠肺炎实时数据
31 | def getNews():
32 |     url = "https://opendata.baidu.com/data/inner?tn=reserved_all_res_tn&dspName=iphone&from_sf=1&dsp=iphone&resource_id=28565&alr=1&query=%E8%82%BA%E7%82%8E&cb=jsonp_1588237477067_8878"
33 |     html = requests.get(url,headers=headers)
34 |     html_text = html.text
35 |     #用获取json开始的位置
36 |     start = html_text.find('{"ResultCode"')
37 |     #获取json末尾的位置
38 |     end = html_text.find(r'recall_srcids\u0000\u0000"}')+len(r'recall_srcids\u0000\u0000"}')
39 |     #把json给拼接起来，并且把json转化为python的形式
40 |     json_data = json.loads(html_text[start:end])
41 |     #最新的数据，用json来定位
42 |     data_new = json_data['Result'][0]["DisplayData"]["result"]['items']
43 |     #写一个循环函数来达到我们的目的
44 |     while 1:
45 |         for data in data_new:
46 |             new_title = data["eventDescription"]
47 |             new_time = data["eventTime"]
48 |             new_url = data['eventUrl']
49 |             local_time = time.localtime(int(new_time))
50 |             current_time = time.strftime("%Y-%m-%d %H-%M-%S",local_time)
51 |             result = new_title+current_time+" "+new_url
52 |             if result not in News_set:
53 |                 News_set.add(result)
54 |                 print(result)
55 |         time.sleep(60)
56 | def xingXi():
57 |     print("新冠肺炎情况：")
58 |     #单线程开启网易新闻的新冠肺炎的实时情况
59 |     print("实时新闻:")
60 |     getNews()
61 |     #多线程开启百度新冠肺炎的实时情况
62 |     print("百度提供实时新闻")
63 |     threading.Thread(target=getNews().start())
64 | 
65 | if __name__ == '__main__':
66 |     xingXi()
67 | 


--------------------------------------------------------------------------------
/酷狗音乐/main.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | from lxml import etree
 3 | 
 4 | headers = {
 5 |     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36"
 6 | }
 7 | 
 8 | def get_html():
 9 |     url = "https://www.kugou.com/yy/rank/home/1-8888.html"
10 |     html = requests.get(url,headers= headers)
11 |     content = html.text
12 |     soup = etree.HTML(content)
13 |     list = []
14 |     #定位歌单
15 |     songs = soup.xpath('//li[@class = " "]')
16 |     #定位歌曲名称
17 |     sings = soup.xpath('//a[@class="pc_temp_songname"]/text()')
18 |     #定位排名
19 |     qiannum = soup.xpath('//li[@class= " "]/span[@class = "pc_temp_num"]/strong/text()')
20 |     for i in qiannum:
21 |         list.append(i)
22 |     for song in songs[3:]:
23 |         num = song.xpath('./span[@class = "pc_temp_num"]/text()')[0].strip()
24 |         list.append(num)
25 |     for j in range(len(list)):
26 |         #创建列表输出酷狗音乐前500的歌曲
27 |         s =sings[j].replace("-","")
28 |         dowloand("{} {}".format(list[j],s))
29 | 
30 | def dowloand(dir):
31 |     with open("歌单.txt","a+",encoding='utf-8')as f:
32 |         f.write(dir)
33 |         f.write("\n")
34 |         print("写入成功")
35 | 
36 | 
37 | 
38 | 
39 | if __name__ == '__main__':
40 |     get_html()
41 | 


--------------------------------------------------------------------------------