

虎门 沙角
1997年7月1号 香港回归 工厂放假 我跟她留下了这张合影 那年 我们18岁
2015年7月 18年后 同样的地方 我们又来了
谢谢 这么多年的陪伴 以后 我们家的三个男人 不会让你受一点委屈
珍惜 在你一无所有时陪在你身边的人 572 | 573 | 574 |

你妹的,说好的财运呢? 663 | 664 | 665 |





现在……睁开眼的第一件事就是摸手机!
我就不信只有我自己这样,同意的笑脸吧!!! 1787 | 1788 | 1789 |
├── .gitignore ├── README.md ├── baiduTranslate └── translater.py ├── bdbaike ├── baike_spider │ ├── __init__.py │ ├── html_downloader.py │ ├── html_outputer.py │ ├── html_parser.py │ └── url_manager.py └── spider_main.py ├── doubanBook ├── README.md ├── bookCrawler2 │ ├── books.txt │ ├── crawler.py │ └── tagList.txt ├── bookCrawler3 │ ├── README.md │ ├── bookSearch │ │ ├── bookSearch.py │ │ └── config.ini │ ├── crawler.py │ ├── initTable.sql │ └── test │ │ ├── bookinfotest.py │ │ └── multiThreading.py ├── bookSpiderXPath.py ├── book_list.txt └── book_list_spider.py ├── getWebpage ├── c1.py └── test.html ├── jenkinsJob ├── run.py └── utils.py ├── poem ├── README.md ├── config.py ├── crawler.py ├── models │ ├── __init__.py │ ├── author.py │ ├── poem.py │ └── poem_list.py └── utils │ └── http_util.py ├── proxyInfo └── proxyInfo2.py ├── qiushibaike ├── log.txt └── main.py ├── srtpInfo └── srtpSpider.py └── tieba ├── content.txt └── tiebaspider.py /.gitignore: -------------------------------------------------------------------------------- 1 | .DS_Store 2 | *.pyc 3 | **/output* 4 | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # myCrawler 2 | 我的爬虫练习 3 | 4 | ## doubanBook 5 | > 爬取豆瓣读书。只爬取了每个标签类别的首页的图书信息,若稍加修改,可以爬取任意页数的信息。 6 | 7 | ###### bookSpiderXpath 8 | > “第一只爬虫”的lxml实现。因为lxml库用C实现,效率很高,而且支持xpath。所以做了一次练习。 9 | 10 | ### bookCrawler2 11 | > 爬取每个热门标签下的书籍基本信息,存储到MySQL中。因为有些数据的格式不符合要求,实际爬取数量为60000+。稍作修改,可以拓展功能,或者做些其他有趣的事情。 12 | 13 | ### bookCrawler3 14 | > 上一个爬虫的全面升级。只爬取“编程”标签下的书籍,但这次爬取了书籍详情页面和书籍图片,并且使用了多线程,速度提高很多。 15 | 16 | #### bookSearch 17 | > 另外,在尝试用wxPython做一个图形化的书籍检索页面,更好地利用爬取成果。目前只做了最简单的实现。 18 | 19 | ## getWebpage 20 | > 保存指定URL的页面到本地。 21 | 22 | ## qiushibaike 23 | > 爬取糗事百科的内容,输出到命令行。主要参考http://cuiqingcai.com/990.html ,略作修改。 24 | 25 | ## proxyInfo 26 | > 爬取某个代理页面的信息,输出到控制台。 27 | 28 | ## srtpInfo 29 | > 爬取学校网站的srtp讲座信息。 30 | 31 | ## tieba 32 | > 根据《极客学院》的相关教程实现。使用多线程爬取百度贴吧的帖子信息。涉及到的技术见代码注释。 33 | 34 | ## bdbaike 35 | > 爬取百度百科10个词条的简介。代码来自慕课网,略作修改。很多地方和之前做过的练习不一样,有一定参考价值。 36 | 37 | ## baiduTranslate 38 | > 模拟post请求,调用百度翻译接口。难度不大,却很实用 39 | -------------------------------------------------------------------------------- /baiduTranslate/translater.py: -------------------------------------------------------------------------------- 1 | #!/usr/bin/env python3 2 | # 感谢百度翻译,禁止用于商业用途 3 | 4 | import requests 5 | 6 | 7 | # 中译英 8 | def zh2en(content): 9 | data = { 10 | ' from':'zh','to':'en','query':content , 11 | 'transtype':'translang', 12 | 'simple_means_flag':'3', 13 | } 14 | return _translate(data) 15 | 16 | 17 | # 英译中 18 | def en2zh(content): 19 | data = { 20 | ' from':'en','to':'zh','query':content , 21 | 'transtype':'translang', 22 | 'simple_means_flag':'3', 23 | } 24 | return _translate(data) 25 | 26 | 27 | def _translate(data): 28 | url = 'http://fanyi.baidu.com/v2transapi/' 29 | headers ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36 SE 2.X MetaSr 1.0'} 30 | response = requests.post(url,data,headers=headers) 31 | result = response.json()['trans_result']['data'][0]['dst'] 32 | return result 33 | 34 | 35 | if __name__=="__main__": 36 | print(zh2en('你好,世界')) 37 | print(en2zh('Hello, world')) 38 | -------------------------------------------------------------------------------- /bdbaike/baike_spider/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/plough/myCrawler/a6cd6a0e429404b51d1f91a859c849decd4983dc/bdbaike/baike_spider/__init__.py -------------------------------------------------------------------------------- /bdbaike/baike_spider/html_downloader.py: -------------------------------------------------------------------------------- 1 | ''' 2 | Created on 2016-1-26 3 | 4 | @author: Administrator 5 | ''' 6 | import urllib2 7 | 8 | class HtmlDownloader(object): 9 | def download(self, url): 10 | if url is None: 11 | return None 12 | response = urllib2.urlopen(url) 13 | if response.getcode() != 200: # @UndefinedVariable 14 | return None 15 | return response.read() # @UndefinedVariable 16 | 17 | 18 | 19 | 20 | 21 | -------------------------------------------------------------------------------- /bdbaike/baike_spider/html_outputer.py: -------------------------------------------------------------------------------- 1 | class HtmlOutputer(object): 2 | def __init__(self): 3 | self.datas = [] 4 | 5 | def collect_data(self, data): 6 | if data is None: 7 | return 8 | self.datas.append(data) 9 | 10 | def output_html(self): 11 | fout = open('output.html', 'w') 12 | 13 | fout.write('
') 14 | fout.write("") 15 | fout.write("%s | " % data['url']) 20 | print 'title:', data['title'] 21 | fout.write("%s | " % data['title']) 22 | print 'summary:', data['summary'] 23 | fout.write("%s | " % data['summary']) 24 | fout.write("