├── MusicSpider
    ├── __init__.py
    ├── validate
    │   ├── __init__.py
    │   ├── __init__.pyc
    │   ├── validate.pyc
    │   └── validate.py
    ├── items.pyc
    ├── __init__.pyc
    ├── settings.pyc
    ├── pipelines.pyc
    ├── spiders
    │   ├── music.pyc
    │   ├── person.pyc
    │   ├── __init__.pyc
    │   ├── __init__.py
    │   ├── music.py
    │   └── person.py
    ├── items.py
    ├── middlewares.py
    ├── pipelines.py
    └── settings.py
├── README.md
├── .idea
    ├── vcs.xml
    ├── misc.xml
    ├── inspectionProfiles
    │   └── profiles_settings.xml
    ├── modules.xml
    ├── MusicSpider.iml
    ├── mongoSettings.xml
    └── workspace.xml
└── scrapy.cfg


/MusicSpider/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/MusicSpider/validate/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | # MusicSpider(网易云音乐爬虫)
2 | ### 环境
3 | scrapy + redis + mongodb 分布式


--------------------------------------------------------------------------------
/MusicSpider/items.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/UaHaLiubolun/MusicSpider/HEAD/MusicSpider/items.pyc


--------------------------------------------------------------------------------
/MusicSpider/__init__.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/UaHaLiubolun/MusicSpider/HEAD/MusicSpider/__init__.pyc


--------------------------------------------------------------------------------
/MusicSpider/settings.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/UaHaLiubolun/MusicSpider/HEAD/MusicSpider/settings.pyc


--------------------------------------------------------------------------------
/MusicSpider/pipelines.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/UaHaLiubolun/MusicSpider/HEAD/MusicSpider/pipelines.pyc


--------------------------------------------------------------------------------
/MusicSpider/spiders/music.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/UaHaLiubolun/MusicSpider/HEAD/MusicSpider/spiders/music.pyc


--------------------------------------------------------------------------------
/MusicSpider/spiders/person.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/UaHaLiubolun/MusicSpider/HEAD/MusicSpider/spiders/person.pyc


--------------------------------------------------------------------------------
/MusicSpider/spiders/__init__.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/UaHaLiubolun/MusicSpider/HEAD/MusicSpider/spiders/__init__.pyc


--------------------------------------------------------------------------------
/MusicSpider/validate/__init__.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/UaHaLiubolun/MusicSpider/HEAD/MusicSpider/validate/__init__.pyc


--------------------------------------------------------------------------------
/MusicSpider/validate/validate.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/UaHaLiubolun/MusicSpider/HEAD/MusicSpider/validate/validate.pyc


--------------------------------------------------------------------------------
/MusicSpider/spiders/__init__.py:
--------------------------------------------------------------------------------
1 | # This package will contain the spiders of your Scrapy project
2 | #
3 | # Please refer to the documentation for information on how to create and manage
4 | # your spiders.
5 | 


--------------------------------------------------------------------------------
/.idea/vcs.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="VcsDirectoryMappings">
4 |     <mapping directory="$PROJECT_DIR$" vcs="Git" />
5 |   </component>
6 | </project>


--------------------------------------------------------------------------------
/.idea/misc.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="ProjectRootManager" version="2" project-jdk-name="Python 2.7.13 (D:\Python27\python.exe)" project-jdk-type="Python SDK" />
4 | </project>


--------------------------------------------------------------------------------
/.idea/inspectionProfiles/profiles_settings.xml:
--------------------------------------------------------------------------------
1 | <component name="InspectionProjectProfileManager">
2 |   <settings>
3 |     <option name="useProjectProfile" value="false" />
4 |     <option name="USE_PROJECT_PROFILE" value="false" />
5 |     <version value="1.0" />
6 |   </settings>
7 | </component>


--------------------------------------------------------------------------------
/.idea/modules.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="ProjectModuleManager">
4 |     <modules>
5 |       <module fileurl="file://$PROJECT_DIR$/.idea/MusicSpider.iml" filepath="$PROJECT_DIR$/.idea/MusicSpider.iml" />
6 |     </modules>
7 |   </component>
8 | </project>


--------------------------------------------------------------------------------
/scrapy.cfg:
--------------------------------------------------------------------------------
 1 | # Automatically created by: scrapy startproject
 2 | #
 3 | # For more information about the [deploy] section see:
 4 | # https://scrapyd.readthedocs.org/en/latest/deploy.html
 5 | 
 6 | [settings]
 7 | default = MusicSpider.settings
 8 | 
 9 | [deploy]
10 | #url = http://localhost:6800/
11 | project = MusicSpider
12 | 


--------------------------------------------------------------------------------
/.idea/MusicSpider.iml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0" encoding="UTF-8"?>
 2 | <module type="PYTHON_MODULE" version="4">
 3 |   <component name="NewModuleRootManager">
 4 |     <content url="file://$MODULE_DIR$" />
 5 |     <orderEntry type="inheritedJdk" />
 6 |     <orderEntry type="sourceFolder" forTests="false" />
 7 |   </component>
 8 |   <component name="TestRunnerService">
 9 |     <option name="PROJECT_TEST_RUNNER" value="Unittests" />
10 |   </component>
11 | </module>


--------------------------------------------------------------------------------
/.idea/mongoSettings.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0" encoding="UTF-8"?>
 2 | <project version="4">
 3 |   <component name="MongoConfiguration">
 4 |     <option name="serverConfigurations">
 5 |       <list>
 6 |         <ServerConfiguration>
 7 |           <option name="serverUrls">
 8 |             <list>
 9 |               <option value="localhost:27017" />
10 |             </list>
11 |           </option>
12 |           <option name="sshTunnelingConfiguration">
13 |             <SshTunnelingConfiguration />
14 |           </option>
15 |         </ServerConfiguration>
16 |       </list>
17 |     </option>
18 |   </component>
19 | </project>


--------------------------------------------------------------------------------
/MusicSpider/items.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | # Define here the models for your scraped items
 4 | #
 5 | # See documentation in:
 6 | # http://doc.scrapy.org/en/latest/topics/items.html
 7 | 
 8 | import scrapy
 9 | 
10 | 
11 | class MusicspiderItem(scrapy.Item):
12 |     # define the fields for your item here like:
13 |     # name = scrapy.Field()
14 |     pass
15 | 
16 | class typeItem(scrapy.Item):
17 |     _id = scrapy.Field()
18 |     type = scrapy.Field()
19 |     url = scrapy.Field()
20 | 
21 | class playListItem(scrapy.Item):
22 |     _id = scrapy.Field()
23 |     list_id = scrapy.Field()
24 |     list_name = scrapy.Field()
25 |     list_play = scrapy.Field()
26 |     # list_comment = scrapy.Field()
27 |     list_collection = scrapy.Field()
28 |     list_creator = scrapy.Field()
29 |     list_creator_id = scrapy.Field()
30 |     list_tag = scrapy.Field()
31 |     type = scrapy.Field()
32 | 
33 | class detailItem(scrapy.Item):
34 |     _id = scrapy.Field()
35 |     music_id = scrapy.Field()
36 |     music_name = scrapy.Field()
37 |     music_album = scrapy.Field()
38 |     music_artist = scrapy.Field()
39 |     music_comment_num = scrapy.Field()
40 |     music_comment = scrapy.Field()
41 | 
42 | class personItem(scrapy.Item):
43 |     _id = scrapy.Field()
44 |     person_id = scrapy.Field()
45 |     person_name = scrapy.Field()
46 |     person_fan = scrapy.Field()
47 |     person_follow = scrapy.Field()
48 |     person_music_play = scrapy.Field()
49 |     person_age = scrapy.Field()
50 |     person_address = scrapy.Field()
51 |     person_event = scrapy.Field()
52 | 
53 | 


--------------------------------------------------------------------------------
/MusicSpider/validate/validate.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import os
 3 | import json
 4 | from Crypto.Cipher import AES
 5 | import base64
 6 | 
 7 | 
 8 | class Validate:
 9 |     def __init__(self, Id):
10 |         self.id = Id
11 | 
12 |     def get_music_json(self):
13 |        return test(self.id)
14 | 
15 | def aesEncrypt(text, secKey):
16 |     pad = 16 - len(text) % 16
17 |     text = text + pad * chr(pad)
18 |     encryptor = AES.new(secKey, 2, '0102030405060708')
19 |     ciphertext = encryptor.encrypt(text)
20 |     ciphertext = base64.b64encode(ciphertext)
21 |     return ciphertext
22 | 
23 | 
24 | def createSecretKey(size):
25 |     return (''.join(map(lambda xx: (hex(ord(xx))[2:]), os.urandom(size))))[0:16]
26 | 
27 | 
28 | def rsaEncrypt(text, pubKey, modulus):
29 |     text = text[::-1]
30 |     rs = int(text.encode('hex'), 16) ** int(pubKey, 16) % int(modulus, 16)
31 |     return format(rs, 'x').zfill(256)
32 | 
33 | 
34 | def test(id):
35 |     url = 'http://music.163.com/weapi/v1/resource/comments/R_SO_4_'+id+'/?csrf_token='
36 |     headers = {'Cookie': 'appver=1.5.0.75771', 'Referer': 'http://music.163.com/'}
37 |     text = {'username': '13308172964', 'password': 'liubolun', 'rememberLogin': 'true'}
38 |     modulus = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7'
39 |     nonce = '0CoJUm6Qyw8W8jud'
40 |     pubKey = '010001'
41 |     text = json.dumps(text)
42 |     secKey = createSecretKey(16)
43 |     encText = aesEncrypt(aesEncrypt(text, nonce), secKey)
44 |     encSecKey = rsaEncrypt(secKey, pubKey, modulus)
45 |     data = {'params': encText, 'encSecKey': encSecKey}
46 |     req = requests.post(url, headers=headers, data=data)
47 |     return req.text
48 | 
49 | 
50 | 
51 | 
52 | 
53 | 


--------------------------------------------------------------------------------
/MusicSpider/middlewares.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | # Define here the models for your spider middleware
 4 | #
 5 | # See documentation in:
 6 | # http://doc.scrapy.org/en/latest/topics/spider-middleware.html
 7 | 
 8 | from scrapy import signals
 9 | 
10 | 
11 | class MusicspiderSpiderMiddleware(object):
12 |     # Not all methods need to be defined. If a method is not defined,
13 |     # scrapy acts as if the spider middleware does not modify the
14 |     # passed objects.
15 | 
16 |     @classmethod
17 |     def from_crawler(cls, crawler):
18 |         # This method is used by Scrapy to create your spiders.
19 |         s = cls()
20 |         crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
21 |         return s
22 | 
23 |     def process_spider_input(response, spider):
24 |         # Called for each response that goes through the spider
25 |         # middleware and into the spider.
26 | 
27 |         # Should return None or raise an exception.
28 |         return None
29 | 
30 |     def process_spider_output(response, result, spider):
31 |         # Called with the results returned from the Spider, after
32 |         # it has processed the response.
33 | 
34 |         # Must return an iterable of Request, dict or Item objects.
35 |         for i in result:
36 |             yield i
37 | 
38 |     def process_spider_exception(response, exception, spider):
39 |         # Called when a spider or process_spider_input() method
40 |         # (from other spider middleware) raises an exception.
41 | 
42 |         # Should return either None or an iterable of Response, dict
43 |         # or Item objects.
44 |         pass
45 | 
46 |     def process_start_requests(start_requests, spider):
47 |         # Called with the start requests of the spider, and works
48 |         # similarly to the process_spider_output() method, except
49 |         # that it doesn’t have a response associated.
50 | 
51 |         # Must return only requests (not items).
52 |         for r in start_requests:
53 |             yield r
54 | 
55 |     def spider_opened(self, spider):
56 |         spider.logger.info('Spider opened: %s' % spider.name)
57 | 


--------------------------------------------------------------------------------
/MusicSpider/pipelines.py:
--------------------------------------------------------------------------------
 1 | # -*- coding: utf-8 -*-
 2 | 
 3 | # Define your item pipelines here
 4 | #
 5 | # Don't forget to add your pipeline to the ITEM_PIPELINES setting
 6 | # See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
 7 | from scrapy.conf import settings
 8 | from items import typeItem
 9 | from items import playListItem, detailItem, personItem
10 | from pymongo import MongoClient
11 | 
12 | class MusicspiderPipeline(object):
13 | 
14 |     def __init__(self):
15 |         host = settings['MONGODB_HOST']
16 |         port = settings['MONGODB_PORT']
17 |         db_name = settings['MONGODB_DB']
18 |         client = MongoClient(host, port)
19 |         self.tdb = client["music"]
20 |         # self.post = tdb['demoOne']
21 | 
22 | 
23 |     def process_item(self, item, spider):
24 |         if isinstance(item, typeItem):
25 |             try:
26 |                 type_info = dict(item)
27 |                 post = self.tdb['demo']
28 |                 if post.find_one({'type':item['type']}):
29 |                     pass
30 |                 else:
31 |                     if post.insert(type_info):
32 |                         print 'ssss'
33 |             except Exception:
34 |                 print 'failed'
35 |         elif isinstance(item, playListItem):
36 |             try:
37 |                 list_info = dict(item)
38 |                 post = self.tdb['play_list']
39 |                 list_id = post.find_one({'list_id': item['list_id']})
40 |                 if list_id:
41 |                     post.update({"list_id": list_id['list_id']}, list_info)
42 |                 else:
43 |                     post.insert(list_info)
44 |             except Exception:
45 |                 pass
46 |         elif isinstance(item, detailItem):
47 |             try:
48 |                 music_info = dict(item)
49 |                 post = self.tdb['music_detail']
50 |                 music_id = post.find_one({'music_id': item['music_id']})
51 |                 if music_id:
52 |                     post.update({"music_id": music_id['music_id']}, music_info)
53 |                 else:
54 |                     post.insert(music_info)
55 |             except Exception:
56 |                     pass
57 |         elif isinstance(item, personItem):
58 |             try:
59 |                 person_info = dict(item)
60 |                 post = self.tdb['person']
61 |                 person_id = post.find_one({'person_id': item['person_id']})
62 |                 if person_id:
63 |                     try:
64 |                         post.update({"person_id": person_id['person_id']}, person_info)
65 |                     except Exception:
66 |                         pass
67 |                 else:
68 |                     post.insert(person_info)
69 |             except Exception:
70 |                 pass
71 |         return item
72 | 


--------------------------------------------------------------------------------
/MusicSpider/spiders/music.py:
--------------------------------------------------------------------------------
 1 | #coding=utf-8
 2 | import scrapy
 3 | import demjson
 4 | from ..items import playListItem, detailItem
 5 | from scrapy.selector import Selector
 6 | from scrapy_redis.spiders import RedisSpider
 7 | #from ..validate import validate
 8 | 
 9 | class MusicSpider(RedisSpider):
10 |     name = 'music'
11 |     start_urls = 'http://music.163.com/discover/playlist'
12 |     redis_key = 'music:urls'
13 |     allowed_domains = ["music.163.com"]
14 | 
15 | 
16 |     def start_requests(self):
17 |         yield scrapy.Request(url=self.start_urls, method='GET', callback=self.parse)
18 | 
19 |     def parse(self, response):
20 |         body = response.body
21 |         type_list = Selector(text=body).xpath("//a[@class='s-fc1 ']/text()").extract()
22 |         url = 'http://music.163.com/discover/playlist/?cat='
23 |         for tmp in type_list:
24 |             try:
25 |                 true_url = url + tmp
26 |                 yield scrapy.Request(url=true_url, method="GET",
27 |                                      callback=self.list_parse, meta={"cat": tmp})
28 | 
29 |             except Exception:
30 |                 pass
31 | 
32 |     def test_parse(self, response):
33 |         print response.body
34 | 
35 |     def list_parse(self, response):
36 |         selector = Selector(text=response.body)
37 |         list = selector.xpath("//li//a[@class='msk']/@title")
38 |         urls = selector.xpath("//a[@class='zpgi']/@href").extract()
39 |         start_url = "http://music.163.com"
40 |         for tmp_url in urls:
41 |             yield scrapy.Request(url=start_url + tmp_url, method="GET", callback=self.list_parse,
42 |                                  meta={"cat": response.meta['cat']})
43 |         i = 1
44 |         for tmp in list:
45 |             list_id = selector.xpath("//li[" + str(i)
46 |                                              + "]//a[@class='icon-play f-fr']/@data-res-id").extract_first()
47 |             i = i + 1
48 |             # 歌单列表
49 |             yield scrapy.Request(url=start_url+"/playlist?id="+list_id, method="GET", callback=self.play_list_parse,
50 |                                  meta={"cat": response.meta['cat'], "id": list_id})
51 | 
52 |     def play_list_parse(self, response):
53 |         start_url = "http://music.163.com"
54 |         item = playListItem()
55 |         selector = Selector(text=response.body)
56 |         item['list_play'] = int(selector.xpath("//strong[@id='play-count']/text()").extract_first())
57 |         item['list_collection'] = int(selector.xpath("//a[@class='u-btni u-btni-fav ']/@data-count").extract_first())
58 |         # item['list_comment'] = int(selector.xpath("//span[@id='cnt_comment_count']/text()").extract_first())
59 |         item['list_name'] = selector.xpath("//h2[@class='f-ff2 f-brk']/text()").extract_first()
60 |         item['list_id'] = response.meta['id']
61 |         item['list_tag'] = selector.xpath("//a[@class='u-tag']/i/text()").extract()
62 |         item['list_creator'] = selector.xpath("//span[@class='name']/a/text()").extract_first()
63 |         item['list_creator_id'] = selector.xpath("//span[@class='name']/a/@href").extract_first()
64 |         item['type'] = response.meta['cat']
65 |         # urls = selector.xpath("//ul[@class='f-hide']/li/a/@href").extract()
66 |         # for url in urls:
67 |         #     yield scrapy.Request(url=start_url + url, method="GET", callback=self.detail_parse)
68 |         yield item
69 | 
70 |   # def detail_parse(self, response):
71 |   #    selector = Selector(text=response.body)
72 |   #   id = selector.xpath("//div[@id='content-operation']/@data-rid").extract_first()
73 |   #      detail = validate.Validate(str(id))
74 |   #      info = demjson.decode(detail.get_music_json())
75 |   #      if info['total'] > 10000:
76 |   #          item = detailItem()
77 |   #          item['music_id'] = id
78 |   #          item['music_name'] = selector.xpath("//em[@class='f-ff2']/text()").extract_first()
79 |   #          item['music_album'] = selector.xpath("//p[@class='des s-fc4']/a/text()").extract_first()
80 |   #          item['music_artist'] = selector.xpath("//p[@class='des s-fc4']/span/@title").extract_first()
81 |   #          item['music_comment_num'] = int(info['total'])
82 |   #          item['music_comment'] = info['hotComments']
83 |   #          yield item
84 | 
85 | 
86 | 
87 | 
88 | 
89 | 
90 | 
91 | 
92 | 
93 | 
94 | 
95 | 
96 | 
97 | 
98 | 


--------------------------------------------------------------------------------
/MusicSpider/settings.py:
--------------------------------------------------------------------------------
  1 | # -*- coding: utf-8 -*-
  2 | 
  3 | # Scrapy settings for MusicSpider project
  4 | #
  5 | # For simplicity, this file contains only settings considered important or
  6 | # commonly used. You can find more settings consulting the documentation:
  7 | #
  8 | #     http://doc.scrapy.org/en/latest/topics/settings.html
  9 | #     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
 10 | #     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
 11 | 
 12 | BOT_NAME = 'MusicSpider'
 13 | 
 14 | SPIDER_MODULES = ['MusicSpider.spiders']
 15 | NEWSPIDER_MODULE = 'MusicSpider.spiders'
 16 | 
 17 | MONGODB_HOST = '121.42.205.238'
 18 | # MONGODB_HOST = 'localhost'
 19 | MONGODB_PORT = 27017
 20 | MONGODB_DB = 'music'
 21 | # Crawl responsibly by identifying yourself (and your website) on the user-agent
 22 | USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' \
 23 |                      'Chrome/56.0.2924.87 Safari/537.36'
 24 | 
 25 | # Obey robots.txt rules
 26 | ROBOTSTXT_OBEY = False
 27 | 
 28 | 
 29 | # 并发请求设置
 30 | CONCURRENT_ITEMS = 100
 31 | CONCURRENT_REQUESTS = 16
 32 | 
 33 | ITEM_PIPELINES = {
 34 |    'MusicSpider.pipelines.MusicspiderPipeline': 300,
 35 | }
 36 | 
 37 | SCHEDULER = 'scrapy_redis.scheduler.Scheduler' #scrapy_redis 调度器
 38 | DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"  #去重
 39 | # SCHEDULER_PERSIST = True       #不清理Redis队列
 40 | SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"    #队列
 41 | 
 42 | REDIS_HOST = '121.42.205.238'
 43 | # REDIS_HOST = 'localhost'
 44 | REDIS_PORT = 6379
 45 | 
 46 | 
 47 | # Configure maximum concurrent requests performed by Scrapy (default: 16)
 48 | #CONCURRENT_REQUESTS = 32
 49 | 
 50 | # Configure a delay for requests for the same website (default: 0)
 51 | # See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
 52 | # See also autothrottle settings and docs
 53 | #DOWNLOAD_DELAY = 3
 54 | # The download delay setting will honor only one of:
 55 | #CONCURRENT_REQUESTS_PER_DOMAIN = 16
 56 | #CONCURRENT_REQUESTS_PER_IP = 16
 57 | 
 58 | # Disable cookies (enabled by default)
 59 | #COOKIES_ENABLED = False
 60 | 
 61 | # Disable Telnet Console (enabled by default)
 62 | #TELNETCONSOLE_ENABLED = False
 63 | 
 64 | # Override the default request headers:
 65 | # DEFAULT_REQUEST_HEADERS = {
 66 | #   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
 67 | #   'Accept-Language': 'en',
 68 | # }
 69 | 
 70 | # Enable or disable spider middlewares
 71 | # See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
 72 | #SPIDER_MIDDLEWARES = {
 73 | #    'MusicSpider.middlewares.MusicspiderSpiderMiddleware': 543,
 74 | #}
 75 | 
 76 | # Enable or disable downloader middlewares
 77 | # See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
 78 | #DOWNLOADER_MIDDLEWARES = {
 79 | #    'MusicSpider.middlewares.MyCustomDownloaderMiddleware': 543,
 80 | #}
 81 | 
 82 | # Enable or disable extensions
 83 | # See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
 84 | #EXTENSIONS = {
 85 | #    'scrapy.extensions.telnet.TelnetConsole': None,
 86 | #}
 87 | 
 88 | # Configure item pipelines
 89 | # See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
 90 | #ITEM_PIPELINES = {
 91 | #    'MusicSpider.pipelines.MusicspiderPipeline': 300,
 92 | #}
 93 | 
 94 | # Enable and configure the AutoThrottle extension (disabled by default)
 95 | # See http://doc.scrapy.org/en/latest/topics/autothrottle.html
 96 | #AUTOTHROTTLE_ENABLED = True
 97 | # The initial download delay
 98 | #AUTOTHROTTLE_START_DELAY = 5
 99 | # The maximum download delay to be set in case of high latencies
100 | #AUTOTHROTTLE_MAX_DELAY = 60
101 | # The average number of requests Scrapy should be sending in parallel to
102 | # each remote server
103 | #AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
104 | # Enable showing throttling stats for every response received:
105 | #AUTOTHROTTLE_DEBUG = False
106 | 
107 | # Enable and configure HTTP caching (disabled by default)
108 | # See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
109 | #HTTPCACHE_ENABLED = True
110 | #HTTPCACHE_EXPIRATION_SECS = 0
111 | #HTTPCACHE_DIR = 'httpcache'
112 | #HTTPCACHE_IGNORE_HTTP_CODES = []
113 | #HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
114 | 


--------------------------------------------------------------------------------
/MusicSpider/spiders/person.py:
--------------------------------------------------------------------------------
 1 | #coding=utf-8
 2 | import sys
 3 | default_encoding = 'utf-8'
 4 | if sys.getdefaultencoding() != default_encoding:
 5 |     reload(sys)
 6 |     sys.setdefaultencoding(default_encoding)
 7 | import re
 8 | import time
 9 | import random
10 | from ..items import personItem
11 | from scrapy_redis.spiders import RedisSpider
12 | from scrapy import Request
13 | from scrapy.selector import Selector
14 | 
15 | class PersonSpider(RedisSpider):
16 |     name = "person"
17 |     redis_key = 'person:urls'
18 | 
19 |     def start_requests(self):
20 |         while True:
21 |             person_id = random.randint(0, 1000000000)
22 |             yield Request(url="http://music.163.com/user/home?id=" + str(person_id), callback=self.parse, meta={"id": person_id})
23 |         # yield Request(url="http://music.163.com/user/home?id=1", callback=self.parse, meta={"id": 1})
24 |         # yield Request(url="http://music.163.com/user/home?id=1000000", callback=self.parse, meta={"id": 1000000})
25 |         # yield Request(url="http://music.163.com/user/home?id=5000000", callback=self.parse, meta={"id": 5000000})
26 |         # yield Request(url="http://music.163.com/user/home?id=10000000", callback=self.parse, meta={"id": 10000000})
27 |         # yield Request(url="http://music.163.com/user/home?id=15000000", callback=self.parse, meta={"id": 1500000})
28 |         # yield Request(url="http://music.163.com/user/home?id=20000000", callback=self.parse, meta={"id": 20000000})
29 |         # yield Request(url="http://music.163.com/user/home?id=25000000", callback=self.parse, meta={"id": 25000000})
30 |         # yield Request(url="http://music.163.com/user/home?id=30000000", callback=self.parse, meta={"id": 30000000})
31 |         # yield Request(url="http://music.163.com/user/home?id=40000000", callback=self.parse, meta={"id": 40000000})
32 |         # yield Request(url="http://music.163.com/user/home?id=50000000", callback=self.parse, meta={"id": 50000000})
33 |         # yield Request(url="http://music.163.com/user/home?id=60000000", callback=self.parse, meta={"id": 60000000})
34 |         # yield Request(url="http://music.163.com/user/home?id=70000000", callback=self.parse, meta={"id": 70000000})
35 |         # yield Request(url="http://music.163.com/user/home?id=80000000", callback=self.parse, meta={"id": 80000000})
36 |         # yield Request(url="http://music.163.com/user/home?id=90000000", callback=self.parse, meta={"id": 90000000})
37 |         # yield Request(url="http://music.163.com/user/home?id=100000000", callback=self.parse, meta={"id": 100000000})
38 |         # yield Request(url="http://music.163.com/user/home?id=150000000", callback=self.parse, meta={"id": 150000000})
39 |         # yield Request(url="http://music.163.com/user/home?id=200000000", callback=self.parse, meta={"id": 200000000})
40 |         # yield Request(url="http://music.163.com/user/home?id=250000000", callback=self.parse, meta={"id": 250000000})
41 |         # yield Request(url="http://music.163.com/user/home?id=300000000", callback=self.parse, meta={"id": 300000000})
42 |         # yield Request(url="http://music.163.com/user/home?id=350000000", callback=self.parse, meta={"id": 350000000})
43 |         # yield Request(url="http://music.163.com/user/home?id=400000000", callback=self.parse, meta={"id": 400000000})
44 |         # yield Request(url="http://music.163.com/user/home?id=450000000", callback=self.parse, meta={"id": 450000000})
45 |         # yield Request(url="http://music.163.com/user/home?id=500000000", callback=self.parse, meta={"id": 500000000})
46 |         # yield Request(url="http://music.163.com/user/home?id=550000000", callback=self.parse, meta={"id": 550000000})
47 |         # yield Request(url="http://music.163.com/user/home?id=600000000", callback=self.parse, meta={"id": 600000000})
48 |         # yield Request(url="http://music.163.com/user/home?id=650000000", callback=self.parse, meta={"id": 650000000})
49 |         # yield Request(url="http://music.163.com/user/home?id=700000000", callback=self.parse, meta={"id": 700000000})
50 |         # yield Request(url="http://music.163.com/user/home?id=750000000", callback=self.parse, meta={"id": 750000000})
51 |         # yield Request(url="http://music.163.com/user/home?id=800000000", callback=self.parse, meta={"id": 800000000})
52 |         # yield Request(url="http://music.163.com/user/home?id=850000000", callback=self.parse, meta={"id": 850000000})
53 |         # yield Request(url="http://music.163.com/user/home?id=900000000", callback=self.parse, meta={"id": 900000000})
54 |         # yield Request(url="http://music.163.com/user/home?id=950000000", callback=self.parse, meta={"id": 950000000})
55 |         # yield Request(url="http://music.163.com/user/home?id=1000000000", callback=self.parse, meta={"id": 1000000000})
56 | 
57 | 
58 | 
59 |     def parse(self, response):
60 |         selector = Selector(text=response.body)
61 |         address = selector.xpath("//div[@class='inf s-fc3']/span[1]/text()").extract_first()
62 |         age = selector.xpath("//span[@id='age']/@data-age").extract_first()
63 |         fans = selector.xpath("//strong[@id='fan_count']/text()").extract_first()
64 |         follow = selector.xpath("//strong[@id='follow_count']/text()").extract_first()
65 |         event = selector.xpath("//strong[@id='event_count']/text()").extract_first()
66 |         count = selector.xpath("//h4/text()").extract_first()
67 |         name = selector.xpath("//span[@class='tit f-ff2 s-fc0 f-thide']/text()").extract_first()
68 | 
69 |         id = response.meta["id"] - 1
70 |         yield Request(url="http://music.163.com/user/home?id=" + str(id), callback=self.parse, meta={"id": id})
71 |         if name != None:
72 |             id = response.meta["id"]
73 |             item = personItem()
74 |             item['person_name'] = name
75 |             if age != None:
76 |                 age = int(age) / 1000
77 |                 age = time.gmtime(int(age))
78 |                 age = time.strftime("%Y-%m-%d %H:%M:%S", age)
79 |                 item['person_age'] = age
80 |             if address != None:
81 |                 address = address.replace(" ", "")
82 |                 item['person_address'] = address.split("：")[1].split("-")
83 |             if count != None:
84 |                 music_count = re.sub('\D', '', count)
85 |                 item['person_music_play'] = int(music_count)
86 |             item['person_follow'] = int(follow)
87 |             item['person_fan'] = int(fans)
88 |             item['person_event'] = int(event)
89 |             item['person_id'] = id
90 |             yield item
91 | 
92 | 
93 | 


--------------------------------------------------------------------------------
/.idea/workspace.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0" encoding="UTF-8"?>
  2 | <project version="4">
  3 |   <component name="ChangeListManager">
  4 |     <list default="true" id="b1926891-305f-4b9d-aaff-197be6427ebd" name="Default" comment="" />
  5 |     <option name="EXCLUDED_CONVERTED_TO_IGNORED" value="true" />
  6 |     <option name="TRACKING_ENABLED" value="true" />
  7 |     <option name="SHOW_DIALOG" value="false" />
  8 |     <option name="HIGHLIGHT_CONFLICTS" value="true" />
  9 |     <option name="HIGHLIGHT_NON_ACTIVE_CHANGELIST" value="false" />
 10 |     <option name="LAST_RESOLUTION" value="IGNORE" />
 11 |   </component>
 12 |   <component name="CreatePatchCommitExecutor">
 13 |     <option name="PATCH_PATH" value="" />
 14 |   </component>
 15 |   <component name="ExecutionTargetManager" SELECTED_TARGET="default_target" />
 16 |   <component name="FileEditorManager">
 17 |     <leaf SIDE_TABS_SIZE_LIMIT_KEY="300">
 18 |       <file leaf-file-name="settings.py" pinned="false" current-in-tab="false">
 19 |         <entry file="file://$PROJECT_DIR$/MusicSpider/settings.py">
 20 |           <provider selected="true" editor-type-id="text-editor">
 21 |             <state relative-caret-position="378">
 22 |               <caret line="33" column="63" lean-forward="true" selection-start-line="33" selection-start-column="63" selection-end-line="33" selection-end-column="63" />
 23 |               <folding />
 24 |             </state>
 25 |           </provider>
 26 |         </entry>
 27 |       </file>
 28 |       <file leaf-file-name="music.py" pinned="false" current-in-tab="true">
 29 |         <entry file="file://$PROJECT_DIR$/MusicSpider/spiders/music.py">
 30 |           <provider selected="true" editor-type-id="text-editor">
 31 |             <state relative-caret-position="-126">
 32 |               <caret line="9" column="38" lean-forward="false" selection-start-line="9" selection-start-column="38" selection-end-line="9" selection-end-column="38" />
 33 |               <folding>
 34 |                 <element signature="e#14#27#0" expanded="true" />
 35 |               </folding>
 36 |             </state>
 37 |           </provider>
 38 |         </entry>
 39 |       </file>
 40 |       <file leaf-file-name="pipelines.py" pinned="false" current-in-tab="false">
 41 |         <entry file="file://$PROJECT_DIR$/MusicSpider/pipelines.py">
 42 |           <provider selected="true" editor-type-id="text-editor">
 43 |             <state relative-caret-position="468">
 44 |               <caret line="41" column="29" lean-forward="true" selection-start-line="41" selection-start-column="29" selection-end-line="41" selection-end-column="29" />
 45 |               <folding>
 46 |                 <element signature="e#192#224#0" expanded="true" />
 47 |               </folding>
 48 |             </state>
 49 |           </provider>
 50 |         </entry>
 51 |       </file>
 52 |       <file leaf-file-name="items.py" pinned="false" current-in-tab="false">
 53 |         <entry file="file://$PROJECT_DIR$/MusicSpider/items.py">
 54 |           <provider selected="true" editor-type-id="text-editor">
 55 |             <state relative-caret-position="321">
 56 |               <caret line="20" column="32" lean-forward="true" selection-start-line="20" selection-start-column="32" selection-end-line="20" selection-end-column="32" />
 57 |               <folding />
 58 |             </state>
 59 |           </provider>
 60 |         </entry>
 61 |       </file>
 62 |       <file leaf-file-name="middlewares.py" pinned="false" current-in-tab="false">
 63 |         <entry file="file://$PROJECT_DIR$/MusicSpider/middlewares.py">
 64 |           <provider selected="true" editor-type-id="text-editor">
 65 |             <state relative-caret-position="300">
 66 |               <caret line="30" column="51" lean-forward="false" selection-start-line="30" selection-start-column="51" selection-end-line="30" selection-end-column="51" />
 67 |               <folding />
 68 |             </state>
 69 |           </provider>
 70 |         </entry>
 71 |       </file>
 72 |     </leaf>
 73 |   </component>
 74 |   <component name="FileTemplateManagerImpl">
 75 |     <option name="RECENT_TEMPLATES">
 76 |       <list>
 77 |         <option value="Python Script" />
 78 |       </list>
 79 |     </option>
 80 |   </component>
 81 |   <component name="IdeDocumentHistory">
 82 |     <option name="CHANGED_PATHS">
 83 |       <list>
 84 |         <option value="$PROJECT_DIR$/MusicSpider/settings.py" />
 85 |         <option value="$PROJECT_DIR$/MusicSpider/items.py" />
 86 |         <option value="$PROJECT_DIR$/MusicSpider/pipelines.py" />
 87 |         <option value="$PROJECT_DIR$/MusicSpider/spiders/music.py" />
 88 |       </list>
 89 |     </option>
 90 |   </component>
 91 |   <component name="JsBuildToolGruntFileManager" detection-done="true" sorting="DEFINITION_ORDER" />
 92 |   <component name="JsBuildToolPackageJson" detection-done="true" sorting="DEFINITION_ORDER" />
 93 |   <component name="JsGulpfileManager">
 94 |     <detection-done>true</detection-done>
 95 |     <sorting>DEFINITION_ORDER</sorting>
 96 |   </component>
 97 |   <component name="ProjectFrameBounds">
 98 |     <option name="x" value="-8" />
 99 |     <option name="y" value="-8" />
100 |     <option name="width" value="1936" />
101 |     <option name="height" value="1062" />
102 |   </component>
103 |   <component name="ProjectView">
104 |     <navigator currentView="ProjectPane" proportions="" version="1">
105 |       <flattenPackages />
106 |       <showMembers />
107 |       <showModules />
108 |       <showLibraryContents />
109 |       <hideEmptyPackages />
110 |       <abbreviatePackageNames />
111 |       <autoscrollToSource />
112 |       <autoscrollFromSource />
113 |       <sortByType />
114 |       <manualOrder />
115 |       <foldersAlwaysOnTop value="true" />
116 |     </navigator>
117 |     <panes>
118 |       <pane id="Scope" />
119 |       <pane id="Scratches" />
120 |       <pane id="ProjectPane">
121 |         <subPane>
122 |           <PATH>
123 |             <PATH_ELEMENT>
124 |               <option name="myItemId" value="MusicSpider" />
125 |               <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.ProjectViewProjectNode" />
126 |             </PATH_ELEMENT>
127 |             <PATH_ELEMENT>
128 |               <option name="myItemId" value="MusicSpider" />
129 |               <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
130 |             </PATH_ELEMENT>
131 |           </PATH>
132 |           <PATH>
133 |             <PATH_ELEMENT>
134 |               <option name="myItemId" value="MusicSpider" />
135 |               <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.ProjectViewProjectNode" />
136 |             </PATH_ELEMENT>
137 |             <PATH_ELEMENT>
138 |               <option name="myItemId" value="MusicSpider" />
139 |               <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
140 |             </PATH_ELEMENT>
141 |             <PATH_ELEMENT>
142 |               <option name="myItemId" value="MusicSpider" />
143 |               <option name="myItemType" value="com.intellij.ide.projectView.impl.nodes.PsiDirectoryNode" />
144 |             </PATH_ELEMENT>
145 |           </PATH>
146 |         </subPane>
147 |       </pane>
148 |     </panes>
149 |   </component>
150 |   <component name="PropertiesComponent">
151 |     <property name="settings.editor.selected.configurable" value="preferences.mongoOptions" />
152 |     <property name="WebServerToolWindowFactoryState" value="false" />
153 |     <property name="last_opened_file_path" value="$PROJECT_DIR$" />
154 |     <property name="js.eslint.eslintPackage" value="" />
155 |   </component>
156 |   <component name="RunManager">
157 |     <configuration default="true" type="DjangoTestsConfigurationType" factoryName="Django tests">
158 |       <option name="INTERPRETER_OPTIONS" value="" />
159 |       <option name="PARENT_ENVS" value="true" />
160 |       <envs>
161 |         <env name="PYTHONUNBUFFERED" value="1" />
162 |       </envs>
163 |       <option name="SDK_HOME" value="" />
164 |       <option name="WORKING_DIRECTORY" value="" />
165 |       <option name="IS_MODULE_SDK" value="false" />
166 |       <option name="ADD_CONTENT_ROOTS" value="true" />
167 |       <option name="ADD_SOURCE_ROOTS" value="true" />
168 |       <module name="MusicSpider" />
169 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
170 |       <option name="TARGET" value="" />
171 |       <option name="SETTINGS_FILE" value="" />
172 |       <option name="CUSTOM_SETTINGS" value="false" />
173 |       <option name="USE_OPTIONS" value="false" />
174 |       <option name="OPTIONS" value="" />
175 |       <method />
176 |     </configuration>
177 |     <configuration default="true" type="JavaScriptTestRunnerProtractor" factoryName="Protractor">
178 |       <config-file value="" />
179 |       <node-interpreter value="project" />
180 |       <envs />
181 |       <method />
182 |     </configuration>
183 |     <configuration default="true" type="JavascriptDebugType" factoryName="JavaScript Debug">
184 |       <method />
185 |     </configuration>
186 |     <configuration default="true" type="PyBehaveRunConfigurationType" factoryName="Behave">
187 |       <option name="INTERPRETER_OPTIONS" value="" />
188 |       <option name="PARENT_ENVS" value="true" />
189 |       <envs />
190 |       <option name="SDK_HOME" value="" />
191 |       <option name="WORKING_DIRECTORY" value="" />
192 |       <option name="IS_MODULE_SDK" value="false" />
193 |       <option name="ADD_CONTENT_ROOTS" value="true" />
194 |       <option name="ADD_SOURCE_ROOTS" value="true" />
195 |       <module name="MusicSpider" />
196 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
197 |       <option name="ADDITIONAL_ARGS" value="" />
198 |       <method />
199 |     </configuration>
200 |     <configuration default="true" type="PyLettuceRunConfigurationType" factoryName="Lettuce">
201 |       <option name="INTERPRETER_OPTIONS" value="" />
202 |       <option name="PARENT_ENVS" value="true" />
203 |       <envs />
204 |       <option name="SDK_HOME" value="" />
205 |       <option name="WORKING_DIRECTORY" value="" />
206 |       <option name="IS_MODULE_SDK" value="false" />
207 |       <option name="ADD_CONTENT_ROOTS" value="true" />
208 |       <option name="ADD_SOURCE_ROOTS" value="true" />
209 |       <module name="MusicSpider" />
210 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
211 |       <option name="ADDITIONAL_ARGS" value="" />
212 |       <method />
213 |     </configuration>
214 |     <configuration default="true" type="PythonConfigurationType" factoryName="Python">
215 |       <option name="INTERPRETER_OPTIONS" value="" />
216 |       <option name="PARENT_ENVS" value="true" />
217 |       <envs>
218 |         <env name="PYTHONUNBUFFERED" value="1" />
219 |       </envs>
220 |       <option name="SDK_HOME" value="" />
221 |       <option name="WORKING_DIRECTORY" value="" />
222 |       <option name="IS_MODULE_SDK" value="false" />
223 |       <option name="ADD_CONTENT_ROOTS" value="true" />
224 |       <option name="ADD_SOURCE_ROOTS" value="true" />
225 |       <module name="MusicSpider" />
226 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
227 |       <option name="SCRIPT_NAME" value="" />
228 |       <option name="PARAMETERS" value="" />
229 |       <option name="SHOW_COMMAND_LINE" value="false" />
230 |       <method />
231 |     </configuration>
232 |     <configuration default="true" type="Tox" factoryName="Tox">
233 |       <option name="INTERPRETER_OPTIONS" value="" />
234 |       <option name="PARENT_ENVS" value="true" />
235 |       <envs />
236 |       <option name="SDK_HOME" value="" />
237 |       <option name="WORKING_DIRECTORY" value="" />
238 |       <option name="IS_MODULE_SDK" value="false" />
239 |       <option name="ADD_CONTENT_ROOTS" value="true" />
240 |       <option name="ADD_SOURCE_ROOTS" value="true" />
241 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
242 |       <module name="MusicSpider" />
243 |       <method />
244 |     </configuration>
245 |     <configuration default="true" type="js.build_tools.gulp" factoryName="Gulp.js">
246 |       <node-interpreter>project</node-interpreter>
247 |       <node-options />
248 |       <gulpfile />
249 |       <tasks />
250 |       <arguments />
251 |       <envs />
252 |       <method />
253 |     </configuration>
254 |     <configuration default="true" type="js.build_tools.npm" factoryName="npm">
255 |       <command value="run" />
256 |       <scripts />
257 |       <node-interpreter value="project" />
258 |       <envs />
259 |       <method />
260 |     </configuration>
261 |     <configuration default="true" type="tests" factoryName="Attests">
262 |       <option name="INTERPRETER_OPTIONS" value="" />
263 |       <option name="PARENT_ENVS" value="true" />
264 |       <envs />
265 |       <option name="SDK_HOME" value="" />
266 |       <option name="WORKING_DIRECTORY" value="" />
267 |       <option name="IS_MODULE_SDK" value="false" />
268 |       <option name="ADD_CONTENT_ROOTS" value="true" />
269 |       <option name="ADD_SOURCE_ROOTS" value="true" />
270 |       <module name="MusicSpider" />
271 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
272 |       <option name="SCRIPT_NAME" value="" />
273 |       <option name="CLASS_NAME" value="" />
274 |       <option name="METHOD_NAME" value="" />
275 |       <option name="FOLDER_NAME" value="" />
276 |       <option name="TEST_TYPE" value="TEST_SCRIPT" />
277 |       <option name="PATTERN" value="" />
278 |       <option name="USE_PATTERN" value="false" />
279 |       <method />
280 |     </configuration>
281 |     <configuration default="true" type="tests" factoryName="Doctests">
282 |       <option name="INTERPRETER_OPTIONS" value="" />
283 |       <option name="PARENT_ENVS" value="true" />
284 |       <envs />
285 |       <option name="SDK_HOME" value="" />
286 |       <option name="WORKING_DIRECTORY" value="" />
287 |       <option name="IS_MODULE_SDK" value="false" />
288 |       <option name="ADD_CONTENT_ROOTS" value="true" />
289 |       <option name="ADD_SOURCE_ROOTS" value="true" />
290 |       <module name="MusicSpider" />
291 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
292 |       <option name="SCRIPT_NAME" value="" />
293 |       <option name="CLASS_NAME" value="" />
294 |       <option name="METHOD_NAME" value="" />
295 |       <option name="FOLDER_NAME" value="" />
296 |       <option name="TEST_TYPE" value="TEST_SCRIPT" />
297 |       <option name="PATTERN" value="" />
298 |       <option name="USE_PATTERN" value="false" />
299 |       <method />
300 |     </configuration>
301 |     <configuration default="true" type="tests" factoryName="Nosetests">
302 |       <option name="INTERPRETER_OPTIONS" value="" />
303 |       <option name="PARENT_ENVS" value="true" />
304 |       <envs />
305 |       <option name="SDK_HOME" value="" />
306 |       <option name="WORKING_DIRECTORY" value="" />
307 |       <option name="IS_MODULE_SDK" value="false" />
308 |       <option name="ADD_CONTENT_ROOTS" value="true" />
309 |       <option name="ADD_SOURCE_ROOTS" value="true" />
310 |       <module name="MusicSpider" />
311 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
312 |       <option name="SCRIPT_NAME" value="" />
313 |       <option name="CLASS_NAME" value="" />
314 |       <option name="METHOD_NAME" value="" />
315 |       <option name="FOLDER_NAME" value="" />
316 |       <option name="TEST_TYPE" value="TEST_SCRIPT" />
317 |       <option name="PATTERN" value="" />
318 |       <option name="USE_PATTERN" value="false" />
319 |       <option name="PARAMS" value="" />
320 |       <option name="USE_PARAM" value="false" />
321 |       <method />
322 |     </configuration>
323 |     <configuration default="true" type="tests" factoryName="Unittests">
324 |       <option name="INTERPRETER_OPTIONS" value="" />
325 |       <option name="PARENT_ENVS" value="true" />
326 |       <envs />
327 |       <option name="SDK_HOME" value="" />
328 |       <option name="WORKING_DIRECTORY" value="" />
329 |       <option name="IS_MODULE_SDK" value="false" />
330 |       <option name="ADD_CONTENT_ROOTS" value="true" />
331 |       <option name="ADD_SOURCE_ROOTS" value="true" />
332 |       <module name="MusicSpider" />
333 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
334 |       <option name="SCRIPT_NAME" value="" />
335 |       <option name="CLASS_NAME" value="" />
336 |       <option name="METHOD_NAME" value="" />
337 |       <option name="FOLDER_NAME" value="" />
338 |       <option name="TEST_TYPE" value="TEST_SCRIPT" />
339 |       <option name="PATTERN" value="" />
340 |       <option name="USE_PATTERN" value="false" />
341 |       <option name="PUREUNITTEST" value="true" />
342 |       <option name="PARAMS" value="" />
343 |       <option name="USE_PARAM" value="false" />
344 |       <method />
345 |     </configuration>
346 |     <configuration default="true" type="tests" factoryName="py.test">
347 |       <option name="INTERPRETER_OPTIONS" value="" />
348 |       <option name="PARENT_ENVS" value="true" />
349 |       <envs />
350 |       <option name="SDK_HOME" value="" />
351 |       <option name="WORKING_DIRECTORY" value="" />
352 |       <option name="IS_MODULE_SDK" value="false" />
353 |       <option name="ADD_CONTENT_ROOTS" value="true" />
354 |       <option name="ADD_SOURCE_ROOTS" value="true" />
355 |       <module name="MusicSpider" />
356 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" enabled="false" sample_coverage="true" runner="coverage.py" />
357 |       <option name="SCRIPT_NAME" value="" />
358 |       <option name="CLASS_NAME" value="" />
359 |       <option name="METHOD_NAME" value="" />
360 |       <option name="FOLDER_NAME" value="" />
361 |       <option name="TEST_TYPE" value="TEST_SCRIPT" />
362 |       <option name="PATTERN" value="" />
363 |       <option name="USE_PATTERN" value="false" />
364 |       <option name="testToRun" value="" />
365 |       <option name="keywords" value="" />
366 |       <option name="params" value="" />
367 |       <option name="USE_PARAM" value="false" />
368 |       <option name="USE_KEYWORD" value="false" />
369 |       <method />
370 |     </configuration>
371 |   </component>
372 |   <component name="ShelveChangesManager" show_recycled="false">
373 |     <option name="remove_strategy" value="false" />
374 |   </component>
375 |   <component name="TaskManager">
376 |     <task active="true" id="Default" summary="Default task">
377 |       <changelist id="b1926891-305f-4b9d-aaff-197be6427ebd" name="Default" comment="" />
378 |       <created>1489290692781</created>
379 |       <option name="number" value="Default" />
380 |       <option name="presentableId" value="Default" />
381 |       <updated>1489290692781</updated>
382 |     </task>
383 |     <servers />
384 |   </component>
385 |   <component name="TodoView">
386 |     <todo-panel id="selected-file">
387 |       <is-autoscroll-to-source value="true" />
388 |     </todo-panel>
389 |     <todo-panel id="all">
390 |       <are-packages-shown value="true" />
391 |       <is-autoscroll-to-source value="true" />
392 |     </todo-panel>
393 |   </component>
394 |   <component name="ToolWindowManager">
395 |     <frame x="-8" y="-8" width="1936" height="1062" extended-state="7" />
396 |     <editor active="true" />
397 |     <layout>
398 |       <window_info id="Project" active="false" anchor="left" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="true" show_stripe_button="true" weight="0.21002132" sideWeight="0.5" order="0" side_tool="false" content_ui="combo" />
399 |       <window_info id="TODO" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.32938644" sideWeight="0.5" order="6" side_tool="false" content_ui="tabs" />
400 |       <window_info id="Event Log" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="7" side_tool="true" content_ui="tabs" />
401 |       <window_info id="Database" active="false" anchor="right" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="3" side_tool="false" content_ui="tabs" />
402 |       <window_info id="Find" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="1" side_tool="false" content_ui="tabs" />
403 |       <window_info id="Version Control" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="false" weight="0.33" sideWeight="0.5" order="7" side_tool="false" content_ui="tabs" />
404 |       <window_info id="Python Console" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.32938644" sideWeight="0.5" order="7" side_tool="false" content_ui="tabs" />
405 |       <window_info id="Structure" active="false" anchor="left" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.25" sideWeight="0.5" order="1" side_tool="false" content_ui="tabs" />
406 |       <window_info id="Mongo Explorer" active="false" anchor="right" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.32995737" sideWeight="0.5" order="3" side_tool="false" content_ui="tabs" />
407 |       <window_info id="Terminal" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="true" show_stripe_button="true" weight="0.32938644" sideWeight="0.5" order="7" side_tool="false" content_ui="tabs" />
408 |       <window_info id="Favorites" active="false" anchor="left" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="2" side_tool="true" content_ui="tabs" />
409 |       <window_info id="Cvs" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.25" sideWeight="0.5" order="4" side_tool="false" content_ui="tabs" />
410 |       <window_info id="Message" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="0" side_tool="false" content_ui="tabs" />
411 |       <window_info id="Commander" active="false" anchor="right" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.4" sideWeight="0.5" order="0" side_tool="false" content_ui="tabs" />
412 |       <window_info id="Inspection" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.4" sideWeight="0.5" order="5" side_tool="false" content_ui="tabs" />
413 |       <window_info id="Run" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.33" sideWeight="0.5" order="2" side_tool="false" content_ui="tabs" />
414 |       <window_info id="Hierarchy" active="false" anchor="right" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.25" sideWeight="0.5" order="2" side_tool="false" content_ui="combo" />
415 |       <window_info id="Ant Build" active="false" anchor="right" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.25" sideWeight="0.5" order="1" side_tool="false" content_ui="tabs" />
416 |       <window_info id="Debug" active="false" anchor="bottom" auto_hide="false" internal_type="DOCKED" type="DOCKED" visible="false" show_stripe_button="true" weight="0.4" sideWeight="0.5" order="3" side_tool="false" content_ui="tabs" />
417 |     </layout>
418 |   </component>
419 |   <component name="TypeScriptGeneratedFilesManager">
420 |     <option name="processedProjectFiles" value="true" />
421 |   </component>
422 |   <component name="VcsContentAnnotationSettings">
423 |     <option name="myLimit" value="2678400000" />
424 |   </component>
425 |   <component name="XDebuggerManager">
426 |     <breakpoint-manager />
427 |     <watches-manager />
428 |   </component>
429 |   <component name="editorHistoryManager">
430 |     <entry file="file://$PROJECT_DIR$/MusicSpider/settings.py">
431 |       <provider selected="true" editor-type-id="text-editor">
432 |         <state relative-caret-position="378">
433 |           <caret line="18" column="34" lean-forward="false" selection-start-line="18" selection-start-column="34" selection-end-line="18" selection-end-column="34" />
434 |           <folding />
435 |         </state>
436 |       </provider>
437 |     </entry>
438 |     <entry file="file://$PROJECT_DIR$/MusicSpider/spiders/music.py">
439 |       <provider selected="true" editor-type-id="text-editor">
440 |         <state relative-caret-position="0">
441 |           <caret line="0" column="0" lean-forward="false" selection-start-line="0" selection-start-column="0" selection-end-line="0" selection-end-column="0" />
442 |           <folding>
443 |             <element signature="e#14#27#0" expanded="true" />
444 |           </folding>
445 |         </state>
446 |       </provider>
447 |     </entry>
448 |     <entry file="file://$PROJECT_DIR$/MusicSpider/pipelines.py">
449 |       <provider selected="true" editor-type-id="text-editor">
450 |         <state relative-caret-position="168">
451 |           <caret line="8" column="25" lean-forward="false" selection-start-line="8" selection-start-column="6" selection-end-line="8" selection-end-column="25" />
452 |           <folding>
453 |             <element signature="e#192#224#0" expanded="true" />
454 |           </folding>
455 |         </state>
456 |       </provider>
457 |     </entry>
458 |     <entry file="file://$PROJECT_DIR$/MusicSpider/items.py">
459 |       <provider selected="true" editor-type-id="text-editor">
460 |         <state relative-caret-position="315">
461 |           <caret line="15" column="28" lean-forward="true" selection-start-line="15" selection-start-column="28" selection-end-line="15" selection-end-column="28" />
462 |           <folding />
463 |         </state>
464 |       </provider>
465 |     </entry>
466 |     <entry file="file://$PROJECT_DIR$/MusicSpider/middlewares.py">
467 |       <provider selected="true" editor-type-id="text-editor">
468 |         <state relative-caret-position="630">
469 |           <caret line="30" column="51" lean-forward="false" selection-start-line="30" selection-start-column="51" selection-end-line="30" selection-end-column="51" />
470 |           <folding />
471 |         </state>
472 |       </provider>
473 |     </entry>
474 |     <entry file="file://$PROJECT_DIR$/MusicSpider/middlewares.py">
475 |       <provider selected="true" editor-type-id="text-editor">
476 |         <state relative-caret-position="300">
477 |           <caret line="30" column="51" lean-forward="false" selection-start-line="30" selection-start-column="51" selection-end-line="30" selection-end-column="51" />
478 |           <folding />
479 |         </state>
480 |       </provider>
481 |     </entry>
482 |     <entry file="file://$PROJECT_DIR$/scrapy.cfg">
483 |       <provider selected="true" editor-type-id="text-editor">
484 |         <state relative-caret-position="126">
485 |           <caret line="6" column="30" lean-forward="false" selection-start-line="6" selection-start-column="22" selection-end-line="6" selection-end-column="30" />
486 |           <folding />
487 |         </state>
488 |       </provider>
489 |     </entry>
490 |     <entry file="file://$PROJECT_DIR$/MusicSpider/scrapy_redis/scheduler.py">
491 |       <provider selected="true" editor-type-id="text-editor">
492 |         <state relative-caret-position="-483">
493 |           <caret line="70" column="34" lean-forward="true" selection-start-line="70" selection-start-column="34" selection-end-line="70" selection-end-column="34" />
494 |           <folding>
495 |             <element signature="e#0#16#0" expanded="false" />
496 |           </folding>
497 |         </state>
498 |       </provider>
499 |     </entry>
500 |     <entry file="file://$PROJECT_DIR$/MusicSpider/settings.py">
501 |       <provider selected="true" editor-type-id="text-editor">
502 |         <state relative-caret-position="378">
503 |           <caret line="33" column="63" lean-forward="true" selection-start-line="33" selection-start-column="63" selection-end-line="33" selection-end-column="63" />
504 |           <folding />
505 |         </state>
506 |       </provider>
507 |     </entry>
508 |     <entry file="file://$PROJECT_DIR$/MusicSpider/items.py">
509 |       <provider selected="true" editor-type-id="text-editor">
510 |         <state relative-caret-position="321">
511 |           <caret line="20" column="32" lean-forward="true" selection-start-line="20" selection-start-column="32" selection-end-line="20" selection-end-column="32" />
512 |           <folding />
513 |         </state>
514 |       </provider>
515 |     </entry>
516 |     <entry file="file://$PROJECT_DIR$/MusicSpider/pipelines.py">
517 |       <provider selected="true" editor-type-id="text-editor">
518 |         <state relative-caret-position="468">
519 |           <caret line="41" column="29" lean-forward="true" selection-start-line="41" selection-start-column="29" selection-end-line="41" selection-end-column="29" />
520 |           <folding>
521 |             <element signature="e#192#224#0" expanded="true" />
522 |           </folding>
523 |         </state>
524 |       </provider>
525 |     </entry>
526 |     <entry file="file://$PROJECT_DIR$/MusicSpider/spiders/music.py">
527 |       <provider selected="true" editor-type-id="text-editor">
528 |         <state relative-caret-position="-126">
529 |           <caret line="9" column="38" lean-forward="false" selection-start-line="9" selection-start-column="38" selection-end-line="9" selection-end-column="38" />
530 |           <folding>
531 |             <element signature="e#14#27#0" expanded="true" />
532 |           </folding>
533 |         </state>
534 |       </provider>
535 |     </entry>
536 |   </component>
537 | </project>


--------------------------------------------------------------------------------