├── one.txt ├── _config.yml ├── README.bak └── README.md /one.txt: -------------------------------------------------------------------------------- 1 | hello world 2 | -------------------------------------------------------------------------------- /_config.yml: -------------------------------------------------------------------------------- 1 | theme: jekyll-theme-minimal -------------------------------------------------------------------------------- /README.bak: -------------------------------------------------------------------------------- 1 |

公共数据集

2 |

更新日期:2018年10月11日

3 | 以下资源全部手工验证,欢迎提供数据补充。 4 | 5 | 图像处理 6 | ---- 7 | 8 | * [10k 美国人脸数据库](http://wilmabainbridge.com/facememorability2.html) 9 | * [2GB 猫的图片](http://137.189.35.203/WebUI/CatDatabase/catData.html) 10 | * [为性别和年龄分类任务而建的未经滤波处理的人脸数据集](http://www.openu.ac.il/home/hassner/Adience/data.html) 11 | * [情感分类图像数据集](http://www.imageemotion.org/) 12 | * [具备属性标记的50种动物图像](https://cvml.ist.ac.at/AwA2/) 13 | * [加州理工行人检测数据集(需科学上网)](http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/) 14 | * [自然图像中的字符识别数据集](http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/) 15 | * [人脸检测数据库](http://www.face-rec.org/databases/) 16 | * [采集自Flickr的数十种商标图像](http://www.multimedia-computing.de/flickrlogos/) 17 | * [GDXray 近2w幅X光透视影像](http://dmery.ing.puc.cl/index.php/material/gdxray/) 18 | * [大名鼎鼎的斯坦福 ImageNet 数据库](http://www.image-net.org/) 19 | * [室内场景识别图像](http://web.mit.edu/torralba/www/indoor.html) 20 | * [弗罗里达大学提供经规范评分标记的用于情感刺激和心理认知研究的图像](http://csea.phhp.ufl.edu/media/iapsmessage.html) 21 | * [近百万样本的 MNIST 手写数字数据库](http://yann.lecun.com/exdb/mnist/) 22 | * [MIT提供室内室外各种场景下的环境光照变化图像](http://groups.csail.mit.edu/vision/SUN/hierarchy.html) 23 | * [斯坦福提供的120个品种超过2w样本犬类图像](http://vision.stanford.edu/aditya86/ImageNetDogs/) 24 | * [用于动作检测和行为识别的视频图像库](http://www.openu.ac.il/home/hassner/data/ASLAN/ASLAN.html) 25 | * [牛津大学37类宠物图像](http://www.robots.ox.ac.uk/~vgg/data/pets/) 26 | * [人群中异常行为检测视频数据集](http://www.openu.ac.il/home/hassner/data/violentflows/) 27 | * [Visual genome 由斯坦福大学人工智能实验室李飞飞教授等建立的结构化描述图像数据库](http://visualgenome.org/api/v0/api_home.html) 28 | * [YouTube 视频人脸数据集(用于非受控场景下人脸识别研究)](http://www.cs.tau.ac.il/~wolf/ytfaces/) 29 | 30 | 机器学习 31 | ---- 32 | 33 | * [多种类型的分类和回归数据集](http://www.cs.toronto.edu/~delve/data/datasets.html) 34 | * [Discogs每月更新的音乐作品信息数据](http://data.discogs.com/) 35 | * [免费的音乐信息数据库](https://github.com/mdeff/fma) 36 | * [每日更新的IMDb数据库](http://www.imdb.com/interfaces) 37 | * [分类、回归、时间序列等机器学习任务测试基准数据库](http://sci2s.ugr.es/keel/datasets.php) 38 | * [LFW野外标注人脸数据库(用于非受控条件下的人脸识别研究)](http://vis-www.cs.umass.edu/lfw/) 39 | * [分年度真实贷款申请和被拒数据](https://www.lendingclub.com/info/download-data.action) 40 | * [哥伦比亚大学提供百万级歌曲数据(需科学上网)](http://labrosa.ee.columbia.edu/millionsong/) 41 | * [电影评分和推荐数据](http://grouplens.org/datasets/movielens/) 42 | * [对《纽约客》杂志标题的评分数据](https://github.com/nextml/caption-contest-data) 43 | * [旧金山地区餐厅卫生评分数据](http://missionlocal.org/san-francisco-restaurant-health-inspections/) 44 | * [加州大学尔湾分校提供用于机器学习任务的多种类别数据集](http://archive.ics.uci.edu/ml/) 45 | * [来自Yahoo! 的多种分类和评分数据](http://webscope.sandbox.yahoo.com/catalog.php?datatype=r) 46 | * [高质量的YouTube视频目标边界标注数据(需科学上网)](https://research.google.com/youtube-bb/) 47 | * [Youtube 8m:高质量机器标注Youtube视频数据(需科学上网)](https://research.google.com/youtube8m/download.html) 48 | * [2012年度eBay在线拍卖数据](http://www.modelingonlineauctions.com/datasets) 49 | 50 | 自然语言处理 51 | ------ 52 | 53 | * [自动关键词提取数据](https://github.com/snkim/AutomaticKeyphraseExtraction/) 54 | * [2004年英文博客语料库](http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm) 55 | * [Google抓取的英文网页语料库](http://lemurproject.org/clueweb09/FACC1/) 56 | * [Flickr个人分类数据](http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html) 57 | * [多语种Google Books Ngrams数据集 (2.2TB)](https://aws.amazon.com/datasets/google-books-ngrams/) 58 | * [Google MC-AFP - 机器理解数据集](https://github.com/google/mcafp) 59 | * [Gutenberg项目提供的电子书](http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs) 60 | * [第36届加拿大议会的会议记录](http://www.isi.edu/natural-language/download/hansard/) 61 | * [微软机器理解数据库](http://www.msmarco.org/dataset.aspx) 62 | * [欧洲语言间机器翻译用平行语料库](http://statmt.org/wmt11/translation-task.html#download) 63 | * [多领域公众情绪数据集](http://www.cs.jhu.edu/~mdredze/datasets/sentiment/) 64 | * [开源多语种Wordnet](http://compling.hss.ntu.edu.sg/omw/) 65 | * [英文垃圾短信数据集](http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) 66 | * [Stanford问答数据集](https://rajpurkar.github.io/SQuAD-explorer/) 67 | * [2005~2011英语新闻语料库](http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html) 68 | * [多语种新闻语料库](https://webhose.io/datasets) 69 | * [维基百科语料数据](https://www.wikidata.org/wiki/Wikidata:Database_download) 70 | * [维基百科链接数据(需科学上网)](https://code.google.com/p/wiki-links/downloads/list) 71 | * [WordNet大规模英文语义数据库](https://wordnet.princeton.edu/) 72 | * [玻森中文语料数据](https://bosonnlp.com/dev/resource) 73 | 74 | 大气环境 75 | ---- 76 | 77 | * [美国和加拿大部分地区气候数据](http://actuariesclimateindex.org/data/) 78 | * [澳大利亚每日天气数据](http://www.bom.gov.au/climate/dwo/) 79 | * [美国国家海洋和大气管理局航空气象中心](https://aviationweather.gov/adds/dataserver) 80 | * [加拿大政府气象中心数据](http://weather.gc.ca/grib/index_e.html) 81 | * [每月更新的全球温度数据](https://crudata.uea.ac.uk/cru/data/temperature/#datterandftp://ftp.cmdl.noaa.gov/) 82 | * [欧洲及地中海沿岸地区极端天气状况数据](http://eca.knmi.nl/) 83 | * [自1929年开始遍布全球的超9000个气象站记录的全球气候数据](http://en.tutiempo.net/climate) 84 | * [美国国家航空航天局多种类全球数据可视化浏览服务](https://wiki.earthdata.nasa.gov/display/GIBS) 85 | * [美国国家海洋和大气管理局白令海洋生态和气候数据](http://www.beringclimate.noaa.gov/) 86 | * [美国国家海洋和大气管理局多种类型大气和天气数据](http://www.ncdc.noaa.gov/data-access/quick-links) 87 | * [美国国家海洋和大气管理局 SURFRAD 气象雷达数据](https://www.esrl.noaa.gov/gmd/grad/stardata.html) 88 | * [世界银行公开气候变化数据](http://data.worldbank.org/developers/climate-data-api) 89 | * [英国东安格利亚大学提供的多种气候数据](http://www.cru.uea.ac.uk/data) 90 | * [分地区全球天气历史数据](https://www.wunderground.com/history/index.html) 91 | * [用于生态学模型和地理信息系统的全球气候数据](http://www.worldclim.org/) 92 | 93 | 国内政府公开数据 94 | ---- 95 | 96 | * [国家数据](http://data.stats.gov.cn/) 97 | * [北京市政务数据资源网](http://www.bjdata.gov.cn/) 98 | * [上海市政府数据服务网](http://www.datashanghai.gov.cn/) 99 | * [浙江政务服务网](http://data.zjzwfw.gov.cn/) 100 | * [武汉市政府公开数据服务网](http://www.wuhandata.gov.cn/whdata/index_search.action) 101 | 102 | 专利数据 103 | ---- 104 | 105 | * [中国专利数据](http://patdata.sipo.gov.cn/) 106 | * [欧洲专利局数据服务](http://www.epo.org/searching-for-patents.html) 107 | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 |

公共数据集

2 |

更新日期:2018年10月11日

3 | 以下资源全部手工验证,欢迎提供数据补充。 4 | 5 | 图像处理 6 | ---- 7 | 8 | * [10k 美国人脸数据库](http://wilmabainbridge.com/facememorability2.html) 9 | * [2GB 猫的图片](http://137.189.35.203/WebUI/CatDatabase/catData.html) 10 | * [为性别和年龄分类任务而建的未经滤波处理的人脸数据集](http://www.openu.ac.il/home/hassner/Adience/data.html) 11 | * [情感分类图像数据集](http://www.imageemotion.org/) 12 | * [具备属性标记的50种动物图像](https://cvml.ist.ac.at/AwA2/) 13 | * [加州理工行人检测数据集(需科学上网)](http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/) 14 | * [自然图像中的字符识别数据集](http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/) 15 | * [人脸检测数据库](http://www.face-rec.org/databases/) 16 | * [采集自Flickr的数十种商标图像](http://www.multimedia-computing.de/flickrlogos/) 17 | * [GDXray 近2w幅X光透视影像](http://dmery.ing.puc.cl/index.php/material/gdxray/) 18 | * [大名鼎鼎的斯坦福 ImageNet 数据库](http://www.image-net.org/) 19 | * [室内场景识别图像](http://web.mit.edu/torralba/www/indoor.html) 20 | * [弗罗里达大学提供经规范评分标记的用于情感刺激和心理认知研究的图像](http://csea.phhp.ufl.edu/media/iapsmessage.html) 21 | * [近百万样本的 MNIST 手写数字数据库](http://yann.lecun.com/exdb/mnist/) 22 | * [MIT提供室内室外各种场景下的环境光照变化图像](http://groups.csail.mit.edu/vision/SUN/hierarchy.html) 23 | * [斯坦福提供的120个品种超过2w样本犬类图像](http://vision.stanford.edu/aditya86/ImageNetDogs/) 24 | * [用于动作检测和行为识别的视频图像库](http://www.openu.ac.il/home/hassner/data/ASLAN/ASLAN.html) 25 | * [牛津大学37类宠物图像](http://www.robots.ox.ac.uk/~vgg/data/pets/) 26 | * [人群中异常行为检测视频数据集](http://www.openu.ac.il/home/hassner/data/violentflows/) 27 | * [Visual genome 由斯坦福大学人工智能实验室李飞飞教授等建立的结构化描述图像数据库](http://visualgenome.org/api/v0/api_home.html) 28 | * [YouTube 视频人脸数据集(用于非受控场景下人脸识别研究)](http://www.cs.tau.ac.il/~wolf/ytfaces/) 29 | 30 | 机器学习 31 | ---- 32 | 33 | * [多种类型的分类和回归数据集](http://www.cs.toronto.edu/~delve/data/datasets.html) 34 | * [Discogs每月更新的音乐作品信息数据](http://data.discogs.com/) 35 | * [免费的音乐信息数据库](https://github.com/mdeff/fma) 36 | * [每日更新的IMDb数据库](http://www.imdb.com/interfaces) 37 | * [分类、回归、时间序列等机器学习任务测试基准数据库](http://sci2s.ugr.es/keel/datasets.php) 38 | * [LFW野外标注人脸数据库(用于非受控条件下的人脸识别研究)](http://vis-www.cs.umass.edu/lfw/) 39 | * [分年度真实贷款申请和被拒数据](https://www.lendingclub.com/info/download-data.action) 40 | * [哥伦比亚大学提供百万级歌曲数据(需科学上网)](http://labrosa.ee.columbia.edu/millionsong/) 41 | * [电影评分和推荐数据](http://grouplens.org/datasets/movielens/) 42 | * [对《纽约客》杂志标题的评分数据](https://github.com/nextml/caption-contest-data) 43 | * [旧金山地区餐厅卫生评分数据](http://missionlocal.org/san-francisco-restaurant-health-inspections/) 44 | * [加州大学尔湾分校提供用于机器学习任务的多种类别数据集](http://archive.ics.uci.edu/ml/) 45 | * [来自Yahoo! 的多种分类和评分数据](http://webscope.sandbox.yahoo.com/catalog.php?datatype=r) 46 | * [高质量的YouTube视频目标边界标注数据(需科学上网)](https://research.google.com/youtube-bb/) 47 | * [Youtube 8m:高质量机器标注Youtube视频数据(需科学上网)](https://research.google.com/youtube8m/download.html) 48 | * [2012年度eBay在线拍卖数据](http://www.modelingonlineauctions.com/datasets) 49 | 50 | 自然语言处理 51 | ------ 52 | 53 | * [自动关键词提取数据](https://github.com/snkim/AutomaticKeyphraseExtraction/) 54 | * [2004年英文博客语料库](http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm) 55 | * [Google抓取的英文网页语料库](http://lemurproject.org/clueweb09/FACC1/) 56 | * [Flickr个人分类数据](http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html) 57 | * [多语种Google Books Ngrams数据集 (2.2TB)](https://aws.amazon.com/datasets/google-books-ngrams/) 58 | * [Google MC-AFP - 机器理解数据集](https://github.com/google/mcafp) 59 | * [Gutenberg项目提供的电子书](http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs) 60 | * [第36届加拿大议会的会议记录](http://www.isi.edu/natural-language/download/hansard/) 61 | * [微软机器理解数据库](http://www.msmarco.org/dataset.aspx) 62 | * [欧洲语言间机器翻译用平行语料库](http://statmt.org/wmt11/translation-task.html#download) 63 | * [多领域公众情绪数据集](http://www.cs.jhu.edu/~mdredze/datasets/sentiment/) 64 | * [开源多语种Wordnet](http://compling.hss.ntu.edu.sg/omw/) 65 | * [英文垃圾短信数据集](http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) 66 | * [Stanford问答数据集](https://rajpurkar.github.io/SQuAD-explorer/) 67 | * [2005~2011英语新闻语料库](http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html) 68 | * [多语种新闻语料库](https://webhose.io/datasets) 69 | * [维基百科语料数据](https://www.wikidata.org/wiki/Wikidata:Database_download) 70 | * [维基百科链接数据(需科学上网)](https://code.google.com/p/wiki-links/downloads/list) 71 | * [WordNet大规模英文语义数据库](https://wordnet.princeton.edu/) 72 | * [玻森中文语料数据](https://bosonnlp.com/dev/resource) 73 | 74 | 大气环境 75 | ---- 76 | 77 | * [美国和加拿大部分地区气候数据](http://actuariesclimateindex.org/data/) 78 | * [澳大利亚每日天气数据](http://www.bom.gov.au/climate/dwo/) 79 | * [美国国家海洋和大气管理局航空气象中心](https://aviationweather.gov/adds/dataserver) 80 | * [加拿大政府气象中心数据](http://weather.gc.ca/grib/index_e.html) 81 | * [每月更新的全球温度数据](https://crudata.uea.ac.uk/cru/data/temperature/#datterandftp://ftp.cmdl.noaa.gov/) 82 | * [欧洲及地中海沿岸地区极端天气状况数据](http://eca.knmi.nl/) 83 | * [自1929年开始遍布全球的超9000个气象站记录的全球气候数据](http://en.tutiempo.net/climate) 84 | * [美国国家航空航天局多种类全球数据可视化浏览服务](https://wiki.earthdata.nasa.gov/display/GIBS) 85 | * [美国国家海洋和大气管理局白令海洋生态和气候数据](http://www.beringclimate.noaa.gov/) 86 | * [美国国家海洋和大气管理局多种类型大气和天气数据](http://www.ncdc.noaa.gov/data-access/quick-links) 87 | * [美国国家海洋和大气管理局 SURFRAD 气象雷达数据](https://www.esrl.noaa.gov/gmd/grad/stardata.html) 88 | * [世界银行公开气候变化数据](http://data.worldbank.org/developers/climate-data-api) 89 | * [英国东安格利亚大学提供的多种气候数据](http://www.cru.uea.ac.uk/data) 90 | * [分地区全球天气历史数据](https://www.wunderground.com/history/index.html) 91 | * [用于生态学模型和地理信息系统的全球气候数据](http://www.worldclim.org/) 92 | 93 | 国内政府公开数据 94 | ---- 95 | 96 | * [国家数据](http://data.stats.gov.cn/) 97 | * [北京市政务数据资源网](http://www.bjdata.gov.cn/) 98 | * [上海市政府数据服务网](http://www.datashanghai.gov.cn/) 99 | * [浙江政务服务网](http://data.zjzwfw.gov.cn/) 100 | * [武汉市政府公开数据服务网](http://www.wuhandata.gov.cn/whdata/index_search.action) 101 | 102 | 专利数据 103 | ---- 104 | 105 | * [中国专利数据](http://patdata.sipo.gov.cn/) 106 | * [欧洲专利局数据服务](http://www.epo.org/searching-for-patents.html) 107 | --------------------------------------------------------------------------------