├── scripts └── download_kitti.sh └── readme.md /scripts/download_kitti.sh: -------------------------------------------------------------------------------- 1 | axel -n 10 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_odometry_gray.zip 2 | axel -n 60 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_object_image_2.zip 3 | axel -n 20 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_object_velodyne.zip 4 | axel -n 10 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_object_label_2.zip 5 | axel -n 10 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_object_calib.zip 6 | 7 | -------------------------------------------------------------------------------- /readme.md: -------------------------------------------------------------------------------- 1 | # Datasets 2 | 3 | 人工智能智能时代,依旧无法离开数据。奇异AI的工作者们收集了大量的数据来源,甚至在官网开辟了一块领域让大家方便的快速进入各大数据集入口。我们从以下领域出发收集来包含18大领域,近300种各类数据集。但其中有许多还无法完全包含进来,如果你有好的数据集来源,再可用的情况下可以给我们send PR。 4 | 5 | 本数据集由**奇异人工智能**整理发布,转载请注明出处:http://strangeai.pro 国内最大的人工智能算法交易平台。商业合作请联系:`jintianiloveu`. 6 | 7 | **Updates** 8 | 9 | - 2019.04.08: Add eVDS dataset 10 | 11 | - 2018.12.29: 新增几个图像分割数据集 12 | 13 | - 2018.11.26: 新录入中文语音识别数据集 14 | 15 | - 2018.11.6: 新录入文本生成数据集 16 | 17 | 18 | 19 | 20 | 21 | 22 | ## 图像数据集(分类检测分割) 23 | 24 | - [eVDS](https://engineering.purdue.edu/elab/eVDS/#download): A very good video dataset for different class object; 25 | 26 | - [COCO](): coco图像分类,分割数据集; 27 | 28 | - KITTI: 自动驾驶的包含目标检测,激光雷达3D检查的数据集, http://www.cvlibs.net/datasets/kitti/eval_object.php 由于kitti数据集每次下载都要申请,为了简单,在本repo的scripts中包含了download kitti的一键下载脚本,可以直接下载; 29 | 30 | - VOC: 用于图片分类目标检测与风格的公开数据集,不过年代比较老了, http://host.robots.ox.ac.uk/pascal/VOC/; 31 | 32 | - 维基百科公式图片与文本:可以用来训练公式自动识别的AI,http://www.svcl.ucsd.edu/projects/crossmodal/; 33 | 34 | - Face/HeadsSegmentation: 精准的头部分割数据集: 35 | 36 |

37 | 38 |

39 | 40 | - Color names dataset: 直接从图片生成颜色的名字(为什么不生成颜色,还能提取主题色):http://lear.inrialpes.fr/people/vandeweijer/data.html; 41 | 42 | 43 | - [FASSEG](http://massimomauro.github.io/FASSEG-repository/): faces segmentation datasets. 精准的脸部分割数据集。 44 | 45 |

46 | 47 | 48 | 该部分数据集可以直接在奇异AI官网首页快速进入: http://strangeai.pro 49 | 50 | 51 | 52 | 53 | 54 | ## 单(多)目标跟踪数据集 55 | 56 | - DAVIS: 视频分割跟踪数据集 https://davischallenge.org/, 可以用来训练视频分割与跟踪模型; 57 | 58 | 59 |
60 | 61 | - IMDB WIKI: 分男女的人脸标注数据集; 62 | 63 | ![](https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/static/img/imdb-wiki-teaser.png) 64 | 65 | - Central Pedestrian: 带有3D框标注的行人追踪数据集; 66 | 67 |

68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | ## 语音数据集 78 | 79 | - [LJ](https://keithito.com/LJ-Speech-Dataset/): 语音识别合成数据集,英文,女声,质量高,2.6G左右 80 | - OpenSLR: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline. 一个开源的中文语音数据集,下载地址:http://www.openslr.org/33/ 81 | 82 | - [VCTK](http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html): English multi speaker datasets to train a TTS with multi sounds. 83 | 84 | - [Nancy](http://www.cstr.ed.ac.uk/projects/blizzard/2011/lessac_blizzard2011/): Nancy datasets for 85 | text to speech system, this dataset more clear then LJ I think. 86 | 87 | 88 | 89 | 90 | 91 | 92 | ## 图像生成 93 | - [CASIA Online and Offline Chinese Handwriting Databases](http://www.nlpr.ia.ac.cn/databases/handwriting/Online_database.html): 中文手写字体生成 94 | 95 | 96 |
97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | ## Others 106 | 107 | 1. 金融 108 | 109 | [美国劳工部统计局官方发布数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/139) 110 | [沪深股票除权除息、配股增发全量数据,截止 2016.12.31](http://dataju.cn/Dataju/web/datasetInstanceDetail/344) 111 | [上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/340) 112 | [深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/341) 113 | 114 | [深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/342) 115 | 116 | [深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/343) 117 | 118 | [上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/37) 119 | 120 | 121 | 2. 交通 122 | 123 | [2013年纽约出租车行驶数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/76) 124 | 125 | [2013年芝加哥出租车行驶数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/323) 126 | 127 | [Udacity自动驾驶数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/86) 128 | 129 | 3. 商业 130 | 131 | [Airbnb 开放的民宿信息和住客评论数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/309) 132 | 133 | 4. 推荐系统 134 | 135 | [Netflix 电影评价数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/32) 136 | 137 | [MovieLens 20m 电影推荐数据集](http://dataju.cn/Dataju/web/datasetInstanceDetail/116) 138 | 139 | 140 | 141 | ## Copyright 142 | 143 | 本仓库由奇异AI在互联网基础上添加整理,感谢其他人的贡献。我们希望更多人通过学习AI知识,紧跟时代潮流,实现人生理想。**奇异AI是国内最大的Paas算法交易平台,欢迎学习者或企业合作者与我们进行深入的算法合作**. 144 | 145 | ``` 146 | 关注【奇异人工智能】公众号 147 | 获取更多更有趣的AI教程 148 | 微信公众号:奇异人工智能 149 | 奇异官网:http://strangeai.pro 150 | ``` 151 | 152 | --------------------------------------------------------------------------------