├── scripts
└── download_kitti.sh
└── readme.md
/scripts/download_kitti.sh:
--------------------------------------------------------------------------------
1 | axel -n 10 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_odometry_gray.zip
2 | axel -n 60 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_object_image_2.zip
3 | axel -n 20 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_object_velodyne.zip
4 | axel -n 10 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_object_label_2.zip
5 | axel -n 10 https://s3.eu-central-1.amazonaws.com/avg-kitti/data_object_calib.zip
6 |
7 |
--------------------------------------------------------------------------------
/readme.md:
--------------------------------------------------------------------------------
1 | # Datasets
2 |
3 | 人工智能智能时代,依旧无法离开数据。奇异AI的工作者们收集了大量的数据来源,甚至在官网开辟了一块领域让大家方便的快速进入各大数据集入口。我们从以下领域出发收集来包含18大领域,近300种各类数据集。但其中有许多还无法完全包含进来,如果你有好的数据集来源,再可用的情况下可以给我们send PR。
4 |
5 | 本数据集由**奇异人工智能**整理发布,转载请注明出处:http://strangeai.pro 国内最大的人工智能算法交易平台。商业合作请联系:`jintianiloveu`.
6 |
7 | **Updates**
8 |
9 | - 2019.04.08: Add eVDS dataset
10 |
11 | - 2018.12.29: 新增几个图像分割数据集
12 |
13 | - 2018.11.26: 新录入中文语音识别数据集
14 |
15 | - 2018.11.6: 新录入文本生成数据集
16 |
17 |
18 |
19 |
20 |
21 |
22 | ## 图像数据集(分类检测分割)
23 |
24 | - [eVDS](https://engineering.purdue.edu/elab/eVDS/#download): A very good video dataset for different class object;
25 |
26 | - [COCO](): coco图像分类,分割数据集;
27 |
28 | - KITTI: 自动驾驶的包含目标检测,激光雷达3D检查的数据集, http://www.cvlibs.net/datasets/kitti/eval_object.php 由于kitti数据集每次下载都要申请,为了简单,在本repo的scripts中包含了download kitti的一键下载脚本,可以直接下载;
29 |
30 | - VOC: 用于图片分类目标检测与风格的公开数据集,不过年代比较老了, http://host.robots.ox.ac.uk/pascal/VOC/;
31 |
32 | - 维基百科公式图片与文本:可以用来训练公式自动识别的AI,http://www.svcl.ucsd.edu/projects/crossmodal/;
33 |
34 | - Face/HeadsSegmentation: 精准的头部分割数据集:
35 |
36 |
37 |
38 |
39 |
40 | - Color names dataset: 直接从图片生成颜色的名字(为什么不生成颜色,还能提取主题色):http://lear.inrialpes.fr/people/vandeweijer/data.html;
41 |
42 |
43 | - [FASSEG](http://massimomauro.github.io/FASSEG-repository/): faces segmentation datasets. 精准的脸部分割数据集。
44 |
45 | 
46 |
47 |
48 | 该部分数据集可以直接在奇异AI官网首页快速进入: http://strangeai.pro
49 |
50 |
51 |
52 |
53 |
54 | ## 单(多)目标跟踪数据集
55 |
56 | - DAVIS: 视频分割跟踪数据集 https://davischallenge.org/, 可以用来训练视频分割与跟踪模型;
57 |
58 |
59 |
60 |
61 | - IMDB WIKI: 分男女的人脸标注数据集;
62 |
63 | 
64 |
65 | - Central Pedestrian: 带有3D框标注的行人追踪数据集;
66 |
67 | 
68 |
69 |
70 |
71 |
72 |
73 |
74 |
75 |
76 |
77 | ## 语音数据集
78 |
79 | - [LJ](https://keithito.com/LJ-Speech-Dataset/): 语音识别合成数据集,英文,女声,质量高,2.6G左右
80 | - OpenSLR: An Open-Source Mandarin Speech Corpus and A Speech Recognition Baseline. 一个开源的中文语音数据集,下载地址:http://www.openslr.org/33/
81 |
82 | - [VCTK](http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html): English multi speaker datasets to train a TTS with multi sounds.
83 |
84 | - [Nancy](http://www.cstr.ed.ac.uk/projects/blizzard/2011/lessac_blizzard2011/): Nancy datasets for
85 | text to speech system, this dataset more clear then LJ I think.
86 |
87 |
88 |
89 |
90 |
91 |
92 | ## 图像生成
93 | - [CASIA Online and Offline Chinese Handwriting Databases](http://www.nlpr.ia.ac.cn/databases/handwriting/Online_database.html): 中文手写字体生成
94 |
95 |
96 |
97 |
98 |
99 |
100 |
101 |
102 |
103 |
104 |
105 | ## Others
106 |
107 | 1. 金融
108 |
109 | [美国劳工部统计局官方发布数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/139)
110 | [沪深股票除权除息、配股增发全量数据,截止 2016.12.31](http://dataju.cn/Dataju/web/datasetInstanceDetail/344)
111 | [上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/340)
112 | [深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/341)
113 |
114 | [深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/342)
115 |
116 | [深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/343)
117 |
118 | [上证A股日线数据,1999.12.09 至 2016.06.08,前复权,1095支股票](http://dataju.cn/Dataju/web/datasetInstanceDetail/37)
119 |
120 |
121 | 2. 交通
122 |
123 | [2013年纽约出租车行驶数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/76)
124 |
125 | [2013年芝加哥出租车行驶数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/323)
126 |
127 | [Udacity自动驾驶数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/86)
128 |
129 | 3. 商业
130 |
131 | [Airbnb 开放的民宿信息和住客评论数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/309)
132 |
133 | 4. 推荐系统
134 |
135 | [Netflix 电影评价数据](http://dataju.cn/Dataju/web/datasetInstanceDetail/32)
136 |
137 | [MovieLens 20m 电影推荐数据集](http://dataju.cn/Dataju/web/datasetInstanceDetail/116)
138 |
139 |
140 |
141 | ## Copyright
142 |
143 | 本仓库由奇异AI在互联网基础上添加整理,感谢其他人的贡献。我们希望更多人通过学习AI知识,紧跟时代潮流,实现人生理想。**奇异AI是国内最大的Paas算法交易平台,欢迎学习者或企业合作者与我们进行深入的算法合作**.
144 |
145 | ```
146 | 关注【奇异人工智能】公众号
147 | 获取更多更有趣的AI教程
148 | 微信公众号:奇异人工智能
149 | 奇异官网:http://strangeai.pro
150 | ```
151 |
152 |
--------------------------------------------------------------------------------