├── README.md └── image.png /README.md: -------------------------------------------------------------------------------- 1 | # 「快意」大规模语言模型(KwaiYii) 2 | 3 | ## 简介 4 | 「快意」大模型(KwaiYii) 是由快手AI团队从零到一独立自主研发的一系列大规模语言模型(Large Language Model,LLM),当前包含了多种参数规模的模型,并覆盖了预训练模型(KwaiYii-Base)、对话模型(KwaiYii-Chat)。这里面我们介绍13B规模的系列模型KwaiYii-13B,其主要特点包括: 5 | - KwaiYii-13B-Base预训练模型具备优异的通用技术底座能力,在绝大部分权威的中/英文Benchmark上取得了同等模型尺寸下的State-Of-The-Art效果。例如,KwaiYii-13B-Base预训练模型在MMLU、CMMLU、C-Eval、HumanEval等Benchmark上目前处于同等模型规模的领先水平。 6 | - KwaiYii-13B-Chat对话模型具备出色的语言理解和生成能力,支持内容创作、信息咨询、数学逻辑、代码编写、多轮对话等广泛任务,人工评估结果表明KwaiYii-13B-Chat超过主流的开源模型,并在内容创作、信息咨询和数学解题上接近ChatGPT(3.5)同等水平。 7 | 8 | ## Benchmark评测效果 9 | 我们选取了行业中被广泛认可的权威Benchmark进行评测,例如体现英文综合能力的MMLU、体现中文综合能力的C-Eval和CMMLU、体现中小学数学能力的GSM8K以及体现代码能力的HumanEval,并与行业上的主流模型在上述Benchmark上汇报的指标结果进行比较。具体对比结果如下所示: 10 | 11 | - [C-Eval](https://cevalbenchmark.com/index.html)是一个全面的中文基础模型评测数据集,由清华大学、上海交通大学和爱丁堡大学合作构建,包含12342道单项选择题,涵盖数学、物理、化学、生物、历史、政治、计算机等52个不同学科和四个难度级别,是最具影响力的中文综合性考试评测集之一。其采用5-shot的方式进行评测。 12 | 13 |
17 | | Model 5-shot | 18 |Average | 19 |STEM | 20 |Social Sciences |
21 | Humanities | 22 |Others | 23 |
---|---|---|---|---|---|---|
预训练模型 | 28 |KwaiYii-13B-Base | 29 |62.6 | 30 |52.7 | 31 |74.1 | 32 |68.8 | 33 |63.7 | 34 |
ChatGLM2-12B-Base | 37 |61.6 | 38 |55.4 | 39 |73.7 | 40 |64.2 | 41 |59.4 | 42 ||
Qwen-7B | 45 |59.6 | 46 |52.8 | 47 |74.1 | 48 |63.1 | 49 |55.2 | 50 ||
Baichuan-13B-Base | 53 |53.6 | 54 |47 | 55 |66.8 | 56 |57.3 | 57 |49.8 | 58 ||
对话模型 | 61 |ChatGLM2 | 62 |71.1 | 63 |64.4 | 64 |81.6 | 65 |73.7 | 66 |71.3 | 67 |
GPT-4 | 70 |68.7 | 71 |67.1 | 72 |77.6 | 73 |64.5 | 74 |67.8 | 75 ||
KwaiYii-13B-Chat | 78 |59.0 | 79 |49.9 | 80 |69.2 | 81 |63.9 | 82 |61.0 | 83 ||
ChatGLM2-12B-Chat | 86 |57.0 | 87 |52.1 | 88 |69.3 | 89 |58.5 | 90 |53.2 | 91 ||
GPT-3.5 | 94 |54.4 | 95 |52.9 | 96 |61.8 | 97 |50.9 | 98 |53.6 | 99 ||
Baichuan-13B-Chat | 102 |51.5 | 103 |43.7 | 104 |64.6 | 105 |56.2 | 106 |49.2 | 107 |
117 | | Model 5-shot | 118 |Average | 119 |STEM | 120 |Social Sciences |
121 | Humanities | 122 |Others | 123 |
---|---|---|---|---|---|---|
预训练模型 |
128 | KwaiYii-13B-Base | 129 |57.42 | 130 |46.82 | 131 |68.83 | 132 |51.56 | 133 |64.96 | 134 |
Qwen-7B | 137 |56.7 | 138 |- | 139 |- | 140 |- | 141 |- | 142 ||
ChatGLM2-12B-Base | 145 |56.18 | 146 |48.18 | 147 |65.13 | 148 |52.58 | 149 |60.93 | 150 ||
Llama2-13B-Base | 153 |54.8 | 154 |- | 155 |- | 156 |- | 157 |- | 158 ||
Baichuan-13B-Base | 161 |51.6 | 162 |41.6 | 163 |60.9 | 164 |47.4 | 165 |58.5 | 166 ||
Llama1-13B-Base | 169 |46.9 | 170 |- | 171 |- | 172 |- | 173 |- | 174 ||
对话模型 |
177 | GPT-4 | 178 |86.4 | 179 |- | 180 |- | 181 |- | 182 |- | 183 |
GPT-3.5 | 186 |70.0 | 187 |- | 188 |- | 189 |- | 190 |- | 191 ||
KwaiYii-13B-Chat | 194 |56.44 | 195 |46.79 | 196 |66.36 | 197 |50.73 | 198 |64.28 | 199 ||
ChatGLM2-12B-Chat | 202 |52.13 | 203 |47.00 | 204 |61.00 | 205 |46.10 | 206 |56.05 | 207 ||
Baichuan-13B-Chat | 210 |52.1 | 211 |40.9 | 212 |60.9 | 213 |48.8 | 214 |59.0 | 215 |
226 | | Model 5-shot | 227 |平均分 | 228 |STEM | 229 |人文学科 | 230 |社会科学 | 231 |其他 | 232 |中国特定 主题 |
233 |
---|---|---|---|---|---|---|---|
预训练模型 |
238 | KwaiYii-13B-Base | 239 |61.73 | 240 |46.54 | 241 |69.22 | 242 |64.49 | 243 |65.09 | 244 |63.10 | 245 |
Qwen-7B-Base | 248 |58.66 | 249 |48.39 | 250 |63.77 | 251 |61.22 | 252 |62.14 | 253 |58.73 | 254 ||
MiLM-6B | 257 |57.17 | 258 |46.85 | 259 |61.12 | 260 |61.68 | 261 |58.84 | 262 |59.39 | 263 ||
Baichuan-13B-Base | 266 |55.82 | 267 |42.38 | 268 |61.61 | 269 |60.44 | 270 |59.26 | 271 |56.62 | 272 ||
ChatGLM2-6B-Base | 275 |48.80 | 276 |42.55 | 277 |50.98 | 278 |50.99 | 279 |50.80 | 280 |48.37 | 281 ||
对话模型 | 284 |GPT-4 | 285 |70.95 | 286 |65.23 | 287 |72.11 | 288 |72.06 | 289 |74.79 | 290 |66.12 | 291 |
KwaiYii-13B-Chat | 294 |59.97 | 295 |47.33 | 296 |65.85 | 297 |62.19 | 298 |62.23 | 299 |61.00 | 300 ||
Baichuan-13B-Chat | 303 |55.8 | 304 |42.8 | 305 |62.6 | 306 |59.7 | 307 |59.0 | 308 |56.1 | 309 ||
GPT-3.5 | 312 |55.51 | 313 |47.81 | 314 |55.68 | 315 |56.50 | 316 |62.66 | 317 |50.69 | 318 |
327 | | Model 0-shot | 328 |平均分 | 329 |STEM | 330 |人文学科 | 331 |社会科学 | 332 |其他 | 333 |中国特定 主题 |
334 |
---|---|---|---|---|---|---|---|
预训练模型 | 339 |KwaiYii-13B-Base | 340 |61.22 | 341 |46.82 | 342 |69.35 | 343 |63.42 | 344 |64.02 | 345 |63.26 | 346 |
MiLM-6B | 349 |60.37 | 350 |48.88 | 351 |63.49 | 352 |66.20 | 353 |62.14 | 354 |62.07 | 355 ||
Qwen-7B-Base | 358 |57.57 | 359 |46.33 | 360 |62.54 | 361 |60.48 | 362 |61.72 | 363 |58.77 | 364 ||
Baichuan-13B-Base | 367 |54.63 | 368 |42.04 | 369 |60.49 | 370 |59.55 | 371 |56.60 | 372 |55.72 | 373 ||
ChatGLM2-6B-Base | 376 |49.95 | 377 |41.28 | 378 |52.85 | 379 |53.37 | 380 |52.24 | 381 |50.58 | 382 ||
对话模型 | 385 |GPT-4 | 386 |68.90 | 387 |63.16 | 388 |69.19 | 389 |70.26 | 390 |73.16 | 391 |63.47 | 392 |
KwaiYii-13B-Chat | 395 |60.41 | 396 |46.15 | 397 |66.49 | 398 |63.25 | 399 |62.68 | 400 |61.94 | 401 ||
GPT-3.5 | 404 |53.22 | 405 |44.80 | 406 |53.61 | 407 |54.22 | 408 |59.95 | 409 |49.74 | 410 |
422 | | Model 8-shot | 423 |GSM8K | 424 |
---|---|---|
预训练模型 | 429 |Qwen-7B-Base | 430 |51.6 | 431 |
KwaiYii-13B-Base | 434 |48.4 | 435 ||
ChatGLM2-12B-Base | 438 |40.94 | 439 ||
Llama2-13B-Base | 442 |28.7 | 443 ||
Baichuan-13B-Base | 446 |22.44 | 447 ||
对话模型 |
450 | GPT-4 | 451 |92.0 | 452 |
GPT-3.5 | 455 |57.1 | 456 ||
KwaiYii-13B-Chat | 459 |52.2 | 460 ||
Qwen-7B-Chat | 463 |43.5 | 464 ||
ChatGLM2-12B-Chat | 467 |38.13 | 468 |
478 | | Model 0-shot | 479 |HumanEval @Pass1 |
480 |
---|---|---|
预训练模型 |
485 | KwaiYii-13B-Base | 486 |40.8 | 487 |
Qwen-7B-Base | 490 |24.4 | 491 ||
Llama2-13B-Base | 494 |18.3 | 495 ||
Llama1-13B-Base | 498 |15.8 | 499 ||
对话模型 |
502 | GPT-4 | 503 |67.0 | 504 |
GPT-3.5 | 507 |48.1 | 508 ||
KwaiYii-13B-Chat | 511 |43.3 | 512 ||
Qwen-7B-Chat | 515 |24.4 | 516 ||
Llama2-13B-Chat | 519 |15.85 | 520 |
535 |
536 |