├── README.md └── 최신 자연어처리 모델 소개.pdf /README.md: -------------------------------------------------------------------------------- 1 | # 최신 자연어처리 모델 소개 2 | 3 | 2018년 BERT의 등장 이후로 사전훈련 모델들이 딥러닝 자연어처리의 표준으로 자리잡았습니다. 2020년에는 GPT-3가 공개되면서 초거대모델로 다시 흐름이 바뀌고 있습니다. 지금까지 수많은 자연어처리 모델들이 공개되었지만, 한눈에 볼 수 있는 자료가 많지 않았습니다. 그래서 최신 자연어처리 모델들을 정리한 문서를 작성해보았습니다. 4 | 5 | 각 모델마다 간략한 특징만 나와있는데, 보다 자세한 내용은 <최신 자연어처리 모델 소개.pdf> 문서를 확인하시면 됩니다. Github에서 바로 pdf를 열면 링크가 작동하지 않는 문제가 있습니다. 되도록 다운로드 후 읽어보시길 추천드립니다. 혹시 잘못된 정보가 있거나 추가하고 싶은 모델이 있으면 이슈에 올려주시면 고맙겠습니다. 앞으로 계속 새로운 모델을 업데이트할 예정입니다. 6 | 7 | 8 | ## 모델 목록 9 | - 2018/11 10 | - **BERT** (구글) 11 | - 특징 12 | - Transformer의 Encoder로 만든 사전훈련 모델 13 | - 모델크기 14 | - Base 110M / Large 340M 15 | - 관련문서 16 | - [The Illustrated BERT, ELMo, and co.](https://nlpinkorean.github.io/illustrated-bert) 17 | - [The Illustrated Transformer](https://nlpinkorean.github.io/illustrated-transformer/) 18 | - 2019/02 19 | - **GPT-2** (OpenAI) 20 | - 특징 21 | - Transformer의 Decoder로 만든 사전훈련 모델 22 | - 모델크기 23 | - Small 124M / Medium 355M / Large 774M / XL 1.5B 24 | - 관련문서 25 | - [The Illustrated GPT-2](https://chloamme.github.io/2021/12/08/illustrated-gpt2-korean.html) 26 | - 2019/07 27 | - **RoBERTa** (메타) 28 | - 특징 29 | - BERT를 개선한 모델 30 | - 모델크기 31 | - Base 125M / Large 355M 32 | - 관련문서 33 | - [RoBERTa Review](https://baekyeongmin.github.io/paper-review/roberta-review/) 34 | - 2019/10 35 | - **BART** (메타) 36 | - 특징 37 | - Seq2Seq 구조로 손상된 텍스트를 복구하는 사전훈련 방법 사용 38 | - 모델크기 39 | - Base 140M / Large 400M 40 | - 관련문서 41 | - [BART 논문 리뷰](https://dladustn95.github.io/nlp/BART_paper_review/) 42 | - **KoBERT** (SKT) 43 | - 특징 44 | - 한국어 BERT 45 | - 모델크기 46 | - 92M 47 | - 관련문서 48 | - https://github.com/SKTBrain/KoBERT 49 | - 2019/12 50 | - **ALBERT** (구글) 51 | - 특징 52 | - BERT 경량화 53 | - 모델크기 54 | - Base 12M / Large 18M / XLarge 60M / XXLarge 235M 55 | - 관련문서 56 | - [ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations](https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html) 57 | - [ALBERT 논문 리뷰](https://thejb.ai/albert/) 58 | - 2020/01 59 | - **Meena** (구글) 60 | - 특징 61 | - 일상대화 모델 62 | - 모델크기 63 | - 2.6B 64 | - 관련문서 65 | - [구글의 일상대화 딥러닝 모델 - Meena](http://aidev.co.kr/chatbotdeeplearning/8881) 66 | - 2020/03 67 | - **ELECTRA** (구글) 68 | - 특징 69 | - RTD(Replaced Token Detection) 방식으로 사전훈련 70 | - 모델크기 71 | - Small 14M / Base 110M / Large 335M 72 | - 관련문서 73 | - [More Efficient NLP Model Pre-training with ELECTRA](https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html) 74 | - [꼼꼼하고 이해하기 쉬운 ELECTRA 논문 리뷰](https://blog.pingpong.us/electra-review/) 75 | - 2020/04 76 | - **KoELECTRA** (박장원) 77 | - 특징 78 | - 한국어 ELECTRA 79 | - 모델크기 80 | - Small 14M / Base 110M 81 | - 관련문서 82 | - [2주 간의 KoELECTRA 개발기](https://monologg.kr/2020/05/02/koelectra-part1/) 83 | - https://github.com/monologg/KoELECTRA 84 | - **KoGPT-2** (SKT) 85 | - 특징 86 | - 한국어 GPT-2 87 | - 모델크기 88 | - 125M 89 | - 관련문서 90 | - https://github.com/SKT-AI/KoGPT2 91 | - 2020/05 92 | - **GPT-3** (OpenAI) 93 | - 특징 94 | - GPT-2의 100배 크기를 가진 초거대모델 95 | - 모델크기 96 | - 175B 97 | - 관련문서 98 | - [How GPT3 Works](https://chloamme.github.io/2021/12/18/how-gpt3-works-visualizations-animations-korean.html) 99 | - [GPT-3 데모 사이트](https://gpt3demo.com/) 100 | - [GPT-3 패러다임을 바꿀 미친 성능의 인공지능 등장 및 활용 사례 10가지](https://www.youtube.com/watch?v=I7sZVrwM6_Q) 101 | - **BlenderBot** (메타) 102 | - 특징 103 | - 일상대화 모델 104 | - 모델크기 105 | - 9.4B 106 | - 관련문서 107 | - [페이스북의 일상대화 딥러닝 모델 - Blender](http://aidev.co.kr/chatbotdeeplearning/9114) 108 | - 2020/07 109 | - **KcBERT** (이준범) 110 | - 특징 111 | - 구어체에 특화된 한국어 BERT 112 | - 모델크기 113 | - Base 108M / Large 334M 114 | - 관련문서 115 | - https://github.com/Beomi/KcBERT 116 | - 2020/12 117 | - **KoBART** (SKT) 118 | - 특징 119 | - 한국어 BART 120 | - 모델크기 121 | - 124M 122 | - 관련문서 123 | - https://github.com/SKT-AI/KoBART 124 | - 2021/01 125 | - **DALL·E** (OpenAI) 126 | - 특징 127 | - Text-to-Image 모델 128 | - 모델크기 129 | - 12B 130 | - 관련문서 131 | - [DALL·E: Creating Images from Text](https://openai.com/blog/dall-e/) 132 | - **CLIP** (OpenAI) 133 | - 특징 134 | - 이미지와 텍스트 임베딩이 유사하도록 만드는 모델 135 | - 모델크기 136 | - 미확인 137 | - 관련문서 138 | - [OpenAI의 이미지인식 모델 CLIP](http://aidev.co.kr/deeplearning/10254) 139 | - 2021/04 140 | - **KoELECTRA** (이준범) 141 | - 특징 142 | - 구어체에 특화된 한국어 ELECTRA 143 | - 모델크기 144 | - 124M 145 | - 관련문서 146 | - https://github.com/Beomi/KcELECTRA 147 | - 2021/05 148 | - **LaMDA** (구글) 149 | - 특징 150 | - 대화 전용 초거대모델 151 | - 모델크기 152 | - 137B 153 | - 관련문서 154 | - [LaMDA: our breakthrough conversation technology](https://blog.google/technology/ai/lamda/) 155 | - [구글의 대화기반 초거대모델 LaMDA, 논문 공개](http://aidev.co.kr/chatbotdeeplearning/11129) 156 | - **하이퍼클로바** (네이버) 157 | - 특징 158 | - 한국어 초거대모델 159 | - 모델크기 160 | - 204B 161 | - 관련문서 162 | - [하이퍼클로바 활용예 및 사용가이드](http://aidev.co.kr/chatbotdeeplearning/11213) 163 | - 2021/07 164 | - **BlenderBot 2.0** (메타) 165 | - 특징 166 | - 검색 및 기억 능력이 추가된 일상대화 모델 167 | - 모델크기 168 | - 미확인 169 | - 관련문서 170 | - [인터넷 검색을 하고 장기기억을 저장하는 페이스북의 챗봇 - Blenderbot2.0](http://aidev.co.kr/chatbotdeeplearning/10629) 171 | - 2021/09 172 | - **TUNiB-Electra** (튜닙) 173 | - 특징 174 | - 한국어 ELECTRA 175 | - 모델크기 176 | - Small 14M / Base 110M 177 | - 관련문서 178 | - https://github.com/tunib-ai/tunib-electra 179 | - 2021/10 180 | - **KLUE-BERT** (KLUE) 181 | - 특징 182 | - 한국어 BERT 183 | - 모델크기 184 | - 110M 185 | - 관련문서 186 | - https://github.com/KLUE-benchmark/KLUE 187 | - **KLUE-RoBERTa** (KLUE) 188 | - 특징 189 | - 한국어 RoBERTa 190 | - 모델크기 191 | - Base 125M / Large 355M 192 | - 관련문서 193 | - https://github.com/KLUE-benchmark/KLUE 194 | - 2021/11 195 | - **KoGPT** (카카오) 196 | - 특징 197 | - 한국어 GPT 198 | - 모델크기 199 | - 6B 200 | - 관련문서 201 | - https://github.com/kakaobrain/kogpt 202 | - 2021/12 203 | - **minDALL-E** (카카오) 204 | - 특징 205 | - Text-to-Image 모델 206 | - 모델크기 207 | - 1.3B 208 | - 관련문서 209 | - https://github.com/kakaobrain/minDALL-E 210 | - **엑사원** (LG) 211 | - 특징 212 | - 텍스트와 이미지를 동시에 처리하는 한국어 초거대모델 213 | - 모델크기 214 | - 300B 215 | - 관련문서 216 | - [LG 초거대 AI '엑사원' 등장...언어와 이미지, 한국어와 영어 같이 다뤄](http://www.aitimes.com/news/articleView.html?idxno=141958) 217 | - **Gopher** (딥마인드) 218 | - 특징 219 | - GPT-3보다 큰 초거대모델 220 | - 모델크기 221 | - 280B 222 | - 관련문서 223 | - [Language modelling at scale: Gopher, ethical considerations, and retrieval](https://www.deepmind.com/blog/language-modelling-at-scale-gopher-ethical-considerations-and-retrieval) 224 | - **RETRO** (딥마인드) 225 | - 특징 226 | - 상대적으로 작은 파라미터를 가지고 있지만 외부 검색으로 성능을 높인 모델 227 | - 모델크기 228 | - 7.5B 229 | - 관련문서 230 | - [Improving language models by retrieving from trillions of tokens](https://www.deepmind.com/publications/improving-language-models-by-retrieving-from-trillions-of-tokens) 231 | - 2022/01 232 | - **InstructGPT** (OpenAI) 233 | - 특징 234 | - GPT-3의 업그레이드 버전 235 | - 모델크기 236 | - 175B 237 | - 관련문서 238 | - [Aligning Language Models to Follow Instructions](https://openai.com/blog/instruction-following/) 239 | - [GPT3는 어떻게 강화학습으로 강해졌는가](https://jiho-ml.com/weekly-nlp-53/) 240 | - 2022/02 241 | - **AlphaCode** (딥마인드) 242 | - 특징 243 | - 설명이 주어지면 코드를 작성하는 모델 244 | - 모델크기 245 | - 41B 246 | - 관련문서 247 | - [프로그램을 작성하는 딥마인드의 알파코드](http://aidev.co.kr/chatbotdeeplearning/11111) 248 | - 2022/04 249 | - **DALL·E 2** (OpenAI) 250 | - 특징 251 | - CLIP과 Diffusion을 사용한 Text-to-Image 모델 252 | - 모델크기 253 | - 미확인 254 | - 관련문서 255 | - [DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language](https://openai.com/dall-e-2/) 256 | - **Chinchilla** (딥마인드) 257 | - 특징 258 | - 작은 파라미터를 가지고 있지만 280B의 Gopher보다 뛰어난 성능을 보임 259 | - 모델크기 260 | - 70B 261 | - 관련문서 262 | - [An empirical analysis of compute-optimal large language model training](https://www.deepmind.com/publications/an-empirical-analysis-of-compute-optimal-large-language-model-training) 263 | - **Flamingo** (딥마인드) 264 | - 특징 265 | - 텍스트, 이미지, 영상을 처리할 수 있는 멀티모달 모델 266 | - 모델크기 267 | - 80B 268 | - 관련문서 269 | - [글자, 사진, 영상을 동시에 처리하는 딥마인드의 딥러닝 모델 - Flamingo](http://aidev.co.kr/chatbotdeeplearning/11347) 270 | - **PaLM** (구글) 271 | - 특징 272 | - GPT-3의 3배인 540B의 초거대모델 273 | - 모델크기 274 | - 540B 275 | - 관련문서 276 | - [Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance](https://ai.googleblog.com/2022/04/pathways-language-model-palm-scaling-to.html) 277 | - 2022/05 278 | - **Imagen** (구글) 279 | - 특징 280 | - Diffusion을 사용한 Text-to-Image 모델 281 | - 모델크기 282 | - 미확인 283 | - 관련문서 284 | - [Imagen: Unprecedented photorealism × deep level of language understanding](https://imagen.research.google/) 285 | - **Gato** (딥마인드) 286 | - 특징 287 | - 텍스트, 이미지, 영상, 게임, 로봇 등 다양한 작업을 하나의 모델로 수행 288 | - 모델크기 289 | - 1.18B 290 | - 관련문서 291 | - [A Generalist Agent](https://www.deepmind.com/publications/a-generalist-agent) 292 | - **Parti** (구글) 293 | - 특징 294 | - Encoder-Decoder 구조의 Text-to-Image 모델 295 | - 모델크기 296 | - 20B 297 | - 관련문서 298 | - [Parti: Pathways Autoregressive Text-to-Image model](https://parti.research.google/) 299 | - **에이닷** (SKT) 300 | - 특징 301 | - 일상대화가 가능한 개인비서 앱 302 | - 모델크기 303 | - 미확인 304 | - 관련문서 305 | - [SKT의 개인비서 인공지능 - 에이닷](http://aidev.co.kr/chatbots/11426) 306 | - **CogVideo** (칭화대) 307 | - 특징 308 | - 4초 32프레임의 영상을 만드는 Text-to-Video 모델 309 | - 모델크기 310 | - 9B 311 | - 관련문서 312 | - https://github.com/THUDM/CogVideo 313 | 314 | 315 | ## 참고 자료 316 | - 한국어 사전학습 모델 목록 317 | - https://github.com/sooftware/Korean-PLM 318 | -------------------------------------------------------------------------------- /최신 자연어처리 모델 소개.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/deepseasw/nlp_model_list/60a77c2d70031492618c1618aab14da3d92660a2/최신 자연어처리 모델 소개.pdf --------------------------------------------------------------------------------