└── README.md /README.md: -------------------------------------------------------------------------------- 1 | # MWP_KR_DATA 2 | AI Grand Challenge 5차 대회에 활용한 한국어 서술형 수학문제 데이터셋을 공개합니다. 3 | 훈련 및 테스트에 활용한 데이터셋 중 시중 참고서에서 발췌된 데이터셋 등 일부 데이터를 제외하였습니다. 4 | 5 | - 공개 계획 6 | - [x] 자체구축 데이터 공개 7 | - [ ] 산술연산 문제가 아닌 문제들의 수식 정규화 8 | - [ ] 발췌 데이터 등 라이센스 확인 후 추가 공개 9 | 10 | ## 목차 11 | **[1. 데이터 구성](#1-데이터-구성)** 12 | **[2. 유형별 문제 예시](#2-유형별-문제-예시)** 13 | **[3. 지원](#3-지원)** 14 | **[4. 데이터셋 구축 방법](#4-데이터셋-구축-방법)** 15 | **[5. 참여자](#5-참여자)** 16 | **[6. Citation](#6-citation)** 17 | **[7. License](#7-license)** 18 | 19 | ## 1. 데이터 구성 20 | **자체제작** 데이터는 총 9,058개의 한국어 수학 문제와 답, 그리고 수식으로 구성되어 있습니다. 21 | 각 데이터는 9개의 유형로 구분되며, 유형의 종류와 유형 별 문제 수는 아래와 같습니다. 22 | 23 | 24 | 25 | | No | 유형 | 유형별 개수 | 발췌 개수 | 자체제작 개수 | 26 | |------|---------|------:|-----:|-------:| 27 | | 1 | 산술연산 | 6781 | 5305 | 1476 | 28 | | 2 | 순서정하기1* | 516 | 0 | 516 | 29 | | 3 | 순서정하기2 | 1292 | 0 | 1292 | 30 | | 4 | 조합하기 | 1487 | 1152 | 335 | 31 | | 5 | 수찾기1 | 2695 | 2651 | 44 | 32 | | 6 | 수찾기2 | 2350 | 313 | 2037 | 33 | | 7 | 수찾기3 | 1553 | 353 | 1200 | 34 | | 8 | 크기비교 | 2020 | 534 | 1486 | 35 | | 9 | 도형 | 2242 | 1570 | 672 | 36 | | - | 전체 | 20936 | 11878 | 9058 | 37 | 38 | *"순서정하기1"은 정답이 산술연산 수식으로 표현되는 경우이며, "순서정하기2"는 문제에 나오는 명칭이 정답인 경우입니다.* 39 | 40 | 41 | 42 | ## 2. 유형별 문제 예시 43 | 44 | 데이터는 JSON으로 작성하였으며, 데이터 구조 및 각 유형별 예시는 다음과 같습니다. 45 | 46 | - 데이터 구조 47 | - `class`, `question`, `answer`, `equation`은 모든 유형의 문제들이 공통적으로 사용합니다. 48 | - `option`, `option_value`, `unknown`은 유형에 따라 사용할지 정해집니다. 49 | - 특정 키를 사용하는 유형이라도 일부 문제들은 "none"값을 가집니다. 50 | ``` 51 | { 52 | 문제 번호 (타입: 문자열): { 53 | "class": "문제 유형" (타입: 문자열), 54 | "question": "문제" (타입: 문자열), 55 | "answer" : "답" (타입: 문자열), 56 | "equation": "수식" (타입: 문자열), 57 | "option": "보기" (타입: 문자열), 58 | "option_value": "보기 값을 구하는 수식" (타입:문자열), 59 | "unknown": "미지수 값을 구하는 수식/정보" (타입: 문자열) 60 | }, 61 | ... 62 | } 63 | ``` 64 | 65 | - 유형별 예시 66 | 67 | - 산술연산 68 | ``` 69 | { 70 | "class": "산술연산", 71 | "question": "수연이는 하루에 25쪽 씩 3일 동안 모두 읽은 동화책을 다시 읽으려고 합니다. 동화책의 전체 쪽수는 몇 쪽일까요?", 72 | "answer": "75", 73 | "equation": "25*3", 74 | "option": "none", 75 | "option_value": "none", 76 | "unknown": "none" 77 | } 78 | ``` 79 | 80 | - 순서정하기1 81 | ``` 82 | { 83 | "class": "순서정하기1", 84 | "question": "아이스크림을 기다리는 줄에서 원준이는 앞에서 여섯째, 뒤에서 셋째에 서있다고 합니다. 아이스크림을 기다리는 사람은 전부 몇 명일까요?", 85 | "answer": "8", 86 | "equation": "6+3-1", 87 | "option": "none", 88 | "option_value": "none", 89 | "unknown": "none" 90 | }, 91 | ``` 92 | 93 | - 순서정하기2 94 | - option : 정답 후보들에 해당하거나 equation에서 X에 해당하는 값 95 | ``` 96 | { 97 | "class": "순서정하기2", 98 | "question": "다람쥐가 도토리 주머니를 도토리가 적게 담긴 순서대로 땅속에 넣어두려 합니다. 도토리 주머니에는 도토리가 각각 10, 20, 50, 40, 30개 들어있습니다. 땅속에 두 번째로 넣어야 하는 도토리 주머니에는 도토리가 몇 개 들어있을까요?", 99 | "answer": "20", 100 | "equation": "find_min(sort(X),2)", 101 | "option": "10, 20, 50, 40, 30", 102 | "option_value": "none", 103 | "unknown": "none" 104 | } 105 | ``` 106 | 107 | - 조합하기 108 | ``` 109 | { 110 | "class": "조합하기", 111 | "question": "지혜는 주사위 3개를 던져서 윗면에 나온 세 눈의 수를 모두 사용하여 분수를 만들려고 합니다. 만들 수 있는 가장 작은 대분수를 구하세요.", 112 | "answer": "(7/6)", 113 | "equation": "min(A)", 114 | "option": "none", 115 | "option_value": "none", 116 | "unknown": "none" 117 | } 118 | ``` 119 | 120 | - 수찾기1 121 | - unknown : 미지수를 구하기 위한 정보 (리스트) 122 | ``` 123 | { 124 | "class": "수찾기1", 125 | "question": "영석이네 모둠 학생들이 한 뼘의 길이를 조사했더니, 영석이는 15.5cm, 은수는 13.7cm, 민정이는 14.3cm, 동규는 14.9cm이 나왔습니다. 영석이네 모둠 학생들의 한 뼘의 길이의 평균은 몇 cm인지 구하세요.", 126 | "answer": "14.6", 127 | "equation": "sum(X)/4", 128 | "option": "none", 129 | "option_value": "none", 130 | "unknown": "X=[15.5, 13.7, 14.3, 14.9]" 131 | } 132 | ``` 133 | 134 | - 수찾기2 135 | - unknown : 미지수를 구하기 위한 수식 136 | ``` 137 | { 138 | "class": "수찾기2", 139 | "question": "8*4A=336일때, A를 구하시오.", 140 | "answer": "2", 141 | "equation": "A", 142 | "option": "none", 143 | "option_value": "none", 144 | "unknown": "8*4A=336" 145 | } 146 | ``` 147 | 148 | - 수찾기3 149 | ``` 150 | { 151 | "class": "수찾기3", 152 | "question": "어떤 수에 3.4를 곱해야 할 것을 잘못하여 더했더니 15.2가 되었습니다. 바르게 계산한 값에 8을 곱하면 얼마인지 구하시오.", 153 | "answer": "320.96", 154 | "equation": "(15.2-3.4)*3.4*8", 155 | "option": "none", 156 | "option_value": "none", 157 | "unknown": "none" 158 | } 159 | ``` 160 | 161 | - 크기비교 162 | - option: 정답 후보들에 해당하는 값 163 | - option_value: 후보별 대입할 값 164 | ``` 165 | { 166 | "class": "크기비교", 167 | "question": "민준이의 책장에는 책이 모두 60권 있습니다. 그중 22권은 위인전이고, 26권은 동화책입니다. 나머지는 모두 시집일 때 민준이의 책장에 가장 많이 꽃혀있는 책은 무엇입니까?", 168 | "answer": "동화책", 169 | "equation": "max(위인전, 동화책, 시집)", 170 | "option": "위인전, 동화책, 시집", 171 | "option_value": "위인전=22, 동화책=26, 시집=60-22-26", 172 | "unknown": "none" 173 | } 174 | ``` 175 | 176 | - 도형 177 | ``` 178 | { 179 | "class": "도형", 180 | "question": "삼각형의 밑변이 7cm, 넓이가 21cm2일 때 높이는 몇 cm인지 구하세요.", 181 | "answer": "6", 182 | "equation": "21*2/7", 183 | "option": "none", 184 | "option_value": "none", 185 | "unknown": "none" 186 | } 187 | ``` 188 | 189 | 190 | ## 3. 지원 191 | 192 | 이 연구개발은 2022년도 과학기술정보통신부 산하 정보통신기획평가원(IITP)의 지원을 받아 수행한 연구 성과물의 일부입니다. 해당 연구과제에 대한 정보는 아래와 같습니다. 193 | 194 | - 과제번호: 2021-0-02314 195 | - 연구사업명: 인공지능산업원천기술개발 196 | - 연구과제명: 서술형 수학문제 해결을 위한 목표 기반 트리 구조 예측 자연어처리 모델 개발 197 | - 연구개발기간: 2022-01-01 ~ 2022-12-31 198 | - 주관연구기관: 주식회사 젠티 199 | - 공동연구기관: 한국원자력연구원 (인공지능응용전략실) 200 | 201 | 202 | ## 4. 데이터셋 구축 방법 203 | 저희가 공개한 한글 서술형 수학문제 데이터셋은 아래와 같이 크게 2가지의 방법으로 구축하였습니다. 204 | 205 | 1. 셀렉트스타 주식회사가 수행한 [수학문제 관련 데이터 수집 및 가공] 용역을 통해 구축된 데이터의 일부 206 | 2. 연구참여자 자체 구축한 데이터 일부 207 | 208 | 209 | ## 5. 참여자 210 | 젠티: 최은진, 허태일, 신동현, 정지영, 장경환 211 | 캐리: 유용균, 고태영, 전태현, 김민종, 임지연, 이상원 212 | 개인: 조희철, 임소영 213 | 214 | ## 6. Citation 215 | ``` 216 | @misc{MWP_KR_DATA 217 | author = { Soyoung Lim, Heecheol Cho, Taeil Hur, Jiyeon Yim, Taeyoung Ko, Tae-Hyun Chun, Eunjin Choi, Jiyoung Jeong, Yonggyun Yu, Donghyun Shin, GyeongHwan Jang, Minjong Kim, Sangwon Lee}, 218 | title = {MWP_KR_DATA, Dataset for Math Word Problems in Korean Language}, 219 | howpublished = {\url{https://github.com/jkc-ai/mwp_kr_data}}, 220 | year = {2022}, 221 | } 222 | ``` 223 | 224 | ## 7. License 225 | 226 | mwp_kr_data is licensed under the terms of the Apache License 2.0. 227 | 228 | Copyright 2022 주식회사 젠티, 한국원자력연구원, 조희철, 임소영. All Rights Reserved. 229 | --------------------------------------------------------------------------------