├── result.md ├── README.zh.md └── README.md /result.md: -------------------------------------------------------------------------------- 1 | 344 | 345 | ## 单选 346 | | 模型 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 347 | |------|---|---|---|---|---|---|---|---| 348 | | 4o | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌❌ | ✅✅✅ | ✅✅✅ | ❌✅❌ | ✅❌❌ | 349 | | 4omini | ✅✅✅ | ✅❌✅ | ✅✅✅ | ❌✅✅ | ✅✅✅ | ✅❌✅ | ✅✅✅ | ❌❌❌ | 350 | | sonnet | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌❌ | ✅✅✅ | ✅❌✅ | ✅✅✅ | ❌❌❌ | 351 | | sonnet + so1 | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅❌ | ✅✅✅ | ❌❌✅ | 352 | | sonnet + g1 | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌✅ | ✅✅⚠️ | ⚠️✅❌ | ✅✅✅ | ❌✅❌ | 353 | | o1 mini | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌❌ | ✅✅✅ | ✅✅✅ | 354 | | o1 preview | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅❌ | ✅✅✅ | ✅✅✅ | 355 | 356 | ## 多选 357 | | 模型 | 9 | 10 | 11 | 358 | |------|---|----|----| 359 | | 4o | ✅✅✅ | 👍👍❌ | ❌❌👍 | 360 | | 4omini | ✅✅✅ | ❌👍👍 | ❌❌👍 | 361 | | sonnet | ✅✅✅ | 👍👍❌ | 👍✅👍 | 362 | | sonnet + so1 | ✅✅✅ | ❌❌👍 | 👍👍👍 | 363 | | sonnet + g1 | ✅❌⚠️ | ⚠️❌✅ | ⚠️❌👍 | 364 | | o1 mini | ✅✅✅ | ✅✅✅ | ❌✅✅ | 365 | | o1 preview | ✅✅✅ | ✅✅✅ | ❌❌❌ | 366 | 367 | 368 | 372 | 373 | 374 | -------------------------------------------------------------------------------- /README.zh.md: -------------------------------------------------------------------------------- 1 | # so1 2 | 3 | [English](README.md) | [简体中文](README.zh.md) 4 | 5 | 让 claude 3.5 sonnet 生成 o1 一样的思维链! 6 | 7 | 😎 100% 解决 "9.9,9.11" 和 80% 解决 "strawberry" 问题: 8 | 9 | ![demo](https://github.com/user-attachments/assets/98cc7914-5491-4cdb-84f0-618b9200792f) 10 | 11 | 12 | ## 🧙‍♀️ prompt: 13 | 14 | ```python 15 | # 作者: Huanshere 16 | # 版本: 0.2 17 | # 语言: zh-CN 18 | # 模型: Claude 3.5 Sonnet 19 | # 用途: 逐步解释推理过程,输出为 Markdown 格式 20 | 21 | def 分析助理(): 22 | """你是一个擅长逐步解释推理过程的AI助手""" 23 | return { 24 | "风格": ["理性", "细致", "批判性思维", "反思检验"], 25 | "擅长": "多步骤推理", 26 | "输出格式": "Markdown" 27 | } 28 | 29 | class 推理助手(输入): 30 | def __init__(self, 输入): 31 | self.状态 = "理解分析问题" # 初始化第1步 32 | self.输入 = 输入 33 | 34 | def 逐步推理(self): 35 | 36 | def 标题(状态, 输入): 37 | """根据当前状态和输入生成这一步你需要推理的主题""" 38 | return 标题 39 | 40 | def 推理(状态, 输入): 41 | """**进行认真细致的推理,注意你作为llm的局限性以及你能做什么和不能做什么。使用至少 3 种不同的方法推理。当你说你在检验的时候,实际执行检验过程。使用最佳实践。包含对替代答案的探索,仔细检查你可能出错的情况,以及如果推理错误,错误可能出现在哪里。充分探索所有可能的答案。至少进行 5 步推理, 越多详细的推理步骤越好。**""" 42 | return 推理过程 43 | 44 | def 决定下一步(状态, 输入, 当前步骤): 45 | """根据状态、输入和当前步骤动态决定下一步是继续推理还是得出结论""" 46 | if 是否可以得出结论(状态, 输入): 47 | return "结论" 48 | else: 49 | return "继续" 50 | 51 | 当前步骤 = 0 52 | 53 | md_output = "# 推理链\n" 54 | while self.状态 != "结论": 55 | 当前步骤 += 1 56 | next_action = 决定下一步(self.状态, self.输入, 当前步骤) 57 | 58 | md_output += f"## 步骤{当前步骤}: {self.状态}\n" 59 | md_output += f"- **推理**: {推理(self.状态, self.输入)}\n" 60 | if next_action != "结论": 61 | md_output += f"- **下一步**: {next_action}\n\n" 62 | 63 | self.状态 = next_action 64 | 65 | return md_output 66 | 67 | def start(): 68 | """启动时运行""" 69 | system_role = 分析助理() 70 | print("遇到什么问题了?") 71 | 输入 = input() 72 | 助手 = 推理助手(输入) 73 | 结果 = 助手.逐步推理() 74 | 75 | print(结果) 76 | 77 | 78 | if __name__ == "__main__": 79 | start() 80 | 81 | # 请按照规则运行,直接执行 main,print("遇到什么问题了?"), 不要尝试解释代码。 82 | ``` 83 | 84 | Prompt参考:[g1](https://github.com/bklieger-groq/g1) 85 | 86 | 87 | 88 | ## 🧮 高考数学大测试! 89 | 90 | ### 测试方法 91 | 使用 FastGPT 低代码工作流快速搭建,使用高考数学2024新I卷选择题,对所有选择的llm每题都独立询问3次,汇总结果。结果仅供参考,不具备严格的统计学意义。 92 | 93 | 模型名字中 + 后面表示prompt,其余为无prompt api。✅❌表示正误,⚠️表示没有给出结果,👍表示多选题只选择了部分选项。第二列开始为题号。 94 | 95 | ### 测试结果 96 | #### 总分 🏆 97 | | 模型 | 单选得分 | 多选得分 | 总分 | 百分比 | 98 | |------|----------|----------|------|--------| 99 | | 4o | 30 | 9 | 39 | 67% | 100 | | 4omini | 30 | 9 | 39 | 67% | 101 | | sonnet | 30 | 12 | 42 | 72% | 102 | | **sonnet + so1** | 35 | 10 | 45 | **77%🥉** | 103 | | sonnet + g1 * | 30 | 5 | 35 | 60% | 104 | | **o1 mini** | 37 | 16 | 53 | **91%🥇** | 105 | | **o1 preview** | 38 | 12 | 50 | **86%🥈**| 106 | 107 | > 注意:sonnet+g1 容易在回答时只给出第一步推理就停止,标为⚠️,在记分时简单算作错误,实际性能近似于so1. 108 | 109 | #### 每一题的结果 单选 110 | | 模型 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 111 | |------|---|---|---|---|---|---|---|---| 112 | | 4o | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌❌ | ✅✅✅ | ✅✅✅ | ❌✅❌ | ✅❌❌ | 113 | | 4omini | ✅✅✅ | ✅❌✅ | ✅✅✅ | ❌✅✅ | ✅✅✅ | ✅❌✅ | ✅✅✅ | ❌❌❌ | 114 | | sonnet | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌❌ | ✅✅✅ | ✅❌✅ | ✅✅✅ | ❌❌❌ | 115 | | **sonnet + so1** | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅❌ | ✅✅✅ | ❌❌✅ | 116 | | sonnet + g1 | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌✅ | ✅✅⚠️ | ⚠️✅❌ | ✅✅✅ | ❌✅❌ | 117 | | o1 mini | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌❌ | ✅✅✅ | ✅✅✅ | 118 | | o1 preview | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅❌ | ✅✅✅ | ✅✅✅ | 119 | 120 | #### 每一题的结果 多选 121 | | 模型 | 9 | 10 | 11 | 122 | |------|---|----|----| 123 | | 4o | ✅✅✅ | 👍👍❌ | ❌❌👍 | 124 | | 4omini | ✅✅✅ | ❌👍👍 | ❌❌👍 | 125 | | sonnet | ✅✅✅ | 👍👍❌ | 👍✅👍 | 126 | | **sonnet + so1** | ✅✅✅ | ❌❌👍 | 👍👍👍 | 127 | | sonnet + g1 | ✅❌⚠️ | ⚠️❌✅ | ⚠️❌👍 | 128 | | o1 mini | ✅✅✅ | ✅✅✅ | ❌✅✅ | 129 | | o1 preview | ✅✅✅ | ✅✅✅ | ❌❌❌ | 130 | 131 | ## 总结与思考: 132 | 133 | 1. 模型性能排序:o1 >> sonnet + so1 ~ sonnet + g1 ~>sonnet > 4o >> 4omini 134 | 135 | 2. sonnet + g1 存在稳定性问题,偶尔会在生成单一思路后停止,相比之下 so1 能稳定生成逻辑链,说明伪代码的prompt框架对于生成逻辑链有积极作用。 136 | 137 | 3. o1 模型可能已将2024年高考内容纳入训练集?mini的表现竟然比preview还好。。。 138 | 139 | 4. sonnet + so1 的响应速度快于 o1,但 o1 的答案质量更高。 140 | 这可能意味着 o1 采用了更复杂、深入的推理过程。 141 | 142 | 5. sonnet 有时优于 sonnet + so1,表明 sonnet 本身可能已在链式思考(CoT)合成数据上进行了训练。 143 | 若 sonnet 采用与 o1 类似的最新数据进行训练,其性能有望超越 o1。 144 | 145 | 6. 多选题的评分机制(部分正确得部分分,过度选择不得分)凸显了 so1 反思机制的优势, 146 | 能有效权衡多个选项,提高得分率。 147 | 148 | ### 测试集 149 | 高考数学新I卷选择题: 150 | ``` 151 | 1、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 152 | 已知集合 $A = {x \mid -5 < x^3 < 5}$,$B = {-3, -1, 0, 2, 3}$,则 $A \cap B =$ ( ) 153 | 154 | A. ${-1, 0}$ 155 | B. ${2, 3}$ 156 | C. ${-3, -1, 0}$ 157 | D. ${-1, 0, 2}$ 158 | 159 | ==========A========== 160 | 161 | 2、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 162 | 若 $\frac{z}{z - 1} = 1 + i$,则 $z =$ ( ) 163 | 164 | A. $-1 - i$ 165 | B. $-1 + i$ 166 | C. $1 - i$ 167 | D. $1 + i$ 168 | 169 | ==========C========== 170 | 171 | 3、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 172 | 已知向量 $a = (0, 1)$,$b = (2, x)$,若 $b \perp (b - 4a)$,则 $x =$ ( ) 173 | 174 | A. $-2$ 175 | B. $-1$ 176 | C. $1$ 177 | D. $2$ 178 | 179 | ==========D========== 180 | 181 | 4、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 182 | 已知 $\cos(\alpha + \beta) = m$,$\tan \alpha \tan \beta = 2$,则 $\cos(\alpha - \beta) =$ ( ) 183 | 184 | A. $-3m$ 185 | B. $-\frac{m}{3}$ 186 | C. $\frac{m}{3}$ 187 | D. $3m$ 188 | 189 | ==========A========== 190 | 191 | 5、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 192 | 已知圆柱和圆锥的底面半径相等,侧面积相等,且它们的高均为 $\sqrt{3}$,则圆锥的体积为 ( ) 193 | 194 | A. $2\sqrt{3}\pi$ 195 | B. $3\sqrt{3}\pi$ 196 | C. $6\sqrt{3}\pi$ 197 | D. $9\sqrt{3}\pi$ 198 | 199 | ==========B========== 200 | 201 | 6、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 202 | 已知函数 \( f(x) \) 定义如下: 203 | $$ 204 | f(x) = 205 | \begin{cases} 206 | e^{-x} + \ln(x + 1), & \text{if } x \geq 0 \\ 207 | -x^2 - 2ax - a, & \text{if } x < 0 208 | \end{cases} 209 | $$ 210 | 如果函数在实数集 \( \mathbb{R} \) 上单调递增,则 \( a \) 的取值范围是: 211 | A. $(-\infty, 0]$ 212 | B. $[-1, 0]$ 213 | C. $[-1, 1]$ 214 | D. $[0, +\infty)$ 215 | 216 | ==========B========== 217 | 218 | 7、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 219 | 当 $x \in [0, 2\pi]$ 时,曲线 $y = \sin x$ 与 $y = 2\sin(3x - \frac{\pi}{6})$ 的交点个数为 ( ) 220 | 221 | A. $3$ 222 | B. $4$ 223 | C. $6$ 224 | D. $8$ 225 | 226 | ==========C========== 227 | 228 | 8、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 229 | 已知函数 $f(x)$ 的定义域为 $\mathbb{R}$,$f(x) > f(x - 1) + f(x - 2)$,且当 $x < 3$ 时,$f(x) = x$,则下列结论中一定正确的是 230 | 231 | A. $f(10) > 100$ 232 | B. $f(20) > 1000$ 233 | C. $f(10) < 1000$ 234 | D. $f(20) < 10000$ 235 | 236 | ==========B========== 237 | 238 | 9、请完成下面一道选择题,在每小题给出的选项中,有一项或多项符合题目要求,请选出所有你认为正确的选项。 239 | 为了解推动出口后的亩收入(单位:万元)情况,从该种植区抽取样本,得到推动出口后亩收入的样本均值 $\overline{x} = 2.1$,样本方差 $S^2 = 0.01$,已知该种植区以往的亩收入 $x$ 服从正态分布 $N(1.8, 0.1^2)$,假设推动出口后的亩收入 $Y$ 服从正态分布 $N(\overline{x}, S^2)$,则(若随机变量 $Z$ 服从正态分布 $N(u, \alpha^2)$,则 $P(Z < u + \alpha) \approx 0.8413$): 240 | 241 | A. $P(x > 2) > 0.2$ 242 | B. $P(x > 2) < 0.5$ 243 | C. $P(Y > 2) > 0.5$ 244 | D. $P(Y > 2) < 0.8$ 245 | 246 | ==========BC========== 247 | 248 | 10、请完成下面一道选择题,在每小题给出的选项中,有一项或多项符合题目要求,请选出所有你认为正确的选项。 249 | 设函数 $f(x) = (x-1)^2(x-4)$,则: 250 | 251 | A. $x = 3$ 是 $f(x)$ 的极小值点 252 | B. 当 $0 < x < 1$ 时 $f(x) < f(x^2)$ 253 | C. 当 $1 < x < 2$ 时,$-4 < f(2x-1) < 0$ 254 | D. 当 $-1 < x < 0$ 时,$f(2-x) > f(x)$ 255 | 256 | ==========ACD========== 257 | 258 | 11、请完成下面一道选择题,在每小题给出的选项中,有一项或多项符合题目要求,请选出所有你认为正确的选项。 259 | 某造型可以看作图中的曲线 $C$ 的一部分。已知 $C$ 过坐标原点 $O$,且 $C$ 上的点满足横坐标大于 $-2$,到点 $F(2,0)$ 的距离与到定直线 $x = a$ ($a < 0$) 的距离之积为 $4$,则: 260 | A. $a = -2$ 261 | B. 点 $(2\sqrt{2}, 0)$ 在 $C$ 上 262 | C. $C$ 在第一象限的点的纵坐标的最大值为 $1$ 263 | D. 当点 $(x_0, y_0)$ 在 $C$ 上时,$y_0 \leq \frac{4}{(x_0 + 2)}$ 264 | 265 | ==========ABD========== 266 | ``` -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # so1 2 | 3 | [English](README.md) | [简体中文](README.zh.md) 4 | 5 | Make Claude 3.5 Sonnet generate thought chains like o1! 6 | 7 | 😎 100% solves the "9.9,9.11" and 80% for "strawberry" problems: 8 | 9 | ![demo](https://github.com/user-attachments/assets/043ef6b1-11bf-4512-8297-3127aa7b7734) 10 | 11 | 12 | 🧙‍♀️ prompt: 13 | 14 | ```python 15 | # Author: Huanshere 16 | # Version: 0.2 17 | # Language: en-US 18 | # Model: Claude 3.5 Sonnet 19 | # Purpose: Step-by-step explanation of reasoning process, output in Markdown format 20 | 21 | def analysis_assistant(): 22 | """You are an AI assistant skilled at explaining reasoning processes step by step""" 23 | return { 24 | "style": ["rational", "detailed", "critical thinking", "reflective examination"], 25 | "expertise": "multi-step reasoning", 26 | "output_format": "Markdown" 27 | } 28 | 29 | class ReasoningAssistant(input): 30 | def __init__(self, input): 31 | self.state = "understand and analyze the problem" # Initialize step 1 32 | self.input = input 33 | 34 | def step_by_step_reasoning(self): 35 | 36 | def title(state, input): 37 | """Generate the topic you need to reason about for this step based on the current state and input""" 38 | return title 39 | 40 | def reasoning(state, input): 41 | """**Conduct careful and detailed reasoning, noting your limitations as an LLM and what you can and cannot do. Use at least 3 different methods to reason. When you say you are examining, actually execute the examination process. Use best practices. Include exploration of alternative answers, carefully check where you might be wrong, and where errors might occur if the reasoning is incorrect. Fully explore all possible answers. Perform at least 5 steps of reasoning, the more detailed reasoning steps the better.**""" 42 | return reasoning_process 43 | 44 | def decide_next_step(state, input, current_step): 45 | """Dynamically decide the next step based on the state, input, and current step""" 46 | if can_conclude(state, input): 47 | return "conclusion" 48 | else: 49 | return "continue" 50 | 51 | current_step = 0 52 | 53 | md_output = "# Reasoning Chain\n" 54 | while self.state != "conclusion": 55 | current_step += 1 56 | next_action = decide_next_step(self.state, self.input, current_step) 57 | 58 | md_output += f"## Step {current_step}: {self.state}\n" 59 | md_output += f"- **Reasoning**: {reasoning(self.state, self.input)}\n" 60 | if next_action != "conclusion": 61 | md_output += f"- **Next Step**: {next_action}\n\n" 62 | 63 | self.state = next_action 64 | 65 | return md_output 66 | 67 | def start(): 68 | """Run at startup""" 69 | system_role = analysis_assistant() 70 | print("What's the problem?") 71 | input = input() 72 | assistant = ReasoningAssistant(input) 73 | result = assistant.step_by_step_reasoning() 74 | 75 | print(result) 76 | 77 | 78 | if __name__ == "__main__": 79 | start() 80 | 81 | # Please run according to the rules, directly execute main, print("What's the problem?"), do not attempt to explain the code. 82 | ``` 83 | 84 | Prompt Reference: [g1](https://github.com/bklieger-groq/g1) 85 | 86 | ## 🧮 Gaokao 2024 Math Test! 87 | 88 | ### Testing Method 89 | Using FastGPT low-code workflow for quick setup, we used Gaokao Math 2024 New I paper multiple-choice questions as the test questions. Each question was independently asked 3 times to all selected LLMs, and the results were summarized. The results are for reference only and do not have strict statistical significance. 90 | 91 | In the model names, the "+" after indicates a prompt, while the rest are unprompted APIs. ✅❌ indicates correctness or incorrectness, ⚠️ indicates no result was given, and the columns from the second one onwards represent question numbers. 👍 indicates partial credit for partially correct answers. 92 | 93 | ### Test Results 94 | #### Total Score 🏆 95 | | Model | Single-choice Score | Multiple-choice Score | Total Score | Percentage | 96 | |-------|---------------------|------------------------|-------------|------------| 97 | | 4o | 30 | 9 | 39 | 67% | 98 | | 4omini | 30 | 9 | 39 | 67% | 99 | | sonnet | 30 | 12 | 42 | 72% | 100 | | **sonnet + so1** | 35 | 10 | 45 | **77%🥉** | 101 | | sonnet + g1 * | 30 | 5 | 35 | 60% | 102 | | **o1 mini** | 37 | 16 | 53 | **91%🥇** | 103 | | **o1 preview** | 38 | 12 | 50 | **86%🥈**| 104 | 105 | > Note: sonnet+g1 tends to stop after giving only the first step of reasoning, marked as ⚠️. In scoring, it is simply counted as incorrect, but its actual performance is similar to so1. 106 | 107 | #### Single-choice Questions 108 | | Model | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 109 | |------|---|---|---|---|---|---|---|---| 110 | | 4o | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌❌ | ✅✅✅ | ✅✅✅ | ❌✅❌ | ✅❌❌ | 111 | | 4omini | ✅✅✅ | ✅❌✅ | ✅✅✅ | ❌✅✅ | ✅✅✅ | ✅❌✅ | ✅✅✅ | ❌❌❌ | 112 | | sonnet | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌❌ | ✅✅✅ | ✅❌✅ | ✅✅✅ | ❌❌❌ | 113 | | **sonnet + so1** | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅❌ | ✅✅✅ | ❌❌✅ | 114 | | sonnet + g1 | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌✅ | ✅✅⚠️ | ⚠️✅❌ | ✅✅✅ | ❌✅❌ | 115 | | o1 mini | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅❌❌ | ✅✅✅ | ✅✅✅ | 116 | | o1 preview | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅✅ | ✅✅❌ | ✅✅✅ | ✅✅✅ | 117 | 118 | #### Multiple-choice Questions 119 | | Model | 9 | 10 | 11 | 120 | |------|---|----|----| 121 | | 4o | ✅✅✅ | 👍👍❌ | ❌❌👍 | 122 | | 4omini | ✅✅✅ | ❌👍👍 | ❌❌👍 | 123 | | sonnet | ✅✅✅ | 👍👍❌ | 👍✅👍 | 124 | | **sonnet + so1** | ✅✅✅ | ❌❌👍 | 👍👍👍 | 125 | | sonnet + g1 | ✅❌⚠️ | ⚠️❌✅ | ⚠️❌👍 | 126 | | o1 mini | ✅✅✅ | ✅✅✅ | ❌✅✅ | 127 | | o1 preview | ✅✅✅ | ✅✅✅ | ❌❌❌ | 128 | 129 | ## Summary and Reflections: 130 | 131 | 1. Model performance ranking: o1 >> sonnet + so1 ~ sonnet + g1 ~> sonnet > 4o >> 4omini 132 | 133 | 2. sonnet + g1 has stability issues, occasionally stopping after generating a single line of thought. In comparison, so1 can consistently generate logical chains, indicating that the pseudo-code prompt framework has a positive effect on generating logical chains. 134 | 135 | 3. The o1 model may have already included 2024 Gaokao content in its training set? Surprisingly, mini's performance is even better than preview... 136 | 137 | 4. sonnet + so1 responds faster than o1, but o1 provides higher quality answers. 138 | This might suggest that o1 employs a more complex and in-depth reasoning process. 139 | 140 | 5. sonnet sometimes outperforms sonnet + so1, indicating that sonnet itself may have already been trained on Chain of Thought (CoT) synthetic data. 141 | If sonnet were to be trained using the latest data similar to o1, its performance could potentially surpass o1. 142 | 143 | 6. The scoring mechanism for multiple-choice questions (partial credit for partially correct answers, no credit for over-selection) highlights the advantage of so1's reflection mechanism, 144 | which can effectively balance multiple options and improve the scoring rate. 145 | 146 | ### Gaokao Test Set 147 | New I paper multiple-choice questions: 148 | ``` 149 | 1、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 150 | 已知集合 $A = {x \mid -5 < x^3 < 5}$,$B = {-3, -1, 0, 2, 3}$,则 $A \cap B =$ ( ) 151 | 152 | A. ${-1, 0}$ 153 | B. ${2, 3}$ 154 | C. ${-3, -1, 0}$ 155 | D. ${-1, 0, 2}$ 156 | 157 | ==========A========== 158 | 159 | 2、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 160 | 若 $\frac{z}{z - 1} = 1 + i$,则 $z =$ ( ) 161 | 162 | A. $-1 - i$ 163 | B. $-1 + i$ 164 | C. $1 - i$ 165 | D. $1 + i$ 166 | 167 | ==========C========== 168 | 169 | 3、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 170 | 已知向量 $a = (0, 1)$,$b = (2, x)$,若 $b \perp (b - 4a)$,则 $x =$ ( ) 171 | 172 | A. $-2$ 173 | B. $-1$ 174 | C. $1$ 175 | D. $2$ 176 | 177 | ==========D========== 178 | 179 | 4、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 180 | 已知 $\cos(\alpha + \beta) = m$,$\tan \alpha \tan \beta = 2$,则 $\cos(\alpha - \beta) =$ ( ) 181 | 182 | A. $-3m$ 183 | B. $-\frac{m}{3}$ 184 | C. $\frac{m}{3}$ 185 | D. $3m$ 186 | 187 | ==========A========== 188 | 189 | 5、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 190 | 已知圆柱和圆锥的底面半径相等,侧面积相等,且它们的高均为 $\sqrt{3}$,则圆锥的体积为 ( ) 191 | 192 | A. $2\sqrt{3}\pi$ 193 | B. $3\sqrt{3}\pi$ 194 | C. $6\sqrt{3}\pi$ 195 | D. $9\sqrt{3}\pi$ 196 | 197 | ==========B========== 198 | 199 | 6、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 200 | 已知函数 \( f(x) \) 定义如下: 201 | $$ 202 | f(x) = 203 | \begin{cases} 204 | e^{-x} + \ln(x + 1), & \text{if } x \geq 0 \\ 205 | -x^2 - 2ax - a, & \text{if } x < 0 206 | \end{cases} 207 | $$ 208 | 如果函数在实数集 \( \mathbb{R} \) 上单调递增,则 \( a \) 的取值范围是: 209 | A. $(-\infty, 0]$ 210 | B. $[-1, 0]$ 211 | C. $[-1, 1]$ 212 | D. $[0, +\infty)$ 213 | 214 | ==========B========== 215 | 216 | 7、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 217 | 当 $x \in [0, 2\pi]$ 时,曲线 $y = \sin x$ 与 $y = 2\sin(3x - \frac{\pi}{6})$ 的交点个数为 ( ) 218 | 219 | A. $3$ 220 | B. $4$ 221 | C. $6$ 222 | D. $8$ 223 | 224 | ==========C========== 225 | 226 | 8、请完成下面一道选择题,每个小题四个选项中,只有一项是符合题目要求的。 227 | 已知函数 $f(x)$ 的定义域为 $\mathbb{R}$,$f(x) > f(x - 1) + f(x - 2)$,且当 $x < 3$ 时,$f(x) = x$,则下列结论中一定正确的是 228 | 229 | A. $f(10) > 100$ 230 | B. $f(20) > 1000$ 231 | C. $f(10) < 1000$ 232 | D. $f(20) < 10000$ 233 | 234 | ==========B========== 235 | 236 | 9、请完成下面一道选择题,在每小题给出的选项中,有一项或多项符合题目要求,请选出所有你认为正确的选项。 237 | 为了解推动出口后的亩收入(单位:万元)情况,从该种植区抽取样本,得到推动出口后亩收入的样本均值 $\overline{x} = 2.1$,样本方差 $S^2 = 0.01$,已知该种植区以往的亩收入 $x$ 服从正态分布 $N(1.8, 0.1^2)$,假设推动出口后的亩收入 $Y$ 服从正态分布 $N(\overline{x}, S^2)$,则(若随机变量 $Z$ 服从正态分布 $N(u, \alpha^2)$,则 $P(Z < u + \alpha) \approx 0.8413$): 238 | 239 | A. $P(x > 2) > 0.2$ 240 | B. $P(x > 2) < 0.5$ 241 | C. $P(Y > 2) > 0.5$ 242 | D. $P(Y > 2) < 0.8$ 243 | 244 | ==========BC========== 245 | 246 | 10、请完成下面一道选择题,在每小题给出的选项中,有一项或多项符合题目要求,请选出所有你认为正确的选项。 247 | 设函数 $f(x) = (x-1)^2(x-4)$,则: 248 | 249 | A. $x = 3$ 是 $f(x)$ 的极小值点 250 | B. 当 $0 < x < 1$ 时 $f(x) < f(x^2)$ 251 | C. 当 $1 < x < 2$ 时,$-4 < f(2x-1) < 0$ 252 | D. 当 $-1 < x < 0$ 时,$f(2-x) > f(x)$ 253 | 254 | ==========ACD========== 255 | 256 | 11、请完成下面一道选择题,在每小题给出的选项中,有一项或多项符合题目要求,请选出所有你认为正确的选项。 257 | 某造型可以看作图中的曲线 $C$ 的一部分。已知 $C$ 过坐标原点 $O$,且 $C$ 上的点满足横坐标大于 $-2$,到点 $F(2,0)$ 的距离与到定直线 $x = a$ ($a < 0$) 的距离之积为 $4$,则: 258 | A. $a = -2$ 259 | B. 点 $(2\sqrt{2}, 0)$ 在 $C$ 上 260 | C. $C$ 在第一象限的点的纵坐标的最大值为 $1$ 261 | D. 当点 $(x_0, y_0)$ 在 $C$ 上时,$y_0 \leq \frac{4}{(x_0 + 2)}$ 262 | 263 | ==========ABD========== 264 | ``` --------------------------------------------------------------------------------