├── Experiments
    └── ChatGPT
    │   ├── Elemntry School Questions
    │       ├── elem_q.xlsx
    │       ├── notebooks
    │       │   └── pp.ipynb
    │       └── results
    │       │   ├── elem_q_res.csv
    │       │   └── result_elem_q_pp.csv
    │   ├── Mathematical Problems
    │       ├── dataset_stats.png
    │       ├── math_dataset.xlsx
    │       └── results
    │       │   ├── english_three.csv
    │       │   ├── persian_three.csv
    │       │   ├── persian_one.csv
    │       │   ├── english_one.csv
    │       │   ├── persian_zero.csv
    │       │   └── english_zero.csv
    │   ├── Reading Comprehension
    │       ├── multiple_choice.zip
    │       └── reading_comprehension.zip
    │   ├── Textual Entailment
    │       └── results
    │       │   └── p_fa__0shot__0_8.csv
    │   └── Openai_API.ipynb
├── .gitignore
├── Benchmark
    ├── ReadingComprehension
    │   ├── prompt.py
    │   └── sample.ipynb
    ├── Machine Translation
    │   ├── prompt.py
    │   └── sample.ipynb
    ├── MultipleChoice
    │   ├── Math
    │   │   └── prompt.py
    │   ├── Knowledge
    │   │   └── prompt.py
    │   ├── Literature
    │   │   └── prompt.py
    │   └── sample.ipynb
    ├── Sentiment
    │   ├── prompt.py
    │   └── sample.ipynb
    ├── Entailment(conjnli)
    │   ├── prompt.py
    │   └── sample.ipynb
    ├── Entailment(ParsiNLU)
    │   ├── sample.ipynb
    │   └── prompt.py
    └── Math
    │   └── prompt.py
└── README.md


/Experiments/ChatGPT/Elemntry School Questions/elem_q.xlsx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Ipouyall/Benchmarking_ChatGPT_for_Persian/HEAD/Experiments/ChatGPT/Elemntry School Questions/elem_q.xlsx


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Mathematical Problems/dataset_stats.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Ipouyall/Benchmarking_ChatGPT_for_Persian/HEAD/Experiments/ChatGPT/Mathematical Problems/dataset_stats.png


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Mathematical Problems/math_dataset.xlsx:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Ipouyall/Benchmarking_ChatGPT_for_Persian/HEAD/Experiments/ChatGPT/Mathematical Problems/math_dataset.xlsx


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Reading Comprehension/multiple_choice.zip:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Ipouyall/Benchmarking_ChatGPT_for_Persian/HEAD/Experiments/ChatGPT/Reading Comprehension/multiple_choice.zip


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Reading Comprehension/reading_comprehension.zip:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/Ipouyall/Benchmarking_ChatGPT_for_Persian/HEAD/Experiments/ChatGPT/Reading Comprehension/reading_comprehension.zip


--------------------------------------------------------------------------------
/.gitignore:
--------------------------------------------------------------------------------
  1 | .vscode/*
  2 | !.vscode/settings.json
  3 | !.vscode/tasks.json
  4 | !.vscode/launch.json
  5 | !.vscode/extensions.json
  6 | !.vscode/*.code-snippets
  7 | .history/
  8 | *.vsix
  9 | .idea/**/workspace.xml
 10 | .idea/**/tasks.xml
 11 | .idea/**/usage.statistics.xml
 12 | .idea/**/dictionaries
 13 | .idea/**/shelf
 14 | .idea/**/aws.xml
 15 | .idea/**/contentModel.xml
 16 | .idea/**/dataSources/
 17 | .idea/**/dataSources.ids
 18 | .idea/**/dataSources.local.xml
 19 | .idea/**/sqlDataSources.xml
 20 | .idea/**/dynamic.xml
 21 | .idea/**/uiDesigner.xml
 22 | .idea/**/dbnavigator.xml
 23 | .idea/**/gradle.xml
 24 | .idea/**/libraries
 25 | cmake-build-*/
 26 | .idea/**/mongoSettings.xml
 27 | *.iws
 28 | out/
 29 | .idea_modules/
 30 | atlassian-ide-plugin.xml
 31 | .idea/replstate.xml
 32 | .idea/sonarlint/
 33 | com_crashlytics_export_strings.xml
 34 | crashlytics.properties
 35 | crashlytics-build.properties
 36 | fabric.properties
 37 | .idea/httpRequests
 38 | .idea/caches/build_file_checksums.ser
 39 | *~
 40 | .fuse_hidden*
 41 | .directory
 42 | .Trash-*
 43 | .nfs*
 44 | Thumbs.db
 45 | Thumbs.db:encryptable
 46 | ehthumbs.db
 47 | ehthumbs_vista.db
 48 | *.stackdump
 49 | [Dd]esktop.ini
 50 | $RECYCLE.BIN/
 51 | *.cab
 52 | *.msi
 53 | *.msix
 54 | *.msm
 55 | *.msp
 56 | *.lnk
 57 | .ipynb_checkpoints
 58 | */.ipynb_checkpoints/*
 59 | profile_default/
 60 | ipython_config.py
 61 | .DS_Store
 62 | .AppleDouble
 63 | .LSOverride
 64 | Icon
 65 | ._*
 66 | .DocumentRevisions-V100
 67 | .fseventsd
 68 | .Spotlight-V100
 69 | .TemporaryItems
 70 | .Trashes
 71 | .VolumeIcon.icns
 72 | .com.apple.timemachine.donotpresent
 73 | .AppleDB
 74 | .AppleDesktop
 75 | Network Trash Folder
 76 | Temporary Items
 77 | .apdisk
 78 | __pycache__/
 79 | *.py[cod]
 80 | *$py.class
 81 | *.so
 82 | .Python
 83 | build/
 84 | develop-eggs/
 85 | dist/
 86 | downloads/
 87 | eggs/
 88 | .eggs/
 89 | lib/
 90 | lib64/
 91 | parts/
 92 | sdist/
 93 | var/
 94 | wheels/
 95 | share/python-wheels/
 96 | *.egg-info/
 97 | .installed.cfg
 98 | *.egg
 99 | MANIFEST
100 | *.manifest
101 | *.spec
102 | pip-log.txt
103 | pip-delete-this-directory.txt
104 | htmlcov/
105 | .tox/
106 | .nox/
107 | .coverage
108 | .coverage.*
109 | .cache
110 | nosetests.xml
111 | coverage.xml
112 | *.cover
113 | *.py,cover
114 | .hypothesis/
115 | .pytest_cache/
116 | cover/
117 | *.mo
118 | *.pot
119 | *.log
120 | local_settings.py
121 | db.sqlite3
122 | db.sqlite3-journal
123 | instance/
124 | .webassets-cache
125 | .scrapy
126 | docs/_build/
127 | .pybuilder/
128 | target/
129 | .pdm.toml
130 | __pypackages__/
131 | celerybeat-schedule
132 | celerybeat.pid
133 | *.sage.py
134 | .env
135 | .venv
136 | env/
137 | venv/
138 | ENV/
139 | env.bak/
140 | venv.bak/
141 | .spyderproject
142 | .spyproject
143 | .ropeproject
144 | /site
145 | .mypy_cache/
146 | .dmypy.json
147 | dmypy.json
148 | .pyre/
149 | .pytype/
150 | cython_debug/
151 | 


--------------------------------------------------------------------------------
/Benchmark/ReadingComprehension/prompt.py:
--------------------------------------------------------------------------------
  1 | """PROMPT POOL THAT HAS BEEN USED FOR Reading Comprehension EVALUATION"""
  2 | 
  3 | ENGLISH_ZERO = """
  4 |   In this task, you will be shown a Persian passage and question. You need to write an answer for the question. Try to keep your answers as short as possible.
  5 | 
  6 |   context:
  7 |   '''{context}'''
  8 | 
  9 |   question:
 10 |   '''{question}'''
 11 | 
 12 |   answer:
 13 |   """
 14 | 
 15 | PERSIAN_ZERO = """
 16 |   در ادامه به شما یک متن فارسی و یک سوال نشان داده می شود. شما باید برای سوال یک پاسخ بنویسید. سعی کنید پاسخ های خود را تا حد ممکن کوتاه بدهید.
 17 | 
 18 |   متن:
 19 |   '''{context}'''
 20 | 
 21 |   سوال:
 22 |   '''{question}'''
 23 | 
 24 |   جواب:
 25 |   """
 26 | 
 27 | ENGLISH_ONE = """
 28 |   In this task, you will be shown a Persian passage and question. You need to write a answer for the question. Try to keep your answers as short as possible.
 29 | 
 30 |   sample:
 31 | 
 32 |   question:
 33 |   ویتامین ای را چه موقع استفاده کنیم؟
 34 | 
 35 |   answer:
 36 |   برای رفع چین و چروک پیشانی و دیگر نشانه های پیری
 37 | 
 38 |   context:
 39 |   '''{context}'''
 40 | 
 41 |   question:
 42 |   '''{question}'''
 43 | 
 44 |   answer:
 45 |   """
 46 | 
 47 | PERSIAN_ONE = """
 48 |   در ادامه به شما یک متن فارسی و یک سوال نشان داده می شود. شما باید برای سوال یک پاسخ بنویسید. سعی کنید پاسخ های خود را تا حد ممکن کوتاه بدهید.
 49 | 
 50 |   نمونه:
 51 | 
 52 |   سوال:
 53 |   ویتامین ای را چه موقع استفاده کنیم؟
 54 | 
 55 |   جواب:
 56 |   برای رفع چین و چروک پیشانی و دیگر نشانه های پیری
 57 | 
 58 |   متن:
 59 |   '''{context}'''
 60 | 
 61 |   سوال:
 62 |   '''{question}'''
 63 | 
 64 |   جواب:
 65 |   """
 66 | 
 67 | ENGLISH_THREE = """
 68 |   In this task, you will be shown a Persian passage and question. You need to write a answer for the question. Try to keep your answers as short as possible.
 69 | 
 70 |   samples:
 71 | 
 72 |   question:
 73 |   ویتامین ای را چه موقع استفاده کنیم؟
 74 | 
 75 |   answer:
 76 |   برای رفع چین و چروک پیشانی و دیگر نشانه های پیری
 77 | 
 78 |   question:
 79 |   چرا نام برج میلاد میلاد است؟
 80 | 
 81 |   answer:
 82 |   به مناسبت یکصدمین زادروز روح‌الله خمینی بنیان‌گذار جمهوری اسلامی ایران
 83 | 
 84 |   question:
 85 |   متفقین به کدام کشور لقب پل پیروزی دادند؟
 86 | 
 87 |   answer:
 88 |   ایران
 89 | 
 90 |   context:
 91 |   '''{context}'''
 92 | 
 93 |   question:
 94 |   '''{question}'''
 95 | 
 96 |   answer:
 97 |   """
 98 | 
 99 | PERSIAN_THREE = """
100 |   در ادامه به شما یک متن فارسی و یک سوال نشان داده می شود. شما باید برای سوال یک پاسخ بنویسید. سعی کنید پاسخ های خود را تا حد ممکن کوتاه بدهید.
101 | 
102 |   نمونه:
103 | 
104 |   سوال:
105 |   ویتامین ای را چه موقع استفاده کنیم؟
106 | 
107 |   جواب:
108 |   برای رفع چین و چروک پیشانی و دیگر نشانه های پیری
109 | 
110 |   سوال:
111 |   چرا نام برج میلاد میلاد است؟
112 | 
113 |   جواب:
114 |   به مناسبت یکصدمین زادروز روح‌الله خمینی بنیان‌گذار جمهوری اسلامی ایران
115 | 
116 |   سوال:
117 |   متفقین به کدام کشور لقب پل پیروزی دادند؟
118 | 
119 |   جواب:
120 |   ایران
121 | 
122 |   متن:
123 |   '''{context}'''
124 | 
125 |   سوال:
126 |   '''{question}'''
127 | 
128 |   جواب:
129 |   """


--------------------------------------------------------------------------------
/Benchmark/Machine Translation/prompt.py:
--------------------------------------------------------------------------------
 1 | 
 2 | 
 3 | ENGLISH_ZERO = """
 4 |   Task Description:
 5 |   In this task, which is Machine Translation (MT), you will be presented with a sentence in {source_language}.
 6 |   You should translate it to {target_language} in the most appropriate way.
 7 | 
 8 |   Input:
 9 |   {input}
10 |   """
11 | 
12 | PERSIAN_ZERO = """
13 |   شرح وظیفه:
14 |   در ادامه‌، وظیفه‌ (تکلیفی) برای شما درنظر گرفته شده است، که مربوط به ترجمه ماشینی است.
15 |   به این منظور جمله‌ای به زبان {source_language} به شما نشان داده می‌شود  
16 |   در نتیجه، شما باید آن جمله را به شکل مناسب و دقیق به زبان {target_language} ترجمه کنید.
17 | 
18 |   ورودی:
19 |   {input}
20 | 
21 |   """
22 | 
23 | ENGLISH_ONE = """
24 |   Task Description:
25 |   In this task, which is Machine Translation (MT), you will be presented with a sentence in {source_language}.
26 |   You should translate it to {target_language} in the most appropriate way.
27 | 
28 |   Here is an example for this task, which is translating sentences from {source_language} to {target_language}:
29 |   'This is a sample sentence that we are going to translate it.'
30 |   -> 'این یک جمله‌ی نمونه است که می‌خواهیم آن را ترجمه کنیم.'
31 | 
32 |   Input:
33 |   {input}
34 |   """
35 | 
36 | PERSIAN_ONE = """
37 |   شرح وظیفه:
38 |   در ادامه‌، وظیفه‌ (تکلیفی) برای شما درنظر گرفته شده است، که مربوط به ترجمه ماشینی است.
39 |   به این منظور جمله‌ای به زبان {source_language} به شما نشان داده می‌شود  
40 |   در نتیجه، شما باید آن جمله را به شکل مناسب و دقیق به زبان {target_language} ترجمه کنید.
41 | 
42 |   مثالی از ترجمه‌ی جمله‌ی نمونه از زبان {source_language} به {target_language}:
43 |   'This is a sample sentence that we are going to translate it.'
44 |   -> 'این یک جمله‌ی نمونه است که می‌خواهیم آن را ترجمه کنیم.'
45 | 
46 |   ورودی:
47 |   {input}
48 |   """
49 | 
50 | ENGLISH_THREE = """
51 |   Task Description:
52 |   In this task, which is Machine Translation (MT), you will be presented with a sentence in {source_language}.
53 |   You should translate it to {target_language} in the most appropriate way.
54 |   
55 |   Here are some examples for this task, which is translating sentences from {source_language} to {target_language}:
56 |   'I love programming.'
57 |   -> ' من برنامه‌نویسی را دوست دارم.'
58 |   'Cooking a delicious meal requires a combination of ingredients and techniques.'
59 |   -> 'پخت یک وعده غذای خوشمزه نیازمند ترکیبی از مواد اولیه و تکنیک‌هاست.'
60 |   'In the realm of artificial intelligence, neural networks play a pivotal role.'
61 |   -> 'در دنیای هوش مصنوعی، شبکه‌های عصبی نقشی کلیدی ایفا می‌کنند.'
62 | 
63 |   Input:
64 |   {input}
65 |   """
66 | 
67 | PERSIAN_THREE = """
68 |   شرح وظیفه:
69 |   در ادامه‌، وظیفه‌ (تکلیفی) برای شما درنظر گرفته شده است، که مربوط به ترجمه ماشینی است.
70 |   به این منظور جمله‌ای به زبان {source_language} به شما نشان داده می‌شود  
71 |   در نتیجه، شما باید آن جمله را به شکل مناسب و دقیق به زبان {target_language} ترجمه کنید.
72 | 
73 |   مثال‌هایی از ترجمه‌ی جملات نمونه از زبان {source_language} به {target_language}:
74 |   'I love programming.'
75 |   ->'من برنامه‌نویسی را دوست دارم.'
76 |   'Cooking a delicious meal requires a combination of ingredients and techniques.'
77 |   -> 'پخت یک وعده غذای خوشمزه نیازمند ترکیبی از مواد اولیه و تکنیک‌هاست.'
78 |   'In the realm of artificial intelligence, neural networks play a pivotal role.'
79 |   -> 'در دنیای هوش مصنوعی، شبکه‌های عصبی نقشی کلیدی ایفا می‌کنند.'
80 | 
81 |   ورودی:
82 |   {input}
83 |   """


--------------------------------------------------------------------------------
/Benchmark/MultipleChoice/Math/prompt.py:
--------------------------------------------------------------------------------
  1 | """PROMPT POOL THAT HAS BEEN USED FOR Multiple Choice EVALUATION"""
  2 | 
  3 | ENGLISH_ZERO = """
  4 |   In this task, you will be presented with a multiple-choice question in Persian, and you should answer the question based on your knowledge. choose the answer from the given candidates.
  5 | 
  6 |   question:
  7 |   '''{question}'''
  8 | 
  9 |   candidates:
 10 |   '''[{candidates}]'''
 11 | 
 12 |   answer:
 13 |   """
 14 | 
 15 | PERSIAN_ZERO = """
 16 |   در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.
 17 | 
 18 |   سوال:
 19 |   '''{question}'''
 20 | 
 21 |   گزینه ها:
 22 |   '''[{candidates}]'''
 23 | 
 24 |   جواب:
 25 | """
 26 | 
 27 | 
 28 | ENGLISH_ONE = """
 29 |   In this task, you will be presented with a multiple-choice question in Persian, and you should answer the question based on your knowledge. choose the answer from the given candidates.
 30 | 
 31 |   sample:
 32 | 
 33 |   question:
 34 |   حاصل عبارت ۴ + ۵۵۳ برابر است با ؟
 35 | 
 36 |   candidtaes:
 37 |   [558,557,556,554]
 38 | 
 39 |   answer:
 40 |   557
 41 | 
 42 |   question:
 43 |   '''{question}'''
 44 | 
 45 |   candidates:
 46 |   '''[{candidates}]'''
 47 | 
 48 |   answer:
 49 |   """
 50 | 
 51 | PERSIAN_ONE = """
 52 |   در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.
 53 | 
 54 |   نمونه:
 55 | 
 56 |   سوال:
 57 |   حاصل عبارت ۴ + ۵۵۳ برابر است با ؟
 58 | 
 59 |   گزینه ها:
 60 |   [558,557,556,554]
 61 | 
 62 |   جواب:
 63 |   557
 64 | 
 65 |   سوال:
 66 |   '''{question}'''
 67 | 
 68 |   گزینه ها:
 69 |   '''[{candidates}]'''
 70 | 
 71 |   جواب:
 72 | """
 73 | 
 74 | ENGLISH_THREE = """
 75 |   In this task, you will be presented with a multiple-choice question in Persian, and you should answer the question based on your knowledge. choose the answer from the given candidates.
 76 | 
 77 |   sample:
 78 | 
 79 |   question:
 80 |   شعاع دایره اي یک دهم افزایش یافته است. مساحت مربع محاطی آن چند درصد افزایش مییابد؟
 81 | 
 82 |   candidtaes:
 83 |   [۷۹,۲۱,۱۹,۸۱]
 84 | 
 85 |   answer:
 86 |   ۲۱
 87 | 
 88 |   question:
 89 |   %40 عدد 100 برابر است با ....
 90 | 
 91 |   candidtaes:
 92 |   [30,40,50,60]
 93 | 
 94 |   answer:
 95 |   40
 96 | 
 97 |   question:
 98 |   حاصل عبارت ۴ + ۵ برابر است با ؟
 99 | 
100 |   candidtaes:
101 |   [9,10,11,8]
102 | 
103 |   answer:
104 |   9
105 | 
106 |   question:
107 |   '''{question}'''
108 | 
109 |   candidates:
110 |   '''[{candidates}]'''
111 | 
112 |   answer:
113 |   """
114 | 
115 | PERSIAN_THREE = """
116 |   در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.
117 | 
118 |   نمونه:
119 | 
120 |   سوال:
121 |   شعاع دایره اي یک دهم افزایش یافته است. مساحت مربع محاطی آن چند درصد افزایش مییابد؟
122 | 
123 |   گزینه ها:
124 |   [۷۹,۲۱,۱۹,۸۱]
125 | 
126 |   جواب:
127 |   ۲۱
128 | 
129 |   سوال:
130 |   %40 عدد 100 برابر است با ....
131 | 
132 |   گزینه ها:
133 |   [30,40,50,60]
134 | 
135 |   جواب:
136 |   40
137 | 
138 |   سوال:
139 |   حاصل عبارت ۴ + ۵ برابر است با ؟
140 | 
141 |   گزینه ها:
142 |   [9,10,11,8]
143 | 
144 |   جواب:
145 |   9
146 | 
147 |   سوال:
148 |   '''{question}'''
149 | 
150 |   گزینه ها:
151 |   '''[{candidates}]'''
152 | 
153 |   جواب:
154 | """
155 | 


--------------------------------------------------------------------------------
/Benchmark/MultipleChoice/Knowledge/prompt.py:
--------------------------------------------------------------------------------
  1 | """PROMPT POOL THAT HAS BEEN USED FOR Multiple Choice EVALUATION"""
  2 | 
  3 | ENGLISH_ZERO = """
  4 |   In this task, you will be presented with a multiple-choice question in Persian, and you should answer the question based on your knowledge. choose the answer from the given candidates.
  5 | 
  6 |   question:
  7 |   '''{question}'''
  8 |   
  9 |   candidates:
 10 |   '''[{candidates}]'''
 11 | 
 12 |   answer:
 13 |   """
 14 | 
 15 | PERSIAN_ZERO = """
 16 |   در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.
 17 | 
 18 |   سوال:
 19 |   '''{question}'''
 20 | 
 21 |   گزینه ها:
 22 |   '''[{candidates}]'''
 23 | 
 24 |   جواب:
 25 | """
 26 | 
 27 | 
 28 | ENGLISH_ONE = """
 29 |   In this task, you will be presented with a multiple-choice question in Persian, and you should answer the question based on your knowledge. choose the answer from the given candidates.
 30 | 
 31 |   sample:
 32 | 
 33 |   question:
 34 |   وسیع ترین کشور جهان کدام است؟
 35 | 
 36 |   candidtaes:
 37 |   [آمریکا,کانادا,روسیه,چین]
 38 | 
 39 |   answer:
 40 |   روسیه
 41 | 
 42 |   question:
 43 |   '''{question}'''
 44 | 
 45 |   candidates:
 46 |   '''[{candidates}]'''
 47 | 
 48 |   answer:
 49 |   """
 50 | 
 51 | PERSIAN_ONE = """
 52 |   در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.
 53 | 
 54 |   نمونه:
 55 | 
 56 |   سوال:
 57 |   وسیع ترین کشور جهان کدام است؟
 58 | 
 59 |   گزینه ها:
 60 |   [آمریکا,کانادا,روسیه,چین]
 61 | 
 62 |   جواب:
 63 |   روسیه
 64 | 
 65 |   سوال:
 66 |   '''{question}'''
 67 | 
 68 |   گزینه ها:
 69 |   '''[{candidates}]'''
 70 | 
 71 |   جواب:
 72 | """
 73 | 
 74 | ENGLISH_THREE = """
 75 |   In this task, you will be presented with a multiple-choice question in Persian, and you should answer the question based on your knowledge. choose the answer from the given candidates.
 76 | 
 77 |   sample:
 78 | 
 79 |   question:
 80 |   کدام یک از موارد زیر، عکس جریان ارتباط اصلی است و طی آن گیرنده پیام جدیدی را می فرستد؟
 81 | 
 82 |   candidtaes:
 83 |   [ورود عوامل مزاحم, کد گذاری,استفاده از نماد,بازخورد ]
 84 | 
 85 |   answer:
 86 |   بازخورد 
 87 | 
 88 |   question:
 89 |   برنامه های عمرانی کشور چگونه است؟
 90 | 
 91 |   candidtaes:
 92 |   [بلند مدت,کوتاه مدت,میان مدت,بلند مدت و میان مدت]
 93 | 
 94 |   answer:
 95 |   میان مدت
 96 | 
 97 |   question:
 98 |   حکومت قاجار در چه سالی به پایان رسید؟
 99 | 
100 |   candidtaes:
101 |   [۱۳۰۷ ش,۱۳۲۰ ش,۱۳۱۷ ش,۱۳۰۴ ش]
102 | 
103 |   answer:
104 |   ۱۳۰۴ ش
105 | 
106 |   question:
107 |   '''{question}'''
108 | 
109 |   candidates:
110 |   '''[{candidates}]'''
111 | 
112 |   answer:
113 |   """
114 | 
115 | PERSIAN_THREE = """
116 |   در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.
117 | 
118 |   نمونه:
119 | 
120 |   سوال:
121 |   کدام یک از موارد زیر، عکس جریان ارتباط اصلی است و طی آن گیرنده پیام جدیدی را می فرستد؟
122 | 
123 |   گزینه ها:
124 |   [ورود عوامل مزاحم, کد گذاری,استفاده از نماد,بازخورد ]
125 | 
126 |   جواب:
127 |   بازخورد 
128 | 
129 |   سوال:
130 |   برنامه های عمرانی کشور چگونه است؟
131 | 
132 |   گزینه ها:
133 |   [بلند مدت,کوتاه مدت,میان مدت,بلند مدت و میان مدت]
134 | 
135 |   جواب:
136 |   میان مدت
137 | 
138 |   سوال:
139 |   حکومت قاجار در چه سالی به پایان رسید؟
140 | 
141 |   گزینه ها:
142 |   [۱۳۰۷ ش,۱۳۲۰ ش,۱۳۱۷ ش,۱۳۰۴ ش]
143 | 
144 |   جواب:
145 |   ۱۳۰۴ ش
146 | 
147 |   سوال:
148 |   '''{question}'''
149 | 
150 |   گزینه ها:
151 |   '''[{candidates}]'''
152 | 
153 |   جواب:
154 | """
155 | 


--------------------------------------------------------------------------------
/Benchmark/MultipleChoice/Literature/prompt.py:
--------------------------------------------------------------------------------
  1 | """PROMPT POOL THAT HAS BEEN USED FOR Multiple Choice EVALUATION"""
  2 | 
  3 | ENGLISH_ZERO = """
  4 |   In this task, you will be presented with a multiple-choice question in Persian, and you should answer the question based on your knowledge. choose the answer from the given candidates.
  5 | 
  6 |   question:
  7 |   '''{question}'''
  8 |   
  9 |   candidates:
 10 |   '''[{candidates}]'''
 11 | 
 12 |   answer:
 13 |   """
 14 | 
 15 | PERSIAN_ZERO = """
 16 |   در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.
 17 | 
 18 |   سوال:
 19 |   '''{question}'''
 20 | 
 21 |   گزینه ها:
 22 |   '''[{candidates}]'''
 23 | 
 24 |   جواب:
 25 | """
 26 | 
 27 | 
 28 | ENGLISH_ONE = """
 29 |   In this task, you will be presented with a multiple-choice question in Persian, and you should answer the question based on your knowledge. choose the answer from the given candidates.
 30 | 
 31 |   sample:
 32 | 
 33 |   question:
 34 |   در کدام گزینه، آثار موسوی گرما رودی تماما درست است؟
 35 | 
 36 |   candidtaes:
 37 |   [سرود رگبار، دستچين، عبور، چمن لاله,چمن لاله، خطّ خون، مثل درخت در شب باران، سرود رگبار,در سايه سار نخل ولايت، از بودن و سرودن، خطّ خون، عبور,تاناكجا، دستچين، در سايه سار نخل ولايت، از بودن و سرودن]
 38 | 
 39 |   answer:
 40 |   سرود رگبار، دستچين، عبور، چمن لاله
 41 | 
 42 |   question:
 43 |   '''{question}'''
 44 | 
 45 |   candidates:
 46 |   '''[{candidates}]'''
 47 | 
 48 |   answer:
 49 |   """
 50 | 
 51 | PERSIAN_ONE = """
 52 |   در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.
 53 | 
 54 |   نمونه:
 55 | 
 56 |   سوال:
 57 |   در کدام گزینه، آثار موسوی گرما رودی تماما درست است؟
 58 | 
 59 |   گزینه ها:
 60 |   [سرود رگبار، دستچين، عبور، چمن لاله,چمن لاله، خطّ خون، مثل درخت در شب باران، سرود رگبار,در سايه سار نخل ولايت، از بودن و سرودن، خطّ خون، عبور,تاناكجا، دستچين، در سايه سار نخل ولايت، از بودن و سرودن]
 61 | 
 62 |   جواب:
 63 |   سرود رگبار، دستچين، عبور، چمن لاله
 64 | 
 65 |   سوال:
 66 |   '''{question}'''
 67 | 
 68 |   گزینه ها:
 69 |   '''[{candidates}]'''
 70 | 
 71 |   جواب:
 72 | """
 73 | 
 74 | ENGLISH_THREE = """
 75 |   In this task, you will be presented with a multiple-choice question in Persian, and you should answer the question based on your knowledge. choose the answer from the given candidates.
 76 | 
 77 |   sample:
 78 | 
 79 |   question:
 80 |   در عيد .   .   . دين اسلام كامل شد.
 81 | 
 82 |   candidtaes:
 83 |   [عيد فطر,عيد قربان,عيد مبعث,عيد غدير]
 84 | 
 85 |   answer:
 86 |   عيد غدير
 87 | 
 88 |   question:
 89 |   کدام گزینه ازموضوعات شعری عصررودکی نیست؟
 90 | 
 91 |   candidtaes:
 92 |   [وصف,عرفان,مدح,اندرز]
 93 | 
 94 |   answer:
 95 |   عرفان
 96 | 
 97 |   question:
 98 |   آنچه که از ارزش واقعی چیزی بکاهد :؟
 99 | 
100 |   candidtaes:
101 |   [انتقاد,شایعه,فراوانی,نقص]
102 | 
103 |   answer:
104 |   نقص
105 | 
106 |   question:
107 |   '''{question}'''
108 | 
109 |   candidates:
110 |   '''[{candidates}]'''
111 | 
112 |   answer:
113 |   """
114 | 
115 | PERSIAN_THREE = """
116 |   در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.
117 | 
118 |   نمونه:
119 | 
120 |   سوال:
121 |   در عيد .   .   . دين اسلام كامل شد.
122 | 
123 |   گزینه ها:
124 |   [عيد فطر,عيد قربان,عيد مبعث,عيد غدير]
125 | 
126 |   جواب:
127 |   عيد غدير
128 | 
129 |   سوال:
130 |   کدام گزینه ازموضوعات شعری عصررودکی نیست؟
131 | 
132 |   گزینه ها:
133 |   [وصف,عرفان,مدح,اندرز]
134 | 
135 |   جواب:
136 |   عرفان
137 | 
138 |   سوال:
139 |   آنچه که از ارزش واقعی چیزی بکاهد :؟
140 | 
141 |   گزینه ها:
142 |   [انتقاد,شایعه,فراوانی,نقص]
143 | 
144 |   جواب:
145 |   نقص
146 | 
147 |   سوال:
148 |   '''{question}'''
149 | 
150 |   گزینه ها:
151 |   '''[{candidates}]'''
152 | 
153 |   جواب:
154 | """
155 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Elemntry School Questions/notebooks/pp.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |   "nbformat": 4,
  3 |   "nbformat_minor": 0,
  4 |   "metadata": {
  5 |     "colab": {
  6 |       "provenance": []
  7 |     },
  8 |     "kernelspec": {
  9 |       "name": "python3",
 10 |       "display_name": "Python 3"
 11 |     },
 12 |     "language_info": {
 13 |       "name": "python"
 14 |     }
 15 |   },
 16 |   "cells": [
 17 |     {
 18 |       "cell_type": "code",
 19 |       "execution_count": 79,
 20 |       "metadata": {
 21 |         "id": "0mnSjlunWTLX"
 22 |       },
 23 |       "outputs": [],
 24 |       "source": [
 25 |         "import pandas as pd\n",
 26 |         "df = pd.read_csv(\"/content/elem_q_res.csv\")"
 27 |       ]
 28 |     },
 29 |     {
 30 |       "cell_type": "code",
 31 |       "source": [
 32 |         "answer_list_pp = {}\n",
 33 |         "accuracy = {}\n",
 34 |         "a = list()\n",
 35 |         "for i in range(len(df)):\n",
 36 |         "  a.append(0)\n",
 37 |         "for i in range(len(df.columns[3:])):\n",
 38 |         "  answer_list_pp[df.columns[i+3]] = a"
 39 |       ],
 40 |       "metadata": {
 41 |         "id": "Bl7jEufGb9op"
 42 |       },
 43 |       "execution_count": 80,
 44 |       "outputs": []
 45 |     },
 46 |     {
 47 |       "cell_type": "code",
 48 |       "source": [
 49 |         "for i in range(len(df.columns[3:])):\n",
 50 |         "  c = 0\n",
 51 |         "\n",
 52 |         "  for j in range(len(df)):\n",
 53 |         "    answer_list_pp[df.columns[i+3]][j] = df[df.columns[i+3]][j]\n",
 54 |         "    if df[\"correct_ans\"][j] in df[df.columns[i+3]][j][:1]:\n",
 55 |         "      answer_list_pp[df.columns[i+3]][j] = df.correct_ans[j]\n",
 56 |         "      c += 1\n",
 57 |         "    else:\n",
 58 |         "      answer_list_pp[df.columns[i+3]][j] = answer_list_pp[df.columns[i+3]][j][:1]\n",
 59 |         "  accuracy[df.columns[i+3]] = c/len(df)"
 60 |       ],
 61 |       "metadata": {
 62 |         "id": "7nqhTTeqWsAl"
 63 |       },
 64 |       "execution_count": 84,
 65 |       "outputs": []
 66 |     },
 67 |     {
 68 |       "cell_type": "code",
 69 |       "source": [
 70 |         "for i,j in enumerate(answer_list_pp.keys()):\n",
 71 |         "  df[df.columns[i+3] + \"_post_process\"] = answer_list_pp[j]"
 72 |       ],
 73 |       "metadata": {
 74 |         "id": "4ex10RaNW1zL"
 75 |       },
 76 |       "execution_count": 89,
 77 |       "outputs": []
 78 |     },
 79 |     {
 80 |       "cell_type": "code",
 81 |       "source": [
 82 |         "df.to_csv(\"result_elem_q_pp.csv\")"
 83 |       ],
 84 |       "metadata": {
 85 |         "id": "D4snjrdFW19V"
 86 |       },
 87 |       "execution_count": 91,
 88 |       "outputs": []
 89 |     },
 90 |     {
 91 |       "cell_type": "code",
 92 |       "source": [
 93 |         "accuracy"
 94 |       ],
 95 |       "metadata": {
 96 |         "colab": {
 97 |           "base_uri": "https://localhost:8080/"
 98 |         },
 99 |         "id": "WWAVaI5qW2Dk",
100 |         "outputId": "cf25019b-6ce7-4d40-c852-b85ced6e4691"
101 |       },
102 |       "execution_count": 92,
103 |       "outputs": [
104 |         {
105 |           "output_type": "execute_result",
106 |           "data": {
107 |             "text/plain": [
108 |               "{'model_ans': 0.62,\n",
109 |               " 'model_ans_one_shot': 0.54,\n",
110 |               " 'model_ans_three_shot': 0.52,\n",
111 |               " 'model_ans_farsiprompt_zero': 0.54,\n",
112 |               " 'model_ans_farsiprompt_one': 0.38,\n",
113 |               " 'model_ans_farsiprompt_three': 0.54}"
114 |             ]
115 |           },
116 |           "metadata": {},
117 |           "execution_count": 92
118 |         }
119 |       ]
120 |     },
121 |     {
122 |       "cell_type": "code",
123 |       "source": [],
124 |       "metadata": {
125 |         "id": "XX19SmWzW2Gt"
126 |       },
127 |       "execution_count": null,
128 |       "outputs": []
129 |     },
130 |     {
131 |       "cell_type": "code",
132 |       "source": [],
133 |       "metadata": {
134 |         "id": "pUTE8PeXW2J0"
135 |       },
136 |       "execution_count": null,
137 |       "outputs": []
138 |     }
139 |   ]
140 | }


--------------------------------------------------------------------------------
/Benchmark/MultipleChoice/sample.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |   "nbformat": 4,
  3 |   "nbformat_minor": 0,
  4 |   "metadata": {
  5 |     "colab": {
  6 |       "provenance": []
  7 |     },
  8 |     "kernelspec": {
  9 |       "name": "python3",
 10 |       "display_name": "Python 3"
 11 |     },
 12 |     "language_info": {
 13 |       "name": "python"
 14 |     }
 15 |   },
 16 |   "cells": [
 17 |     {
 18 |       "cell_type": "markdown",
 19 |       "source": [
 20 |         "evaluation will be the same for other tasks in Multiple Choice category"
 21 |       ],
 22 |       "metadata": {
 23 |         "id": "jKcCCsulzOCw"
 24 |       }
 25 |     },
 26 |     {
 27 |       "cell_type": "markdown",
 28 |       "source": [
 29 |         "Given a sample"
 30 |       ],
 31 |       "metadata": {
 32 |         "id": "dHFk5yT_g1Gp"
 33 |       }
 34 |     },
 35 |     {
 36 |       "cell_type": "code",
 37 |       "execution_count": 7,
 38 |       "metadata": {
 39 |         "id": "AC83O7WJgx0u"
 40 |       },
 41 |       "outputs": [],
 42 |       "source": [
 43 |         "sample = {\"question\": \"کدامیک ازاعداد زیرازعدد 43 کوچکتراست؟\", \"candidates\": \"45,54,49,34\", \"target\": \"34\"}"
 44 |       ]
 45 |     },
 46 |     {
 47 |       "cell_type": "markdown",
 48 |       "source": [
 49 |         "# prepare input prompt"
 50 |       ],
 51 |       "metadata": {
 52 |         "id": "79lLZ0cyhHup"
 53 |       }
 54 |     },
 55 |     {
 56 |       "cell_type": "code",
 57 |       "source": [
 58 |         "from prompt import PERSIAN_ONE"
 59 |       ],
 60 |       "metadata": {
 61 |         "id": "y7g7JsvqhKp2"
 62 |       },
 63 |       "execution_count": 8,
 64 |       "outputs": []
 65 |     },
 66 |     {
 67 |       "cell_type": "code",
 68 |       "source": [
 69 |         "sample_prompt = PERSIAN_ONE.format(question=sample['question'],candidates=sample['candidates'])"
 70 |       ],
 71 |       "metadata": {
 72 |         "id": "2wXwAdg1hT3E"
 73 |       },
 74 |       "execution_count": 9,
 75 |       "outputs": []
 76 |     },
 77 |     {
 78 |       "cell_type": "code",
 79 |       "source": [
 80 |         "print(sample_prompt)"
 81 |       ],
 82 |       "metadata": {
 83 |         "colab": {
 84 |           "base_uri": "https://localhost:8080/"
 85 |         },
 86 |         "id": "Jh9XmlV8hilr",
 87 |         "outputId": "4cdd63e8-215d-4c87-f12f-bb181984ffa7"
 88 |       },
 89 |       "execution_count": 10,
 90 |       "outputs": [
 91 |         {
 92 |           "output_type": "stream",
 93 |           "name": "stdout",
 94 |           "text": [
 95 |             "\n",
 96 |             "  در ادامه، به شما یک سوال چند گزینه‌ای به زبان فارسی نشان داده می شود. شما باید بر اساس دانش خود به سوال پاسخ دهید. پاسخ خود را از بین گزینه‌های داده شده انتخاب کنید.\n",
 97 |             "\n",
 98 |             "  نمونه:\n",
 99 |             "\n",
100 |             "  سوال:\n",
101 |             "  حاصل عبارت ۴ + ۵۵۳ برابر است با ؟\n",
102 |             "\n",
103 |             "  گزینه ها:\n",
104 |             "  [558,557,556,554]\n",
105 |             "\n",
106 |             "  جواب:\n",
107 |             "  557\n",
108 |             "\n",
109 |             "  سوال:\n",
110 |             "  '''کدامیک ازاعداد زیرازعدد 43 کوچکتراست؟'''\n",
111 |             "\n",
112 |             "  گزینه ها:\n",
113 |             "  '''[45,54,49,34]'''\n",
114 |             "\n",
115 |             "  جواب:\n",
116 |             "\n"
117 |           ]
118 |         }
119 |       ]
120 |     },
121 |     {
122 |       "cell_type": "markdown",
123 |       "source": [
124 |         "# Evaluate model's response"
125 |       ],
126 |       "metadata": {
127 |         "id": "9rYh5EwShn75"
128 |       }
129 |     },
130 |     {
131 |       "cell_type": "code",
132 |       "source": [
133 |         "import numpy as np"
134 |       ],
135 |       "metadata": {
136 |         "id": "zvFiWsWVkBSD"
137 |       },
138 |       "execution_count": 5,
139 |       "outputs": []
140 |     },
141 |     {
142 |       "cell_type": "code",
143 |       "source": [
144 |         "sample_GPT_response = \"\"\"\n",
145 |         "34\n",
146 |         "\"\"\""
147 |       ],
148 |       "metadata": {
149 |         "id": "9FU29VkDhprp"
150 |       },
151 |       "execution_count": 16,
152 |       "outputs": []
153 |     },
154 |     {
155 |       "cell_type": "code",
156 |       "source": [
157 |         "gpt_results = [sample_GPT_response]\n",
158 |         "true_ans = [sample['target']]\n",
159 |         "accuracy = np.array([1 if true_ans[i] in gpt_results[i] else 0 for i in range(len(true_ans))]).mean()\n",
160 |         "print(f'accuracy: {accuracy}')"
161 |       ],
162 |       "metadata": {
163 |         "colab": {
164 |           "base_uri": "https://localhost:8080/"
165 |         },
166 |         "id": "VwLxW9eci3T6",
167 |         "outputId": "14a65174-62cd-44fd-e196-9f042221ad11"
168 |       },
169 |       "execution_count": 17,
170 |       "outputs": [
171 |         {
172 |           "output_type": "stream",
173 |           "name": "stdout",
174 |           "text": [
175 |             "accuracy: 1.0\n"
176 |           ]
177 |         }
178 |       ]
179 |     }
180 |   ]
181 | }


--------------------------------------------------------------------------------
/Benchmark/Sentiment/prompt.py:
--------------------------------------------------------------------------------
  1 | """PROMPT POOL THAT HAS BEEN USED FOR SENTIMENT ANALYSIS"""
  2 | 
  3 | ENGLISH_ZERO = """\
  4 | The below sentence is a person's review. The review is in Persian. Identify the sentiment or polarity associated with it.
  5 | Possible answers are: POSITIVE, NEUTRAL, NEGATIVE, OTHER.
  6 | Use OTHER when the sentence does not include any specific sense, or has mixed or borderline senses.
  7 | 
  8 | Review: {review}
  9 | Sentiment: 
 10 | """
 11 | 
 12 | ENGLISH_ONE = '''\
 13 | The below sentence is a person's review. The review is in Persian. Identify the sentiment or polarity associated with it.
 14 | Possible answers are: POSITIVE, NEUTRAL, NEGATIVE, OTHER.
 15 | Use OTHER when the sentence does not include any specific sense, or has mixed or borderline senses.
 16 | 
 17 | Examples:
 18 | 
 19 | Example 1:
 20 | Review: طعم بد . بوی بد . فقط قیمتش خوبه .
 21 | Sentiment: NEGATIVE
 22 | 
 23 | Example 2:
 24 | Review: با بقیه چایی ها هیچ فرقی نداره چه طعم چه رنگ
 25 | Sentiment: NEUTRAL
 26 | 
 27 | Example 3:
 28 | Review: خوب بود و در باز بودن و طعم خوبی داشت
 29 | Sentiment: POSITIVE
 30 | 
 31 | Example 4:
 32 | Review: مزه اش یه جور خاصه تند تند نیس ولی متفاوته
 33 | Sentiment: OTHER
 34 | 
 35 | Review: {review}
 36 | Sentiment: 
 37 | '''
 38 | 
 39 | ENGLISH_THREE = """\
 40 | The below sentence is a person's review. The review is in Persian. Identify the sentiment or polarity associated with it.
 41 | Possible answers are: POSITIVE, NEUTRAL, NEGATIVE, OTHER.
 42 | Use OTHER when the sentence does not include any specific sense, or has mixed or borderline senses.
 43 | 
 44 | Examples:
 45 | 
 46 | Example 1:
 47 | Review: طعم بد . بوی بد . فقط قیمتش خوبه .
 48 | Sentiment: NEGATIVE
 49 | 
 50 | Example 2:
 51 | Review: بعد از ۵ دقیقه مزه اش رو از دست میده
 52 | Sentiment: NEGATIVE
 53 | 
 54 | Example 3:
 55 | Review: طرفش خیلی نازکه تو دست نمیشه نگه داشت
 56 | Sentiment: NEGATIVE
 57 | 
 58 | Example 4:
 59 | Review: اول هلو سان کوییک بعد یه مدل از سن ایچ
 60 | Sentiment: NEUTRAL
 61 | 
 62 | Example 5:
 63 | Review: با بقیه چایی ها هیچ فرقی نداره چه طعم چه رنگ
 64 | Sentiment: NEUTRAL
 65 | 
 66 | Example 6:
 67 | Review: در بسته بندی بهتری اگر عرضه شود خیلی بهتر است
 68 | Sentiment: NEUTRAL
 69 | 
 70 | Example 7:
 71 | Review: خوبه مثل بعضی از مربا ها ابکی نیست
 72 | Sentiment: POSITIVE
 73 | 
 74 | Example 8:
 75 | Review: خوب بود و در باز بودن و طعم خوبی داشت
 76 | Sentiment: POSITIVE
 77 | 
 78 | Example 9:
 79 | Review: عطر و طعمش سلیقه ایه . من که راضی بودم
 80 | Sentiment: POSITIVE
 81 | 
 82 | Example 10:
 83 | Review: خیلی خوب بود اما ظرفش یه کم پر دردسر بود .
 84 | Sentiment: OTHER
 85 | 
 86 | Example 11:
 87 | Review: مزه اش یه جور خاصه تند تند نیس ولی متفاوته
 88 | Sentiment: OTHER
 89 | 
 90 | Example 12:
 91 | Review: با اینکه آب و روغنش زیاد بود اما خوشمزه بود
 92 | Sentiment: OTHER
 93 | 
 94 | Review: {review}
 95 | Sentiment: 
 96 | """
 97 | 
 98 | PERSIAN_ZERO = """\
 99 | جمله زیر نظر یک شخص است. این جمله به زبان فارسی است. بار یا احساس موجود در این جمله را شناسایی کن.
100 | پاسخ‌ های ممکن کلمات روبرو هستند: POSITIVE, NEUTRAL, NEGATIVE, OTHER.
101 | زمانی که جمله دارای احساس خاصی نیست یا شامل احساسات مختلف است از OTHER استفاده کن
102 | 
103 | نظر: {review}
104 | احساس:
105 | """
106 | 
107 | PERSIAN_ONE = """\
108 | جمله زیر نظر یک شخص است. این جمله به زبان فارسی است. بار یا احساس موجود در این جمله را شناسایی کن.
109 | پاسخ‌ های ممکن کلمات روبرو هستند: POSITIVE, NEUTRAL, NEGATIVE, OTHER.
110 | زمانی که جمله دارای احساس خاصی نیست یا شامل احساسات مختلف است از OTHER استفاده کن
111 | 
112 | مثال ها:
113 | 
114 | مثال 1:
115 | نظر: طعم بد . بوی بد . فقط قیمتش خوبه .
116 | احساس: NEGATIVE
117 | 
118 | مثال 2:
119 | نظر: با بقیه چایی ها هیچ فرقی نداره چه طعم چه رنگ
120 | احساس: NEUTRAL
121 | 
122 | مثال 3:
123 | نظر: خوب بود و در باز بودن و طعم خوبی داشت
124 | احساس: POSITIVE
125 | 
126 | مثال 4:
127 | نظر: مزه اش یه جور خاصه تند تند نیس ولی متفاوته
128 | احساس: OTHER
129 | 
130 | نظر: {review}
131 | احساس:
132 | """
133 | 
134 | PERSIAN_THREE = """\
135 | جمله زیر نظر یک شخص است. این جمله به زبان فارسی است. بار یا احساس موجود در این جمله را شناسایی کن.
136 | پاسخ‌ های ممکن کلمات روبرو هستند: POSITIVE, NEUTRAL, NEGATIVE, OTHER.
137 | زمانی که جمله دارای احساس خاصی نیست یا شامل احساسات مختلف است از OTHER استفاده کن
138 | 
139 | مثال ها:
140 | 
141 | مثال 1:
142 | نظر: طعم بد . بوی بد . فقط قیمتش خوبه .
143 | احساس: NEGATIVE
144 | 
145 | مثال 2:
146 | نظر: بعد از ۵ دقیقه مزه اش رو از دست میده
147 | احساس: NEGATIVE
148 | 
149 | مثال 3:
150 | نظر: طرفش خیلی نازکه تو دست نمیشه نگه داشت
151 | احساس: NEGATIVE
152 | 
153 | مثال 4:
154 | نظر: اول هلو سان کوییک بعد یه مدل از سن ایچ
155 | احساس: NEUTRAL
156 | 
157 | مثال 5:
158 | نظر: با بقیه چایی ها هیچ فرقی نداره چه طعم چه رنگ
159 | احساس: NEUTRAL
160 | 
161 | مثال 6:
162 | نظر: در بسته بندی بهتری اگر عرضه شود خیلی بهتر است
163 | احساس: NEUTRAL
164 | 
165 | مثال 7:
166 | نظر: خوبه مثل بعضی از مربا ها ابکی نیست
167 | احساس: POSITIVE
168 | 
169 | مثال 8:
170 | نظر: خوب بود و در باز بودن و طعم خوبی داشت
171 | احساس: POSITIVE
172 | 
173 | مثال 9:
174 | نظر: عطر و طعمش سلیقه ایه . من که راضی بودم
175 | احساس: POSITIVE
176 | 
177 | مثال 10:
178 | نظر: خیلی خوب بود اما ظرفش یه کم پر دردسر بود .
179 | احساس: OTHER
180 | 
181 | مثال 11:
182 | نظر: مزه اش یه جور خاصه تند تند نیس ولی متفاوته
183 | احساس: OTHER
184 | 
185 | مثال 12:
186 | نظر: با اینکه آب و روغنش زیاد بود اما خوشمزه بود
187 | احساس: OTHER
188 | 
189 | نظر: {review}
190 | احساس:
191 | """
192 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Mathematical Problems/results/english_three.csv:
--------------------------------------------------------------------------------
  1 | solution,bot_solution,evaluation
  2 | 6957,1425,{'accuracy': 0.0}
  3 | 7 مهر,8 مهر,{'accuracy': 0.0}
  4 | 5 سال,6,{'accuracy': 0.0}
  5 | 190,93,{'accuracy': 0.0}
  6 | 183,261,{'accuracy': 0.0}
  7 | 500 تومان,1000,{'accuracy': 0.0}
  8 | 12 نقطه,هیچکدام,{'accuracy': 0.0}
  9 | 32 سیب,7,{'accuracy': 0.0}
 10 | 7 مهره,6,{'accuracy': 0.0}
 11 | 4,0.6,{'accuracy': 0.0}
 12 | 14 نفر,6,{'accuracy': 0.0}
 13 | سال 1374,1353,{'accuracy': 0.0}
 14 | 35 میلیمتر,63.5,{'accuracy': 0.0}
 15 | 12 ساعت,1.44,{'accuracy': 0.0}
 16 | 8 مثلث,۸,{'accuracy': 0.0}
 17 | 1000,1000,{'accuracy': 1.0}
 18 | 9:25,8:07,{'accuracy': 0.0}
 19 | 10,10,{'accuracy': 1.0}
 20 | 1,1,{'accuracy': 1.0}
 21 | 63,63,{'accuracy': 1.0}
 22 | 149.2,149.20,{'accuracy': 1.0}
 23 | 4 مرتبه,6,{'accuracy': 0.0}
 24 | 2.5 دقیقه,2.5,{'accuracy': 1.0}
 25 | 43,43,{'accuracy': 1.0}
 26 | 60 دانش آموز,60,{'accuracy': 1.0}
 27 | 13,25,{'accuracy': 0.0}
 28 | 16,16,{'accuracy': 1.0}
 29 | 27,6,{'accuracy': 0.0}
 30 | 55,55,{'accuracy': 1.0}
 31 | 18,0,{'accuracy': 0.0}
 32 | 16,16,{'accuracy': 1.0}
 33 | 44,44,{'accuracy': 1.0}
 34 | 25,125,{'accuracy': 0.0}
 35 | 1,1,{'accuracy': 1.0}
 36 | 2,2,{'accuracy': 1.0}
 37 | 5,5,{'accuracy': 1.0}
 38 | 2,2,{'accuracy': 1.0}
 39 | 1,1,{'accuracy': 1.0}
 40 | 3,3,{'accuracy': 1.0}
 41 | 4,-4,{'accuracy': 1.0}
 42 | 9,9,{'accuracy': 1.0}
 43 | 3,-3,{'accuracy': 1.0}
 44 | 2,0,{'accuracy': 0.0}
 45 | 5,5,{'accuracy': 1.0}
 46 | 3,3,{'accuracy': 1.0}
 47 | 3,4,{'accuracy': 0.0}
 48 | 7,7,{'accuracy': 1.0}
 49 | 5,5,{'accuracy': 1.0}
 50 | 2,5,{'accuracy': 0.0}
 51 | 2,7,{'accuracy': 0.0}
 52 | 8,8,{'accuracy': 1.0}
 53 | 1,8,{'accuracy': 0.0}
 54 | 1,8,{'accuracy': 0.0}
 55 | 2,7,{'accuracy': 0.0}
 56 | 9,9,{'accuracy': 1.0}
 57 | 2 مثلث,4,{'accuracy': 0.0}
 58 | 3 تا,تعداد هرم های قابل ساخت درون استخر برابر است با 1 + 2 + 3 + ... + 12 = 78,{'accuracy': 0.0}
 59 | 4 واحد,,{'accuracy': 0.0}
 60 | 36 کاغذ,8,{'accuracy': 0.0}
 61 | 2,7/2,{'accuracy': 0.0}
 62 | 6,1,{'accuracy': 0.0}
 63 | 14,16,{'accuracy': 0.0}
 64 | 7,0 تا 12,{'accuracy': 0.0}
 65 | 13/18,9/10,{'accuracy': 0.0}
 66 | 28,17,{'accuracy': 0.0}
 67 | 4,5,{'accuracy': 0.0}
 68 | 5,هیچ عددی,{'accuracy': 0.0}
 69 | 15,23,{'accuracy': 0.0}
 70 | 68,68,{'accuracy': 1.0}
 71 | 8,8,{'accuracy': 1.0}
 72 | 32,-32,{'accuracy': 1.0}
 73 | 0.38,0.36,{'accuracy': 0.0}
 74 | 333,111,{'accuracy': 0.0}
 75 | 4:30,4:30 بعد از ظهر,{'accuracy': 1.0}
 76 | 20%,20,{'accuracy': 1.0}
 77 | 7,7,{'accuracy': 1.0}
 78 | 4,270,{'accuracy': 0.0}
 79 | 23,232792560,{'accuracy': 0.0}
 80 | 5999,100,{'accuracy': 0.0}
 81 | 6,2,{'accuracy': 0.0}
 82 | 0.5,0.3,{'accuracy': 0.0}
 83 | 10 درصد,10%,{'accuracy': 1.0}
 84 | 13 اینچ مربع,23,{'accuracy': 0.0}
 85 | 3,60,{'accuracy': 0.0}
 86 | 36,36,{'accuracy': 1.0}
 87 | 6,6,{'accuracy': 1.0}
 88 | 42,42,{'accuracy': 1.0}
 89 | 4,۲,{'accuracy': 0.0}
 90 | 564,564,{'accuracy': 1.0}
 91 | 162,90,{'accuracy': 0.0}
 92 | 66,55,{'accuracy': 0.0}
 93 | 6,6,{'accuracy': 1.0}
 94 | 5040,5040,{'accuracy': 1.0}
 95 | 5,5,{'accuracy': 1.0}
 96 | 8,14,{'accuracy': 0.0}
 97 | 10,10,{'accuracy': 1.0}
 98 | 4005,2003,{'accuracy': 0.0}
 99 | 1023,1023,{'accuracy': 1.0}
100 | 10,3,{'accuracy': 0.0}
101 | 400,400,{'accuracy': 1.0}
102 | 123,0,{'accuracy': 0.0}
103 | 0.17,0.17,{'accuracy': 1.0}
104 | 350,ششمین عضو برابر است با 300,{'accuracy': 0.0}
105 | 600,60480,{'accuracy': 0.0}
106 | 8,8,{'accuracy': 1.0}
107 | 8,پاسخی ندارد,{'accuracy': 0.0}
108 | 2,2,{'accuracy': 1.0}
109 | 1,√(x1 * x2 * ... * xn),{'accuracy': 0.0}
110 | 30,نمی‌توان مقدار دقیق f(12) - f(2) را محاسبه کرد.,{'accuracy': 0.0}
111 | 18,6,{'accuracy': 0.0}
112 | 54,54,{'accuracy': 1.0}
113 | 24,8,{'accuracy': 0.0}
114 | 36,12.25,{'accuracy': 0.0}
115 | 6,6,{'accuracy': 1.0}
116 | 100,100,{'accuracy': 1.0}
117 | 0.54,0.09,{'accuracy': 0.0}
118 | 21,21,{'accuracy': 1.0}
119 | 70,110,{'accuracy': 0.0}
120 | 144,144,{'accuracy': 1.0}
121 | 3,3,{'accuracy': 1.0}
122 | 126,27,{'accuracy': 0.0}
123 | 3,3,{'accuracy': 1.0}
124 | 8000,8000,{'accuracy': 1.0}
125 | 8918,3^6 - 343,{'accuracy': 0.0}
126 | 3600,3600,{'accuracy': 1.0}
127 | 4,4,{'accuracy': 1.0}
128 | 140,140,{'accuracy': 1.0}
129 | 3,2.73,{'accuracy': 0.0}
130 | 120,60,{'accuracy': 0.0}
131 | 15,15,{'accuracy': 1.0}
132 | 31,32,{'accuracy': 0.0}
133 | 3,2,{'accuracy': 0.0}
134 | 40,35,{'accuracy': 0.0}
135 | 12,12,{'accuracy': 1.0}
136 | 28,25.98,{'accuracy': 0.0}
137 | 864000,"17,576,000",{'accuracy': 0.0}
138 | 1/4,6,{'accuracy': 0.0}
139 | 12,48,{'accuracy': 0.0}
140 | 380,100,{'accuracy': 0.0}
141 | 7,8,{'accuracy': 0.0}
142 | 14400,1,{'accuracy': 0.0}
143 | 1000000,1000000,{'accuracy': 1.0}
144 | 70,1,{'accuracy': 0.0}
145 | 31,31,{'accuracy': 1.0}
146 | 120,360,{'accuracy': 0.0}
147 | 5,64,{'accuracy': 0.0}
148 | 5,24,{'accuracy': 0.0}
149 | 17/18,20/36,{'accuracy': 0.0}
150 | 1/20,1/4,{'accuracy': 0.0}
151 | 0.5,0.5,{'accuracy': 1.0}
152 | 11/36,11/36,{'accuracy': 1.0}
153 | 37/819,0.0439,{'accuracy': 0.0}
154 | 243,243,{'accuracy': 1.0}
155 | 28,28,{'accuracy': 1.0}
156 | 45,5,{'accuracy': 0.0}
157 | 1963,1004,{'accuracy': 0.0}
158 | 6720,"40,320",{'accuracy': 0.0}
159 | 6,,{'accuracy': 0.0}
160 | 3,عدد صحیح دقیق درونه‌ی مربعی در بازه 200 تا 300: 232,{'accuracy': 0.0}
161 | 110,10,{'accuracy': 0.0}
162 | 48,80,{'accuracy': 0.0}
163 | 1,25/48,{'accuracy': 0.0}
164 | 243,243,{'accuracy': 1.0}
165 | 36,15,{'accuracy': 0.0}
166 | 4,3,{'accuracy': 0.0}
167 | 1/4,1/2,{'accuracy': 0.0}
168 | 1275,16,{'accuracy': 0.0}
169 | 8.5,9,{'accuracy': 0.0}
170 | 11/850,0.013,{'accuracy': 0.0}
171 | 280,70,{'accuracy': 0.0}
172 | 12/25,0.625,{'accuracy': 0.0}
173 | 58500,67600,{'accuracy': 0.0}
174 | 1,6,{'accuracy': 0.0}
175 | 16,16,{'accuracy': 1.0}
176 | 12,12,{'accuracy': 1.0}
177 | 7,تعداد اولیه Penteria ها برابر است با 17,{'accuracy': 0.0}
178 | 5,5,{'accuracy': 1.0}
179 | 18,18,{'accuracy': 1.0}
180 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Mathematical Problems/results/persian_three.csv:
--------------------------------------------------------------------------------
  1 | solution,bot_solution,evaluation
  2 | 6957,1425,{'accuracy': 0.0}
  3 | 7 مهر,8 مهر,{'accuracy': 0.0}
  4 | 5 سال,5,{'accuracy': 1.0}
  5 | 190,189,{'accuracy': 0.0}
  6 | 183,183,{'accuracy': 1.0}
  7 | 500 تومان,1000,{'accuracy': 0.0}
  8 | 12 نقطه,24,{'accuracy': 0.0}
  9 | 32 سیب,8,{'accuracy': 0.0}
 10 | 7 مهره,6,{'accuracy': 0.0}
 11 | 4,9,{'accuracy': 0.0}
 12 | 14 نفر,6,{'accuracy': 0.0}
 13 | سال 1374,1355,{'accuracy': 0.0}
 14 | 35 میلیمتر,3.5,{'accuracy': 0.0}
 15 | 12 ساعت,1.44 ساعت,{'accuracy': 0.0}
 16 | 8 مثلث,8 مثلث کوچک و 4 مثلث بزرگ,{'accuracy': 0.0}
 17 | 1000,1000,{'accuracy': 1.0}
 18 | 9:25,10:25,{'accuracy': 0.0}
 19 | 10,"10, -10",{'accuracy': 0.0}
 20 | 1,1,{'accuracy': 1.0}
 21 | 63,63,{'accuracy': 1.0}
 22 | 149.2,149.20,{'accuracy': 0.0}
 23 | 4 مرتبه,3,{'accuracy': 0.0}
 24 | 2.5 دقیقه,2.5 دقیقه,{'accuracy': 1.0}
 25 | 43,7,{'accuracy': 0.0}
 26 | 60 دانش آموز,60,{'accuracy': 1.0}
 27 | 13,1,{'accuracy': 0.0}
 28 | 16,16,{'accuracy': 1.0}
 29 | 27,81,{'accuracy': 0.0}
 30 | 55,43,{'accuracy': 0.0}
 31 | 18,1/8,{'accuracy': 0.0}
 32 | 16,64,{'accuracy': 0.0}
 33 | 44,44,{'accuracy': 1.0}
 34 | 25,,{'accuracy': 0.0}
 35 | 1,1,{'accuracy': 1.0}
 36 | 2,2,{'accuracy': 1.0}
 37 | 5,5,{'accuracy': 1.0}
 38 | 2,2,{'accuracy': 1.0}
 39 | 1,1,{'accuracy': 1.0}
 40 | 3,3,{'accuracy': 1.0}
 41 | 4,-4,{'accuracy': 1.0}
 42 | 9,9,{'accuracy': 1.0}
 43 | 3,-3,{'accuracy': 1.0}
 44 | 2,2,{'accuracy': 1.0}
 45 | 5,5,{'accuracy': 1.0}
 46 | 3,3,{'accuracy': 1.0}
 47 | 3,4,{'accuracy': 0.0}
 48 | 7,6,{'accuracy': 0.0}
 49 | 5,5,{'accuracy': 1.0}
 50 | 2,5,{'accuracy': 0.0}
 51 | 2,4,{'accuracy': 0.0}
 52 | 8,8,{'accuracy': 1.0}
 53 | 1,8,{'accuracy': 0.0}
 54 | 1,8,{'accuracy': 0.0}
 55 | 2,7,{'accuracy': 0.0}
 56 | 9,9,{'accuracy': 1.0}
 57 | 2 مثلث,3,{'accuracy': 0.0}
 58 | 3 تا,حداکثر تعداد هرمهایی که میتوان درون استخر ساخت، برابر است با 960 / (1/3 * a^2 * h)، که در آن a طول ضلع پایه هر هرم و h عمق هر هرم است.,{'accuracy': 0.0}
 59 | 4 واحد,مساحت مثلث دوم = 2,{'accuracy': 0.0}
 60 | 36 کاغذ,2,{'accuracy': 0.0}
 61 | 2,-7,{'accuracy': 0.0}
 62 | 6,بیش از یک,{'accuracy': 0.0}
 63 | 14,101,{'accuracy': 0.0}
 64 | 7,0، 3، 6، 9، 12,{'accuracy': 0.0}
 65 | 13/18,1/2,{'accuracy': 0.0}
 66 | 28,17,{'accuracy': 0.0}
 67 | 4,5,{'accuracy': 0.0}
 68 | 5,1,{'accuracy': 0.0}
 69 | 15,15,{'accuracy': 1.0}
 70 | 68,68,{'accuracy': 1.0}
 71 | 8,8,{'accuracy': 1.0}
 72 | 32,-32,{'accuracy': 1.0}
 73 | 0.38,28.48,{'accuracy': 0.0}
 74 | 333,111,{'accuracy': 0.0}
 75 | 4:30,4:30 بعد از ظهر,{'accuracy': 1.0}
 76 | 20%,20,{'accuracy': 1.0}
 77 | 7,7,{'accuracy': 1.0}
 78 | 4,12,{'accuracy': 0.0}
 79 | 23,,{'accuracy': 0.0}
 80 | 5999,8000,{'accuracy': 0.0}
 81 | 6,3,{'accuracy': 0.0}
 82 | 0.5,,{'accuracy': 0.0}
 83 | 10 درصد,10%,{'accuracy': 1.0}
 84 | 13 اینچ مربع,48,{'accuracy': 0.0}
 85 | 3,3,{'accuracy': 1.0}
 86 | 36,16*pi,{'accuracy': 0.0}
 87 | 6,5,{'accuracy': 0.0}
 88 | 42,۱۲۶ اینچ,{'accuracy': 0.0}
 89 | 4,۲,{'accuracy': 0.0}
 90 | 564,563,{'accuracy': 0.0}
 91 | 162,189,{'accuracy': 0.0}
 92 | 66,55,{'accuracy': 0.0}
 93 | 6,6,{'accuracy': 1.0}
 94 | 5040,210,{'accuracy': 0.0}
 95 | 5,5,{'accuracy': 1.0}
 96 | 8,10,{'accuracy': 0.0}
 97 | 10,10,{'accuracy': 1.0}
 98 | 4005,2003,{'accuracy': 0.0}
 99 | 1023,1023,{'accuracy': 1.0}
100 | 10,10,{'accuracy': 1.0}
101 | 400,400,{'accuracy': 1.0}
102 | 123,,{'accuracy': 0.0}
103 | 0.17,0.17,{'accuracy': 1.0}
104 | 350,ششمین عضو برابر است با 350.,{'accuracy': 1.0}
105 | 600,3024,{'accuracy': 0.0}
106 | 8,8 کیلوپاسکال,{'accuracy': 1.0}
107 | 8,مجموعه اعداد مورد نظر وجود ندارد.,{'accuracy': 0.0}
108 | 2,2,{'accuracy': 1.0}
109 | 1,1,{'accuracy': 1.0}
110 | 30,12,{'accuracy': 0.0}
111 | 18,6,{'accuracy': 0.0}
112 | 54,54,{'accuracy': 1.0}
113 | 24,8,{'accuracy': 0.0}
114 | 36,36,{'accuracy': 1.0}
115 | 6,8,{'accuracy': 0.0}
116 | 100,200,{'accuracy': 0.0}
117 | 0.54,0.0054,{'accuracy': 0.0}
118 | 21,21,{'accuracy': 1.0}
119 | 70,20,{'accuracy': 0.0}
120 | 144,144,{'accuracy': 1.0}
121 | 3,3,{'accuracy': 1.0}
122 | 126,27,{'accuracy': 0.0}
123 | 3,3,{'accuracy': 1.0}
124 | 8000,8000,{'accuracy': 1.0}
125 | 8918,8918,{'accuracy': 1.0}
126 | 3600,3600,{'accuracy': 1.0}
127 | 4,4,{'accuracy': 1.0}
128 | 140,45,{'accuracy': 0.0}
129 | 3,جذر سوم عدد 11,{'accuracy': 0.0}
130 | 120,60,{'accuracy': 0.0}
131 | 15,بیشتر است,{'accuracy': 0.0}
132 | 31,32,{'accuracy': 0.0}
133 | 3,2,{'accuracy': 0.0}
134 | 40,40,{'accuracy': 1.0}
135 | 12,12,{'accuracy': 1.0}
136 | 28,100,{'accuracy': 0.0}
137 | 864000,729,{'accuracy': 0.0}
138 | 1/4,1/4,{'accuracy': 1.0}
139 | 12,48,{'accuracy': 0.0}
140 | 380,380,{'accuracy': 1.0}
141 | 7,8,{'accuracy': 0.0}
142 | 14400,1,{'accuracy': 0.0}
143 | 1000000,"1,000,000",{'accuracy': 0.0}
144 | 70,8!,{'accuracy': 0.0}
145 | 31,31,{'accuracy': 1.0}
146 | 120,720,{'accuracy': 0.0}
147 | 5,128,{'accuracy': 0.0}
148 | 5,24,{'accuracy': 0.0}
149 | 17/18,1,{'accuracy': 0.0}
150 | 1/20,1/2,{'accuracy': 0.0}
151 | 0.5,0.5,{'accuracy': 1.0}
152 | 11/36,11/36,{'accuracy': 1.0}
153 | 37/819,0.0439 (تقریباً 4.39 درصد),{'accuracy': 0.0}
154 | 243,20,{'accuracy': 0.0}
155 | 28,28,{'accuracy': 1.0}
156 | 45,11,{'accuracy': 0.0}
157 | 1963,تعداد عدد های صحیح مثبت کوچکتر از 2008 که تعداد زوجی از مقسوم علیه ها را دارند، برابر با 1003 میباشد.,{'accuracy': 0.0}
158 | 6720,40320,{'accuracy': 0.0}
159 | 6,7/1296,{'accuracy': 0.0}
160 | 3,تعداد اعداد دقیق بین 200 تا 300 برابر است با 3.,{'accuracy': 0.0}
161 | 110,10,{'accuracy': 0.0}
162 | 48,,{'accuracy': 0.0}
163 | 1,1/16,{'accuracy': 0.0}
164 | 243,243,{'accuracy': 1.0}
165 | 36,72,{'accuracy': 0.0}
166 | 4,4,{'accuracy': 1.0}
167 | 1/4,1/3,{'accuracy': 0.0}
168 | 1275,"مقدار عدد مثلثی پنجاهم برابر است با C(50, 25) = 1961256",{'accuracy': 0.0}
169 | 8.5,8.5,{'accuracy': 1.0}
170 | 11/850,0.0129,{'accuracy': 0.0}
171 | 280,280,{'accuracy': 1.0}
172 | 12/25,6.25,{'accuracy': 0.0}
173 | 58500,"67,600",{'accuracy': 0.0}
174 | 1,1,{'accuracy': 1.0}
175 | 16,16,{'accuracy': 1.0}
176 | 12,12,{'accuracy': 1.0}
177 | 7,52,{'accuracy': 0.0}
178 | 5,5,{'accuracy': 1.0}
179 | 18,18,{'accuracy': 1.0}
180 | 


--------------------------------------------------------------------------------
/Benchmark/Machine Translation/sample.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |   "nbformat": 4,
  3 |   "nbformat_minor": 0,
  4 |   "metadata": {
  5 |     "colab": {
  6 |       "provenance": []
  7 |     },
  8 |     "kernelspec": {
  9 |       "name": "python3",
 10 |       "display_name": "Python 3"
 11 |     },
 12 |     "language_info": {
 13 |       "name": "python"
 14 |     }
 15 |   },
 16 |   "cells": [
 17 |     {
 18 |       "cell_type": "markdown",
 19 |       "source": [
 20 |         "Given a sample"
 21 |       ],
 22 |       "metadata": {
 23 |         "collapsed": false,
 24 |         "id": "8417aff8bf4b1a14"
 25 |       }
 26 |     },
 27 |     {
 28 |       "cell_type": "code",
 29 |       "execution_count": 31,
 30 |       "metadata": {
 31 |         "collapsed": true,
 32 |         "ExecuteTime": {
 33 |           "end_time": "2024-03-09T20:08:45.741419Z",
 34 |           "start_time": "2024-03-09T20:08:45.724813Z"
 35 |         },
 36 |         "id": "initial_id"
 37 |       },
 38 |       "outputs": [],
 39 |       "source": [
 40 |         "sample = {\"En_sentence\": \"It was his habit.\", \"Per_sentence\": \"عادتش بود.\", \"type\": \"En-Per\"}"
 41 |       ]
 42 |     },
 43 |     {
 44 |       "cell_type": "markdown",
 45 |       "source": [
 46 |         "# Prepare input prompt"
 47 |       ],
 48 |       "metadata": {
 49 |         "collapsed": false,
 50 |         "id": "8ddf05a07279b34c"
 51 |       }
 52 |     },
 53 |     {
 54 |       "cell_type": "code",
 55 |       "execution_count": 32,
 56 |       "outputs": [],
 57 |       "source": [
 58 |         "from prompt import ENGLISH_ONE"
 59 |       ],
 60 |       "metadata": {
 61 |         "ExecuteTime": {
 62 |           "end_time": "2024-03-09T20:08:45.741769Z",
 63 |           "start_time": "2024-03-09T20:08:45.728081Z"
 64 |         },
 65 |         "id": "9c041754d9815dc3"
 66 |       }
 67 |     },
 68 |     {
 69 |       "cell_type": "code",
 70 |       "execution_count": 33,
 71 |       "outputs": [],
 72 |       "source": [
 73 |         "sample_prompt = ENGLISH_ONE.format(input=sample['En_sentence'], output=sample['Per_sentence'], source_language='English', target_language='Persian')"
 74 |       ],
 75 |       "metadata": {
 76 |         "ExecuteTime": {
 77 |           "end_time": "2024-03-09T20:08:45.741844Z",
 78 |           "start_time": "2024-03-09T20:08:45.730910Z"
 79 |         },
 80 |         "id": "bc180567ff230cb7"
 81 |       }
 82 |     },
 83 |     {
 84 |       "cell_type": "code",
 85 |       "execution_count": 34,
 86 |       "outputs": [
 87 |         {
 88 |           "output_type": "stream",
 89 |           "name": "stdout",
 90 |           "text": [
 91 |             "\n",
 92 |             "  Task Description:\n",
 93 |             "  In this task, which is Machine Translation (MT), you will be presented with a sentence in English.\n",
 94 |             "  You should translate it to Persian in the most appropriate way.\n",
 95 |             "\n",
 96 |             "  Here is an example for this task, which is translating sentences from English to Persian:\n",
 97 |             "  'This is a sample sentence that we are going to translate it.'\n",
 98 |             "  -> 'این یک جمله‌ی نمونه است که می‌خواهیم آن را ترجمه کنیم.'\n",
 99 |             "\n",
100 |             "  Input:\n",
101 |             "  It was his habit.\n",
102 |             "  \n"
103 |           ]
104 |         }
105 |       ],
106 |       "source": [
107 |         "print(sample_prompt)"
108 |       ],
109 |       "metadata": {
110 |         "ExecuteTime": {
111 |           "end_time": "2024-03-09T20:08:45.742117Z",
112 |           "start_time": "2024-03-09T20:08:45.732644Z"
113 |         },
114 |         "id": "fed76f5deade2ed3",
115 |         "outputId": "c125d3ad-b9d6-4fbc-c964-710692f34dcc",
116 |         "colab": {
117 |           "base_uri": "https://localhost:8080/"
118 |         }
119 |       }
120 |     },
121 |     {
122 |       "cell_type": "markdown",
123 |       "source": [
124 |         "# Evaluate model's response"
125 |       ],
126 |       "metadata": {
127 |         "collapsed": false,
128 |         "id": "dbb94a7e759b90e9"
129 |       }
130 |     },
131 |     {
132 |       "cell_type": "code",
133 |       "source": [
134 |         "from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction"
135 |       ],
136 |       "metadata": {
137 |         "id": "aemP1-6kKMid"
138 |       },
139 |       "execution_count": 35,
140 |       "outputs": []
141 |     },
142 |     {
143 |       "cell_type": "code",
144 |       "source": [
145 |         "sample_GPT_response = \"\"\"این عادت او بود.\"\"\""
146 |       ],
147 |       "metadata": {
148 |         "id": "oEwRI0_WLh7c"
149 |       },
150 |       "execution_count": 36,
151 |       "outputs": []
152 |     },
153 |     {
154 |       "cell_type": "code",
155 |       "execution_count": 37,
156 |       "outputs": [
157 |         {
158 |           "output_type": "execute_result",
159 |           "data": {
160 |             "text/plain": [
161 |               "0.08034284189446518"
162 |             ]
163 |           },
164 |           "metadata": {},
165 |           "execution_count": 37
166 |         }
167 |       ],
168 |       "source": [
169 |         "model_translation = sample_GPT_response.split()\n",
170 |         "\n",
171 |         "reference_translation = [sample['Per_sentence'].split()]\n",
172 |         "\n",
173 |         "bleu_score = sentence_bleu(reference_translation, model_translation, smoothing_function=SmoothingFunction().method1)\n",
174 |         "\n",
175 |         "bleu_score"
176 |       ],
177 |       "metadata": {
178 |         "ExecuteTime": {
179 |           "start_time": "2024-03-09T20:08:45.788789Z"
180 |         },
181 |         "id": "20653183a1e5d9fe",
182 |         "colab": {
183 |           "base_uri": "https://localhost:8080/"
184 |         },
185 |         "outputId": "466a78e7-85d6-497f-b1e0-810490497dbb"
186 |       }
187 |     },
188 |     {
189 |       "cell_type": "code",
190 |       "source": [],
191 |       "metadata": {
192 |         "id": "5IgMNPLHLikZ"
193 |       },
194 |       "execution_count": null,
195 |       "outputs": []
196 |     }
197 |   ]
198 | }


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Mathematical Problems/results/persian_one.csv:
--------------------------------------------------------------------------------
  1 | solution,bot_solution,evaluation
  2 | 6957,1425,{'accuracy': 0.0}
  3 | 7 مهر,8 مهر,{'accuracy': 0.0}
  4 | 5 سال,4.5,{'accuracy': 0.0}
  5 | 190,189,{'accuracy': 0.0}
  6 | 183,183,{'accuracy': 1.0}
  7 | 500 تومان,1000 تومان,{'accuracy': 0.0}
  8 | 12 نقطه,6,{'accuracy': 0.0}
  9 | 32 سیب,8,{'accuracy': 0.0}
 10 | 7 مهره,2,{'accuracy': 0.0}
 11 | 4,9,{'accuracy': 0.0}
 12 | 14 نفر,24,{'accuracy': 0.0}
 13 | سال 1374,677,{'accuracy': 0.0}
 14 | 35 میلیمتر,3.5,{'accuracy': 0.0}
 15 | 12 ساعت,12 ساعت,{'accuracy': 1.0}
 16 | 8 مثلث,8,{'accuracy': 1.0}
 17 | 1000,100,{'accuracy': 0.0}
 18 | 9:25,8:25,{'accuracy': 0.0}
 19 | 10,10,{'accuracy': 1.0}
 20 | 1,1,{'accuracy': 1.0}
 21 | 63,61.74,{'accuracy': 0.0}
 22 | 149.2,149.20 تومان,{'accuracy': 0.0}
 23 | 4 مرتبه,3,{'accuracy': 0.0}
 24 | 2.5 دقیقه,,{'accuracy': 0.0}
 25 | 43,19,{'accuracy': 0.0}
 26 | 60 دانش آموز,60,{'accuracy': 1.0}
 27 | 13,1,{'accuracy': 0.0}
 28 | 16,16,{'accuracy': 1.0}
 29 | 27,69,{'accuracy': 0.0}
 30 | 55,55,{'accuracy': 1.0}
 31 | 18,36,{'accuracy': 0.0}
 32 | 16,64,{'accuracy': 0.0}
 33 | 44,4,{'accuracy': 0.0}
 34 | 25,3125,{'accuracy': 0.0}
 35 | 1,1,{'accuracy': 1.0}
 36 | 2,2,{'accuracy': 1.0}
 37 | 5,5,{'accuracy': 1.0}
 38 | 2,2,{'accuracy': 1.0}
 39 | 1,1,{'accuracy': 1.0}
 40 | 3,3,{'accuracy': 1.0}
 41 | 4,-4,{'accuracy': 1.0}
 42 | 9,9,{'accuracy': 1.0}
 43 | 3,-3,{'accuracy': 1.0}
 44 | 2,2,{'accuracy': 1.0}
 45 | 5,5,{'accuracy': 1.0}
 46 | 3,1,{'accuracy': 0.0}
 47 | 3,4 و 2,{'accuracy': 0.0}
 48 | 7,2,{'accuracy': 0.0}
 49 | 5,1,{'accuracy': 0.0}
 50 | 2,1 و 3,{'accuracy': 0.0}
 51 | 2,2,{'accuracy': 1.0}
 52 | 8,1,{'accuracy': 0.0}
 53 | 1,1,{'accuracy': 1.0}
 54 | 1,4,{'accuracy': 0.0}
 55 | 2,2,{'accuracy': 1.0}
 56 | 9,2,{'accuracy': 0.0}
 57 | 2 مثلث,4,{'accuracy': 0.0}
 58 | 3 تا,,{'accuracy': 0.0}
 59 | 4 واحد,پاسخ نهایی بستگی به مقادیر a، b، c، d، e و f دارد و باید با استفاده از محاسبات فوق مقدار مساحت را محاسبه کنید.,{'accuracy': 0.0}
 60 | 36 کاغذ,16,{'accuracy': 0.0}
 61 | 2,بی‌نهایت (∞),{'accuracy': 0.0}
 62 | 6,تعداد مکعب‌های مستطیلی متفاوت با حجم 30 سانتی متر مکعب بسته به ترکیبات مختلف طول، عرض و ارتفاع متفاوت است.,{'accuracy': 0.0}
 63 | 14,7,{'accuracy': 0.0}
 64 | 7,84,{'accuracy': 0.0}
 65 | 13/18,9/2,{'accuracy': 0.0}
 66 | 28,12,{'accuracy': 0.0}
 67 | 4,30,{'accuracy': 0.0}
 68 | 5,0,{'accuracy': 0.0}
 69 | 15,27,{'accuracy': 0.0}
 70 | 68,68,{'accuracy': 1.0}
 71 | 8,8,{'accuracy': 1.0}
 72 | 32,-32,{'accuracy': 1.0}
 73 | 0.38,28.48,{'accuracy': 0.0}
 74 | 333,111,{'accuracy': 0.0}
 75 | 4:30,ساعت 4:30 بعد از ظهر,{'accuracy': 1.0}
 76 | 20%,20%,{'accuracy': 1.0}
 77 | 7,7,{'accuracy': 1.0}
 78 | 4,12,{'accuracy': 0.0}
 79 | 23,2,{'accuracy': 0.0}
 80 | 5999,8000,{'accuracy': 0.0}
 81 | 6,3,{'accuracy': 0.0}
 82 | 0.5,0.3,{'accuracy': 0.0}
 83 | 10 درصد,40%,{'accuracy': 0.0}
 84 | 13 اینچ مربع,13 اینچ مربع,{'accuracy': 1.0}
 85 | 3,6,{'accuracy': 0.0}
 86 | 36,9,{'accuracy': 0.0}
 87 | 6,6,{'accuracy': 1.0}
 88 | 42,۴۲ اینچ,{'accuracy': 0.0}
 89 | 4,۲,{'accuracy': 0.0}
 90 | 564,564,{'accuracy': 1.0}
 91 | 162,89,{'accuracy': 0.0}
 92 | 66,66,{'accuracy': 1.0}
 93 | 6,6,{'accuracy': 1.0}
 94 | 5040,210,{'accuracy': 0.0}
 95 | 5,20,{'accuracy': 0.0}
 96 | 8,2,{'accuracy': 0.0}
 97 | 10,10,{'accuracy': 1.0}
 98 | 4005,4005,{'accuracy': 1.0}
 99 | 1023,1023,{'accuracy': 1.0}
100 | 10,امی از بتی 10 سیب بیشتر دارد.,{'accuracy': 1.0}
101 | 400,400,{'accuracy': 1.0}
102 | 123,123,{'accuracy': 1.0}
103 | 0.17,0.17,{'accuracy': 1.0}
104 | 350,350,{'accuracy': 1.0}
105 | 600,680,{'accuracy': 0.0}
106 | 8,8,{'accuracy': 1.0}
107 | 8,34,{'accuracy': 0.0}
108 | 2,2,{'accuracy': 1.0}
109 | 1,بزرگترین مقدار ممکن برای میانگین حسابی اعداد کیتی، برابر با A,{'accuracy': 0.0}
110 | 30,30,{'accuracy': 1.0}
111 | 18,6,{'accuracy': 0.0}
112 | 54,54,{'accuracy': 1.0}
113 | 24,8,{'accuracy': 0.0}
114 | 36,36,{'accuracy': 1.0}
115 | 6,8,{'accuracy': 0.0}
116 | 100,5 * زاویه کوچکتر,{'accuracy': 0.0}
117 | 0.54,مساحت سطح مکعب برابر است با ... (مقدار محاسبه شده) متر مربع.,{'accuracy': 0.0}
118 | 21,21,{'accuracy': 1.0}
119 | 70,80,{'accuracy': 0.0}
120 | 144,144,{'accuracy': 1.0}
121 | 3,,{'accuracy': 0.0}
122 | 126,27,{'accuracy': 0.0}
123 | 3,3,{'accuracy': 1.0}
124 | 8000,"115,762.35",{'accuracy': 0.0}
125 | 8918,8918,{'accuracy': 1.0}
126 | 3600,1800 متر مکعب,{'accuracy': 0.0}
127 | 4,4,{'accuracy': 1.0}
128 | 140,40,{'accuracy': 0.0}
129 | 3,3,{'accuracy': 1.0}
130 | 120,60,{'accuracy': 0.0}
131 | 15,15,{'accuracy': 1.0}
132 | 31,32,{'accuracy': 0.0}
133 | 3,,{'accuracy': 0.0}
134 | 40,35 سانتی متر,{'accuracy': 0.0}
135 | 12,12,{'accuracy': 1.0}
136 | 28,7,{'accuracy': 0.0}
137 | 864000,"17,576,000",{'accuracy': 0.0}
138 | 1/4,3/2,{'accuracy': 0.0}
139 | 12,4,{'accuracy': 0.0}
140 | 380,100,{'accuracy': 0.0}
141 | 7,8,{'accuracy': 0.0}
142 | 14400,,{'accuracy': 0.0}
143 | 1000000,"1,000,000",{'accuracy': 0.0}
144 | 70,1,{'accuracy': 0.0}
145 | 31,1,{'accuracy': 0.0}
146 | 120,180,{'accuracy': 0.0}
147 | 5,9,{'accuracy': 0.0}
148 | 5,24,{'accuracy': 0.0}
149 | 17/18,7/12,{'accuracy': 0.0}
150 | 1/20,1/4,{'accuracy': 0.0}
151 | 0.5,0.5,{'accuracy': 1.0}
152 | 11/36,1/12,{'accuracy': 0.0}
153 | 37/819,حدوداً 0.044,{'accuracy': 0.0}
154 | 243,243,{'accuracy': 1.0}
155 | 28,28,{'accuracy': 1.0}
156 | 45,11,{'accuracy': 0.0}
157 | 1963,"تعداد عدد صحیح مثبت کوچکتر از 2008 که تعداد زوجی از مقسوم علیه ها را دارند، برابر است با تعداد اعدادی که تعداد مقسوم علیه های آنها زوج است. برای محاسبه این تعداد، باید تمام اعداد صحیح مثبت کوچکتر از 2008 را بررسی کنیم و ببینیم کدام اعداد تعداد زوجی از مقسوم علیه ها را دارند.
158 | 
159 | با استفاده از روش بالا، میتوانیم تعداد اعداد صحیح مثبت کوچکتر از 2008 که تعداد زوجی از مقسوم علیه ها را دارند را محاسبه کنیم.",{'accuracy': 0.0}
160 | 6720,"40,320",{'accuracy': 0.0}
161 | 6,0.0322 یا 3.22%,{'accuracy': 0.0}
162 | 3,"تعداد عدد های صحیح دقیق درونه‌ی مربعی: 3
163 | عدد های صحیح دقیق درونه‌ی مربعی:",{'accuracy': 1.0}
164 | 110,10*11,{'accuracy': 0.0}
165 | 48,(3^5) / (2^3),{'accuracy': 0.0}
166 | 1,15/16,{'accuracy': 0.0}
167 | 243,243,{'accuracy': 1.0}
168 | 36,24,{'accuracy': 0.0}
169 | 4,5,{'accuracy': 0.0}
170 | 1/4,1/6,{'accuracy': 0.0}
171 | 1275,مقدار عدد مثلثی پنجاهم برابر است با نتیجه عبارت (50 * 49 * 48 * ... * 26) / (25 * 24 * ... * 2 * 1),{'accuracy': 0.0}
172 | 8.5,11,{'accuracy': 0.0}
173 | 11/850,0.0137 یا 1.37٪,{'accuracy': 0.0}
174 | 280,280,{'accuracy': 1.0}
175 | 12/25,0.0625 یا 6.25 درصد,{'accuracy': 0.0}
176 | 58500,"67,600",{'accuracy': 0.0}
177 | 1,1,{'accuracy': 1.0}
178 | 16,13,{'accuracy': 0.0}
179 | 12,12,{'accuracy': 1.0}
180 | 7,,{'accuracy': 0.0}
181 | 5,5,{'accuracy': 1.0}
182 | 18,16,{'accuracy': 0.0}
183 | 


--------------------------------------------------------------------------------
/Benchmark/Entailment(conjnli)/prompt.py:
--------------------------------------------------------------------------------
  1 | """PROMPT POOL THAT HAS BEEN USED FOR Entailment(conjnli) EVALUATION"""
  2 | 
  3 | ENGLISH_ZERO = """
  4 |     You will be presented with a premise, and a hypothesis about that premise. /
  5 |     You need to decide whether the hypothesis is entailed by the premise by choosing one of the following answers: /
  6 |     'e': The hypothesis follows logically from the information contained in the premise. /
  7 |     'c': The hypothesis is logically false from the information contained in the premise. /
  8 |     'n': It is not possible to determine whether the hypothesis is true or false without further information./
  9 |     Read the passage of information thoroughly and select the correct answer from the three answer labels. /
 10 |     Read the premise thoroughly to ensure you know what the premise entails.
 11 | 
 12 |     premise:
 13 |     '''{premise}'''
 14 |     hypothesis:
 15 |     '''{hypothesis}'''
 16 |     answer:
 17 | 
 18 |     """
 19 | 
 20 | 
 21 | PERSIAN_ZERO = """\
 22 |     به شما یک پیش فرض و یک فرضیه در مورد آن پیش فرض ارائه می شود. 
 23 |      شما باید با انتخاب یکی از پاسخ های زیر تصمیم بگیرید که آیا فرضیه مستلزم پیش فرض است:
 24 |      'e': فرضیه به طور منطقی از اطلاعات موجود در پیش فرض ناشی می شود. 
 25 |      'c': فرضیه از نظر منطقی از اطلاعات موجود در پیش فرض نادرست است. 
 26 |      'n': تشخیص درست یا نادرست بودن فرضیه بدون اطلاعات بیشتر ممکن نیست.
 27 |      قسمت اطلاعات را به طور کامل بخوانید و از بین سه برچسب پاسخ، پاسخ صحیح را انتخاب کنید. 
 28 |      پیش فرض را به طور کامل بخوانید تا مطمئن شوید که پیش فرض را شامل می شود.
 29 |     
 30 |     پیش فرض:
 31 |     '''{premise}'''
 32 |     فرضیه:
 33 |     '''{hypothesis}'''
 34 |     پاسخ:\
 35 | 
 36 | """
 37 | 
 38 | ENGLISH_ONE = """
 39 |     You will be presented with a premise, and a hypothesis about that premise. /
 40 |     You need to decide whether the hypothesis is entailed by the premise by choosing one of the following answers: /
 41 |     'e': The hypothesis follows logically from the information contained in the premise. /
 42 |     'c': The hypothesis is logically false from the information contained in the premise. /
 43 |     'n': It is not possible to determine whether the hypothesis is true or false without further information./
 44 |     Read the passage of information thoroughly and select the correct answer from the three answer labels. /
 45 |     Read the premise thoroughly to ensure you know what the premise entails.
 46 | 
 47 |     premise:
 48 |     مهاجران آفریقایی در اروپا در آفریقا متولد می شوند اما در اروپا زندگی می کنند.
 49 |     hypothesis:
 50 |     مهاجران آفریقایی در اروپا یا در آفریقا به دنیا آمده اند یا از نژاد آفریقایی هستند اما در اروپا زندگی می کنند.
 51 |     answer:
 52 |     'e'
 53 | 
 54 |     premise:
 55 |     '''{premise}'''
 56 |     hypothesis:
 57 |     '''{hypothesis}'''
 58 |     answer:
 59 | 
 60 |     """
 61 | 
 62 | 
 63 | PERSIAN_ONE = """
 64 |     به شما یک پیش فرض و یک فرضیه در مورد آن پیش فرض ارائه می شود. /
 65 |      شما باید با انتخاب یکی از پاسخ های زیر تصمیم بگیرید که آیا فرضیه مستلزم پیش فرض است:
 66 |      'e': فرضیه به طور منطقی از اطلاعات موجود در پیش فرض ناشی می شود. /
 67 |      'c': فرضیه از نظر منطقی از اطلاعات موجود در پیش فرض نادرست است. /
 68 |      'n': تشخیص درست یا نادرست بودن فرضیه بدون اطلاعات بیشتر ممکن نیست./
 69 |      قسمت اطلاعات را به طور کامل بخوانید و از بین سه برچسب پاسخ، پاسخ صحیح را انتخاب کنید. /
 70 |      پیش فرض را به طور کامل بخوانید تا مطمئن شوید که پیش فرض را شامل می شود.
 71 | 
 72 |     پیش فرض:
 73 |     مهاجران آفریقایی در اروپا در آفریقا متولد می شوند اما در اروپا زندگی می کنند.
 74 |     فرضیه:
 75 |     مهاجران آفریقایی در اروپا یا در آفریقا به دنیا آمده اند یا از نژاد آفریقایی هستند اما در اروپا زندگی می کنند.
 76 |     پاسخ:
 77 |     'e'
 78 | 
 79 |     پیش فرض:
 80 |     '''{premise}'''
 81 |     فرضیه:
 82 |     '''{hypothesis}'''
 83 |     پاسخ:
 84 | 
 85 | """
 86 | 
 87 | 
 88 | ENGLISH_THREE = """
 89 |     You will be presented with a premise, and a hypothesis about that premise. /
 90 |     You need to decide whether the hypothesis is entailed by the premise by choosing one of the following answers: /
 91 |     'e': The hypothesis follows logically from the information contained in the premise. /
 92 |     'c': The hypothesis is logically false from the information contained in the premise. /
 93 |     'n': It is not possible to determine whether the hypothesis is true or false without further information./
 94 |     Read the passage of information thoroughly and select the correct answer from the three answer labels. /
 95 |     Read the premise thoroughly to ensure you know what the premise entails.
 96 | 
 97 |     premise:
 98 |     نام چینی مجازی است، نه تحت اللفظی، زیرا در این غذا نه چای و نه سوپی وجود دارد.
 99 |     hypothesis:
100 |     نام چینی مجازی است نه تحت اللفظی، زیرا در این غذا چای وجود دارد .
101 |     answer:
102 |     'c'
103 | 
104 |     premise:
105 |     برای کشت در باغ آلپینیوم مناسب است.
106 |     hypothesis:
107 |     برای کشت در باغ آلپینیوم یا باغ صخره ای مناسب است.
108 |     answer:
109 |     'n'
110 | 
111 |     premise:
112 |     مهاجران آفریقایی در اروپا در آفریقا متولد می شوند اما در اروپا زندگی می کنند.
113 |     hypothesis:
114 |     مهاجران آفریقایی در اروپا یا در آفریقا به دنیا آمده اند یا از نژاد آفریقایی هستند اما در اروپا زندگی می کنند.
115 |     answer:
116 |     'e'
117 | 
118 |     premise:
119 |     '''{premise}'''
120 |     hypothesis:
121 |     '''{hypothesis}'''
122 |     answer:
123 | 
124 |     """
125 | 
126 | 
127 | PERSIAN_THREE = """
128 |     به شما یک پیش فرض و یک فرضیه در مورد آن پیش فرض ارائه می شود. /
129 |      شما باید با انتخاب یکی از پاسخ های زیر تصمیم بگیرید که آیا فرضیه مستلزم پیش فرض است:
130 |      'e': فرضیه به طور منطقی از اطلاعات موجود در پیش فرض ناشی می شود. /
131 |      'c': فرضیه از نظر منطقی از اطلاعات موجود در پیش فرض نادرست است. /
132 |      'n': تشخیص درست یا نادرست بودن فرضیه بدون اطلاعات بیشتر ممکن نیست./
133 |      قسمت اطلاعات را به طور کامل بخوانید و از بین سه برچسب پاسخ، پاسخ صحیح را انتخاب کنید. /
134 |      پیش فرض را به طور کامل بخوانید تا مطمئن شوید که پیش فرض را شامل می شود.
135 | 
136 |     پیش فرض:
137 |     نام چینی مجازی است، نه تحت اللفظی، زیرا در این غذا نه چای و نه سوپی وجود دارد.
138 |     فرضیه:
139 |     نام چینی مجازی است نه تحت اللفظی، زیرا در این غذا چای وجود دارد .
140 |     پاسخ:
141 |     'c'
142 | 
143 |     پیش فرض:
144 |     برای کشت در باغ آلپینیوم مناسب است.
145 |     فرضیه:
146 |     برای کشت در باغ آلپینیوم یا باغ صخره ای مناسب است.
147 |     پاسخ:
148 |     'n'
149 | 
150 |     پیش فرض:
151 |     مهاجران آفریقایی در اروپا در آفریقا متولد می شوند اما در اروپا زندگی می کنند.
152 |     فرضیه:
153 |     مهاجران آفریقایی در اروپا یا در آفریقا به دنیا آمده اند یا از نژاد آفریقایی هستند اما در اروپا زندگی می کنند.
154 |     پاسخ:
155 |     'e'
156 | 
157 |     پیش فرض:
158 |     '''{premise}'''
159 |     فرضیه:
160 |     '''{hypothesis}'''
161 |     پاسخ:
162 | 
163 | """
164 | 
165 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Elemntry School Questions/results/elem_q_res.csv:
--------------------------------------------------------------------------------
 1 | ,question,correct_ans,model_ans,model_ans_one_shot,model_ans_three_shot,model_ans_farsiprompt_zero,model_ans_farsiprompt_one,model_ans_farsiprompt_three
 2 | 0,شعاع دایره نصف قطر دایره است. گزینه ها: ا)درست است. ب)غلط است.,ا,ب,ب,ب,ب) غلط است.,ب) غلط است.,ب
 3 | 1,نصف عددی را با ۵ جمع کردیم حاصل ۱۲ شد . آن عدد کدام است؟ گزینه ها: ا)14 ب)9,ا,ب,ب,ب,ب) 9,ب) 9,ب) 9
 4 | 2,مساحت مستطیلی ۲۰ سانتی متر مربع است. اندازهی ضلعها را طوری انتخاب کن که  محیط مستطیل ۱۸  باشد. گزینه ها: ا) عرض 4 و طول 5   ب) عرض 3 و طول 8,ا,ب,ب,ب,ب) عرض 3 و طول 8,`ب`,ب) عرض 3 و طول 8
 5 | 3,مساحت مستطیلی ۲۰ سانتی متر مربع است. اندازهی ضلعها را طوری انتخاب کن که  محیط مستطیل 24  باشد. گزینه ها: ا) عرض 4 و طول 5 ب) عرض 2 و طول 10,ب,ب,ب,ب,ب) عرض 2 و طول 10,ب) عرض 2 و طول 10,ب
 6 | 4,عدد 8 از 10 کوچکتر است. گزینه ها: ا)درست است  ب)غلط است.,ا,ب) غلط است,ب,ب,ب) غلط است,ب) غلط است,ب
 7 | 5,برنامه عمو پورنگ ساعت ۱۷:۳۰ پخش می.شود این برنامه چه ساعتی در بعد از ظهر است؟ گزینه ها: ا) 7:30 ب)5:30,ب,ب) 5:30,ب,ب,ب) 5:30,ب) 5:30,ب) 5:30
 8 | 6,باغچه ای به شکل مستطیل به طول ۹ و عرض ۶ می.باشد مساحت باغچه را به درست آورید. گزینه ها: ا) 15 ب) 54,ب,ب) 54,ب,ب,ب) 54,`ب`,ب) 54
 9 | 7,در میان دو گزینه ی ا) 8 ضرب در 14 و ب) 11 ضرب در 11 کدام گزینه بزرگتر است؟,ب,ب,ا,ب,ب) 11 ضرب در 11,ا) 8 ضرب در 14,ب) 11 ضرب در 11
10 | 8, یک دستگاه جوراب بافی در هر ساعت ۲۵ جفت جوراب میبافد. این دستگاه در ۲۰ ساعت چند جفت جوراب می بافد؟ گزینه ها: ا)500 ب) 400,ا,ب) 400,ا,ب,ب) 400,ب) 400,ب) 400
11 | 9,عدد شش و نیم بین چه اعدادی قرار دارد؟ گزینه ها: ا) شش و هفت ب) پنج و شش,ا,ب,ب,ب,ب) پنج و شش,ب) پنج و شش,ب) پنج و شش
12 | 10,کدام گزینه بزرگتر است؟ گزینه ها: ا) سه چهارم  ب) سه پنجم.,ا,ب,ب,ب,ب) سه پنجم.,ب) سه پنجم,ب) سه پنجم
13 | 11,می خواهیم ۶ بسته ی ۱۲ تایی مداد رنگی را بین ۹ نفر به طور مساوی تقسیم کنیم به هر کدام چند تا مداد میرسد؟ گزینه ها: ا)8 ب)11,ا,ب,ب,ب,ب) 11,ب) 11,ب) 11
14 | 12,با رقم های 5 ، 0 ، 2 ، 8 بزرگترین عدد چهار رقمی را بنویسید. گزینه ها: ا) 8888 ب)8520,ا,ا) 8888,ا,ب,ب) 8520,ا) 8888,ا
15 | 13,سه نقطه را با کلمات مناسب پر کن. مثلثی که 3 ضلع برابر دارد ... نام دارد . گزینه ها: ا) متساوی الاضلاع ب) متساوی الساقین,ا,ا,ا,ب) متساوی الاضلاع,ا) متساوی الاضلاع,ب) متساوی الساقین,ا
16 | 14,سه نقطه را با کلمات مناسب پر کن. احتمال پشت یا رو آمدن یک سکه ... است . گزینه ها: ا) یک دوم ب) دو,ا,ا,ب,ب,ب) دو,ب) دو,ب) دو
17 | 15,سه نقطه را با کلمات مناسب پر کن. دایره ... قطر دارد. گزینه ها: ا) بی نهایت ب) یک,ا,ب,ب,ب,ب) یک,`ب`,ب) یک
18 | 16,اگر رقم یکان 78 را به 2 تبدیل کنیم به چه عددی می رسیم؟ گزینه ها: ا) 72 ب ) 28,ا,ب,ب,ب,ب) 28,ب) 28,ب
19 | 17,مربعی داریم به ضلع 8 سانتی متر ، محیط مربع را حساب کنید ؟ گزینه ها:  ا) 64 ب) 32,ب,ب,ب,ب,ب) 32,ب) 32,ب
20 | 18,سه نقطه را با کلمات مناسب پر کن. 4 بسنه ی 12 تایی مداد را بین 5 نفر به صورت مساوی تقسیم کرده ایم .  به هر نفر ... مداد می رسد و 3 مداد باقی می ماند. گزینه ها: ا) 9 ب) 3,ا,ب,ب,ب,ب) 3,`ب`,ب) 3
21 | 19, محیط مثلث متساوی الاضلاعی 27 سانتی متر  است . اندازه یک ضلع آن را حساب کنید. گزینه ها: ا) 7 ب) 9,ب,ب,ب,ب,ب) 9,ب) 9,ب
22 | 20,سن سارا ۳۰ سال است اگر سن برادرش ۶ سال باشد سن سارا چند برابر برادرش است؟ گزینه ها: ا) پنج برابر ب) شش برابر,ا,ب) شش برابر,ب,ب,ب) شش برابر,ب) شش برابر,ب) شش برابر
23 | 21,باغچه ای به شکل مستطیل به طول ۸ و عرض ۵ داریم میخواهیم دور تا دور آن نرده بکشیم. برای دور تا دور آن به چند متر نرده نیاز داریم؟ گزینه ها: ا) 40 ب)26,ب,ا) 40,ب,ب,ب) 26,ب) 26,ب) 26
24 | 22,یک دستگاه جوراب بافی در هر ساعت ۳۵ جفت جوراب میبافد این دستگاه در ۸ ساعت چند جفت جوراب میبافد؟ گزینه ها: ا) 240 ب ) 280,ب,ب) 280,ب,ب,ب) 280,ب) 280,ب
25 | 23,در عدد 1372 بزرگترین رقم در چه مرتبه ای قرار دارد؟ گزینه ها: ا) دهگان ب) صدگان,ا,ب,ب,ب,ب) صدگان,ب) صدگان,ب) صدگان
26 | 24,علی 23 تا کتاب دارد. 12 تا از آن ها کتاب داستان و بقیه کتاب علمی است. علی چندکتاب علمی دارد ؟ گزینه ها: ا) 8 ب) 11,ب,ب,ب,ب,ب) 11,ب) 11,ب) 11
27 | 25,با رقم های 2،0،3 عدد سه رقمی بنویس که یکان آن 0 باشد. گزینه ها: ا) 203 ب) 230,ب,ب) 230,ب,ب,ب) 230,`ب`,ب
28 | 26,چه عددی را با 17 جمع کنیم که جواب 51 شود؟ گزینه ها: ا)34 ب)24,ا,ب) 24,ب,ب,ب) 24,ب) 34,ب) 24
29 | 27,مقدار 35 متر چند سانتی متر است؟ گزینه ها: ا) 35000 ب) 3500,ب,ب,ب,ب,ب) 3500,`ب`,ب) 3500
30 | 28,از میان دو عدد 60 و 25 کدامیک همزمان بر اعداد 2و3و5 بخش پذیر است؟ گزینه ها: ا) 60 ب)25,ا,ا,ب,ب,ب) 25,ا) 60,ب
31 | 29,احتمال زوج آمدن یک تاس چیست؟ گزینه ها: ا) یک دوم ب) یک ششم,ا,ب,ب,ب,ب) یک ششم,ب) یک ششم,ب) یک ششم
32 | 30,اگر 4.6 را گرد کنیم به چه عددی می رسیم؟ گزینه ها: ا) 4 ب)5,ب,ب,ب,ب,ب) 5,`ب`,ب) 5
33 | 31,یک ربع بعد از ساعت هفت و ربع چه ساعتی است؟ گزینه ها: ا) هفت ب) هفت و نیم,ب,ب,ب,ب,ب) هفت و نیم,ب) هفت و نیم,ب) هفت و نیم
34 | 32,یک کتاب 65 صفحه دارد . علی 20 صفحه را هفته ی قبل خوانده بود .این هفته او 35 صفحه ی دیگر را خواند . چند صفحه از کتاب باقی مانده است ؟  گزینه ها: ا) 10 ب) 20,ا,ا) 10,ب,ب,ب) 20,ب) 10,ب
35 | 33,معین یک کیسه ی آجیل دارد که شامل 80 بادام،  60 پسته و 100 تخمه کدو است .اگر معین بخواهد از کیسه ، بادام در بیاورد احتمال آن چقدر است؟ گزینه ها: ا) یک دوم ب) یک سوم,ب,ب) یک سوم,ب,ب,ب) یک سوم,ب) یک سوم,ب
36 | 34, هر ساعت چند تا یک ربع دارد؟ گزینه ها: ا) چهار ب) دوازده,ا,ب,ب,ب,ب) دوازده,ب) دوازده,ب) دوازده
37 | 35, کدام عدد زوج نیست؟ گزینه ها:  ا)452  ب)709           ,ب,ب,ب,ب,ب) 709,ب) 709,ب) 709
38 | 36,در یک مزرعه روی هم 7 اردک و گوسفند وجود دارد. اگر تعداد پاهای آنها روی هم 20 تا باشد، چند گوسفند در این مزرعه وجود داد؟ گزینه ها: ا) 3 یا 4 ب) 4 یا 5,ا,ب) 4 یا 5,ب,ب,ب) 4 یا 5,ب) 4 یا 5,ب) 4 یا 5
39 | 37,با رقم های 5 ، 0 ، 2 ، 8 کوچک ترین عدد چهار رقمی را بنویسید. گزینه ها: ا) 0000 ب)2058,ب,ب) 2058,ب,ب,ب) 2058,`ب`,ب) 2058
40 | 38,با رقم های 5 ، 0 ، 2 ، 8 بزرگترین و کوچک ترین عدد چهار رقمی را بنویسید و اختلاف آن ها چیست؟ گزینه ها: ا) 8500 ب) 6462,ب,ب) 6462,ا,ب,ب) 6462,`ب`,ا
41 | 39,سه نقطه را با کلمات مناسب پر کن. 4 بسنه ی 12 تایی مداد را بین 5 نفر به صورت مساوی تقسیم کرده ایم .  به هر نفر 9 مداد می رسد و ... مداد باقی می ماند. گزینه ها: ا) 4 ب)3,ب,ب,ب,ب,ب) 3,ب) 3,ب) 3
42 | 40,سه نقطه را با کلمات مناسب پر کن. مثلثی که 2 ضلع برابر دارد ... نام دارد . گزینه ها: ا) متساوی الاضلاع ب) متساوی الساقین,ب,ب,ب,ب) متساوی الساقین,ب) متساوی الساقین,ب) متساوی الساقین,ب) متساوی الساقین
43 | 41,در یک مزرعه روی هم 7 اردک و گوسفند وجود دارد. اگر تعداد پاهای آنها روی هم 20 تا باشد، چند اردک در این مزرعه وجود داد؟ گزینه ها: ا) 3 یا 4 ب) 4 یا 5,ا,ب) 4 یا 5,ب,ب,ب) 4 یا 5,ب) 4 یا 5,ب) 4 یا 5
44 | 42, کدام عدد زوج است؟ گزینه ها:  ا)752  ب)887  ,ا,ا,ا,ا,ا)752,ب) 887,ا
45 | 43,سه نقطه را با کلمات مناسب پر کن. مستطیل ...قطر دارد. گزینه ها: ا) چهار ب) دو,ب,ب,ب,ب,ب) دو,ب) دو,ب) دو
46 | 44,مربعی داریم به ضلع 8 سانتی متر ، مساحت مربع را حساب کنید ؟ گزینه ها: ا) 64 ب) 32,ا,ا) 64,ا,ب,ب) 32,ا,ب) 32
47 | 45,با رقم های 2،0،3 عدد سه رقمی بنویس که یکان آن 0 باشد. گزینه ها: ا) 302 ب) 320,ب,ب) 320,ب,ب,ب) 320,`ب`,ب) 320
48 | 46,یک دستگاه جوراب بافی در هر ساعت 25 جفت جوراب میبافد این دستگاه در ۸ ساعت چند جفت جوراب میبافد؟ گزینه ها: ا) 400 ب ) 200,ب,ب) 200,ا,ب,ب) 200,ب) 200,ب
49 | 47,اگر 3.5 را گرد کنیم به چه عددی می رسیم؟ گزینه ها: ا) 3 ب)4,ب,ب,ب,ب,ب) 4,ب) 4,ب) 4
50 | 48,عدد 4 از 5/4 کوچکتر است. گزینه ها: ا)درست است  ب)غلط است.,ب,ب) غلط است,ب,ب,ب) غلط است,ب) غلط است,ب) غلط است
51 | 49,عدد 3/4 از 3/8 کوچکتر است. گزینه ها: ا)درست است  ب)غلط است.,ب,ب) غلط است,ب,ب,ب) غلط است,`ب`,ب
52 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Mathematical Problems/results/english_one.csv:
--------------------------------------------------------------------------------
  1 | solution,bot_solution,evaluation
  2 | 6957,1425,{'accuracy': 0.0}
  3 | 7 مهر,تولد سینا در تاریخ ۸ مهر است.,{'accuracy': 0.0}
  4 | 5 سال,۱۲,{'accuracy': 0.0}
  5 | 190,142,{'accuracy': 0.0}
  6 | 183,۲۶۱,{'accuracy': 0.0}
  7 | 500 تومان,19000,{'accuracy': 0.0}
  8 | 12 نقطه,6,{'accuracy': 0.0}
  9 | 32 سیب,حدوداً 19 سیب,{'accuracy': 0.0}
 10 | 7 مهره,حداقل 3 مهره,{'accuracy': 0.0}
 11 | 4,7.5,{'accuracy': 0.0}
 12 | 14 نفر,52,{'accuracy': 0.0}
 13 | سال 1374,1395,{'accuracy': 0.0}
 14 | 35 میلیمتر,0.125,{'accuracy': 0.0}
 15 | 12 ساعت,309,{'accuracy': 0.0}
 16 | 8 مثلث,۵,{'accuracy': 0.0}
 17 | 1000,۱۰۰,{'accuracy': 0.0}
 18 | 9:25,۱۲:۰۵,{'accuracy': 0.0}
 19 | 10,10,{'accuracy': 1.0}
 20 | 1,1,{'accuracy': 1.0}
 21 | 63,61.74,{'accuracy': 0.0}
 22 | 149.2,149.20,{'accuracy': 0.0}
 23 | 4 مرتبه,3,{'accuracy': 0.0}
 24 | 2.5 دقیقه,0.167 دقیقه,{'accuracy': 0.0}
 25 | 43,19,{'accuracy': 0.0}
 26 | 60 دانش آموز,60,{'accuracy': 1.0}
 27 | 13,13,{'accuracy': 1.0}
 28 | 16,16,{'accuracy': 1.0}
 29 | 27,-69,{'accuracy': 0.0}
 30 | 55,55,{'accuracy': 1.0}
 31 | 18,108,{'accuracy': 0.0}
 32 | 16,128,{'accuracy': 0.0}
 33 | 44,44,{'accuracy': 1.0}
 34 | 25,3125,{'accuracy': 0.0}
 35 | 1,1,{'accuracy': 1.0}
 36 | 2,2,{'accuracy': 1.0}
 37 | 5,5,{'accuracy': 1.0}
 38 | 2,2,{'accuracy': 1.0}
 39 | 1,1,{'accuracy': 1.0}
 40 | 3,3,{'accuracy': 1.0}
 41 | 4,4,{'accuracy': 1.0}
 42 | 9,9,{'accuracy': 1.0}
 43 | 3,3,{'accuracy': 1.0}
 44 | 2,2,{'accuracy': 1.0}
 45 | 5,5,{'accuracy': 1.0}
 46 | 3,4,{'accuracy': 0.0}
 47 | 3,2 یا 4,{'accuracy': 0.0}
 48 | 7,2 یا 6,{'accuracy': 0.0}
 49 | 5,1,{'accuracy': 0.0}
 50 | 2,1,{'accuracy': 0.0}
 51 | 2,2,{'accuracy': 1.0}
 52 | 8,8,{'accuracy': 1.0}
 53 | 1,1,{'accuracy': 1.0}
 54 | 1,1 یا 3,{'accuracy': 0.0}
 55 | 2,2 یا 3,{'accuracy': 0.0}
 56 | 9,2,{'accuracy': 0.0}
 57 | 2 مثلث,4,{'accuracy': 0.0}
 58 | 3 تا,1,{'accuracy': 0.0}
 59 | 4 واحد,"مساحت مثلث A'B'C' = (1/2) * ((2d-2b)/(a-c)) * (((2ad-2bc)/(a-c)) - ((2af-2be)/(a-e)))
 60 | مساحت مثلث A'B'C' = (1/2) * ((2d-2b)/(a-c)) * (((2ad-2bc)(a-e) - (2af-2be)(a-c)) / ((a-c)(a-e)))
 61 | مساحت مثلث A'B'C' = (ad-bc)(2d-2b)(a-e) - (af-be)(2d-2b)(a-c)) / (2(a-c)(a-e))
 62 | </answer]",{'accuracy': 0.0}
 63 | 36 کاغذ,16,{'accuracy': 0.0}
 64 | 2,16,{'accuracy': 0.0}
 65 | 6,4,{'accuracy': 0.0}
 66 | 14,49,{'accuracy': 0.0}
 67 | 7,مجموع امتیازات تیم‌ها می‌تواند چند عدد مختلف باشد.,{'accuracy': 0.0}
 68 | 13/18,4,{'accuracy': 0.0}
 69 | 28,نسیم حداکثر به 13 پرسش در آزمون پاسخ داده است.,{'accuracy': 0.0}
 70 | 4,تعداد کل پیش‌آمدها برابر با ۳۲ است.,{'accuracy': 0.0}
 71 | 5,مریم حداقل 24 عدد را باید حذف کند تا شرایط مسئله برقرار شود.,{'accuracy': 0.0}
 72 | 15,بکا می‌تواند به 15 عدد متمایز با استفاده از ارقام 2، 3 و 5 برسد.,{'accuracy': 0.0}
 73 | 68,عدد صحیح مورد نظر برابر با 68 است.,{'accuracy': 1.0}
 74 | 8,فاصله واقعی بین دو شهر 8 کیلومتر است.,{'accuracy': 1.0}
 75 | 32,مقدار عبارت (4+12) - (4×12) برابر با -32 است.,{'accuracy': 0.0}
 76 | 0.38,میانگین مصرف هفتگی شیرینی برای امریکایی‌ها حدود 0.376 پوند است (با دقت دو رقم اعشاری).,{'accuracy': 0.0}
 77 | 333,کوچکترین عدد سه‌رقمی به فرم \( aaa \) که بر ۹ بخش‌پذیر است، برابر با \( 333 \) است.,{'accuracy': 0.0}
 78 | 4:30,مقصد در ساعت 3:30 بعد از ظهر خواهد بود.,{'accuracy': 0.0}
 79 | 20%,جوراب‌های جینا 20 درصد قرمز هستند.,{'accuracy': 1.0}
 80 | 7,7,{'accuracy': 1.0}
 81 | 4,2,{'accuracy': 0.0}
 82 | 23,8,{'accuracy': 0.0}
 83 | 5999,5999,{'accuracy': 1.0}
 84 | 6,2,{'accuracy': 0.0}
 85 | 0.5,0.001111...,{'accuracy': 0.0}
 86 | 10 درصد,110٪,{'accuracy': 0.0}
 87 | 13 اینچ مربع,28.5 اینچ مربع,{'accuracy': 0.0}
 88 | 3,2400 اینچ,{'accuracy': 0.0}
 89 | 36,حدود 37.68 اینچ مربع,{'accuracy': 0.0}
 90 | 6,7,{'accuracy': 0.0}
 91 | 42,63,{'accuracy': 0.0}
 92 | 4,"2
 93 | 
 94 | </answer]",{'accuracy': 0.0}
 95 | 564,564,{'accuracy': 1.0}
 96 | 162,729,{'accuracy': 0.0}
 97 | 66,60,{'accuracy': 0.0}
 98 | 6,6,{'accuracy': 1.0}
 99 | 5040,5040,{'accuracy': 1.0}
100 | 5,5,{'accuracy': 1.0}
101 | 8,18,{'accuracy': 0.0}
102 | 10,10,{'accuracy': 1.0}
103 | 4005,2003,{'accuracy': 0.0}
104 | 1023,1023,{'accuracy': 1.0}
105 | 10,10,{'accuracy': 1.0}
106 | 400,400,{'accuracy': 1.0}
107 | 123,\(\frac{12}{1001}\),{'accuracy': 0.0}
108 | 0.17,0.1667,{'accuracy': 0.0}
109 | 350,575,{'accuracy': 0.0}
110 | 600,600,{'accuracy': 1.0}
111 | 8,8 کیلوپاسکال,{'accuracy': 1.0}
112 | 8,2,{'accuracy': 0.0}
113 | 2,2,{'accuracy': 1.0}
114 | 1,بی‌نهایت,{'accuracy': 0.0}
115 | 30,30,{'accuracy': 1.0}
116 | 18,6,{'accuracy': 0.0}
117 | 54,54,{'accuracy': 1.0}
118 | 24,یک منشور هشت ضلعی دارای ۸ ضلع است.,{'accuracy': 0.0}
119 | 36,36,{'accuracy': 1.0}
120 | 8,6,{'accuracy': 0.0}
121 | 100,100,{'accuracy': 1.0}
122 | 0.54,0.54,{'accuracy': 1.0}
123 | 21,21,{'accuracy': 1.0}
124 | 70,70,{'accuracy': 1.0}
125 | 144,144,{'accuracy': 1.0}
126 | 3,3,{'accuracy': 1.0}
127 | 126,27,{'accuracy': 0.0}
128 | 3,3,{'accuracy': 1.0}
129 | 8000,9600,{'accuracy': 0.0}
130 | 8918,8232,{'accuracy': 0.0}
131 | 3600,3600,{'accuracy': 1.0}
132 | 4,4,{'accuracy': 1.0}
133 | 140,40,{'accuracy': 0.0}
134 | 3,3.67,{'accuracy': 0.0}
135 | 120,120,{'accuracy': 1.0}
136 | 15,15,{'accuracy': 1.0}
137 | 31,30,{'accuracy': 0.0}
138 | 3,3,{'accuracy': 1.0}
139 | 40,35,{'accuracy': 0.0}
140 | 12,12,{'accuracy': 1.0}
141 | 28,6.72,{'accuracy': 0.0}
142 | 864000,2600,{'accuracy': 0.0}
143 | 1/4,3/128,{'accuracy': 0.0}
144 | 12,18,{'accuracy': 0.0}
145 | 380,100,{'accuracy': 0.0}
146 | 7,8,{'accuracy': 0.0}
147 | 14400,28800,{'accuracy': 0.0}
148 | 1000000,1000000,{'accuracy': 1.0}
149 | 70,1,{'accuracy': 0.0}
150 | 31,16,{'accuracy': 0.0}
151 | 120,360,{'accuracy': 0.0}
152 | 5,254,{'accuracy': 0.0}
153 | 5,24,{'accuracy': 0.0}
154 | 17/18,31/36,{'accuracy': 0.0}
155 | 1/20,1/4,{'accuracy': 0.0}
156 | 0.5,0.5,{'accuracy': 1.0}
157 | 11/36,11/36,{'accuracy': 1.0}
158 | 37/819,0.045,{'accuracy': 0.0}
159 | 243,32,{'accuracy': 0.0}
160 | 28,28,{'accuracy': 1.0}
161 | 45,45,{'accuracy': 1.0}
162 | 1963,تعداد عدد صحیح مثبت کوچکتر از 2008 که تعداد زوج مقسوم علیه های آنها را دارند، برابر است با تعداد اعداد زوج کوچکتر از 2008. برای محاسبه این تعداد، باید تعداد اعداد زوج کوچکتر از 2008 را محاسبه کنیم. تعداد اعداد زوج کوچکتر از 2008 برابر است با نصف تعداد اعداد صحیح مثبت کوچکتر از 2008. پس تعداد عدد های صحیح مثبت کوچکتر از 2008 که تعداد زوج مقسوم علیه های آنها را دارند، برابر است با 2008/2 = 1004.,{'accuracy': 0.0}
163 | 6720,3360,{'accuracy': 0.0}
164 | 6,30 / 6^5,{'accuracy': 0.0}
165 | 3,101,{'accuracy': 0.0}
166 | 110,10*11,{'accuracy': 0.0}
167 | 48,3^5 - 2^3 = 243 - 8 = 235,{'accuracy': 0.0}
168 | 1,15/16,{'accuracy': 0.0}
169 | 243,243,{'accuracy': 1.0}
170 | 36,1,{'accuracy': 0.0}
171 | 4,6,{'accuracy': 0.0}
172 | 1/4,73/36,{'accuracy': 0.0}
173 | 1275,عدد مثلثی پنجاهم برابر است با 1,{'accuracy': 0.0}
174 | 8.5,3.5,{'accuracy': 0.0}
175 | 11/850,1,{'accuracy': 0.0}
176 | 280,70,{'accuracy': 0.0}
177 | 12/25,0.0625,{'accuracy': 0.0}
178 | 58500,67600,{'accuracy': 0.0}
179 | 1,2k + 1,{'accuracy': 0.0}
180 | 16,15,{'accuracy': 0.0}
181 | 12,12,{'accuracy': 1.0}
182 | 7,103,{'accuracy': 0.0}
183 | 5,5,{'accuracy': 1.0}
184 | 18,16,{'accuracy': 0.0}
185 | 


--------------------------------------------------------------------------------
/Benchmark/Entailment(conjnli)/sample.ipynb:
--------------------------------------------------------------------------------
1 | {"cells":[{"cell_type":"markdown","metadata":{"collapsed":false,"id":"8417aff8bf4b1a14"},"source":["Given a sample"]},{"cell_type":"code","execution_count":17,"metadata":{"ExecuteTime":{"end_time":"2024-03-09T20:08:45.741419Z","start_time":"2024-03-09T20:08:45.724813Z"},"collapsed":true,"executionInfo":{"elapsed":3,"status":"ok","timestamp":1710507705528,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"},"user_tz":-210},"id":"initial_id"},"outputs":[],"source":["sample = {\"En_premise\": \" In Quebec, an allophone is a resident, usually an immigrant, whose mother tongue or home language is neither French nor English.\", \"En_hypothesis\": \" In Quebec, an allophone is a resident, usually an immigrant, whose mother tongue or home language is not French.\", \"Fa_premise\": \" \\u062f\\u0631 \\u06a9\\u0628\\u06a9\\u060c \\u0622\\u0644\\u0648\\u0641\\u0648\\u0646 \\u0633\\u0627\\u06a9\\u0646\\u06cc \\u0627\\u0633\\u062a\\u060c \\u0645\\u0639\\u0645\\u0648\\u0644\\u0627\\u064b \\u06cc\\u06a9 \\u0645\\u0647\\u0627\\u062c\\u0631\\u060c \\u06a9\\u0647 \\u0632\\u0628\\u0627\\u0646 \\u0645\\u0627\\u062f\\u0631\\u06cc \\u06cc\\u0627 \\u0632\\u0628\\u0627\\u0646 \\u0645\\u0627\\u062f\\u0631\\u06cc \\u0627\\u0648 \\u0646\\u0647 \\u0641\\u0631\\u0627\\u0646\\u0633\\u0648\\u06cc \\u0627\\u0633\\u062a \\u0648 \\u0646\\u0647 \\u0627\\u0646\\u06af\\u0644\\u06cc\\u0633\\u06cc. \", \"Fa_hypothesis\": \" \\u062f\\u0631 \\u06a9\\u0628\\u06a9\\u060c \\u0622\\u0644\\u0648\\u0641\\u0648\\u0646 \\u0633\\u0627\\u06a9\\u0646\\u06cc \\u0627\\u0633\\u062a \\u06a9\\u0647 \\u0645\\u0639\\u0645\\u0648\\u0644\\u0627\\u064b \\u06cc\\u06a9 \\u0645\\u0647\\u0627\\u062c\\u0631 \\u0627\\u0633\\u062a \\u06a9\\u0647 \\u0632\\u0628\\u0627\\u0646 \\u0645\\u0627\\u062f\\u0631\\u06cc \\u06cc\\u0627 \\u0632\\u0628\\u0627\\u0646 \\u0627\\u0635\\u0644\\u06cc \\u0627\\u0648 \\u0641\\u0631\\u0627\\u0646\\u0633\\u0648\\u06cc \\u0646\\u06cc\\u0633\\u062a.\", \"target\": \"e\"}"]},{"cell_type":"markdown","metadata":{"collapsed":false,"id":"8ddf05a07279b34c"},"source":["# Prepare input prompt"]},{"cell_type":"code","execution_count":18,"metadata":{"ExecuteTime":{"end_time":"2024-03-09T20:08:45.741769Z","start_time":"2024-03-09T20:08:45.728081Z"},"executionInfo":{"elapsed":527,"status":"ok","timestamp":1710508484323,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"},"user_tz":-210},"id":"9c041754d9815dc3"},"outputs":[],"source":["from prompt import ENGLISH_ONE"]},{"cell_type":"code","execution_count":19,"metadata":{"ExecuteTime":{"end_time":"2024-03-09T20:08:45.741844Z","start_time":"2024-03-09T20:08:45.730910Z"},"executionInfo":{"elapsed":3,"status":"ok","timestamp":1710508485988,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"},"user_tz":-210},"id":"bc180567ff230cb7"},"outputs":[],"source":["sample_prompt = ENGLISH_ONE.format(premise=sample['Fa_premise'], hypothesis=sample['Fa_hypothesis'])"]},{"cell_type":"code","execution_count":20,"metadata":{"ExecuteTime":{"end_time":"2024-03-09T20:08:45.742117Z","start_time":"2024-03-09T20:08:45.732644Z"},"colab":{"base_uri":"https://localhost:8080/"},"executionInfo":{"elapsed":4,"status":"ok","timestamp":1710508487293,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"},"user_tz":-210},"id":"fed76f5deade2ed3","outputId":"0ed188b3-52b6-482c-930d-0ad363a62643"},"outputs":[{"name":"stdout","output_type":"stream","text":["\n","    You will be presented with a premise, and a hypothesis about that premise. /\n","    You need to decide whether the hypothesis is entailed by the premise by choosing one of the following answers: /\n","    'e': The hypothesis follows logically from the information contained in the premise. /\n","    'c': The hypothesis is logically false from the information contained in the premise. /\n","    'n': It is not possible to determine whether the hypothesis is true or false without further information./\n","    Read the passage of information thoroughly and select the correct answer from the three answer labels. /\n","    Read the premise thoroughly to ensure you know what the premise entails.\n","\n","    premise:\n","    مهاجران آفریقایی در اروپا در آفریقا متولد می شوند اما در اروپا زندگی می کنند.\n","    hypothesis:\n","    مهاجران آفریقایی در اروپا یا در آفریقا به دنیا آمده اند یا از نژاد آفریقایی هستند اما در اروپا زندگی می کنند.\n","    answer:\n","    'e'\n","\n","    premise:\n","    ''' در کبک، آلوفون ساکنی است، معمولاً یک مهاجر، که زبان مادری یا زبان مادری او نه فرانسوی است و نه انگلیسی. '''\n","    hypothesis:\n","    ''' در کبک، آلوفون ساکنی است که معمولاً یک مهاجر است که زبان مادری یا زبان اصلی او فرانسوی نیست.'''\n","    answer:\n","\n","    \n"]}],"source":["print(sample_prompt)"]},{"cell_type":"markdown","metadata":{"collapsed":false,"id":"dbb94a7e759b90e9"},"source":["# Evaluate model's response"]},{"cell_type":"code","execution_count":8,"metadata":{"executionInfo":{"elapsed":6,"status":"ok","timestamp":1710508532994,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"},"user_tz":-210},"id":"NzifuNo6O7e1"},"outputs":[],"source":["from sklearn.metrics import accuracy_score, classification_report"]},{"cell_type":"code","execution_count":9,"metadata":{"ExecuteTime":{"start_time":"2024-03-09T20:08:45.788789Z"},"executionInfo":{"elapsed":4,"status":"ok","timestamp":1710508532994,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"},"user_tz":-210},"id":"20653183a1e5d9fe"},"outputs":[],"source":["sample_GPT_response = \"\"\"e\"\"\""]},{"cell_type":"code","execution_count":13,"metadata":{"executionInfo":{"elapsed":5,"status":"ok","timestamp":1710508561233,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"},"user_tz":-210},"id":"qyE_l8nOOKuK"},"outputs":[],"source":["\n","labels = ['c', 'e', 'n']\n","\n","true_labels = [sample['target']]\n","sample_results = [sample_GPT_response]"]},{"cell_type":"code","execution_count":15,"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"executionInfo":{"elapsed":4,"status":"ok","timestamp":1710508568095,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"},"user_tz":-210},"id":"d4iG3SZ7OsAQ","outputId":"b184f086-b6ba-4db7-823d-90ae631456c1"},"outputs":[{"name":"stdout","output_type":"stream","text":["              precision    recall  f1-score   support\n","\n","           c      0.000     0.000     0.000         0\n","           e      1.000     1.000     1.000         1\n","           n      0.000     0.000     0.000         0\n","\n","   micro avg      1.000     1.000     1.000         1\n","   macro avg      0.333     0.333     0.333         1\n","weighted avg      1.000     1.000     1.000         1\n","\n"]}],"source":["print(classification_report(true_labels, sample_results,\n","                            labels=labels,\n","                            zero_division=0,\n","                            digits=3))"]},{"cell_type":"code","execution_count":16,"metadata":{"ExecuteTime":{"start_time":"2024-03-09T20:08:45.792775Z"},"colab":{"base_uri":"https://localhost:8080/"},"executionInfo":{"elapsed":11,"status":"ok","timestamp":1710508586905,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"},"user_tz":-210},"id":"ded2bd1752deb01f","outputId":"e9cb0c82-982a-4081-a419-84daadf61d73"},"outputs":[{"name":"stdout","output_type":"stream","text":["Accuracy:  1.0\n"]}],"source":["print(\"Accuracy: \", accuracy_score(true_labels, sample_results))"]}],"metadata":{"colab":{"authorship_tag":"ABX9TyO5SnFvKKEeMF3jwoHwZdmv","collapsed_sections":["8ddf05a07279b34c","dbb94a7e759b90e9"],"provenance":[]},"kernelspec":{"display_name":"Python 3","name":"python3"},"language_info":{"codemirror_mode":{"name":"ipython","version":3},"file_extension":".py","mimetype":"text/x-python","name":"python","nbconvert_exporter":"python","pygments_lexer":"ipython3","version":"3.10.7"}},"nbformat":4,"nbformat_minor":0}
2 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Textual Entailment/results/p_fa__0shot__0_8.csv:
--------------------------------------------------------------------------------
  1 | prompt,response,predicted_labels,actual_labels
  2 | "هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
  3 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
  4 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
  5 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
  6 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
  7 | 
  8 | الگوی نمونه:
  9 | <پیش‌فرض><sep><فرضیه>
 10 | <برچسب>:
 11 |     تناقض یا تناظر یا ناشناخته
 12 | 
 13 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
 14 | <این نمی‌تواند توجیه خوبی باشد که چون این خودرو شاسی‌بلند است پس وزن بالا نیز طبیعی است. بسیاری از خودروهای شاسی بلند در مقایسه با این خودرو وزن بسیار کمتری دارند و سریع‌تر و کارامدتر هستند.><sep><یکی از ایرادات این خودرو وزن بالای آن است.>
 15 | <برچسب>:
 16 |     ?
 17 | ",ناشناخته,ناشناخته,تناظر
 18 | "هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
 19 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
 20 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
 21 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
 22 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
 23 | 
 24 | الگوی نمونه:
 25 | <پیش‌فرض><sep><فرضیه>
 26 | <برچسب>:
 27 |     تناقض یا تناظر یا ناشناخته
 28 | 
 29 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
 30 | <در این واکنش سرعت هالوژن‌دار شدن مستقل از غلظت هالوژن است ولی به غلظت کتون و اسید بستگی دارد.><sep><در این واکنش سرعت هالوژن‌دار شدن وابسته به غلظت هالوژن است ولی مستقل از  غلظت کتون و اسید است.>
 31 | <برچسب>:
 32 |     ?
 33 | ",تناقض,تناقض,تناقض
 34 | "هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
 35 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
 36 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
 37 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
 38 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
 39 | 
 40 | الگوی نمونه:
 41 | <پیش‌فرض><sep><فرضیه>
 42 | <برچسب>:
 43 |     تناقض یا تناظر یا ناشناخته
 44 | 
 45 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
 46 | < بنابراین افرادی که در هوای گرم فعالیت های سنگین دارند، در معرض حمله قلبی قرار می گیرند.><sep><بنا به یافته های اخیر، افزایش دما تاثیری در سلامت کارگران ندارد>
 47 | <برچسب>:
 48 |     ?
 49 | ",تناقض,تناقض,تناقض
 50 | "هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
 51 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
 52 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
 53 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
 54 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
 55 | 
 56 | الگوی نمونه:
 57 | <پیش‌فرض><sep><فرضیه>
 58 | <برچسب>:
 59 |     تناقض یا تناظر یا ناشناخته
 60 | 
 61 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
 62 | <در شرایط دیگر ، ما متذکر شدیم که یک برنامه فاقد روشی مؤثر برای نظارت بر رشد حرفه ای کارمندان جدید و بی تجربه است.><sep><۹ موقعیت وجود داشته که ما به آنها اشاره کردیم.>
 63 | <برچسب>:
 64 |     ?
 65 | ",ناشناخته,ناشناخته,ناشناخته
 66 | "هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
 67 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
 68 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
 69 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
 70 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
 71 | 
 72 | الگوی نمونه:
 73 | <پیش‌فرض><sep><فرضیه>
 74 | <برچسب>:
 75 |     تناقض یا تناظر یا ناشناخته
 76 | 
 77 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
 78 | <تلویزیون مهمترین وسیله برای انتقال تاریخ است.><sep><تلویزیون مهمترین وسیله برای نمایش تاریخ است.>
 79 | <برچسب>:
 80 |     ?
 81 | ",تناقض,تناقض,تناظر
 82 | "هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
 83 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
 84 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
 85 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
 86 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
 87 | 
 88 | الگوی نمونه:
 89 | <پیش‌فرض><sep><فرضیه>
 90 | <برچسب>:
 91 |     تناقض یا تناظر یا ناشناخته
 92 | 
 93 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
 94 | <نفت و زغال و دیگر معادن سرانجام روزی تمام خواهد شد، ولی جنگلی که خوب نگهداری شود (حتی گاه بدون نگهداری) به‌طور نامحدود به تولید چوب ادامه خواهد داد.><sep><چوب بر خلاف نفت و زغال از جمله منابع طبیعی تجدیدپذیر است.>
 95 | <برچسب>:
 96 |     ?
 97 | ",ناشناخته,ناشناخته,تناظر
 98 | "هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
 99 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
100 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
101 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
102 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
103 | 
104 | الگوی نمونه:
105 | <پیش‌فرض><sep><فرضیه>
106 | <برچسب>:
107 |     تناقض یا تناظر یا ناشناخته
108 | 
109 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
110 | <سپس در دانشسرای عالی به پژوهش در زمینه هندسه دیفرانسیل پرداخت و مدرک دکترای خود را در رشته ریاضیات در سال ۱۳۱۶ دریافت کرد و در همان دانشگاه مشغول به تدریس شد.><sep><پس از اتمام تحصیل به عنوان استادیار در دانشکده علوم دانشسرای عالی به کار مشغول شد.>
111 | <برچسب>:
112 |     ?
113 | ",ناشناخته,ناشناخته,تناظر
114 | "هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
115 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
116 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
117 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
118 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
119 | 
120 | الگوی نمونه:
121 | <پیش‌فرض><sep><فرضیه>
122 | <برچسب>:
123 |     تناقض یا تناظر یا ناشناخته
124 | 
125 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
126 | <این کار اوست.><sep><این کار اوست که نگران شما باشد.>
127 | <برچسب>:
128 |     ?
129 | ",تناظر,تناظر,ناشناخته
130 | "هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
131 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
132 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
133 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
134 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
135 | 
136 | الگوی نمونه:
137 | <پیش‌فرض><sep><فرضیه>
138 | <برچسب>:
139 |     تناقض یا تناظر یا ناشناخته
140 | 
141 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
142 | <ارتباط با ما خانه » ارتباط با ما ارتباط با ما پایگاه خبری “جامع خبر” با هدف انتشار اخبار عمومی کشور بدون گرایش‌های مختلف سیاسی و با نگاهی حرفه‌ای به مقوله خبر اقتصادی واجتماعی توسط جمعی از خبرنگاران باسابقه کشور، فعالیت می‌کند.><sep><روابط بین ایران و آمریکا پس از انقلاب قطع شده است.>
143 | <برچسب>:
144 |     ?
145 | ",ناشناخته,ناشناخته,ناشناخته
146 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Elemntry School Questions/results/result_elem_q_pp.csv:
--------------------------------------------------------------------------------
 1 | ,Unnamed: 0,question,correct_ans,model_ans,model_ans_one_shot,model_ans_three_shot,model_ans_farsiprompt_zero,model_ans_farsiprompt_one,model_ans_farsiprompt_three,model_ans_post_process,model_ans_one_shot_post_process,model_ans_three_shot_post_process,model_ans_farsiprompt_zero_post_process,model_ans_farsiprompt_one_post_process,model_ans_farsiprompt_three_post_process
 2 | 0,0,شعاع دایره نصف قطر دایره است. گزینه ها: ا)درست است. ب)غلط است.,ا,ب,ب,ب,ب) غلط است.,ب) غلط است.,ب,ب,ب,ب,ب,ب,ب
 3 | 1,1,نصف عددی را با ۵ جمع کردیم حاصل ۱۲ شد . آن عدد کدام است؟ گزینه ها: ا)14 ب)9,ا,ب,ب,ب,ب) 9,ب) 9,ب) 9,ب,ب,ب,ب,ب,ب
 4 | 2,2,مساحت مستطیلی ۲۰ سانتی متر مربع است. اندازهی ضلعها را طوری انتخاب کن که  محیط مستطیل ۱۸  باشد. گزینه ها: ا) عرض 4 و طول 5   ب) عرض 3 و طول 8,ا,ب,ب,ب,ب) عرض 3 و طول 8,`ب`,ب) عرض 3 و طول 8,ب,ب,ب,ب,ب,ب
 5 | 3,3,مساحت مستطیلی ۲۰ سانتی متر مربع است. اندازهی ضلعها را طوری انتخاب کن که  محیط مستطیل 24  باشد. گزینه ها: ا) عرض 4 و طول 5 ب) عرض 2 و طول 10,ب,ب,ب,ب,ب) عرض 2 و طول 10,ب) عرض 2 و طول 10,ب,ب,ب,ب,ب,ب,ب
 6 | 4,4,عدد 8 از 10 کوچکتر است. گزینه ها: ا)درست است  ب)غلط است.,ا,ب) غلط است,ب,ب,ب) غلط است,ب) غلط است,ب,ب,ب,ب,ب,ب,ب
 7 | 5,5,برنامه عمو پورنگ ساعت ۱۷:۳۰ پخش می.شود این برنامه چه ساعتی در بعد از ظهر است؟ گزینه ها: ا) 7:30 ب)5:30,ب,ب) 5:30,ب,ب,ب) 5:30,ب) 5:30,ب) 5:30,ب,ب,ب,ب,ب,ب
 8 | 6,6,باغچه ای به شکل مستطیل به طول ۹ و عرض ۶ می.باشد مساحت باغچه را به درست آورید. گزینه ها: ا) 15 ب) 54,ب,ب) 54,ب,ب,ب) 54,`ب`,ب) 54,ب,ب,ب,ب,ب,ب
 9 | 7,7,در میان دو گزینه ی ا) 8 ضرب در 14 و ب) 11 ضرب در 11 کدام گزینه بزرگتر است؟,ب,ب,ا,ب,ب) 11 ضرب در 11,ا) 8 ضرب در 14,ب) 11 ضرب در 11,ب,ب,ب,ب,ب,ب
10 | 8,8, یک دستگاه جوراب بافی در هر ساعت ۲۵ جفت جوراب میبافد. این دستگاه در ۲۰ ساعت چند جفت جوراب می بافد؟ گزینه ها: ا)500 ب) 400,ا,ب) 400,ا,ب,ب) 400,ب) 400,ب) 400,ب,ب,ب,ب,ب,ب
11 | 9,9,عدد شش و نیم بین چه اعدادی قرار دارد؟ گزینه ها: ا) شش و هفت ب) پنج و شش,ا,ب,ب,ب,ب) پنج و شش,ب) پنج و شش,ب) پنج و شش,ب,ب,ب,ب,ب,ب
12 | 10,10,کدام گزینه بزرگتر است؟ گزینه ها: ا) سه چهارم  ب) سه پنجم.,ا,ب,ب,ب,ب) سه پنجم.,ب) سه پنجم,ب) سه پنجم,ب,ب,ب,ب,ب,ب
13 | 11,11,می خواهیم ۶ بسته ی ۱۲ تایی مداد رنگی را بین ۹ نفر به طور مساوی تقسیم کنیم به هر کدام چند تا مداد میرسد؟ گزینه ها: ا)8 ب)11,ا,ب,ب,ب,ب) 11,ب) 11,ب) 11,ب,ب,ب,ب,ب,ب
14 | 12,12,با رقم های 5 ، 0 ، 2 ، 8 بزرگترین عدد چهار رقمی را بنویسید. گزینه ها: ا) 8888 ب)8520,ا,ا) 8888,ا,ب,ب) 8520,ا) 8888,ا,ا,ا,ا,ا,ا,ا
15 | 13,13,سه نقطه را با کلمات مناسب پر کن. مثلثی که 3 ضلع برابر دارد ... نام دارد . گزینه ها: ا) متساوی الاضلاع ب) متساوی الساقین,ا,ا,ا,ب) متساوی الاضلاع,ا) متساوی الاضلاع,ب) متساوی الساقین,ا,ا,ا,ا,ا,ا,ا
16 | 14,14,سه نقطه را با کلمات مناسب پر کن. احتمال پشت یا رو آمدن یک سکه ... است . گزینه ها: ا) یک دوم ب) دو,ا,ا,ب,ب,ب) دو,ب) دو,ب) دو,ب,ب,ب,ب,ب,ب
17 | 15,15,سه نقطه را با کلمات مناسب پر کن. دایره ... قطر دارد. گزینه ها: ا) بی نهایت ب) یک,ا,ب,ب,ب,ب) یک,`ب`,ب) یک,ب,ب,ب,ب,ب,ب
18 | 16,16,اگر رقم یکان 78 را به 2 تبدیل کنیم به چه عددی می رسیم؟ گزینه ها: ا) 72 ب ) 28,ا,ب,ب,ب,ب) 28,ب) 28,ب,ب,ب,ب,ب,ب,ب
19 | 17,17,مربعی داریم به ضلع 8 سانتی متر ، محیط مربع را حساب کنید ؟ گزینه ها:  ا) 64 ب) 32,ب,ب,ب,ب,ب) 32,ب) 32,ب,ب,ب,ب,ب,ب,ب
20 | 18,18,سه نقطه را با کلمات مناسب پر کن. 4 بسنه ی 12 تایی مداد را بین 5 نفر به صورت مساوی تقسیم کرده ایم .  به هر نفر ... مداد می رسد و 3 مداد باقی می ماند. گزینه ها: ا) 9 ب) 3,ا,ب,ب,ب,ب) 3,`ب`,ب) 3,ب,ب,ب,ب,ب,ب
21 | 19,19, محیط مثلث متساوی الاضلاعی 27 سانتی متر  است . اندازه یک ضلع آن را حساب کنید. گزینه ها: ا) 7 ب) 9,ب,ب,ب,ب,ب) 9,ب) 9,ب,ب,ب,ب,ب,ب,ب
22 | 20,20,سن سارا ۳۰ سال است اگر سن برادرش ۶ سال باشد سن سارا چند برابر برادرش است؟ گزینه ها: ا) پنج برابر ب) شش برابر,ا,ب) شش برابر,ب,ب,ب) شش برابر,ب) شش برابر,ب) شش برابر,ب,ب,ب,ب,ب,ب
23 | 21,21,باغچه ای به شکل مستطیل به طول ۸ و عرض ۵ داریم میخواهیم دور تا دور آن نرده بکشیم. برای دور تا دور آن به چند متر نرده نیاز داریم؟ گزینه ها: ا) 40 ب)26,ب,ا) 40,ب,ب,ب) 26,ب) 26,ب) 26,ب,ب,ب,ب,ب,ب
24 | 22,22,یک دستگاه جوراب بافی در هر ساعت ۳۵ جفت جوراب میبافد این دستگاه در ۸ ساعت چند جفت جوراب میبافد؟ گزینه ها: ا) 240 ب ) 280,ب,ب) 280,ب,ب,ب) 280,ب) 280,ب,ب,ب,ب,ب,ب,ب
25 | 23,23,در عدد 1372 بزرگترین رقم در چه مرتبه ای قرار دارد؟ گزینه ها: ا) دهگان ب) صدگان,ا,ب,ب,ب,ب) صدگان,ب) صدگان,ب) صدگان,ب,ب,ب,ب,ب,ب
26 | 24,24,علی 23 تا کتاب دارد. 12 تا از آن ها کتاب داستان و بقیه کتاب علمی است. علی چندکتاب علمی دارد ؟ گزینه ها: ا) 8 ب) 11,ب,ب,ب,ب,ب) 11,ب) 11,ب) 11,ب,ب,ب,ب,ب,ب
27 | 25,25,با رقم های 2،0،3 عدد سه رقمی بنویس که یکان آن 0 باشد. گزینه ها: ا) 203 ب) 230,ب,ب) 230,ب,ب,ب) 230,`ب`,ب,ب,ب,ب,ب,ب,ب
28 | 26,26,چه عددی را با 17 جمع کنیم که جواب 51 شود؟ گزینه ها: ا)34 ب)24,ا,ب) 24,ب,ب,ب) 24,ب) 34,ب) 24,ب,ب,ب,ب,ب,ب
29 | 27,27,مقدار 35 متر چند سانتی متر است؟ گزینه ها: ا) 35000 ب) 3500,ب,ب,ب,ب,ب) 3500,`ب`,ب) 3500,ب,ب,ب,ب,ب,ب
30 | 28,28,از میان دو عدد 60 و 25 کدامیک همزمان بر اعداد 2و3و5 بخش پذیر است؟ گزینه ها: ا) 60 ب)25,ا,ا,ب,ب,ب) 25,ا) 60,ب,ب,ب,ب,ب,ب,ب
31 | 29,29,احتمال زوج آمدن یک تاس چیست؟ گزینه ها: ا) یک دوم ب) یک ششم,ا,ب,ب,ب,ب) یک ششم,ب) یک ششم,ب) یک ششم,ب,ب,ب,ب,ب,ب
32 | 30,30,اگر 4.6 را گرد کنیم به چه عددی می رسیم؟ گزینه ها: ا) 4 ب)5,ب,ب,ب,ب,ب) 5,`ب`,ب) 5,ب,ب,ب,ب,ب,ب
33 | 31,31,یک ربع بعد از ساعت هفت و ربع چه ساعتی است؟ گزینه ها: ا) هفت ب) هفت و نیم,ب,ب,ب,ب,ب) هفت و نیم,ب) هفت و نیم,ب) هفت و نیم,ب,ب,ب,ب,ب,ب
34 | 32,32,یک کتاب 65 صفحه دارد . علی 20 صفحه را هفته ی قبل خوانده بود .این هفته او 35 صفحه ی دیگر را خواند . چند صفحه از کتاب باقی مانده است ؟  گزینه ها: ا) 10 ب) 20,ا,ا) 10,ب,ب,ب) 20,ب) 10,ب,ب,ب,ب,ب,ب,ب
35 | 33,33,معین یک کیسه ی آجیل دارد که شامل 80 بادام،  60 پسته و 100 تخمه کدو است .اگر معین بخواهد از کیسه ، بادام در بیاورد احتمال آن چقدر است؟ گزینه ها: ا) یک دوم ب) یک سوم,ب,ب) یک سوم,ب,ب,ب) یک سوم,ب) یک سوم,ب,ب,ب,ب,ب,ب,ب
36 | 34,34, هر ساعت چند تا یک ربع دارد؟ گزینه ها: ا) چهار ب) دوازده,ا,ب,ب,ب,ب) دوازده,ب) دوازده,ب) دوازده,ب,ب,ب,ب,ب,ب
37 | 35,35, کدام عدد زوج نیست؟ گزینه ها:  ا)452  ب)709           ,ب,ب,ب,ب,ب) 709,ب) 709,ب) 709,ب,ب,ب,ب,ب,ب
38 | 36,36,در یک مزرعه روی هم 7 اردک و گوسفند وجود دارد. اگر تعداد پاهای آنها روی هم 20 تا باشد، چند گوسفند در این مزرعه وجود داد؟ گزینه ها: ا) 3 یا 4 ب) 4 یا 5,ا,ب) 4 یا 5,ب,ب,ب) 4 یا 5,ب) 4 یا 5,ب) 4 یا 5,ب,ب,ب,ب,ب,ب
39 | 37,37,با رقم های 5 ، 0 ، 2 ، 8 کوچک ترین عدد چهار رقمی را بنویسید. گزینه ها: ا) 0000 ب)2058,ب,ب) 2058,ب,ب,ب) 2058,`ب`,ب) 2058,ب,ب,ب,ب,ب,ب
40 | 38,38,با رقم های 5 ، 0 ، 2 ، 8 بزرگترین و کوچک ترین عدد چهار رقمی را بنویسید و اختلاف آن ها چیست؟ گزینه ها: ا) 8500 ب) 6462,ب,ب) 6462,ا,ب,ب) 6462,`ب`,ا,ا,ا,ا,ا,ا,ا
41 | 39,39,سه نقطه را با کلمات مناسب پر کن. 4 بسنه ی 12 تایی مداد را بین 5 نفر به صورت مساوی تقسیم کرده ایم .  به هر نفر 9 مداد می رسد و ... مداد باقی می ماند. گزینه ها: ا) 4 ب)3,ب,ب,ب,ب,ب) 3,ب) 3,ب) 3,ب,ب,ب,ب,ب,ب
42 | 40,40,سه نقطه را با کلمات مناسب پر کن. مثلثی که 2 ضلع برابر دارد ... نام دارد . گزینه ها: ا) متساوی الاضلاع ب) متساوی الساقین,ب,ب,ب,ب) متساوی الساقین,ب) متساوی الساقین,ب) متساوی الساقین,ب) متساوی الساقین,ب,ب,ب,ب,ب,ب
43 | 41,41,در یک مزرعه روی هم 7 اردک و گوسفند وجود دارد. اگر تعداد پاهای آنها روی هم 20 تا باشد، چند اردک در این مزرعه وجود داد؟ گزینه ها: ا) 3 یا 4 ب) 4 یا 5,ا,ب) 4 یا 5,ب,ب,ب) 4 یا 5,ب) 4 یا 5,ب) 4 یا 5,ب,ب,ب,ب,ب,ب
44 | 42,42, کدام عدد زوج است؟ گزینه ها:  ا)752  ب)887  ,ا,ا,ا,ا,ا)752,ب) 887,ا,ا,ا,ا,ا,ا,ا
45 | 43,43,سه نقطه را با کلمات مناسب پر کن. مستطیل ...قطر دارد. گزینه ها: ا) چهار ب) دو,ب,ب,ب,ب,ب) دو,ب) دو,ب) دو,ب,ب,ب,ب,ب,ب
46 | 44,44,مربعی داریم به ضلع 8 سانتی متر ، مساحت مربع را حساب کنید ؟ گزینه ها: ا) 64 ب) 32,ا,ا) 64,ا,ب,ب) 32,ا,ب) 32,ب,ب,ب,ب,ب,ب
47 | 45,45,با رقم های 2،0،3 عدد سه رقمی بنویس که یکان آن 0 باشد. گزینه ها: ا) 302 ب) 320,ب,ب) 320,ب,ب,ب) 320,`ب`,ب) 320,ب,ب,ب,ب,ب,ب
48 | 46,46,یک دستگاه جوراب بافی در هر ساعت 25 جفت جوراب میبافد این دستگاه در ۸ ساعت چند جفت جوراب میبافد؟ گزینه ها: ا) 400 ب ) 200,ب,ب) 200,ا,ب,ب) 200,ب) 200,ب,ب,ب,ب,ب,ب,ب
49 | 47,47,اگر 3.5 را گرد کنیم به چه عددی می رسیم؟ گزینه ها: ا) 3 ب)4,ب,ب,ب,ب,ب) 4,ب) 4,ب) 4,ب,ب,ب,ب,ب,ب
50 | 48,48,عدد 4 از 5/4 کوچکتر است. گزینه ها: ا)درست است  ب)غلط است.,ب,ب) غلط است,ب,ب,ب) غلط است,ب) غلط است,ب) غلط است,ب,ب,ب,ب,ب,ب
51 | 49,49,عدد 3/4 از 3/8 کوچکتر است. گزینه ها: ا)درست است  ب)غلط است.,ب,ب) غلط است,ب,ب,ب) غلط است,`ب`,ب,ب,ب,ب,ب,ب,ب
52 | 


--------------------------------------------------------------------------------
/Benchmark/Entailment(ParsiNLU)/sample.ipynb:
--------------------------------------------------------------------------------
1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[],"collapsed_sections":["8ddf05a07279b34c","dbb94a7e759b90e9"],"authorship_tag":"ABX9TyO5SnFvKKEeMF3jwoHwZdmv"},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"}},"cells":[{"cell_type":"markdown","source":["Given a sample"],"metadata":{"collapsed":false,"id":"8417aff8bf4b1a14"}},{"cell_type":"code","execution_count":13,"metadata":{"collapsed":true,"ExecuteTime":{"end_time":"2024-03-09T20:08:45.741419Z","start_time":"2024-03-09T20:08:45.724813Z"},"id":"initial_id","executionInfo":{"status":"ok","timestamp":1710507705528,"user_tz":-210,"elapsed":3,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"}}},"outputs":[],"source":["sample = {\"premise\":\"\\u0646\\u0641\\u062a \\u0648 \\u0632\\u063a\\u0627\\u0644 \\u0648 \\u062f\\u06cc\\u06af\\u0631 \\u0645\\u0639\\u0627\\u062f\\u0646 \\u0633\\u0631\\u0627\\u0646\\u062c\\u0627\\u0645 \\u0631\\u0648\\u0632\\u06cc \\u062a\\u0645\\u0627\\u0645 \\u062e\\u0648\\u0627\\u0647\\u062f \\u0634\\u062f\\u060c \\u0648\\u0644\\u06cc \\u062c\\u0646\\u06af\\u0644\\u06cc \\u06a9\\u0647 \\u062e\\u0648\\u0628 \\u0646\\u06af\\u0647\\u062f\\u0627\\u0631\\u06cc \\u0634\\u0648\\u062f (\\u062d\\u062a\\u06cc \\u06af\\u0627\\u0647 \\u0628\\u062f\\u0648\\u0646 \\u0646\\u06af\\u0647\\u062f\\u0627\\u0631\\u06cc) \\u0628\\u0647\\u200c\\u0637\\u0648\\u0631 \\u0646\\u0627\\u0645\\u062d\\u062f\\u0648\\u062f \\u0628\\u0647 \\u062a\\u0648\\u0644\\u06cc\\u062f \\u0686\\u0648\\u0628 \\u0627\\u062f\\u0627\\u0645\\u0647 \\u062e\\u0648\\u0627\\u0647\\u062f \\u062f\\u0627\\u062f.\",\"hypothesis\":\"\\u0686\\u0648\\u0628 \\u0628\\u0631 \\u062e\\u0644\\u0627\\u0641 \\u0646\\u0641\\u062a \\u0648 \\u0632\\u063a\\u0627\\u0644 \\u0627\\u0632 \\u062c\\u0645\\u0644\\u0647 \\u0645\\u0646\\u0627\\u0628\\u0639 \\u0637\\u0628\\u06cc\\u0639\\u06cc \\u062a\\u062c\\u062f\\u06cc\\u062f\\u067e\\u0630\\u06cc\\u0631 \\u0627\\u0633\\u062a.\",\"target\":\"e\"}"]},{"cell_type":"markdown","source":["# Prepare input prompt"],"metadata":{"collapsed":false,"id":"8ddf05a07279b34c"}},{"cell_type":"code","execution_count":23,"outputs":[],"source":["from prompt import ENGLISH_ONE"],"metadata":{"ExecuteTime":{"end_time":"2024-03-09T20:08:45.741769Z","start_time":"2024-03-09T20:08:45.728081Z"},"id":"9c041754d9815dc3","executionInfo":{"status":"ok","timestamp":1710508484323,"user_tz":-210,"elapsed":527,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"}}}},{"cell_type":"code","execution_count":24,"outputs":[],"source":["sample_prompt = ENGLISH_ONE.format(premise=sample['premise'], hypothesis=sample['hypothesis'])"],"metadata":{"ExecuteTime":{"end_time":"2024-03-09T20:08:45.741844Z","start_time":"2024-03-09T20:08:45.730910Z"},"id":"bc180567ff230cb7","executionInfo":{"status":"ok","timestamp":1710508485988,"user_tz":-210,"elapsed":3,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"}}}},{"cell_type":"code","execution_count":25,"outputs":[{"output_type":"stream","name":"stdout","text":["Natural Language Inference: Read the following premise and hypothesis carefully and determine the relationship between them.\n","Choose one of the three categories below that best describes their relationship:\n","\n","- entailment: The meaning of the hypothesis is logically inferred or derived from the premise.\n","- contradiction: The meaning of the hypothesis contradicts or conflicts with the premise.\n","- neutral: There is no clear logical relationship between the premise and hypothesis.\n","\n","Note: The premise and hypothesis are in Persian.\n","\n","examples:\n","<premise><sep><hypothesis>\n","<category>:\n","    entailment or contradiction or neutral\n","\n","<در پس این حمله، کیافخرالدین جلال و سپس کیاوشتاسف به همراه فرزندانشان کشته‌شدند.><sep><آنها ازین مبارزه جان سالم بدر می برند.>\n","<category>:\n","    contradiction\n","\n","<دوستم اینگونه راضیم کرد که من از ارتفاعات فقط وقتی می‌ترسم که به آن فکر می‌کنم ولی وقتی آن بالا می‌رسم برطرف می‌شود.><sep><من از ارتفاعات می‌ترسیدم ولی دوستم مرا قانع کرد.>\n","<category>:\n","    entailment\n","\n","<\"یوتی‌ایر اوییشن\"، یک شرکت هواپیمایی روسی است که در سال ۱۹۶۷ توسط خطوط هواپیمایی آئروفلوت تأسیس شد و در حال حاضر روزانه به ۷۲ مقصد، در آسیای مرکزی، آسیای جنوبی، آسیای جنوب شرقی، غرب آسیا و اروپا پروازهای مستقیم دارد.><sep><این شرکت یک شرکت دولتی است که بیش از پنجهزار نفر کارمند دارد. >\n","<category>:\n","    neutral\n","\n","\n","\n","Please select the appropriate category for the given example:\n","<نفت و زغال و دیگر معادن سرانجام روزی تمام خواهد شد، ولی جنگلی که خوب نگهداری شود (حتی گاه بدون نگهداری) به‌طور نامحدود به تولید چوب ادامه خواهد داد.><sep><چوب بر خلاف نفت و زغال از جمله منابع طبیعی تجدیدپذیر است.>\n","<category>:\n","    ?\n"]}],"source":["print(sample_prompt)"],"metadata":{"ExecuteTime":{"end_time":"2024-03-09T20:08:45.742117Z","start_time":"2024-03-09T20:08:45.732644Z"},"id":"fed76f5deade2ed3","outputId":"0ed188b3-52b6-482c-930d-0ad363a62643","colab":{"base_uri":"https://localhost:8080/"},"executionInfo":{"status":"ok","timestamp":1710508487293,"user_tz":-210,"elapsed":4,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"}}}},{"cell_type":"markdown","source":["# Evaluate model's response"],"metadata":{"collapsed":false,"id":"dbb94a7e759b90e9"}},{"cell_type":"code","source":["from sklearn.metrics import accuracy_score, classification_report"],"metadata":{"id":"NzifuNo6O7e1","executionInfo":{"status":"ok","timestamp":1710508532994,"user_tz":-210,"elapsed":6,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"}}},"execution_count":26,"outputs":[]},{"cell_type":"code","execution_count":27,"outputs":[],"source":["sample_GPT_response = \"\"\"entailment\"\"\""],"metadata":{"ExecuteTime":{"start_time":"2024-03-09T20:08:45.788789Z"},"id":"20653183a1e5d9fe","executionInfo":{"status":"ok","timestamp":1710508532994,"user_tz":-210,"elapsed":4,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"}}}},{"cell_type":"code","source":["Persian_labels = ['تناقض', 'تناظر', 'ناشناخته']\n","Persian_label_mapping = lambda x: {\n","    'c': 'تناقض',\n","    'e': 'تناظر',\n","    'n': 'ناشناخته'\n","}[x]\n","\n","English_labels = ['contradiction', 'entailment', 'neutral']\n","English_label_mapping = lambda x: {\n","    'c': 'contradiction',\n","    'e': 'entailment',\n","    'n': 'neutral'\n","}[x]\n","\n","\n","true_labels = [English_label_mapping(sample['target'])]\n","sample_results = [sample_GPT_response]"],"metadata":{"id":"qyE_l8nOOKuK","executionInfo":{"status":"ok","timestamp":1710508561233,"user_tz":-210,"elapsed":5,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"}}},"execution_count":29,"outputs":[]},{"cell_type":"code","source":["print(classification_report(true_labels, sample_results,\n","                            labels=English_labels,\n","                            target_names=English_labels,\n","                            zero_division=0,\n","                            digits=3))"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"d4iG3SZ7OsAQ","executionInfo":{"status":"ok","timestamp":1710508568095,"user_tz":-210,"elapsed":4,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"}},"outputId":"b184f086-b6ba-4db7-823d-90ae631456c1"},"execution_count":30,"outputs":[{"output_type":"stream","name":"stdout","text":["               precision    recall  f1-score   support\n","\n","contradiction      0.000     0.000     0.000         0\n","   entailment      1.000     1.000     1.000         1\n","      neutral      0.000     0.000     0.000         0\n","\n","    micro avg      1.000     1.000     1.000         1\n","    macro avg      0.333     0.333     0.333         1\n"," weighted avg      1.000     1.000     1.000         1\n","\n"]}]},{"cell_type":"code","execution_count":31,"outputs":[{"output_type":"stream","name":"stdout","text":["Accuracy:  1.0\n"]}],"source":["print(\"Accuracy: \", accuracy_score(true_labels, sample_results))"],"metadata":{"ExecuteTime":{"start_time":"2024-03-09T20:08:45.792775Z"},"colab":{"base_uri":"https://localhost:8080/"},"id":"ded2bd1752deb01f","executionInfo":{"status":"ok","timestamp":1710508586905,"user_tz":-210,"elapsed":11,"user":{"displayName":"mostafa masoudi","userId":"03531015598649878255"}},"outputId":"e9cb0c82-982a-4081-a419-84daadf61d73"}}]}


--------------------------------------------------------------------------------
/Benchmark/Entailment(ParsiNLU)/prompt.py:
--------------------------------------------------------------------------------
  1 | """PROMPT POOL THAT HAS BEEN USED FOR MATH EVALUATION"""
  2 | 
  3 | ENGLISH_ZERO = """\
  4 | Natural Language Inference: Read the following premise and hypothesis carefully and determine the relationship between them.
  5 | Choose one of the three categories below that best describes their relationship:
  6 | 
  7 | - entailment: The meaning of the hypothesis is logically inferred or derived from the premise.
  8 | - contradiction: The meaning of the hypothesis contradicts or conflicts with the premise.
  9 | - neutral: There is no clear logical relationship between the premise and hypothesis.
 10 | 
 11 | Note: The premise and hypothesis are in Persian.
 12 | 
 13 | example pattern:
 14 | <premise><sep><hypothesis>
 15 | <category>:
 16 |     entailment or contradiction or neutral
 17 | 
 18 | Please select the appropriate category for the given example:
 19 | <{premise}><sep><{hypothesis}>
 20 | <category>:
 21 |     ?\
 22 | """
 23 | 
 24 | 
 25 | PERSIAN_ZERO = """\
 26 | هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
 27 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
 28 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
 29 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
 30 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
 31 | 
 32 | الگوی نمونه:
 33 | <پیش‌فرض><sep><فرضیه>
 34 | <برچسب>:
 35 |     تناقض یا تناظر یا ناشناخته
 36 | 
 37 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
 38 | <{premise}><sep><{hypothesis}>
 39 | <برچسب>:
 40 |     ?\
 41 | """
 42 | 
 43 | 
 44 | ENGLISH_ONE = """\
 45 | Natural Language Inference: Read the following premise and hypothesis carefully and determine the relationship between them.
 46 | Choose one of the three categories below that best describes their relationship:
 47 | 
 48 | - entailment: The meaning of the hypothesis is logically inferred or derived from the premise.
 49 | - contradiction: The meaning of the hypothesis contradicts or conflicts with the premise.
 50 | - neutral: There is no clear logical relationship between the premise and hypothesis.
 51 | 
 52 | Note: The premise and hypothesis are in Persian.
 53 | 
 54 | examples:
 55 | <premise><sep><hypothesis>
 56 | <category>:
 57 |     entailment or contradiction or neutral
 58 | 
 59 | <در پس این حمله، کیافخرالدین جلال و سپس کیاوشتاسف به همراه فرزندانشان کشته‌شدند.><sep><آنها ازین مبارزه جان سالم بدر می برند.>
 60 | <category>:
 61 |     contradiction
 62 | 
 63 | <دوستم اینگونه راضیم کرد که من از ارتفاعات فقط وقتی می‌ترسم که به آن فکر می‌کنم ولی وقتی آن بالا می‌رسم برطرف می‌شود.><sep><من از ارتفاعات می‌ترسیدم ولی دوستم مرا قانع کرد.>
 64 | <category>:
 65 |     entailment
 66 | 
 67 | <"یوتی‌ایر اوییشن"، یک شرکت هواپیمایی روسی است که در سال ۱۹۶۷ توسط خطوط هواپیمایی آئروفلوت تأسیس شد و در حال حاضر روزانه به ۷۲ مقصد، در آسیای مرکزی، آسیای جنوبی، آسیای جنوب شرقی، غرب آسیا و اروپا پروازهای مستقیم دارد.><sep><این شرکت یک شرکت دولتی است که بیش از پنجهزار نفر کارمند دارد. >
 68 | <category>:
 69 |     neutral
 70 | 
 71 | 
 72 | 
 73 | Please select the appropriate category for the given example:
 74 | <{premise}><sep><{hypothesis}>
 75 | <category>:
 76 |     ?\
 77 | """
 78 | 
 79 | 
 80 | PERSIAN_ONE = """\
 81 | هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
 82 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
 83 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
 84 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
 85 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
 86 | 
 87 | مثال:
 88 | <پیش‌فرض><sep><فرضیه>
 89 | <برچسب>:
 90 |     تناقض یا تناظر یا ناشناخته
 91 | 
 92 | <در پس این حمله، کیافخرالدین جلال و سپس کیاوشتاسف به همراه فرزندانشان کشته‌شدند.><sep><آنها ازین مبارزه جان سالم بدر می برند.>
 93 | <برچسب>:
 94 |     تناقض
 95 | 
 96 | <دوستم اینگونه راضیم کرد که من از ارتفاعات فقط وقتی می‌ترسم که به آن فکر می‌کنم ولی وقتی آن بالا می‌رسم برطرف می‌شود.><sep><من از ارتفاعات می‌ترسیدم ولی دوستم مرا قانع کرد.>
 97 | <برچسب>:
 98 |     تناظر
 99 | 
100 | <"یوتی‌ایر اوییشن"، یک شرکت هواپیمایی روسی است که در سال ۱۹۶۷ توسط خطوط هواپیمایی آئروفلوت تأسیس شد و در حال حاضر روزانه به ۷۲ مقصد، در آسیای مرکزی، آسیای جنوبی، آسیای جنوب شرقی، غرب آسیا و اروپا پروازهای مستقیم دارد.><sep><این شرکت یک شرکت دولتی است که بیش از پنجهزار نفر کارمند دارد. >
101 | <برچسب>:
102 |     ناشناخته
103 | 
104 | 
105 | 
106 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
107 | <{premise}><sep><{hypothesis}>
108 | <برچسب>:
109 |     ?\
110 | """
111 | 
112 | 
113 | ENGLISH_THREE = """\
114 | Natural Language Inference: Read the following premise and hypothesis carefully and determine the relationship between them.
115 | Choose one of the three categories below that best describes their relationship:
116 | 
117 | - entailment: The meaning of the hypothesis is logically inferred or derived from the premise.
118 | - contradiction: The meaning of the hypothesis contradicts or conflicts with the premise.
119 | - neutral: There is no clear logical relationship between the premise and hypothesis.
120 | 
121 | Note: The premise and hypothesis are in Persian.
122 | 
123 | examples:
124 | <premise><sep><hypothesis>
125 | <category>:
126 |     entailment or contradiction or neutral
127 | 
128 | <گرچه فیلم موفق بود اما نقش او در این میان نادیده گرفته شد.><sep><در سال ۱۹۴۹ در فیلم اسکاری نامه‌ای به سه همسر ظاهر شد.>
129 | <category>:
130 |     neutral
131 | 
132 | <من همیشه شنیده ام که شما انقلابیون زندگی را ارزان پنداشته اید ، اما به نظر می رسد وقتی پای زندگی خود شما در میان باشد، قضیه فرق میکند><sep><من دائماً شنیده ام که شما انقلابیون برای زندگی بسیار ارزش قائل هستید.>
133 | <category>:
134 |     contradiction
135 | 
136 | <در پایان او آهی طولانی سر داد.><sep><او در پایان آهسته آهی کشید.>
137 | <category>:
138 |     entailment
139 | 
140 | <در پس این حمله، کیافخرالدین جلال و سپس کیاوشتاسف به همراه فرزندانشان کشته‌شدند.><sep><آنها ازین مبارزه جان سالم بدر می برند.>
141 | <category>:
142 |     contradiction
143 | 
144 | <باغ وحش ادینبورگ هر روز در طول تابستان رژه پنگوئن ها برگزار می کند.><sep><همه بازدید کنندگان تابستانی باغ وحش ادینبورگ، رژه پنگوئن ها را می بینند.>
145 | <category>:
146 |     neutral
147 | 
148 | <اخیرا برخی از نویسندگان اطلاعات مختصری از این قلعه ارائه داده‌اند که بیشتر منحصر به شکل ظاهری آن است و بنابراین از حیث علمی قابل استناد نیست.><sep><اطلاعات ارائه شده بیشتر مربوط به قدمت ساخت قلعه بود.>
149 | <category>:
150 |     contradiction
151 | 
152 | <این مزایا نتیجه کنگره یا ادارات و آژانس های فدرال است که توصیه های ما را برای کارآمدتر کردن خدمات دولت ، بهبود بودجه و هزینه های دلار مالیاتی و تقویت مدیریت منابع فدرال انجام می دهند.><sep><ما مسئول پیشرفت در مدیریت منابع فدرال هستیم.>
153 | <category>:
154 |     entailment
155 | 
156 | <دوستم اینگونه راضیم کرد که من از ارتفاعات فقط وقتی می‌ترسم که به آن فکر می‌کنم ولی وقتی آن بالا می‌رسم برطرف می‌شود.><sep><من از ارتفاعات می‌ترسیدم ولی دوستم مرا قانع کرد.>
157 | <category>:
158 |     entailment
159 | 
160 | <"یوتی‌ایر اوییشن"، یک شرکت هواپیمایی روسی است که در سال ۱۹۶۷ توسط خطوط هواپیمایی آئروفلوت تأسیس شد و در حال حاضر روزانه به ۷۲ مقصد، در آسیای مرکزی، آسیای جنوبی، آسیای جنوب شرقی، غرب آسیا و اروپا پروازهای مستقیم دارد.><sep><این شرکت یک شرکت دولتی است که بیش از پنجهزار نفر کارمند دارد. >
161 | <category>:
162 |     neutral
163 | 
164 | 
165 | 
166 | Please select the appropriate category for the given example:
167 | <{premise}><sep><{hypothesis}>
168 | <category>:
169 |     ?\
170 | """
171 | 
172 | 
173 | PERSIAN_THREE = """\
174 | هدف وظیفه‌ی استنتاج زبان طبیعی تشخیص رابطه‌ی نتیجه‌گیری بین یک <فرضیه> با توجه به یک <پیش‌فرض> است.
175 | رابطه‌ یا برچسب میان آن‌ها می‌تواند یکی از سه نوع تناظر، تناقض یا ناشناخته باشد.
176 | - تناظر : اگر جمله <فرضیه> به طور منطقی نتیجه‌ای از جمله <پیش‌فرض> باشد
177 | - تناقض : اگر جمله <فرضیه> با جمله <پیش‌فرض> در تناقض باشد
178 | - ناشناخته : اگر رابطه‌ای قطعی بین جمله <پیش‌فرض> و جمله <فرضیه> وجود نداشته باشد و هیچ تناظر یا تناقضی نتوان برقرار کرد
179 | 
180 | مثال:
181 | <پیش‌فرض><sep><فرضیه>
182 | <برچسب>:
183 |     تناقض یا تناظر یا ناشناخته
184 | 
185 | <گرچه فیلم موفق بود اما نقش او در این میان نادیده گرفته شد.><sep><در سال ۱۹۴۹ در فیلم اسکاری نامه‌ای به سه همسر ظاهر شد.>
186 | <برچسب>:
187 |     ناشناخته
188 | 
189 | <من همیشه شنیده ام که شما انقلابیون زندگی را ارزان پنداشته اید ، اما به نظر می رسد وقتی پای زندگی خود شما در میان باشد، قضیه فرق میکند><sep><من دائماً شنیده ام که شما انقلابیون برای زندگی بسیار ارزش قائل هستید.>
190 | <برچسب>:
191 |     تناقض
192 | 
193 | <در پایان او آهی طولانی سر داد.><sep><او در پایان آهسته آهی کشید.>
194 | <برچسب>:
195 |     تناظر
196 | 
197 | <در پس این حمله، کیافخرالدین جلال و سپس کیاوشتاسف به همراه فرزندانشان کشته‌شدند.><sep><آنها ازین مبارزه جان سالم بدر می برند.>
198 | <برچسب>:
199 |     تناقض
200 | 
201 | <باغ وحش ادینبورگ هر روز در طول تابستان رژه پنگوئن ها برگزار می کند.><sep><همه بازدید کنندگان تابستانی باغ وحش ادینبورگ، رژه پنگوئن ها را می بینند.>
202 | <برچسب>:
203 |     ناشناخته
204 | 
205 | <اخیرا برخی از نویسندگان اطلاعات مختصری از این قلعه ارائه داده‌اند که بیشتر منحصر به شکل ظاهری آن است و بنابراین از حیث علمی قابل استناد نیست.><sep><اطلاعات ارائه شده بیشتر مربوط به قدمت ساخت قلعه بود.>
206 | <برچسب>:
207 |     تناقض
208 | 
209 | <این مزایا نتیجه کنگره یا ادارات و آژانس های فدرال است که توصیه های ما را برای کارآمدتر کردن خدمات دولت ، بهبود بودجه و هزینه های دلار مالیاتی و تقویت مدیریت منابع فدرال انجام می دهند.><sep><ما مسئول پیشرفت در مدیریت منابع فدرال هستیم.>
210 | <برچسب>:
211 |     تناظر
212 | 
213 | <دوستم اینگونه راضیم کرد که من از ارتفاعات فقط وقتی می‌ترسم که به آن فکر می‌کنم ولی وقتی آن بالا می‌رسم برطرف می‌شود.><sep><من از ارتفاعات می‌ترسیدم ولی دوستم مرا قانع کرد.>
214 | <برچسب>:
215 |     تناظر
216 | 
217 | <"یوتی‌ایر اوییشن"، یک شرکت هواپیمایی روسی است که در سال ۱۹۶۷ توسط خطوط هواپیمایی آئروفلوت تأسیس شد و در حال حاضر روزانه به ۷۲ مقصد، در آسیای مرکزی، آسیای جنوبی، آسیای جنوب شرقی، غرب آسیا و اروپا پروازهای مستقیم دارد.><sep><این شرکت یک شرکت دولتی است که بیش از پنجهزار نفر کارمند دارد. >
218 | <برچسب>:
219 |     ناشناخته
220 | 
221 | 
222 | 
223 | برای نمونه تست زیر نام محتمل‌ترین برچسب را چاپ کن:
224 | <{premise}><sep><{hypothesis}>
225 | <برچسب>:
226 |     ?\
227 | """
228 | 
229 | 


--------------------------------------------------------------------------------
/Benchmark/Sentiment/sample.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "Given a sample"
  8 |    ]
  9 |   },
 10 |   {
 11 |    "cell_type": "code",
 12 |    "execution_count": 1,
 13 |    "metadata": {},
 14 |    "outputs": [],
 15 |    "source": [
 16 |     "sample = {\"review\": \"نسبت به قیمت جدیدش قهوه های بهتری رو توی این رنج قیمت میشه خرید\", \"output\": \"NEGATIVE\"}"
 17 |    ]
 18 |   },
 19 |   {
 20 |    "cell_type": "markdown",
 21 |    "metadata": {},
 22 |    "source": [
 23 |     "# Prepare input prompt"
 24 |    ]
 25 |   },
 26 |   {
 27 |    "cell_type": "code",
 28 |    "execution_count": 2,
 29 |    "metadata": {},
 30 |    "outputs": [],
 31 |    "source": [
 32 |     "import prompt"
 33 |    ]
 34 |   },
 35 |   {
 36 |    "cell_type": "code",
 37 |    "execution_count": 3,
 38 |    "metadata": {},
 39 |    "outputs": [],
 40 |    "source": [
 41 |     "sample_prompt = prompt.ENGLISH_ONE.format(review=sample[\"review\"])"
 42 |    ]
 43 |   },
 44 |   {
 45 |    "cell_type": "code",
 46 |    "execution_count": 4,
 47 |    "metadata": {},
 48 |    "outputs": [
 49 |     {
 50 |      "name": "stdout",
 51 |      "output_type": "stream",
 52 |      "text": [
 53 |       "The below sentence is a person's review. The review is in Persian. Identify the sentiment or polarity associated with it.\n",
 54 |       "Possible answers are: POSITIVE, NEUTRAL, NEGATIVE, OTHER.\n",
 55 |       "Use OTHER when the sentence does not include any specific sense, or has mixed or borderline senses.\n",
 56 |       "\n",
 57 |       "Examples:\n",
 58 |       "\n",
 59 |       "Example 1:\n",
 60 |       "Review: طعم بد . بوی بد . فقط قیمتش خوبه .\n",
 61 |       "Sentiment: NEGATIVE\n",
 62 |       "\n",
 63 |       "Example 2:\n",
 64 |       "Review: با بقیه چایی ها هیچ فرقی نداره چه طعم چه رنگ\n",
 65 |       "Sentiment: NEUTRAL\n",
 66 |       "\n",
 67 |       "Example 3:\n",
 68 |       "Review: خوب بود و در باز بودن و طعم خوبی داشت\n",
 69 |       "Sentiment: POSITIVE\n",
 70 |       "\n",
 71 |       "Example 4:\n",
 72 |       "Review: مزه اش یه جور خاصه تند تند نیس ولی متفاوته\n",
 73 |       "Sentiment: OTHER\n",
 74 |       "\n",
 75 |       "Review: نسبت به قیمت جدیدش قهوه های بهتری رو توی این رنج قیمت میشه خرید\n",
 76 |       "Sentiment: \n",
 77 |       "\n"
 78 |      ]
 79 |     }
 80 |    ],
 81 |    "source": [
 82 |     "print(sample_prompt)"
 83 |    ]
 84 |   },
 85 |   {
 86 |    "cell_type": "markdown",
 87 |    "metadata": {},
 88 |    "source": [
 89 |     "# Evaluate model's response"
 90 |    ]
 91 |   },
 92 |   {
 93 |    "cell_type": "code",
 94 |    "execution_count": 5,
 95 |    "metadata": {},
 96 |    "outputs": [],
 97 |    "source": [
 98 |     "sample_GPT_response = \"\"\"Negative\"\"\""
 99 |    ]
100 |   },
101 |   {
102 |    "cell_type": "code",
103 |    "execution_count": 6,
104 |    "metadata": {},
105 |    "outputs": [],
106 |    "source": [
107 |     "acceptable_classes = [\n",
108 |     "    \"POSITIVE\",\n",
109 |     "    \"NEGATIVE\",\n",
110 |     "    \"NEUTRAL\",\n",
111 |     "    \"OTHER\"\n",
112 |     "]"
113 |    ]
114 |   },
115 |   {
116 |    "cell_type": "code",
117 |    "execution_count": 7,
118 |    "metadata": {},
119 |    "outputs": [],
120 |    "source": [
121 |     "def post_proccess_response(response):\n",
122 |     "    response = response.upper()\n",
123 |     "    for label in acceptable_classes:\n",
124 |     "        if label in response:\n",
125 |     "            return label\n",
126 |     "    return \"OTHER\""
127 |    ]
128 |   },
129 |   {
130 |    "cell_type": "code",
131 |    "execution_count": 8,
132 |    "metadata": {},
133 |    "outputs": [
134 |     {
135 |      "data": {
136 |       "text/plain": [
137 |        "'NEGATIVE'"
138 |       ]
139 |      },
140 |      "execution_count": 8,
141 |      "metadata": {},
142 |      "output_type": "execute_result"
143 |     }
144 |    ],
145 |    "source": [
146 |     "proccessed_response = post_proccess_response(sample_GPT_response)\n",
147 |     "proccessed_response"
148 |    ]
149 |   },
150 |   {
151 |    "cell_type": "code",
152 |    "execution_count": 9,
153 |    "metadata": {},
154 |    "outputs": [
155 |     {
156 |      "name": "stdout",
157 |      "output_type": "stream",
158 |      "text": [
159 |       "              precision    recall  f1-score   support\n",
160 |       "\n",
161 |       "    POSITIVE       0.00      0.00      0.00         0\n",
162 |       "    NEGATIVE       1.00      1.00      1.00         1\n",
163 |       "     NEUTRAL       0.00      0.00      0.00         0\n",
164 |       "       OTHER       0.00      0.00      0.00         0\n",
165 |       "\n",
166 |       "   micro avg       1.00      1.00      1.00         1\n",
167 |       "   macro avg       0.25      0.25      0.25         1\n",
168 |       "weighted avg       1.00      1.00      1.00         1\n",
169 |       "\n"
170 |      ]
171 |     }
172 |    ],
173 |    "source": [
174 |     "from sklearn.metrics import classification_report\n",
175 |     "\n",
176 |     "actual = [sample[\"output\"]]\n",
177 |     "predicted = [proccessed_response]\n",
178 |     "print(classification_report(actual, predicted, zero_division=0, target_names=acceptable_classes, labels=acceptable_classes))"
179 |    ]
180 |   },
181 |   {
182 |    "cell_type": "code",
183 |    "execution_count": 10,
184 |    "metadata": {},
185 |    "outputs": [],
186 |    "source": [
187 |     "from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score\n",
188 |     "from collections import Counter\n",
189 |     "import pandas as pd\n",
190 |     "import numpy as np\n",
191 |     "\n",
192 |     "def calculate_metrics(actual, predicted):\n",
193 |     "    accuracy = accuracy_score(actual, predicted)\n",
194 |     "    f1 = f1_score(actual, predicted, average='weighted', zero_division=0)\n",
195 |     "    precision = precision_score(actual, predicted, average='weighted', zero_division=0)\n",
196 |     "    recall = recall_score(actual, predicted, average='weighted', zero_division=0)\n",
197 |     "\n",
198 |     "    actual_counts = Counter(actual)\n",
199 |     "    predicted_counts = Counter(predicted)\n",
200 |     "    classes = list(set(actual + predicted))\n",
201 |     "    classes.append('All Classes')\n",
202 |     "    metrics = ['Accuracy', 'F1 Score', 'Precision', 'Recall']\n",
203 |     "\n",
204 |     "    probability_table = pd.DataFrame(index=metrics, columns=classes)\n",
205 |     "\n",
206 |     "    for class_label in classes:\n",
207 |     "        if class_label == 'All Classes':\n",
208 |     "            probability_table[class_label][\"F1 Score\"] = f1\n",
209 |     "            probability_table[class_label][\"Precision\"] = precision\n",
210 |     "            probability_table[class_label][\"Recall\"] = recall\n",
211 |     "        else:\n",
212 |     "            class_precision = precision_score(actual, predicted, labels=[class_label], average=None, zero_division=0)\n",
213 |     "            class_recall = recall_score(actual, predicted, labels=[class_label], average=None, zero_division=0)\n",
214 |     "            class_f1 = f1_score(actual, predicted, labels=[class_label], average=None, zero_division=0)\n",
215 |     "            probability_table[class_label][\"F1 Score\"] = class_f1\n",
216 |     "            probability_table[class_label][\"Precision\"] = class_precision\n",
217 |     "            probability_table[class_label][\"Recall\"] = class_recall\n",
218 |     "    probability_table.fillna(value=\"-\", inplace = True)\n",
219 |     "    probability_table['All Classes'][\"Accuracy\"] = accuracy\n",
220 |     "    return probability_table"
221 |    ]
222 |   },
223 |   {
224 |    "cell_type": "code",
225 |    "execution_count": 11,
226 |    "metadata": {},
227 |    "outputs": [
228 |     {
229 |      "data": {
230 |       "text/html": [
231 |        "<div>\n",
232 |        "<style scoped>\n",
233 |        "    .dataframe tbody tr th:only-of-type {\n",
234 |        "        vertical-align: middle;\n",
235 |        "    }\n",
236 |        "\n",
237 |        "    .dataframe tbody tr th {\n",
238 |        "        vertical-align: top;\n",
239 |        "    }\n",
240 |        "\n",
241 |        "    .dataframe thead th {\n",
242 |        "        text-align: right;\n",
243 |        "    }\n",
244 |        "</style>\n",
245 |        "<table border=\"1\" class=\"dataframe\">\n",
246 |        "  <thead>\n",
247 |        "    <tr style=\"text-align: right;\">\n",
248 |        "      <th></th>\n",
249 |        "      <th>NEGATIVE</th>\n",
250 |        "      <th>All Classes</th>\n",
251 |        "    </tr>\n",
252 |        "  </thead>\n",
253 |        "  <tbody>\n",
254 |        "    <tr>\n",
255 |        "      <th>Accuracy</th>\n",
256 |        "      <td>-</td>\n",
257 |        "      <td>1.0</td>\n",
258 |        "    </tr>\n",
259 |        "    <tr>\n",
260 |        "      <th>F1 Score</th>\n",
261 |        "      <td>[1.0]</td>\n",
262 |        "      <td>1.0</td>\n",
263 |        "    </tr>\n",
264 |        "    <tr>\n",
265 |        "      <th>Precision</th>\n",
266 |        "      <td>[1.0]</td>\n",
267 |        "      <td>1.0</td>\n",
268 |        "    </tr>\n",
269 |        "    <tr>\n",
270 |        "      <th>Recall</th>\n",
271 |        "      <td>[1.0]</td>\n",
272 |        "      <td>1.0</td>\n",
273 |        "    </tr>\n",
274 |        "  </tbody>\n",
275 |        "</table>\n",
276 |        "</div>"
277 |       ],
278 |       "text/plain": [
279 |        "          NEGATIVE All Classes\n",
280 |        "Accuracy         -         1.0\n",
281 |        "F1 Score     [1.0]         1.0\n",
282 |        "Precision    [1.0]         1.0\n",
283 |        "Recall       [1.0]         1.0"
284 |       ]
285 |      },
286 |      "execution_count": 11,
287 |      "metadata": {},
288 |      "output_type": "execute_result"
289 |     }
290 |    ],
291 |    "source": [
292 |     "results = calculate_metrics([sample[\"output\"]], [proccessed_response])\n",
293 |     "results"
294 |    ]
295 |   }
296 |  ],
297 |  "metadata": {
298 |   "kernelspec": {
299 |    "display_name": "Python 3",
300 |    "language": "python",
301 |    "name": "python3"
302 |   },
303 |   "language_info": {
304 |    "codemirror_mode": {
305 |     "name": "ipython",
306 |     "version": 3
307 |    },
308 |    "file_extension": ".py",
309 |    "mimetype": "text/x-python",
310 |    "name": "python",
311 |    "nbconvert_exporter": "python",
312 |    "pygments_lexer": "ipython3",
313 |    "version": "3.10.12"
314 |   }
315 |  },
316 |  "nbformat": 4,
317 |  "nbformat_minor": 2
318 | }
319 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Openai_API.ipynb:
--------------------------------------------------------------------------------
1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[],"toc_visible":true},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"}},"cells":[{"cell_type":"markdown","source":["**https://learn.deeplearning.ai/chatgpt-prompt-eng/**"],"metadata":{"id":"yoq3N96pBfg7"}},{"cell_type":"code","source":["! pip install openai==0.28"],"metadata":{"id":"-R2iiz0NA1A6"},"execution_count":null,"outputs":[]},{"cell_type":"code","execution_count":13,"metadata":{"id":"OxvrKB6FAwPk","executionInfo":{"status":"ok","timestamp":1702076098769,"user_tz":-210,"elapsed":2,"user":{"displayName":"Ali Akhgari","userId":"07479648497385180201"}}},"outputs":[],"source":["import openai\n","openai.api_key  = \"\"\n","\n","def get_completion(prompt, model=\"gpt-3.5-turbo\"): # Andrew mentioned that the prompt/ completion paradigm is preferable for this class\n","    messages = [{\"role\": \"user\", \"content\": prompt}]\n","    response = openai.ChatCompletion.create(\n","        model=model,\n","        messages=messages,\n","        temperature=0, # this is the degree of randomness of the model's output\n","    )\n","    return response.choices[0].message[\"content\"]\n","\n","def get_completion_from_messages(messages, model=\"gpt-3.5-turbo\", temperature=0):\n","    response = openai.ChatCompletion.create(\n","        model=model,\n","        messages=messages,\n","        temperature=temperature, # this is the degree of randomness of the model's output\n","    )\n","#     print(str(response.choices[0].message))\n","    return response.choices[0].message[\"content\"]"]},{"cell_type":"markdown","source":["# Summarization"],"metadata":{"id":"ZOn1CfT8BFQ4"}},{"cell_type":"code","source":["prod_review = \"\"\"\n","Got this panda plush toy for my daughter's birthday, \\\n","who loves it and takes it everywhere. It's soft and \\\n","super cute, and its face has a friendly look. It's \\\n","a bit small for what I paid though. I think there \\\n","might be other options that are bigger for the \\\n","same price. It arrived a day earlier than expected, \\\n","so I got to play with it myself before I gave it \\\n","to her.\n","\"\"\"\n","\n","prompt = f\"\"\"\n","Your task is to generate a short summary of a product \\\n","review from an ecommerce site.\n","\n","Summarize the review below, delimited by triple\n","backticks, in at most 30 words.\n","\n","Review: ```{prod_review}```\n","\"\"\"\n","\n","response = get_completion(prompt)\n","print(response)\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"DQENRkzmA0An","executionInfo":{"status":"ok","timestamp":1702076113704,"user_tz":-210,"elapsed":1463,"user":{"displayName":"Ali Akhgari","userId":"07479648497385180201"}},"outputId":"1bef2d1c-2bc2-4e01-9d5c-450d4c3dd7db"},"execution_count":15,"outputs":[{"output_type":"stream","name":"stdout","text":["This review praises the panda plush toy for being soft, cute, and having a friendly face. However, the reviewer feels it is small for the price and suggests there may be larger options available. The toy arrived earlier than expected.\n"]}]},{"cell_type":"markdown","source":["# Inferring"],"metadata":{"id":"E-B7GQXgB6yh"}},{"cell_type":"code","source":["lamp_review = \"\"\"\n","Needed a nice lamp for my bedroom, and this one had \\\n","additional storage and not too high of a price point. \\\n","Got it fast.  The string to our lamp broke during the \\\n","transit and the company happily sent over a new one. \\\n","Came within a few days as well. It was easy to put \\\n","together.  I had a missing part, so I contacted their \\\n","support and they very quickly got me the missing piece! \\\n","Lumina seems to me to be a great company that cares \\\n","about their customers and products!!\n","\"\"\"\n","\n","prompt = f\"\"\"\n","What is the sentiment of the following product review,\n","which is delimited with triple backticks?\n","\n","Give your answer as a single word, either \"positive\" \\\n","or \"negative\".\n","\n","Review text: '''{lamp_review}'''\n","\"\"\"\n","response = get_completion(prompt)\n","print(response)\n","\n","prompt = f\"\"\"\n","Identify the following items from the review text:\n","- Sentiment (positive or negative)\n","- Is the reviewer expressing anger? (true or false)\n","- Item purchased by reviewer\n","- Company that made the item\n","\n","The review is delimited with triple backticks. \\\n","Format your response as a JSON object with \\\n","\"Sentiment\", \"Anger\", \"Item\" and \"Brand\" as the keys.\n","If the information isn't present, use \"unknown\" \\\n","as the value.\n","Make your response as short as possible.\n","Format the Anger value as a boolean.\n","\n","Review text: '''{lamp_review}'''\n","\"\"\"\n","response = get_completion(prompt)\n","print(response)\n","\n"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"d3Ye8pxRBUbO","executionInfo":{"status":"ok","timestamp":1684131104897,"user_tz":-210,"elapsed":4091,"user":{"displayName":"Mohsen Fayyaz","userId":"15588176063675441846"}},"outputId":"d60be165-6db8-47dd-fd19-c66edc394531"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["positive\n","{\n","  \"Sentiment\": \"positive\",\n","  \"Anger\": false,\n","  \"Item\": \"lamp with additional storage\",\n","  \"Brand\": \"Lumina\"\n","}\n"]}]},{"cell_type":"markdown","source":["# Transforming"],"metadata":{"id":"6ExagUmyCV6O"}},{"cell_type":"code","source":["prompt = f\"\"\"\n","Translate the following text to Farsi in both the \\\n","formal and informal forms:\n","'Would you like to order a pillow?'\n","\"\"\"\n","response = get_completion(prompt)\n","print(response)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"WSzuQuX4CTSY","executionInfo":{"status":"ok","timestamp":1684131195092,"user_tz":-210,"elapsed":5700,"user":{"displayName":"Mohsen Fayyaz","userId":"15588176063675441846"}},"outputId":"38b36a7d-745e-467b-e871-e1ec3d7396bc"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Formal: آیا می‌خواهید یک بالش سفارش دهید؟\n","Informal: آیا می‌خواهی یک بالش سفارش بدهی؟\n"]}]},{"cell_type":"markdown","source":["# Expanding"],"metadata":{"id":"-jdKJorVCwRA"}},{"cell_type":"code","source":["# given the sentiment from the lesson on \"inferring\",\n","# and the original customer message, customize the email\n","sentiment = \"negative\"\n","\n","# review for a blender\n","review = f\"\"\"\n","So, they still had the 17 piece system on seasonal \\\n","sale for around $49 in the month of November, about \\\n","half off, but for some reason (call it price gouging) \\\n","around the second week of December the prices all went \\\n","up to about anywhere from between $70-$89 for the same \\\n","system. And the 11 piece system went up around $10 or \\\n","so in price also from the earlier sale price of $29. \\\n","So it looks okay, but if you look at the base, the part \\\n","where the blade locks into place doesn’t look as good \\\n","as in previous editions from a few years ago, but I \\\n","plan to be very gentle with it (example, I crush \\\n","very hard items like beans, ice, rice, etc. in the \\\n","blender first then pulverize them in the serving size \\\n","I want in the blender then switch to the whipping \\\n","blade for a finer flour, and use the cross cutting blade \\\n","first when making smoothies, then use the flat blade \\\n","if I need them finer/less pulpy). Special tip when making \\\n","smoothies, finely cut and freeze the fruits and \\\n","vegetables (if using spinach-lightly stew soften the \\\n","spinach then freeze until ready for use-and if making \\\n","sorbet, use a small to medium sized food processor) \\\n","that you plan to use that way you can avoid adding so \\\n","much ice if at all-when making your smoothie. \\\n","After about a year, the motor was making a funny noise. \\\n","I called customer service but the warranty expired \\\n","already, so I had to buy another one. FYI: The overall \\\n","quality has gone done in these types of products, so \\\n","they are kind of counting on brand recognition and \\\n","consumer loyalty to maintain sales. Got it in about \\\n","two days.\n","\"\"\"\n","\n","prompt = f\"\"\"\n","You are a customer service AI assistant.\n","Your task is to send an email reply to a valued customer.\n","Given the customer email delimited by ```, \\\n","Generate a reply to thank the customer for their review.\n","If the sentiment is positive or neutral, thank them for \\\n","their review.\n","If the sentiment is negative, apologize and suggest that \\\n","they can reach out to customer service.\n","Make sure to use specific details from the review.\n","Write in a concise and professional tone.\n","Sign the email as `AI customer agent`.\n","Customer review: ```{review}```\n","Review sentiment: {sentiment}\n","\"\"\"\n","response = get_completion(prompt)\n","print(response)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"xK5lRf7zCo4u","executionInfo":{"status":"ok","timestamp":1684131308537,"user_tz":-210,"elapsed":12591,"user":{"displayName":"Mohsen Fayyaz","userId":"15588176063675441846"}},"outputId":"477b8020-8310-4ffe-fa75-c1c243ca5c23"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["Dear valued customer,\n","\n","Thank you for taking the time to leave a review about our 17 piece system. We are sorry to hear that you experienced a price increase and that the quality of the product did not meet your expectations. We apologize for any inconvenience this may have caused you.\n","\n","We would like to assure you that we take all feedback seriously and we will be sure to pass your comments along to our product development team. If you have any further concerns, please do not hesitate to reach out to our customer service team who will be happy to assist you.\n","\n","Thank you again for your review and for choosing our product. We hope to have the opportunity to serve you better in the future.\n","\n","Best regards,\n","\n","AI customer agent\n"]}]},{"cell_type":"markdown","source":["# Chatbot"],"metadata":{"id":"paoQuaDODHwa"}},{"cell_type":"code","source":["messages =  [\n","{'role':'system', 'content':'You are an assistant that speaks like Shakespeare.'},\n","{'role':'user', 'content':'tell me a joke'},\n","{'role':'assistant', 'content':'Why did the chicken cross the road'},\n","{'role':'user', 'content':'I don\\'t know'}  ]\n","\n","response = get_completion_from_messages(messages, temperature=1)\n","print(response)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"MONgmV0sDCg-","executionInfo":{"status":"ok","timestamp":1684131381860,"user_tz":-210,"elapsed":2624,"user":{"displayName":"Mohsen Fayyaz","userId":"15588176063675441846"}},"outputId":"18a5fa0f-7fd4-456e-d2f6-42d8a0453840"},"execution_count":null,"outputs":[{"output_type":"stream","name":"stdout","text":["To get to the other side! Hark, 'twas a jest of the simplest sort, yet still it tickles the funny bone!\n"]}]},{"cell_type":"code","source":[],"metadata":{"id":"Gd0TKuFiDXTu"},"execution_count":null,"outputs":[]}]}


--------------------------------------------------------------------------------
/Benchmark/ReadingComprehension/sample.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |   "nbformat": 4,
  3 |   "nbformat_minor": 0,
  4 |   "metadata": {
  5 |     "colab": {
  6 |       "provenance": []
  7 |     },
  8 |     "kernelspec": {
  9 |       "name": "python3",
 10 |       "display_name": "Python 3"
 11 |     },
 12 |     "language_info": {
 13 |       "name": "python"
 14 |     }
 15 |   },
 16 |   "cells": [
 17 |     {
 18 |       "cell_type": "markdown",
 19 |       "source": [
 20 |         "Given a sample"
 21 |       ],
 22 |       "metadata": {
 23 |         "id": "dHFk5yT_g1Gp"
 24 |       }
 25 |     },
 26 |     {
 27 |       "cell_type": "code",
 28 |       "execution_count": 15,
 29 |       "metadata": {
 30 |         "id": "AC83O7WJgx0u"
 31 |       },
 32 |       "outputs": [],
 33 |       "source": [
 34 |         "sample = {\"context\": \"بوداپـِست پایتخت، بزرگترین و پرجمعیت‌ترین شهر کشور مجارستان و مرکز سیاسی، فرهنگی، تجاری، صنعتی و ترابری این کشور است. بوداپست از سه بخشِ اُبودا (بودای قدیم)، بودا (تپه ای و در کرانهٔ باختری دانوب)، و پست (خلاف بودا کاملاً تخت و سمت خاوری رود) تشکیل شده‌است. جمعیت بوداپست طبق آمار اول ژانویهٔ سال ۲۰۱۹ برابر با ۱٬۷۵۲٬۲۸۶ نفر بوده‌است. مساحت شهر حدود ۵۲۵ کیلومتر مربع و یک واحد مستقل در تقسیمات کشوری مجارستان است.\", \"question\": \"بوداپست در کدام کشور است؟\", \"target\": [\"مجارستان\"]}"
 35 |       ]
 36 |     },
 37 |     {
 38 |       "cell_type": "markdown",
 39 |       "source": [
 40 |         "# prepare input prompt"
 41 |       ],
 42 |       "metadata": {
 43 |         "id": "79lLZ0cyhHup"
 44 |       }
 45 |     },
 46 |     {
 47 |       "cell_type": "code",
 48 |       "source": [
 49 |         "from prompt import PERSIAN_ONE"
 50 |       ],
 51 |       "metadata": {
 52 |         "id": "y7g7JsvqhKp2"
 53 |       },
 54 |       "execution_count": 16,
 55 |       "outputs": []
 56 |     },
 57 |     {
 58 |       "cell_type": "code",
 59 |       "source": [
 60 |         "sample_prompt = PERSIAN_ONE.format(context=sample['context'],question=sample['question'])"
 61 |       ],
 62 |       "metadata": {
 63 |         "id": "2wXwAdg1hT3E"
 64 |       },
 65 |       "execution_count": 17,
 66 |       "outputs": []
 67 |     },
 68 |     {
 69 |       "cell_type": "code",
 70 |       "source": [
 71 |         "print(sample_prompt)"
 72 |       ],
 73 |       "metadata": {
 74 |         "colab": {
 75 |           "base_uri": "https://localhost:8080/"
 76 |         },
 77 |         "id": "Jh9XmlV8hilr",
 78 |         "outputId": "59968b18-40d2-4af0-931d-d330687d7f5e"
 79 |       },
 80 |       "execution_count": 18,
 81 |       "outputs": [
 82 |         {
 83 |           "output_type": "stream",
 84 |           "name": "stdout",
 85 |           "text": [
 86 |             "\n",
 87 |             "  در ادامه به شما یک متن فارسی و یک سوال نشان داده می شود. شما باید برای سوال یک پاسخ بنویسید. سعی کنید پاسخ های خود را تا حد ممکن کوتاه بدهید.\n",
 88 |             "\n",
 89 |             "  نمونه:\n",
 90 |             "\n",
 91 |             "  سوال:\n",
 92 |             "  ویتامین ای را چه موقع استفاده کنیم؟\n",
 93 |             "\n",
 94 |             "  جواب:\n",
 95 |             "  برای رفع چین و چروک پیشانی و دیگر نشانه های پیری\n",
 96 |             "\n",
 97 |             "  متن:\n",
 98 |             "  '''بوداپـِست پایتخت، بزرگترین و پرجمعیت‌ترین شهر کشور مجارستان و مرکز سیاسی، فرهنگی، تجاری، صنعتی و ترابری این کشور است. بوداپست از سه بخشِ اُبودا (بودای قدیم)، بودا (تپه ای و در کرانهٔ باختری دانوب)، و پست (خلاف بودا کاملاً تخت و سمت خاوری رود) تشکیل شده‌است. جمعیت بوداپست طبق آمار اول ژانویهٔ سال ۲۰۱۹ برابر با ۱٬۷۵۲٬۲۸۶ نفر بوده‌است. مساحت شهر حدود ۵۲۵ کیلومتر مربع و یک واحد مستقل در تقسیمات کشوری مجارستان است.'''\n",
 99 |             "\n",
100 |             "  سوال:\n",
101 |             "  '''بوداپست در کدام کشور است؟'''\n",
102 |             "\n",
103 |             "  جواب:\n",
104 |             "  \n"
105 |           ]
106 |         }
107 |       ]
108 |     },
109 |     {
110 |       "cell_type": "markdown",
111 |       "source": [
112 |         "# Evaluate model's response"
113 |       ],
114 |       "metadata": {
115 |         "id": "9rYh5EwShn75"
116 |       }
117 |     },
118 |     {
119 |       "cell_type": "code",
120 |       "source": [
121 |         "! pip install hazm"
122 |       ],
123 |       "metadata": {
124 |         "colab": {
125 |           "base_uri": "https://localhost:8080/"
126 |         },
127 |         "id": "VLjQu_wmkStZ",
128 |         "outputId": "49a2179d-4e5c-434d-b5ed-d2d210103ce4"
129 |       },
130 |       "execution_count": 14,
131 |       "outputs": [
132 |         {
133 |           "output_type": "stream",
134 |           "name": "stdout",
135 |           "text": [
136 |             "Requirement already satisfied: hazm in /usr/local/lib/python3.10/dist-packages (0.10.0)\n",
137 |             "Requirement already satisfied: fasttext-wheel<0.10.0,>=0.9.2 in /usr/local/lib/python3.10/dist-packages (from hazm) (0.9.2)\n",
138 |             "Requirement already satisfied: flashtext<3.0,>=2.7 in /usr/local/lib/python3.10/dist-packages (from hazm) (2.7)\n",
139 |             "Requirement already satisfied: gensim<5.0.0,>=4.3.1 in /usr/local/lib/python3.10/dist-packages (from hazm) (4.3.2)\n",
140 |             "Requirement already satisfied: nltk<4.0.0,>=3.8.1 in /usr/local/lib/python3.10/dist-packages (from hazm) (3.8.1)\n",
141 |             "Requirement already satisfied: numpy==1.24.3 in /usr/local/lib/python3.10/dist-packages (from hazm) (1.24.3)\n",
142 |             "Requirement already satisfied: python-crfsuite<0.10.0,>=0.9.9 in /usr/local/lib/python3.10/dist-packages (from hazm) (0.9.10)\n",
143 |             "Requirement already satisfied: scikit-learn<2.0.0,>=1.2.2 in /usr/local/lib/python3.10/dist-packages (from hazm) (1.2.2)\n",
144 |             "Requirement already satisfied: pybind11>=2.2 in /usr/local/lib/python3.10/dist-packages (from fasttext-wheel<0.10.0,>=0.9.2->hazm) (2.11.1)\n",
145 |             "Requirement already satisfied: setuptools>=0.7.0 in /usr/local/lib/python3.10/dist-packages (from fasttext-wheel<0.10.0,>=0.9.2->hazm) (67.7.2)\n",
146 |             "Requirement already satisfied: scipy>=1.7.0 in /usr/local/lib/python3.10/dist-packages (from gensim<5.0.0,>=4.3.1->hazm) (1.11.4)\n",
147 |             "Requirement already satisfied: smart-open>=1.8.1 in /usr/local/lib/python3.10/dist-packages (from gensim<5.0.0,>=4.3.1->hazm) (6.4.0)\n",
148 |             "Requirement already satisfied: click in /usr/local/lib/python3.10/dist-packages (from nltk<4.0.0,>=3.8.1->hazm) (8.1.7)\n",
149 |             "Requirement already satisfied: joblib in /usr/local/lib/python3.10/dist-packages (from nltk<4.0.0,>=3.8.1->hazm) (1.3.2)\n",
150 |             "Requirement already satisfied: regex>=2021.8.3 in /usr/local/lib/python3.10/dist-packages (from nltk<4.0.0,>=3.8.1->hazm) (2023.12.25)\n",
151 |             "Requirement already satisfied: tqdm in /usr/local/lib/python3.10/dist-packages (from nltk<4.0.0,>=3.8.1->hazm) (4.66.2)\n",
152 |             "Requirement already satisfied: threadpoolctl>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from scikit-learn<2.0.0,>=1.2.2->hazm) (3.3.0)\n"
153 |           ]
154 |         }
155 |       ]
156 |     },
157 |     {
158 |       "cell_type": "code",
159 |       "source": [
160 |         "from hazm import Normalizer"
161 |       ],
162 |       "metadata": {
163 |         "id": "YuzAflS_kTai"
164 |       },
165 |       "execution_count": 11,
166 |       "outputs": []
167 |     },
168 |     {
169 |       "cell_type": "code",
170 |       "source": [
171 |         "import numpy as np"
172 |       ],
173 |       "metadata": {
174 |         "id": "zvFiWsWVkBSD"
175 |       },
176 |       "execution_count": 8,
177 |       "outputs": []
178 |     },
179 |     {
180 |       "cell_type": "code",
181 |       "source": [
182 |         "sample_GPT_response = \"\"\"\n",
183 |         "مجارستان\n",
184 |         "\"\"\""
185 |       ],
186 |       "metadata": {
187 |         "id": "9FU29VkDhprp"
188 |       },
189 |       "execution_count": 19,
190 |       "outputs": []
191 |     },
192 |     {
193 |       "cell_type": "code",
194 |       "source": [
195 |         "def preprocess_text(s,normalizer):\n",
196 |         "\n",
197 |         "    def normalize(text):\n",
198 |         "        text.replace(\"پاسخ:\",\"\")\n",
199 |         "        return normalizer.normalize(text)\n",
200 |         "\n",
201 |         "    def remove_punc_stopword(text):\n",
202 |         "        exclude = [\"?\",\".\",\"!\",\"؟\",\":\",\"،\",\")\",\"(\",\"...\"]\n",
203 |         "        return \"\".join(ch for ch in text if ch not in exclude)\n",
204 |         "\n",
205 |         "    return normalize(remove_punc_stopword(s))\n",
206 |         "\n",
207 |         "def compute_exact_match(prediction, truth):\n",
208 |         "    return int(preprocess_text(prediction) == preprocess_text(truth))\n",
209 |         "\n",
210 |         "def compute_f1(prediction, truth):\n",
211 |         "    pred_tokens = prediction.split()\n",
212 |         "    truth_tokens = truth.split()\n",
213 |         "\n",
214 |         "    # if either the prediction or the truth is no-answer then f1 = 1 if they agree, 0 otherwise\n",
215 |         "    if len(pred_tokens) == 0 or len(truth_tokens) == 0:\n",
216 |         "        return int(pred_tokens == truth_tokens)\n",
217 |         "\n",
218 |         "    common_tokens = set(pred_tokens) & set(truth_tokens)\n",
219 |         "\n",
220 |         "    # if there are no common tokens then f1 = 0\n",
221 |         "    if len(common_tokens) == 0:\n",
222 |         "        return 0\n",
223 |         "\n",
224 |         "    prec = len(common_tokens) / len(pred_tokens)\n",
225 |         "    rec = len(common_tokens) / len(truth_tokens)\n",
226 |         "\n",
227 |         "    return 2 * (prec * rec) / (prec + rec)\n",
228 |         "\n",
229 |         "def get_gold_answers(i):\n",
230 |         "    \"\"\"helper function that retrieves all possible true answers from a squad2.0 example\"\"\"\n",
231 |         "\n",
232 |         "    gold_answers = [answer[\"text\"] for answer in example.answers if answer[\"text\"]]\n",
233 |         "\n",
234 |         "    # if gold_answers doesn't exist it's because this is a negative example -\n",
235 |         "    # the only correct answer is an empty string\n",
236 |         "    if not gold_answers:\n",
237 |         "        gold_answers = [\"\"]\n",
238 |         "\n",
239 |         "    return gold_answers"
240 |       ],
241 |       "metadata": {
242 |         "id": "4kmKEy0Nimyz"
243 |       },
244 |       "execution_count": 6,
245 |       "outputs": []
246 |     },
247 |     {
248 |       "cell_type": "code",
249 |       "source": [
250 |         "def calculate_f1(model_ans_list,correct_ans_list):\n",
251 |         "  normalizer = Normalizer()\n",
252 |         "  f1 = []\n",
253 |         "  for i in range(0,len(model_ans_list)):\n",
254 |         "    model_ans = preprocess_text(model_ans_list[i],normalizer)\n",
255 |         "    correct_ans =  [preprocess_text(text,normalizer) for text in correct_ans_list[i]]\n",
256 |         "    f1.append(max((compute_f1(model_ans, answer)) for answer in correct_ans))\n",
257 |         "\n",
258 |         "  return np.array(f1).mean()"
259 |       ],
260 |       "metadata": {
261 |         "id": "4i0sTU8SinpZ"
262 |       },
263 |       "execution_count": 9,
264 |       "outputs": []
265 |     },
266 |     {
267 |       "cell_type": "code",
268 |       "source": [
269 |         "gpt_results = [sample_GPT_response]\n",
270 |         "true_ans = [sample['target']]\n",
271 |         "f1 = calculate_f1(gpt_results,true_ans)\n",
272 |         "print(f'average f1: {f1}')"
273 |       ],
274 |       "metadata": {
275 |         "colab": {
276 |           "base_uri": "https://localhost:8080/"
277 |         },
278 |         "id": "VwLxW9eci3T6",
279 |         "outputId": "0827dea2-b29c-46c8-d673-17a1856cd3e3"
280 |       },
281 |       "execution_count": 20,
282 |       "outputs": [
283 |         {
284 |           "output_type": "stream",
285 |           "name": "stdout",
286 |           "text": [
287 |             "average f1: 1.0\n"
288 |           ]
289 |         }
290 |       ]
291 |     }
292 |   ]
293 | }


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
  1 | # <p align="center">Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT</p>
  2 | 
  3 | <h2 align="center">
  4 |   <p><a href="https://lrec-coling-2024.org/">[LREC-COLING 2024]</a> Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT</p>
  5 | </h2>
  6 | 
  7 | <p align="center">
  8 |   <br>
  9 |   <a href="https://arxiv.org/abs/2404.02403"><img alt="Paper" src="https://img.shields.io/badge/📃-Paper-808080"></a>
 10 |   <a href="#"><img alt="Video" src="https://img.shields.io/badge/​-Video-red?logo=youtube&logoColor=FF0000"></a>
 11 |   <a href="#"><img alt="Slides" src="https://img.shields.io/badge/​-Slides-FFBB00?logo=googlesheets&logoColor=FFBB00"></a>
 12 | </p>
 13 | 
 14 | ## Intro
 15 | This repo covers the implementation of the following paper:  **[Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT]()** by Amirhossein Abaskohi, Sara Baruni, Mostafa Masoudi, Nesa Abbasi, Mohammad Hadi Babalou, Ali Edalat, Sepehr Kamahi, Samin Mahdizadeh Sani, Nikoo Naghavian, Danial Namazifard, Pouya Sadeghi and Yadollah Yaghoobzadeh , accepted to LREC-COLING 2024.
 16 | 
 17 | ## Abstract
 18 | This paper explores the efficacy of large language models (LLMs) for Persian. 
 19 | While ChatGPT and consequent LLMs have shown remarkable performance in English, their efficiency for more low-resource languages remains an open question. 
 20 | We present  the first comprehensive benchmarking study of LLMs across diverse Persian language tasks.
 21 | Our primary focus is on GPT-3.5-turbo, but we also include GPT-4 and OpenChat-3.5 to provide a more holistic evaluation. Our assessment encompasses a diverse set of tasks categorized into classic, reasoning, and knowledge-based domains. To enable a thorough comparison, we evaluate LLMs against existing task-specific fine-tuned models.
 22 | Given the limited availability of Persian datasets for reasoning tasks, we introduce two new benchmarks: one based on elementary school math questions and another derived from the entrance exams for 7th and 10th grades.
 23 | Our findings reveal that while LLMs, especially GPT-4, excel in tasks requiring reasoning abilities and a broad understanding of general knowledge, they often lag behind smaller pre-trained models fine-tuned specifically for particular tasks. Additionally, we observe improved performance when test sets are translated to English before inputting them into GPT-3.5.
 24 | These results highlight the significant potential for enhancing LLM performance in the Persian language. This is particularly noteworthy due to the unique attributes of Persian, including its distinct alphabet and writing styles.
 25 | 
 26 | ![results_overview_chart](https://github.com/AmirAbaskohi/Benchmarking_ChatGPT_for_Persian/assets/50926437/5f9e7087-8171-44ab-8299-2038b7804289)
 27 | 
 28 | 
 29 | ## Datasets
 30 | 
 31 | The `benchmarks` and `prompts` used in our paper can be found in `Benchmarks` directory. 
 32 | In it for each task there are three files available:
 33 | - `.jsonl` file which includes the test samples
 34 | - `prompt.py` file which includes our prompts both in English and Farsi(Persian)
 35 | - `sample.ipynb` which is a sample notebook for getting the evaluation results.
 36 | 
 37 | For the new benchmarks introduced in the paper you find them using the following links:
 38 | 
 39 | * [Elementry Schools Questions Dataset](https://github.com/AmirAbaskohi/Benchmarking_ChatGPT_for_Persian/blob/main/Experiments/ChatGPT/Elemntry%20School%20Questions/elem_q.xlsx)
 40 | * [Mathematical Problems Dataset](https://github.com/AmirAbaskohi/Benchmarking_ChatGPT_for_Persian/blob/main/Experiments/ChatGPT/Mathematical%20Problems/math_dataset.csv)
 41 | 
 42 | For the other datasets, checkout the paper for the used datasets.
 43 | 
 44 | ## Results
 45 | 
 46 | We evaluated GPT-3.5, GPT-4, and OpenChat 13 tasks. The results are as followed:
 47 | 
 48 | |                         |            |               |        GPT-3.5         |        GPT-4        |           |
 49 | |-------------------------|------------|---------------|:----------------------:|:-------------------:|-----------|
 50 | |                         |            |               | Persian Prompt (N-shot) | English Prompt (N-shot) |           |
 51 | | Category                | Task       | Metric        | 0      | 1      | 3      | 0      | 1      | 3      | SOTA | Random |
 52 | | Classic                 |  Sentiment  | Macro F1      | .725   | .804   | .791   | .786   | .798   | .761   | .891 | .403   |
 53 | | Classic                 |  Emotion    | Macro F1      | .492   | .513   | .537   | .562   | .568   | .589   | .699 | .117   |
 54 | | Classic                 |  NER        | Macro F1      | .578   | .472   | .589   | .617   | .620   | .625   | .988 | .041   |
 55 | | Classic                 | MT (En → Fa) | Bleu | 7.5    | 6.9    | 7.3    | 7.0    | 7.3    | 7.0    | 6.2  | -      |
 56 | | Classic                 | MT (Fa → En) | Bleu | 10.5   | 10.8   | 11.0   | 11.0   | 11.0   | 10.8   | 11.7 | -      |
 57 | | Classic                 | Reading    | F1            | .535   | .643   | .642   | .588   | .644   | .644   | .691 | -      |
 58 | | Reasoning               | Textual    | Macro F1      | .375   | .318   | .320   | .536   | .541   | .516   | .690 | .360   |
 59 | | Reasoning               | Textual    | Macro F1      | .348   | .356   | .368   | .418   | .426   | .441   | .524 | .294   |
 60 | | Reasoning               | Multi-choice QA (math & logic) | Acc | .450   | .450   | .435   | .445   | .435   | .415   | .725 | -      |
 61 | | Reasoning               | Elementary | Acc           | .535   | .435   | .565   | .590   | .520   | .545   | .740 | -      |
 62 | | Reasoning               | Math       | Math          | .209   | .375   | .503   | .194   | .348   | .408   | .564 | -      |
 63 | | Know                    | Multi-choice QA (literature) | Acc | .280 | .295   | .275   | .310   | .305   | .290   | .460 | .335   |
 64 | | Know                    | Multi-choice QA (common) | Acc | .385 | .395   | .445   | .425   | .430   | .430   | .635 | .250   |
 65 | 
 66 | |                         |            |               |        OpenChat         |           |
 67 | |-------------------------|------------|---------------|-------------------------|-----------|
 68 | |                         |            |               | Persian Prompt (N-shot) | English Prompt (N-shot) |
 69 | | Category                | Task       | Metric        | 0      | 1      | 3      | 0      | 1      | 3      |
 70 | | Classic                 | Sentiment  | Macro F1      | .460   | .484   | .439   | .485   | .466   | .468   |
 71 | | Classic                 | Emotion    | Macro F1      | .186   | .327   | .400   | .464   | .456   | .454   |
 72 | | Classic                 | NER        | Macro F1      | .241   | .603   | .606   | .536   | .563   | .588   |
 73 | | Classic                 | MT (En → Fa) | Bleu | 5.7    | 6.3    | 6.5    | 5.9    | 6.7    | 6.8    |
 74 | | Classic                 | MT (Fa → En) | Bleu | 9.1    | 9.1    | 9.1    | 9.1    | 9.6    | 9.6    |
 75 | | Classic                 | Reading    | F1            | .506   | .528   | .568   | .595   | .589   | .613   |
 76 | | Reasoning               | Textual    | Macro F1      | .338   | .468   | .443   | .432   | .612   | .554   |
 77 | | Reasoning               | Textual    | Macro F1      | .370   | .415   | .445   | .515   | .555   | .555   |
 78 | | Reasoning               | Multi-choice QA (math & logic) | Acc | .180   | .260   | .300   | .275   | .215   | .245   |
 79 | | Reasoning               | Elementary | Acc           | .555   | .455   | .520   | .585   | .540   | .535   |
 80 | | Reasoning               | Math       | Math          | .128   | .229   | .241   | .113   | .168   | .214   |
 81 | | Know                    | Multi-choice QA (literature) | Acc | .215 | .275   | .240   | .265   | .205   | .265   |
 82 | | Know                    | Multi-choice QA (common) | Acc | .345 | .310   | .300   | .305   | .360   | .325   |
 83 | 
 84 | 
 85 | ## SOTA Models
 86 | 
 87 | The SOTA models used as a baseline in the paper are as follows:
 88 | 
 89 | | Task                     | Models                                                                                    |
 90 | |--------------------------|-------------------------------------------------------------------------------------------|
 91 | | Sentiment Classification | [mt5-small-parsinlu-sentiment-analysis](https://huggingface.co/persiannlp/mt5-small-parsinlu-sentiment-analysis) |
 92 | |                          | **[mt5-base-parsinlu-sentiment-analysis](https://huggingface.co/persiannlp/mt5-base-parsinlu-sentiment-analysis)** |
 93 | |                          | [mt5-large-parsinlu-sentiment-analysis](https://huggingface.co/persiannlp/mt5-large-parsinlu-sentiment-analysis) |
 94 | | Textual Entailment (ParsiNLU) | [wikibert-base-parsinlu-entailment](https://huggingface.co/persiannlp/wikibert-base-parsinlu-entailment) |
 95 | |                          | [mt5-base-parsinlu-snli-entailment](https://huggingface.co/persiannlp/mt5-base-parsinlu-snli-entailment) |
 96 | |                          | **[mt5-large-parsinlu-snli-entailment](https://huggingface.co/persiannlp/mt5-large-parsinlu-snli-entailment)** |
 97 | |                          | [parsbert-base-parsinlu-entailment](https://huggingface.co/persiannlp/parsbert-base-parsinlu-entailment) |
 98 | |                          | [mbert-base-parsinlu-entailment](https://huggingface.co/persiannlp/mbert-base-parsinlu-entailment) |
 99 | | Textual Entailment (ConjNLI) | **[xlm-roberta-large](https://huggingface.co/FacebookAI/xlm-roberta-large)** |
100 | |                          | [bert-base-multilingual-cased](https://huggingface.co/google-bert/bert-base-multilingual-cased) |
101 | |                          | [mt5-large](https://huggingface.co/google/mt5-large) |
102 | | Named Entity Recognition | **[Bert-fa-base-uncased-ner-arman](https://huggingface.co/HooshvareLab/bert-fa-base-uncased-ner-arman)** |
103 | | Multiple-Choice QA       | **[mt5-small-parsinlu-multiple-choice](https://huggingface.co/persiannlp/mt5-small-parsinlu-multiple-choice)** (best on literature) |
104 | |                          | [mt5-base-parsinlu-multiple-choice](https://huggingface.co/persiannlp/mt5-base-parsinlu-multiple-choice) |
105 | |                          | **[mt5-large-parsinlu-multiple-choice](https://huggingface.co/persiannlp/mt5-large-parsinlu-multiple-choice)** (best on math&logic) |
106 | |                          | [mt5-small-parsinlu-arc-comqa-obqa-multiple-choice](https://huggingface.co/persiannlp/mt5-small-parsinlu-arc-comqa-obqa-multiple-choice) |
107 | |                          | [mt5-base-parsinlu-arc-comqa-obqa-multiple-choice](https://huggingface.co/persiannlp/mt5-base-parsinlu-arc-comqa-obqa-multiple-choice) |
108 | |                          | **[mt5-large-parsinlu-arc-comqa-obqa-multiple-choice](https://huggingface.co/persiannlp/mt5-large-parsinlu-arc-comqa-obqa-multiple-choice)** (best on com-know) |
109 | | Reading Comprehension    | [mt5-small-parsinlu-squad-reading-comprehension](https://huggingface.co/persiannlp/mt5-small-parsinlu-squad-reading-comprehension) |
110 | |                          | [mt5-base-parsinlu-squad-reading-comprehension](https://huggingface.co/persiannlp/mt5-base-parsinlu-squad-reading-comprehension) |
111 | |                          | **[mt5-large-parsinlu-squad-reading-comprehension](https://huggingface.co/persiannlp/mt5-large-parsinlu-squad-reading-comprehension)** |
112 | | Emotion Classification   | [distilbert-base-multilingual-cased-finetuned-emotion](https://huggingface.co/Toshifumi/distilbert-base-multilingual-cased-finetuned-emotion) |
113 | |                          | [xlm-emo-t](https://huggingface.co/MilaNLProc/xlm-emo-t) |
114 | |                          | **[ParsBERT-and-Imbalanced-Data-Handling-Approaches](https://github.com/AmirAbaskohi/Persian-Emotion-Detection-using-ParsBERT-and-Imbalanced-Data-Handling-Approaches)** |
115 | |                          | [bert-base-multilingual-cased-finetuned-emotion](https://huggingface.co/Toshifumi/bert-base-multilingual-cased-finetuned-emotion) |
116 | | Translation              | [mt5-small-parsinlu-opus-translation_fa_en](https://huggingface.co/persiannlp/mt5-small-parsinlu-opus-translation_fa_en) |
117 | |                          | [mt5-base-parsinlu-opus-translation_fa_en](https://huggingface.co/persiannlp/mt5-base-parsinlu-opus-translation_fa_en) |
118 | |                          | **[mt5-large-parsinlu-opus-translation_fa_en](https://huggingface.co/persiannlp/mt5-large-parsinlu-opus-translation_fa_en)** (Persian to English) |
119 | |                          | [mt5-small-parsinlu-translation_en_fa](https://huggingface.co/persiannlp/mt5-small-parsinlu-translation_en_fa) |
120 | |                          | [mt5-base-parsinlu-translation_en_fa](https://huggingface.co/persiannlp/mt5-base-parsinlu-translation_en_fa) |
121 | |                          | **[mt5-large-parsinlu-translation_en_fa](https://huggingface.co/persiannlp/mt5-large-parsinlu-translation_en_fa)** (English to Persian) |
122 | 
123 | ## How to run?
124 | 
125 | For each experiment, there as notebook in the paper where you can follow them step by step. Remember to replace you `API-KEY` for the models. In addition, for `ChatGPT` experiments, as mentioned in the paper we used two different versions. For GPT-3.5 we used `gpt-3.5-turbo-0125` and for GPT-4 we used `gpt-4-0125-preview`.
126 | 
127 | ## Citation
128 | 
129 | ```
130 | @misc{abaskohi2024benchmarking,
131 |       title={Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT}, 
132 |       author={Amirhossein Abaskohi and Sara Baruni and Mostafa Masoudi and Nesa Abbasi and Mohammad Hadi Babalou and Ali Edalat and Sepehr Kamahi and Samin Mahdizadeh Sani and Nikoo Naghavian and Danial Namazifard and Pouya Sadeghi and Yadollah Yaghoobzadeh},
133 |       year={2024},
134 |       eprint={2404.02403},
135 |       archivePrefix={arXiv},
136 |       primaryClass={cs.CL}
137 | }
138 | ```
139 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Mathematical Problems/results/persian_zero.csv:
--------------------------------------------------------------------------------
  1 | solution,bot_solution,evaluation
  2 | 6957,عدد 1425 با بقیه اعداد فرق دارد.,{'accuracy': 0.0}
  3 | 7 مهر,تاریخ تولد سینا یکشنبه است.,{'accuracy': 0.0}
  4 | 5 سال,حدوداً 3.17 سال طول میکشد تا این درخت به نصف ارتفاع خود برسد.,{'accuracy': 0.0}
  5 | 190,عدد بعدی در دنباله برابر با 2 * 94 + 1 = 189 است.,{'accuracy': 0.0}
  6 | 183,عدد 183 با بقیه متفاوت است.,{'accuracy': 1.0}
  7 | 500 تومان,قیمت ظرف شیشه ای 1000 تومان است.,{'accuracy': 0.0}
  8 | 12 نقطه,تعداد نقاط قطع ممکن بین چهار دایره برابر است با 4.,{'accuracy': 0.0}
  9 | 32 سیب,تعداد سیب‌های در ابتدا = 8,{'accuracy': 0.0}
 10 | 7 مهره,حداقل 9 مهره را باید خارج کنیم تا حداقل یک مهره قرمز در بین آنها باشد.,{'accuracy': 0.0}
 11 | 4,عدد بعدی در دنباله برابر با 9 است.,{'accuracy': 0.0}
 12 | 14 نفر,تعداد افراد حاضر در مهمانی برابر است با 13 نفر.,{'accuracy': 0.0}
 13 | سال 1374,خانم در سال ازدواج کرده است.,{'accuracy': 0.0}
 14 | 35 میلیمتر,کمترین میزانی که باید از مجموع پایه ها کوتاه شود تا هم اندازه شوند، 63.5 میلیمتر است.,{'accuracy': 0.0}
 15 | 12 ساعت,ساعت کار روزانه کارگر برابر با 1.44 ساعت است.,{'accuracy': 0.0}
 16 | 8 مثلث,"تعداد مثلث های کوچک: 1
 17 | تعداد مثلث های بزرگ: 1",{'accuracy': 0.0}
 18 | 1000,پنج درصد از 2000 برابر است با 100.,{'accuracy': 0.0}
 19 | 9:25,ساعت واقعی 7:25 است.,{'accuracy': 0.0}
 20 | 10,عدد 10 میتواند جایگزین X در معادله روبرو شود.,{'accuracy': 1.0}
 21 | 1,حاصل عبارت داده شده برابر با 1 است.,{'accuracy': 1.0}
 22 | 63,,{'accuracy': 0.0}
 23 | 149.2,خانم کوثری باید مبلغ 149.20 تومان را بپردازد.,{'accuracy': 0.0}
 24 | 4 مرتبه,عدد 2 پس از عدد 3 در دنباله,{'accuracy': 0.0}
 25 | 2.5 دقیقه,قطار برای عبور از تونل 9 دقیقه طول میکشد.,{'accuracy': 0.0}
 26 | 43,چهارمین عدد این زنجیره برابر با 19 است.,{'accuracy': 0.0}
 27 | 60 دانش آموز,"تعداد دانش آموزان کلاس ""الف"" در ابتدا برابر با x = 45 نفر بوده است.",{'accuracy': 0.0}
 28 | 13,عدد بعدی در دنباله برابر با 97 است.,{'accuracy': 0.0}
 29 | 16,عدد بعدی در دنباله برابر است با 16.,{'accuracy': 1.0}
 30 | 27,عددی که باید به جای (?) قرار بگیرد، برابر با 3 است.,{'accuracy': 0.0}
 31 | 55,عدد بعدی در دنباله برابر با 55 است.,{'accuracy': 1.0}
 32 | 18,عدد بعدی در دنباله برابر با 144 است.,{'accuracy': 0.0}
 33 | 16,عدد بعدی در دنباله ی,{'accuracy': 0.0}
 34 | 44,عدد بعدی در دنباله برابر با 4 است.,{'accuracy': 0.0}
 35 | 25,عدد بعدی در دنباله برابر با 390625 است.,{'accuracy': 0.0}
 36 | 1,تفاصل کوچک ترین و بزرگ ترین عدد در دنباله,{'accuracy': 0.0}
 37 | 2,تفاصل کوچک ترین و بزرگ ترین عدد در دنباله برابر است با 4 و اختلاف این تفاصل با مقدار کوچک تر دو عدد دیگر برابر است با 3.,{'accuracy': 0.0}
 38 | 5,پاسخ نهایی برابر است با 5.,{'accuracy': 1.0}
 39 | 2,تفاصل کوچک ترین و بزرگ ترین عدد در دنباله,{'accuracy': 0.0}
 40 | 1,تفاصل کوچک ترین و بزرگ ترین عدد در دنباله,{'accuracy': 0.0}
 41 | 3,اختلاف این تفاضل از مقدار بزرگ ترین عدد دیگر و دو عدد دیگر برابر است با 2.,{'accuracy': 0.0}
 42 | 4,-4,{'accuracy': 1.0}
 43 | 9,-9,{'accuracy': 1.0}
 44 | 3,-3,{'accuracy': 1.0}
 45 | 2,2,{'accuracy': 1.0}
 46 | 5,اختلاف تفاضل دو عدد باقی مانده در مجموعه برابر با 7 است.,{'accuracy': 0.0}
 47 | 3,اختلاف تفاضل دو عدد باقی مانده در مجموعه، برابر با 3 است.,{'accuracy': 1.0}
 48 | 3,عدد 3 فاصله کمتری با عدد پنجم (4) دارد.,{'accuracy': 0.0}
 49 | 7,عدد 2 و عدد 6 فاصله کمتری با عدد پنجم (4) دارند.,{'accuracy': 0.0}
 50 | 5,عدد 5 فاصله کمتری با عدد پنجم دارد.,{'accuracy': 1.0}
 51 | 2,عدد 2 فاصله کمتری با عدد پنجم (2) دارد.,{'accuracy': 0.0}
 52 | 2,عدد 7 فاصله کمتری با عدد پنجم (9) دارد.,{'accuracy': 0.0}
 53 | 8,عدد 8 فاصله بیشتری از عدد پنجم (4) دارد.,{'accuracy': 0.0}
 54 | 1,عدد 1 فاصله بیشتری با عدد پنجم (7) دارد.,{'accuracy': 0.0}
 55 | 1,عدد 8 فاصله بیشتری با عدد پنجم (عدد 5) دارد.,{'accuracy': 0.0}
 56 | 2,عدد 7 فاصله بیشتری با عدد پنجم دارد.,{'accuracy': 0.0}
 57 | 9,عدد 1 فاصله بیشتری با عدد پنجم (9) دارد.,{'accuracy': 0.0}
 58 | 2 مثلث,از تقاطع چهار خط,{'accuracy': 0.0}
 59 | 3 تا,بزرگترین هرمی که می تواند به طور کامل در این استخر ساخته شود، دارای حجم 320 متر مکعب است. حداکثر تعداد هرم هایی که میتوان درون این استخر ساخت، برابر است با 3 هرم.,{'accuracy': 0.0}
 60 | 4 واحد,مساحت مثلثی که از سه خط به معادله های,{'accuracy': 0.0}
 61 | 36 کاغذ,در پایان، امیرحسین 4 تکه کاغذ روی میز شماره 4 دارد.,{'accuracy': 0.0}
 62 | 2,شیب پرتو نور پس از دومین بازتاب برابر با -7 است.,{'accuracy': 0.0}
 63 | 6,تعداد مکعب های مستطیلی متفاوت با حجم 30 سانتی متر مکعب برابر است با 1.,{'accuracy': 0.0}
 64 | 14,حداقل چند عدد را قرمز کرده‌ایم؟ پاسخ: 100.,{'accuracy': 0.0}
 65 | 7,مجموع امتیازات هر 4 تیم میتواند 210 عدد مختلف باشد.,{'accuracy': 0.0}
 66 | 13/18,احتمال اینکه حاصل ضرب ارقام عدد دو رقمی زوج باشد برابر است با 1/10.,{'accuracy': 0.0}
 67 | 28,نسیم حداکثر به 17 سوال پاسخ داده است.,{'accuracy': 0.0}
 68 | 4,"تعداد کل پیشآمدها: 6
 69 | تعداد پیشآمدهایی که عدد 6 نمیاید: 5",{'accuracy': 0.0}
 70 | 5,حداقل یک عدد را مریم حذف کرده است.,{'accuracy': 0.0}
 71 | 15,بکا می تواند با استفاده از اعداد 2، 3 و 5 به 42 عدد متمایز برسد.,{'accuracy': 0.0}
 72 | 68,عدد صحیح مورد نظر برابر با 68 است.,{'accuracy': 1.0}
 73 | 8,دو شهر از هم 8 کیلومتر دور هستند.,{'accuracy': 1.0}
 74 | 32,مقدار عبارت (4+12) - (4×12) برابر با -32 است.,{'accuracy': 0.0}
 75 | 0.38,میانگین مصرف هفتگی شیرینی برای امریکایی ها حدوداً 28.48 پوند است.,{'accuracy': 0.0}
 76 | 333,کوچکترین عدد سه‌رقمی به فرم aaa که بر 9 بخش پذیر است وجود ندارد.,{'accuracy': 0.0}
 77 | 4:30,ساعت 6:30 بعد از ظهر,{'accuracy': 0.0}
 78 | 20%,20% از جوراب‌های جینا قرمز هستند.,{'accuracy': 1.0}
 79 | 7,تفاوت مثبت بین دو عدد دو به توان پنج و پنج به توان دو برابر است با 7.,{'accuracy': 1.0}
 80 | 4,عددهای دو رقمی مثبت که حاصلضرب ارقام آنها برابر با 12 است، عبارتند از: 12، 21، 24، 42، 36 و 63.,{'accuracy': 0.0}
 81 | 23,"کوچکترین عدد صحیح مثبتی که نسبت به حاصل ضرب اعداد صحیح مثبت 1 تا 20 اول میباشد، برابر است با:
 82 | 
 83 | 2^4 * 3^2 * 5 * 7 * 11 * 13 * 17 * 19",{'accuracy': 0.0}
 84 | 5999,تعداد اعداد چهاررقمی کمتر از 8000 و بزرگتر از 2000 برابر 6000 است.,{'accuracy': 0.0}
 85 | 6,"اعدادی که شمارنده یا بخش پذیر بر 7 هستند عبارتند از: 7, 14, 21, 28, 35, 42, 49, 56, 63, 70, 77, 84, 91
 86 | 
 87 | بنابراین، تعداد اعداد شمارنده یا بخش پذیر بر 7 برابر با 13 است.",{'accuracy': 0.0}
 88 | 0.5,4/9,{'accuracy': 0.0}
 89 | 10 درصد,درصد کاهش مساحت مربع برابر است با 10%.,{'accuracy': 1.0}
 90 | 13 اینچ مربع,مساحت بخش قرمز برابر است با 13 اینچ مربع.,{'accuracy': 1.0}
 91 | 3,فاصله‌ی چند اینچی در نقشه بین دو شهر که فاصله‌ی واقعی آن‌ها 120 مایل است، برابر است با 3 اینچ.,{'accuracy': 0.0}
 92 | 36,مساحت دایره با دو برابر کردن شعاع به چهار برابر افزایش می‌یابد.,{'accuracy': 0.0}
 93 | 6,"با حل معادلات زیر به پاسخ نهایی می‌رسیم:
 94 | 
 95 | (n-1) * n * (n+1) = 120
 96 | (n-1) * n * (n+1) / n = 24
 97 | 
 98 | با حل این دو معادله، مقدار n برابر با 5 خواهد بود. بنابراین، سه عدد صحیح متوالی به ترتیب 4، 5 و 6 هستند. بزرگترین عدد از این سه عدد صحیح متوالی برابر است با 6.
 99 | 
100 | پاسخ نهایی: بزرگترین عدد از سه عدد صحیح متوالی 4، 5 و 6 برابر است با 6.",{'accuracy': 0.0}
101 | 42,محیط شش ضلعی منظم برابر با ۴۲ اینچ است.,{'accuracy': 0.0}
102 | 4,تعداد مقسوم علیه های صحیح عدد ۷ برابر با ۲ است.,{'accuracy': 0.0}
103 | 564,عدد 563.5097 به نزدیک ترین عدد صحیح برابر است با 564.,{'accuracy': 0.0}
104 | 162,تعداد عدد صحیح بین 99 و 999 که دقیقاً یک رقم 0 دارند برابر است با 9.,{'accuracy': 0.0}
105 | 66,تعداد صندلی های فرد در کلاس برابر با 60 است.,{'accuracy': 0.0}
106 | 6,تنها 2 عدد مربع کامل و فرد بین 5 و 211 وجود دارد.,{'accuracy': 0.0}
107 | 5040,تعداد تنظیم‌های مختلف برای رمز قفل چمدان برابر با 5040 است.,{'accuracy': 1.0}
108 | 5,چندجمله ای 2f(x) + 4g(x) از درجه 5 میباشد.,{'accuracy': 0.0}
109 | 8,آخرین عدد صحیح فرد برابر است با 2 و کوچکترین عدد زوج از این اعداد 2 است.,{'accuracy': 0.0}
110 | 10,مقدار 50% از 200% از عدد 10 برابر است با 10.,{'accuracy': 0.0}
111 | 4005,"عبارت 2003ام در دنباله اعداد فرد برابر است با:
112 | 
113 | 1 + (2003-1) * 2 = 1 + 2002 * 2 = 1 + 4004 = 4005",{'accuracy': 0.0}
114 | 1023,"حاصلضرب این دو عدد فرد متوالی برابر است با:
115 | 
116 | 64 × 66 = 4224",{'accuracy': 0.0}
117 | 10,امی از بتی 10 سیب بیشتر دارد.,{'accuracy': 1.0}
118 | 400,مساحت این مستطیل 625 سانتی متر مربع است.,{'accuracy': 0.0}
119 | 123,مقدار عبارت 123123 تقسیم بر 1001 برابر است با 122.,{'accuracy': 0.0}
120 | 0.17,ویلیام 1.33 مایل دویده است.,{'accuracy': 0.0}
121 | 350,مقدار عضو ششم دنباله برابر است با 320.,{'accuracy': 0.0}
122 | 600,مجموع اعداد جدید برابر با 600 است.,{'accuracy': 1.0}
123 | 8,فشار در کانتینر جدید برابر 8 کیلوپاسکال خواهد بود.,{'accuracy': 1.0}
124 | 8,کوچکترین عدد از مجموعه اعداد زوج برابر است با 68.,{'accuracy': 0.0}
125 | 2,f(x)g(x) تابعی زوج است. (2),{'accuracy': 1.0}
126 | 1,"بزرگترین مقدار ممکن برای میانگین حسابی اعداد برابر است با:
127 | 
128 | (M - 1) / n",{'accuracy': 1.0}
129 | 30,"مقدار f(12)−f(2) را محاسبه می‌کنیم:
130 | f(12)−f(2) = 3(12)−3(2) = 36−6 = 30
131 | 
132 | پاسخ نهایی: 30",{'accuracy': 0.0}
133 | 18,یک منشور شش ضلعی یک هگزاگون است.,{'accuracy': 0.0}
134 | 54,مساحت مثلث جدید برابر با 54 است.,{'accuracy': 1.0}
135 | 24,تعداد ضلع های یک منشور هشت ضلعی برابر با 12 است.,{'accuracy': 0.0}
136 | 36,36,{'accuracy': 1.0}
137 | 6,"فاصله نقطه (3,4) و تصویر آن بر اساس محور x برابر با 8 است.",{'accuracy': 0.0}
138 | 100,"با حل معادله 4x = 5(180 - x)، مقدار x برابر 150 درجه است.
139 | 
140 | پاسخ: زاویه بزرگتر 150 درجه است.",{'accuracy': 0.0}
141 | 0.54,مساحت سطح مکعب برابر است با 0.0324 متر مربع.,{'accuracy': 0.0}
142 | 21,طول ضلع YZ برابر با 6 واحد است.,{'accuracy': 0.0}
143 | 70,زاویه ی B برابر با 100 درجه است.,{'accuracy': 0.0}
144 | 144,حجم آب موجود در استخر نیمه پر برابر است با 144 متر مکعب.,{'accuracy': 1.0}
145 | 3,شعاع کره برابر 3 است.,{'accuracy': 1.0}
146 | 126,زاویه‌ی AOB برابر با 27 درجه است.,{'accuracy': 0.0}
147 | 3,ارتفاع مخزن 3 متر است.,{'accuracy': 1.0}
148 | 8000,"اگر طول اضلاع مکعب را دو برابر کنیم، حجم مکعب جدید برابر است با 8 برابر حجم مکعب اولیه. بنابراین، حجم مکعب جدید برابر است با 8 ضرب حجم مکعب اولیه.
149 | 
150 | پاسخ نهایی: حجم مکعب جدید برابر است با 4800 اینچ مکعب.",{'accuracy': 0.0}
151 | 8918,اختلاف مثبت حجم مکعب دوم و حجم مکعب اول برابر است با 8918 سانتی متر مکعب.,{'accuracy': 1.0}
152 | 3600,حجم هرم با پایه ای که طول ضلع آن 20 متر است و ارتفاع آن 27 متر است، برابر است با 3600 متر مکعب.,{'accuracy': 0.0}
153 | 4,ارتفاع استوانه دوم برابر با 4 اینچ است.,{'accuracy': 1.0}
154 | 140,اندازه هر زاویه باز در این متوازی الاضلاع برابر با 140 درجه است.,{'accuracy': 1.0}
155 | 3,طول هر ضلع مکعب اکنون برابر است با جذر سوم از 19 سانتی متر.,{'accuracy': 0.0}
156 | 120,میانگین اندازه سه زاویه خارجی مثلث برابر با 120 درجه است.,{'accuracy': 1.0}
157 | 15,اندازه یک زاویه داخلی در یک هشت ضلعی منتظم بیشتر از اندازه یک زاویه داخلی در یک شش ضلعی منتظم است.,{'accuracy': 0.0}
158 | 31,بزرگترین مقدار ممکن برای محیط مثلث برابر است با 31 واحد.,{'accuracy': 1.0}
159 | 3,طول ضلع سوم برابر با 3 است.,{'accuracy': 1.0}
160 | 40,بزرگترین محیط ممکن برای این مثلث برابر با 35 سانتی‌متر است.,{'accuracy': 0.0}
161 | 12,مساحت مثلث با اضلاع 5، 5 و 6 برابر با 12 است.,{'accuracy': 0.0}
162 | 28,طول کوتاه‌ترین ضلع مثلث دوم حدوداً 99.75 واحد است.,{'accuracy': 0.0}
163 | 864000,تعداد تابلوهای مجوز ممکن برابر با 9 است.,{'accuracy': 0.0}
164 | 1/4,احتمال این که دقیقاً دو CD از آن‌ها در جعبه‌های اشتباه قرار دارند برابر است با 3/128.,{'accuracy': 0.0}
165 | 12,تعداد عدد سه رقمی هایی که شرایط مسئله را ارضا می کنند، برابر است با 16.,{'accuracy': 0.0}
166 | 380,تعداد راه‌های ممکن برای انتخاب یک رئیس جمهور و یک معاون جمهور در باشگاه ما برابر است با 361.,{'accuracy': 0.0}
167 | 7,تعداد اعداد اول کمتر از 100 که رقم یکان آن‌ها برابر با 3 است، 4 عدد است.,{'accuracy': 0.0}
168 | 14400,تعداد روش‌های قابل تشخیص برای نشستن اعضای هر حزب برابر است با 120.,{'accuracy': 0.0}
169 | 1000000,"مقدار عبارت 82^3 + 3(82^2)(18) + 3(82)(18^2) + 18^3 برابر است با (82 + 18)^3 که برابر است با 100^3.
170 | 
171 | پس پاسخ نهایی برابر است با 100^3 که برابر است با 1,000,000.",{'accuracy': 0.0}
172 | 70,تعداد روش‌های انتخاب 8 نفر از بین یک تیم 8 نفره برابر است با 1.,{'accuracy': 0.0}
173 | 31,"تعداد زیرمجموعه‌های غیرتهی از مجموعهٔ { 1 , 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 } که تمامی اعضای آن اعداد اول هستند، برابر است با 16.",{'accuracy': 0.0}
174 | 120,تعداد راه‌های ممکن برای ترتیب دادن حروف کلمه ELEVEN برابر است با 24.,{'accuracy': 0.0}
175 | 5,تعداد روش های مختلف برای قرار دادن 8 کره قابل تمییز به دو قفسه قابل تمییز برابر با 256 است.,{'accuracy': 0.0}
176 | 5,تعداد جایگشت‌های مختلف از 4 توپ بدون توجه به ترتیب موجود برابر با 1 است.,{'accuracy': 0.0}
177 | 17/18,احتمال اینکه جمع دو عدد بین 3 تا 11 باشد برابر است با 1/4.,{'accuracy': 0.0}
178 | 1/20,احتمال اینکه دو تاس فرد، یکی را بیرون آورند برابر است با تعداد حالات مطلوب تقسیم بر تعداد کل حالات، یعنی 11/36.,{'accuracy': 0.0}
179 | 0.5,ارزش امیدریاضی برد ما پس از یک بار پرتاب سکه برابر است با ۱.,{'accuracy': 0.0}
180 | 11/36,احتمال اینکه حداقل یکی از تاس‌ها شماره 5 بیاید برابر با 11/36 است.,{'accuracy': 0.0}
181 | 37/819,"احتمال اینکه گروه چهار نفره حداقل دو نفر از سه تن اول دانش‌آموزان برتر جغرافیا را شامل شود، برابر است با:
182 | 
183 | احتمال = تعداد حالات ممکن برای انتخاب چهار نفر به شرط داده شده / تعداد کل حالات ممکن برای انتخاب چهار نفر
184 | 
185 | احتمال = 900 / 20475 ≈ 0.044",{'accuracy': 0.0}
186 | 243,تعداد روش‌های ممکن برای قرار دادن 5 توپ متمایز در 3 جعبه برابر است با 12.,{'accuracy': 0.0}
187 | 28,تومورا می‌تواند 56 پیتزا مختلف را سفارش دهد.,{'accuracy': 0.0}
188 | 45,عدد بعدی در ردیفی که با 1 و سپس 10 آغاز می‌شود، برابر است با 16.,{'accuracy': 0.0}
189 | 1963,تعداد عدد صحیح مثبت هایی که تعداد مقسوم علیه های آنها زوج است، برابر است با 1004.,{'accuracy': 0.0}
190 | 6720,"تعداد روش‌های مختلف برای ترتیب حروف کلمه ""PARABOLA"" برابر است با 5040.",{'accuracy': 0.0}
191 | 6,"تعداد حالات ممکن برای انداختن 6 تاس برابر است با 6^6 = 46656.
192 | 
193 | تعداد حالات ممکن برای اینکه حداکثر 4 بار نتیجه‌ی تاس‌ها عدد 1 باشد برابر است با:
194 | (1 * 5^5) + (2 * 5^4) + (3 * 5^3) + (4 * 5^2) = 3125 + 500 + 75 + 20 = 4720.
195 | 
196 | بنابراین، احتمال اینکه حداکثر 4 بار نتیجه‌ی آن‌ها عدد 1 باشد برابر است با:
197 | 4720 / 46656 ≈ 0.101.",{'accuracy': 0.0}
198 | 3,عدد صحیح 256 دقیق است و معکوس آن نیز یک عدد صحیح است.,{'accuracy': 0.0}
199 | 110,"به منظور رسیدن به عدد 11!، باید عدد 9! را در 36,288,000 ضرب کنیم.",{'accuracy': 0.0}
200 | 48,تعداد طرق ممکن برای قرار دادن 6 توپ در راهنمایی‌ها برابر است با 6.,{'accuracy': 0.0}
201 | 1,احتمال اینکه ماشین حاصل از پرتاب نرمال تاس شش‌رو سوال بالا، حداکثر 4 بار سکه را با صورت یک انسان می‌آورد برابر است با 15/16.,{'accuracy': 0.0}
202 | 243,تعداد راه‌های مختلف قرار دادن 5 توپ متمایز در 3 جعبه متمایز برابر است با 5 * 3^4 = 405.,{'accuracy': 0.0}
203 | 36,تعداد روش‌های ممکن برای قرار دادن 4 توپ در 3 جعبه برابر با 12 است.,{'accuracy': 0.0}
204 | 4,برای چهار پرتقال، چهار راه برای تقسیم پرتقال وجود دارد.,{'accuracy': 0.0}
205 | 1/4,احتمال اینکه دقیقاً دو تاس یک یا دو بیاید برابر است با 24/36 که معادل است با 2/3.,{'accuracy': 0.0}
206 | 1275,مقدار عدد مثلثی پنجاهم برابر با 1 است.,{'accuracy': 0.0}
207 | 8.5,میانگین حاصل‌ضرب شماره‌گذاری‌شده‌ی دو کره برابر است با 1.,{'accuracy': 0.0}
208 | 11/850,احتمال این که همه سه کارت انتخاب شده کلوپ باشند، تقریبا 0.0129 است.,{'accuracy': 0.0}
209 | 280,تعداد روش‌های مختلفی که ماله می‌تواند این تخصیص را انجام دهد، برابر است با 280.,{'accuracy': 1.0}
210 | 12/25,احتمال اینکه لری پاندز در دو بار بازی پایه اول را بدست آورد، 0.0625 است.,{'accuracy': 0.0}
211 | 58500,می‌توان 260 پلاک خودرویی با این شرایط ایجاد کرد.,{'accuracy': 0.0}
212 | 1,باقی‌مانده هنگامی که دوبرابر عدد اولیه بر 5 تقسیم می‌شود، برابر با 1 است.,{'accuracy': 0.0}
213 | 16,تعداد مقسوم‌علیه‌های مشترک مثبت 840، 960 و 1200 برابر است با 15.,{'accuracy': 0.0}
214 | 12,بزرگترین مقسوم‌علیه‌ی مشترک 180 و 168 برابر با 12 است.,{'accuracy': 0.0}
215 | 7,در ابتدا، تعداد افراد Penteria برابر با 137 + 8 = 145 بوده‌اند.,{'accuracy': 0.0}
216 | 5,باقیمانده‌ی عدد 1529 به تقسیم 6 برابر با 5 است.,{'accuracy': 0.0}
217 | 18,عدد بزرگتر برابر با 81 است.,{'accuracy': 0.0}
218 | 


--------------------------------------------------------------------------------
/Experiments/ChatGPT/Mathematical Problems/results/english_zero.csv:
--------------------------------------------------------------------------------
  1 | solution,bot_solution,evaluation
  2 | 6957,عددی که با بقیه‌ی اعداد فرق دارد، عدد 3647 است.,{'accuracy': 0.0}
  3 | 7 مهر,تاریخ تولد سینا 26 شهریور است.,{'accuracy': 0.0}
  4 | 5 سال,درخت به نصف ارتفاع فعلی خود ۶ سال طول کشیده است.,{'accuracy': 0.0}
  5 | 190,عدد بعدی در دنباله برابر با 189 است.,{'accuracy': 0.0}
  6 | 183,هیچ کدام از اعداد 183، 243 و 261 با بقیه‌ی اعداد متفاوت نیستند.,{'accuracy': 0.0}
  7 | 500 تومان,قیمت ظرف شیشه‌ای که عطر در آن است، 1000 تومان است.,{'accuracy': 0.0}
  8 | 12 نقطه,چهار دایره با اندازه‌های متفاوت یکدیگر در حداکثر 6 نقطه با یکدیگر قطع می‌شوند.,{'accuracy': 0.0}
  9 | 32 سیب,پس مهسا در ابتدا 2 سیب داشته است.,{'accuracy': 0.0}
 10 | 7 مهره,پاسخ: حداقل 3 مهره را باید از کیسه خارج کنیم تا حداقل یک مهره قرمز در بین آنها باشد.,{'accuracy': 0.0}
 11 | 4,پاسخ: عدد باید جایگزین علامت سوال در دنباله باشد، یعنی عدد 9.,{'accuracy': 0.0}
 12 | 14 نفر,پاسخ: تعداد نفرات در این مهمانی برابر با 12 نفر است.,{'accuracy': 0.0}
 13 | سال 1374,پاسخ: این خانم در سال 1391 ازدواج کرده است.,{'accuracy': 0.0}
 14 | 35 میلیمتر,پاسخ: برای هم اندازه کردن پایه های میز، باید حداقل 2 میلیمتر از مجموع طول پایه ها کوتاه شود.,{'accuracy': 0.0}
 15 | 12 ساعت,,{'accuracy': 0.0}
 16 | 8 مثلث,تعداد مثلث‌های کوچک و بزرگ تشکیل شده با رسم دو قطر مربع برابر است با 12 مثلث.,{'accuracy': 0.0}
 17 | 1000,پنج درصد از 2000 معادل 100 است.,{'accuracy': 0.0}
 18 | 9:25,ساعت واقعی به صورت 2:35 است.,{'accuracy': 0.0}
 19 | 10,عدد X می‌تواند جایگزین 100 در معادله باشد.,{'accuracy': 0.0}
 20 | 1,حاصل عبارت داده شده برابر با 1 است.,{'accuracy': 1.0}
 21 | 63,مساحت فضای باقی مانده بعد از حفره کردن دایره‌ای با شعاع 3 سانتیمتر در وسط مربع برابر با تقریباً 61.74 سانتیمتر مربع است.,{'accuracy': 0.0}
 22 | 149.2,خانم کوثری باید مبلغ 149.20 تومان را بپردازد.,{'accuracy': 0.0}
 23 | 4 مرتبه,عدد 2، 6 بار پس از عدد 3 در دنباله آمده است.,{'accuracy': 0.0}
 24 | 2.5 دقیقه,مدت زمان لازم برای عبور کامل قطار از تونل حدود 2.5 دقیقه است.,{'accuracy': 1.0}
 25 | 43,چهارمین عدد زنجیره‌ی عددی برابر با 31 است.,{'accuracy': 0.0}
 26 | 60 دانش آموز,"تعداد دانش آموزان کلاس ""الف"" در ابتدا 60 نفر بوده است.",{'accuracy': 1.0}
 27 | 13,عدد ناقص در دنباله ی,{'accuracy': 0.0}
 28 | 16,عدد ناقص در دنباله ی,{'accuracy': 0.0}
 29 | 27,عدد ناقص در دنباله ی,{'accuracy': 0.0}
 30 | 55,عدد ناقص در دنباله ی,{'accuracy': 0.0}
 31 | 18,عدد ناقص در دنباله ی,{'accuracy': 0.0}
 32 | 16,عدد ناقص در دنباله ی,{'accuracy': 0.0}
 33 | 44,عدد ناقص در دنباله ی,{'accuracy': 0.0}
 34 | 25,عدد ناقص در دنباله ی,{'accuracy': 0.0}
 35 | 1,ابتدا تفاصل کوچک‌ترین و بزرگ‌ترین عدد در دنباله برابر با 7 است. سپس اختلاف این تفاضل با مقدار کوچک‌تر دو عدد دیگر برابر با 5 است.,{'accuracy': 0.0}
 36 | 2,ابتدا تفاصل کوچک‌ترین و بزرگ‌ترین عدد در دنباله برابر با 4 است. سپس اختلاف این تفاضل با مقدار کوچک‌تر دو عدد دیگر برابر با -2 است.,{'accuracy': 0.0}
 37 | 5,ابتدا تفاصل کوچک‌ترین و بزرگ‌ترین عدد در دنباله برابر با 8 است. سپس اختلاف این تفاضل با مقدار کوچک‌تر دو عدد دیگر برابر با 5 است.,{'accuracy': 0.0}
 38 | 2,ابتدا تفاصل کوچک‌ترین و بزرگ‌ترین عدد در دنباله برابر با 7 است. سپس اختلاف این تفاضل با مقدار بزرگ‌تر دو عدد دیگر برابر با 2 است.,{'accuracy': 0.0}
 39 | 1,ابتدا تفاصل کوچک‌ترین و بزرگ‌ترین عدد در دنباله برابر با 6 است. سپس اختلاف این تفاضل با مقدار بزرگ‌تر دو عدد دیگر برابر با 1 است.,{'accuracy': 0.0}
 40 | 3,ابتدا تفاصل کوچک‌ترین و بزرگ‌ترین عدد در دنباله برابر با 3 است. سپس اختلاف این تفاضل با مقدار بزرگ‌تر دو عدد دیگر برابر با -3 است.,{'accuracy': 0.0}
 41 | 4,ابتدا تفاصل کوچک‌ترین و بزرگ‌ترین عدد در دنباله برابر با 6 است. سپس اختلاف این تفاضل با کوچک‌ترین عدد مجموعه برابر با 4 است.,{'accuracy': 0.0}
 42 | 9,ابتدا تفاصل کوچک‌ترین و بزرگ‌ترین عدد در دنباله برابر با 9 است. سپس اختلاف این تفاضل با کوچک‌ترین عدد مجموعه برابر با 9 است.,{'accuracy': 0.0}
 43 | 3,ابتدا تفاصل کوچک‌ترین و بزرگ‌ترین عدد در دنباله برابر با 5 است. سپس اختلاف این تفاضل با کوچک‌ترین عدد مجموعه برابر با 3 است.,{'accuracy': 0.0}
 44 | 2,ابتدا کوچک‌ترین و بزرگ‌ترین عدد را از دنباله حذف کرده، سپس اختلاف تفاضل دو عدد باقی‌مانده در مجموعه برابر با 2 است.,{'accuracy': 1.0}
 45 | 5,ابتدا کوچک‌ترین و بزرگ‌ترین عدد را از دنباله حذف کرده، سپس اختلاف تفاضل دو عدد باقی‌مانده در مجموعه برابر با 5 است.,{'accuracy': 1.0}
 46 | 3,ابتدا کوچک‌ترین و بزرگ‌ترین عدد را از دنباله حذف کرده، سپس اختلاف تفاضل دو عدد باقی‌مانده در مجموعه برابر با -3 است.,{'accuracy': 1.0}
 47 | 3,,{'accuracy': 0.0}
 48 | 7,,{'accuracy': 0.0}
 49 | 5,,{'accuracy': 0.0}
 50 | 2,,{'accuracy': 0.0}
 51 | 2,,{'accuracy': 0.0}
 52 | 8,,{'accuracy': 0.0}
 53 | 1,,{'accuracy': 0.0}
 54 | 1,,{'accuracy': 0.0}
 55 | 2,,{'accuracy': 0.0}
 56 | 9,,{'accuracy': 0.0}
 57 | 2 مثلث,,{'accuracy': 0.0}
 58 | 3 تا,,{'accuracy': 0.0}
 59 | 4 واحد,,{'accuracy': 0.0}
 60 | 36 کاغذ,,{'accuracy': 0.0}
 61 | 2,,{'accuracy': 0.0}
 62 | 6,تعداد مکعب‌های مستطیل توپر مختلفی که می‌توان با استفاده از 30 مکعب به ضلع 1 سانتی‌متر، با حجم 30 سانتی‌متر مکعب ساخت، بی‌نهایت است.,{'accuracy': 0.0}
 63 | 14,حداقل تعداد اعداد رنگ قرمز که باید انجام شود تا هیچ 7 عدد متوالی‌ای همه آبی نباشد، صفر است.,{'accuracy': 0.0}
 64 | 7,مجموع امتیازات هر 4 تیم در پایان مسابقات می‌تواند از 0 تا 12 عدد مختلف باشد.,{'accuracy': 0.0}
 65 | 13/18,احتمال اینکه حاصل ضرب ارقام عدد دو رقمی انتخابی مریم زوج باشد، برابر با 2/9 است.,{'accuracy': 0.0}
 66 | 28,نسیم حداکثر به 17 پرسش پاسخ داده است.,{'accuracy': 0.0}
 67 | 4,تعداد کل پیشامد‌ها برابر با 1 است.,{'accuracy': 0.0}
 68 | 5,حداقل تعداد اعدادی که مریم حذف کرده است برابر با 25! است.,{'accuracy': 0.0}
 69 | 15,با استفاده از رقم‌های 2، 3 و 5، می‌توان به 7 عدد متمایز رسید.,{'accuracy': 0.0}
 70 | 68,عدد صحیح مورد نظر برابر با 69 است.,{'accuracy': 0.0}
 71 | 8,فاصله بین دو شهر در واقعیت 4 کیلومتر است.,{'accuracy': 0.0}
 72 | 32,مقدار عبارت برابر با -32 است.,{'accuracy': 1.0}
 73 | 0.38,میانگین مصرف هفتگی شیرینی برای امریکایی‌ها حدوداً 0.38 پوند است.,{'accuracy': 1.0}
 74 | 333,کوچکترین عدد سه‌رقمی به فرم aaa که بر 9 بخش‌پذیر است، برابر با 108 است.,{'accuracy': 0.0}
 75 | 4:30,زمانی که بابی و خانواده‌اش به مقصد می‌رسند، ساعت ۴:۳۰ بعد از ظهر است.,{'accuracy': 0.0}
 76 | 20%,جینا ۱۰٪ از جوراب‌هایش را قرمز دارد.,{'accuracy': 0.0}
 77 | 7,تفاوت مثبت بین عدد دو به توان پنج و پنج به توان دو برابر با ۷ است.,{'accuracy': 0.0}
 78 | 4,برای 2 عدد دو رقمی مثبت، حاصلضرب ارقام برابر با 12 است.,{'accuracy': 0.0}
 79 | 23,کوچک‌ترین عدد صحیح مثبتی که بزرگتر از 1 است و نسبت به حاصل‌ضرب اعداد صحیح مثبت 1 تا 20 اول می‌باشد، برابر با 21 است.,{'accuracy': 0.0}
 80 | 5999,تعداد اعداد چهاررقمی کمتر از 8000 و بزرگتر از 2000 برابر با 5999 است.,{'accuracy': 0.0}
 81 | 6,تعداد اعدادی که یا بر 7 بخش‌پذیر هستند یا مساوی با 34 هستند، 5 عدد هستند.,{'accuracy': 0.0}
 82 | 0.5,احتمال بخش‌پذیر بودن N بر 4 حدوداً برابر با 2.5 است.,{'accuracy': 0.0}
 83 | 10 درصد,درصد کاهش مساحت مربع حدوداً برابر با 10% است.,{'accuracy': 1.0}
 84 | 13 اینچ مربع,مساحت بخش قرمز برابر با 22 اینچ مربع است.,{'accuracy': 0.0}
 85 | 3,فاصله‌ی چند اینچی در نقشه بین دو شهر، 3 اینچ است.,{'accuracy': 1.0}
 86 | 36,افزایش مساحت با دو برابر کردن شعاع دایره برابر با 9 اینچ مربع است.,{'accuracy': 0.0}
 87 | 6,بزرگترین عدد از سه عدد صحیح متوالی، برابر با 6 است.,{'accuracy': 1.0}
 88 | 42,شش ضلعی منظم که می‌تواند به شش مثلث مساوی الساقین تقسیم شود، وجود ندارد.,{'accuracy': 0.0}
 89 | 4,تعداد مقسوم علیه‌های صحیح عدد ۷ برابر با ۲ عدد (۱ و ۷) است.,{'accuracy': 0.0}
 90 | 564,نزدیک‌ترین عدد صحیح به 563.5097 برابر با 564 است.,{'accuracy': 0.0}
 91 | 162,تعداد اعداد صحیح بین 99 و 999 که دقیقاً یک رقم 0 دارند، برابر با 10 عدد است.,{'accuracy': 0.0}
 92 | 66,تعداد صندلی‌هایی که شماره‌ی آن‌ها فرد است، در کلاس برابر با 11 صندلی است.,{'accuracy': 0.0}
 93 | 6,تعداد اعداد مربع کامل و فرد بین ۵ و ۲۱۱ برابر با ۴ عدد است.,{'accuracy': 0.0}
 94 | 5040,"تعداد تنظیمات مختلف برای رمز قفل این چمدان، با شرط هر چهار رقم متفاوت، برابر با \(\text{ترکیب}(10, 4)\) است.
 95 | 
 96 | \(\text{ترکیب}(10, 4) = \frac{10!}{4!(10-4)!} = \frac{10!}{4! \times 6!} = \frac{10 \times 9 \times 8 \times 7}{4 \times 3 \times 2 \times 1} = 210\)
 97 | 
 98 | پس جواب نهایی برابر با 210 تنظیم مختلف برای رمز قفل چمدان است.",{'accuracy': 0.0}
 99 | 5,چندجمله‌ای \(2f(x) + 4g(x)\) از درجه 5 می‌باشد.,{'accuracy': 0.0}
100 | 8,کوچکترین عدد زوج حاصل از این جمع‌ها برابر با 4 می‌باشد.,{'accuracy': 0.0}
101 | 10,مقدار 50% از 200% از عدد 10 برابر با 10 است.,{'accuracy': 0.0}
102 | 4005,عدد 2003ام از دنباله اعداد فرد برابر با 4004 است.,{'accuracy': 0.0}
103 | 1023,حاصلضرب دو عدد فرد متوالی 1023 است.,{'accuracy': 1.0}
104 | 10,امی از بتی 10 سیب بیشتر دارد.,{'accuracy': 1.0}
105 | 400,مساحت مستطیل چندان سانتی‌متر مربع است: 400 سانتی‌متر مربع.,{'accuracy': 1.0}
106 | 123,مقدار عبارت 123123 تقسیم بر 1001 برابر با 22 است.,{'accuracy': 0.0}
107 | 0.17,ویلیام 0.1667 مایل دویده است.,{'accuracy': 0.0}
108 | 350,ششمین عضو این دنباله حسابی برابر با 350 است.,{'accuracy': 1.0}
109 | 600,مجموع مجموعه اعداد جدید برابر با 30 است.,{'accuracy': 0.0}
110 | 8,فشار در کانتینر جدید حدوداً 8 کیلوپاسکال خواهد بود.,{'accuracy': 1.0}
111 | 8,کوچکترین عدد زوج از این مجموعه اعداد، عدد 2 است.,{'accuracy': 0.0}
112 | 2,"اگر \(f(x)\) و \(g(x)\) هر دو تابع زوج باشند، تابع \(f(x)g(x)\) نیز یک تابع زوج است.
113 | 
114 | اگر \(f(x)\) و \(g(x)\) هر دو تابع فرد باشند، تابع \(f(x)g(x)\) نیز یک تابع زوج است.
115 | 
116 | اگر یکی از \(f(x)\) و \(g(x)\) تابع زوج باشد و دیگری تابع فرد باشد، تابع \(f(x)g(x)\) یک تابع فرد است.
117 | 
118 | اگر \(f(x)\) و \(g(x)\) هیچ‌کدام از توابع زوج یا فرد نباشند، تابع \(f(x)g(x)\) یک تابع ""هیچ کدام"" است.",{'accuracy': 0.0}
119 | 1,بزرگترین مقدار ممکن برای میانگین حسابی اعداد برابر با یک است.,{'accuracy': 0.0}
120 | 30,مقدار \(f(12) - f(2)\) به صورت 10m محاسبه می‌شود، که در آن \(m\) شیب (ضریب) تابع خطی \(f(x)\) است و اطلاعات بیشتری نیاز است تا مقدار دقیق آن را بدانیم.,{'accuracy': 0.0}
121 | 18,۸ ضلع.,{'accuracy': 0.0}
122 | 54,مساحت مثلث جدید برابر با 54 واحد مربع است.,{'accuracy': 1.0}
123 | 24,منشور هشت ضلعی، هشت ضلع دارد.,{'accuracy': 0.0}
124 | 36,تعداد لوله‌های استوانه‌ای با قطر داخلی 2 اینچ برای نگهداری همان مقدار X آب که لوله با قطر داخلی 12 اینچ نگه داشت، برابر با 36 لوله است.,{'accuracy': 0.0}
125 | 8,"فاصله نقطه (3, 4) و تصویر آن به ازای محور x برابر با صفر است.",{'accuracy': 0.0}
126 | 100,متأسفانه نمی‌توانم به سوال پاسخ دهم زیرا مشکلی در ارائه سوال وجود دارد یا خطایی در نوشته‌ها به وجود آمده است.,{'accuracy': 0.0}
127 | 0.54,مساحت سطح مکعب برابر با 0.54 متر مربع است.,{'accuracy': 1.0}
128 | 21,طول ضلع YZ برابر با 21 واحد است.,{'accuracy': 1.0}
129 | 70,اندازه زاویه B برابر با 100 درجه است.,{'accuracy': 0.0}
130 | 144,حجم آب موجود در استخر نیمه پر شده برابر با 144 متر مکعب است.,{'accuracy': 1.0}
131 | 3,شعاع کره برابر با 3/4 واحد است.,{'accuracy': 0.0}
132 | 126,اندازه‌ی زاویه AOB برابر با 90 درجه است.,{'accuracy': 0.0}
133 | 3,ارتفاع مخزن 3 متر می‌باشد.,{'accuracy': 1.0}
134 | 8000,حجم مکعب جدید، 8000 اینچ مکعب است.,{'accuracy': 1.0}
135 | 8918,اختلاف مثبت حجم مکعب دوم و حجم مکعب اول 26a^3 سانتی متر مکعب است.,{'accuracy': 0.0}
136 | 3600,حجم هرم 3600 متر مکعب است.,{'accuracy': 1.0}
137 | 4,ارتفاع استوانه دوم 4 اینچ می‌باشد.,{'accuracy': 1.0}
138 | 140,اندازه هر زاویه باز در متوازی الاضلاع 70 درجه می‌باشد.,{'accuracy': 0.0}
139 | 3,مقدار x (افزایش طول ضلع) به‌دست آمده از حل معادله‌ی سوم درجه برابر با مقدار طول هر ضلع جدید مکعب است.,{'accuracy': 0.0}
140 | 120,میانگین اندازه‌ی سه زاویه خارجی مثلث برابر با 240 درجه است.,{'accuracy': 0.0}
141 | 15,اندازه یک زاویه داخلی در یک هشت ضلعی منتظم 22.5 درجه و از اندازه یک زاویه داخلی در یک شش ضلعی منتظم کمتر است.,{'accuracy': 0.0}
142 | 31,بزرگترین مقدار ممکن برای محیط مثلث وقتی طول ضلع سوم عدد صحیح باشد، برابر با 8 + 8 + x می‌باشد. اگر x بزرگترین عدد صحیح باشد، مقدار محیط مثلث برابر با 8 + 8 + 9 = 25 واحد خواهد بود.,{'accuracy': 0.0}
143 | 3,طول ضلع سوم مثلث برابر با 2 است.,{'accuracy': 0.0}
144 | 40,محیط بزرگترین ممکن مثلث متساوی الساقین با طول ضلع‌های 15 و 10 سانتی‌متر برابر با 40 سانتی‌متر است.,{'accuracy': 0.0}
145 | 12,مساحت مثلث با اضلاع 5، 5 و 6 برابر با 12 واحد مربع است.,{'accuracy': 0.0}
146 | 28,طول کوتاه‌ترین ضلع مثلث دوم حدوداً 97.059 واحد است.,{'accuracy': 0.0}
147 | 864000,"تعداد تابلوهای مجوز ممکن در ایالت جدید آتلانتیس برابر با 175,760,000 تابلو می‌باشد.",{'accuracy': 0.0}
148 | 1/4,احتمال دقیقاً دو حلقه در جعبه‌های اشتباه قرار داشته باشند برابر با 1/6 است.,{'accuracy': 0.0}
149 | 12,تعداد اعداد سه رقمی که شرایط داده شده را ارضا می‌کنند برابر با 54 عدد است.,{'accuracy': 0.0}
150 | 380,تعداد راه‌های انتخاب یک رئیس جمهور و یک معاون جمهور برابر با 380 راه است.,{'accuracy': 1.0}
151 | 7,تعداد اعداد اول کمتر از 100 که رقم یکان آن‌ها برابر با 3 است، برابر با 7 عدد است.,{'accuracy': 0.0}
152 | 14400,تعداد روش‌های قابل تشخیص برای نشستن اعضای کمیتهٔ سنا به یک میز گرد، برابر با 576 روش است.,{'accuracy': 0.0}
153 | 1000000,مقدار عبارت 82^3 + 3(82^2)(18) + 3(82)(18^2) + 18^3 برابر با 1000000 است.,{'accuracy': 0.0}
154 | 70,تعداد روش‌های انتخاب اعضای تیم ریاضی برای مسابقه برابر با 1 روش است.,{'accuracy': 0.0}
155 | 31,"تعداد زیرمجموعه‌های غیرتهی از مجموعهٔ { 1 , 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 } که کلیهٔ اعضا اعداد اول هستند، برابر با 129 عدد است.",{'accuracy': 0.0}
156 | 120,"تعداد راه‌های ممکن برای ترتیب دادن حروف کلمه ""ELEVEN"" برابر با 30 است.",{'accuracy': 0.0}
157 | 5,تعداد روش‌های مختلف قرار دادن 8 کره قابل تمییز به دو قفسه قابل تمییز برابر با 256 است.,{'accuracy': 0.0}
158 | 5,تعداد جایگشت‌های مختلف از 4 توپ بدون توجه به ترتیب موجود برابر با 1 است.,{'accuracy': 0.0}
159 | 17/18,احتمال اینکه جمع دو عدد حاصل از دو تاس شش‌رو بین 3 تا 11 (شامل حدود) باشد برابر با 5/18 است.,{'accuracy': 0.0}
160 | 1/20,احتمال اینکه دو تاس فرد، یکی را بیرون آورند برابر با 1/4 است.,{'accuracy': 0.0}
161 | 0.5,ارزش امیدریاضی برد ما پس از یک بار پرتاب سکه برابر با 0.5 یا یک دوم است.,{'accuracy': 1.0}
162 | 11/36,احتمال اینکه حداقل یکی از دو تاس 6‌رو که بیندازیم، شماره 5 بیاید برابر با 13/18 است.,{'accuracy': 0.0}
163 | 37/819,احتمال اینکه این گروه چهار نفره حداقل دو نفر از سه تن اول دانش‌آموزان برتر جغرافیا در کلاس را شامل شود، تقریباً برابر با 0.000195 است.,{'accuracy': 0.0}
164 | 243,تعداد روش‌های قرار دادن 5 توپ متمایز در 3 جعبه برابر با 125 است.,{'accuracy': 0.0}
165 | 28,تومورا می‌تواند 28 پیتزا مختلف (هر کدام با دو پیکان متفاوت) را سفارش دهد.,{'accuracy': 1.0}
166 | 45,عدد بعدی در ردیف مثلث پاسکال برابر با 11 است.,{'accuracy': 0.0}
167 | 1963,تعداد عدد‌های صحیح مثبت از 2008 کوچکتر که ویژگی تعداد زوج از مقسوم‌علی‌ها را دارند، برابر با 80 عدد است.,{'accuracy': 0.0}
168 | 6720,"تعداد روش‌های مختلف برای ترتیب حروف کلمه ""PARABOLA"" برابر با ۱۲۶۰ است.",{'accuracy': 0.0}
169 | 6,احتمال اینکه حداکثر 4 بار نتیجه‌ی تاس‌ها عدد 1 باشد برابر با تقریباً 0.34 است.,{'accuracy': 0.0}
170 | 3,تنها یک عدد صحیح دقیق درونه‌ی مربعی بین 200 تا 300 وجود دارد که اینتیگر وزن دارای 42524 یک ترم عکس‌العمل باشد و آن عدد 200 است.,{'accuracy': 0.0}
171 | 110,باید عدد 9! را در 110 ضرب کنیم تا به 11! برسیم.,{'accuracy': 0.0}
172 | 48,تعداد حالات ممکن برای قرار دادن 5 توپ متمایز در 3 جعبه به گونه‌ای که یک توپ در هر دو طرف استوانه باشد، برابر با 130 حالت است.,{'accuracy': 0.0}
173 | 1,احتمال اینکه ماشین حاصل از پرتاب نرمال تاس شش‌رو سوال بالا، حداکثر 4 بار سکه را با صورت یک انسان می‌آورد، تقریباً 24.28% است.,{'accuracy': 0.0}
174 | 243,تعداد راه‌های مختلف برای قرار دادن 5 توپ متمایز در 3 جعبه متمایز برابر با ۲۴۳ راه است.,{'accuracy': 0.0}
175 | 36,تعداد روش‌های مختلف برای قرار دادن 4 توپ (2 توپ سبز و 2 توپ قرمز) در 3 جعبه متمایز به گونه‌ای که دو توپ به هم نمی‌توانند تمیز شوند، برابر با 5 روش است.,{'accuracy': 0.0}
176 | 4,تعداد روش‌های مختلف تقسیم چهار پرتقال یکسان به حداکثر سه گروه برابر با 8 روش است.,{'accuracy': 0.0}
177 | 1/4,احتمال اینکه دقیقاً دو تاس پیشرفته یک یا دو بیاید برابر با 1 است.,{'accuracy': 0.0}
178 | 1275,پنجاهمین عدد مثلثی برابر با 1326 است.,{'accuracy': 0.0}
179 | 8.5,میانگین حاصل‌ضرب شماره‌گذاری‌شده‌ی دو کره انتخاب‌شده برابر با 6.8 است.,{'accuracy': 0.0}
180 | 11/850,احتمال این که سه کارت انتخاب‌شده همگی کلوپ باشند، تقریباً برابر با 0.0129 است.,{'accuracy': 0.0}
181 | 280,ماله می‌تواند به 280 روش مختلف تخصیص دهی را انجام دهد.,{'accuracy': 1.0}
182 | 12/25,احتمال اینکه بازیکن بیسبال لری پاندز در دو بار بازی پایه اول را بدست آورد برابر با 0.000625 یا 0.0625٪ است.,{'accuracy': 0.0}
183 | 58500,تعداد ممکن پلاک‌های خودرویی برابر با 58500 است.,{'accuracy': 1.0}
184 | 1,باقی‌مانده‌ی عددی که هنگامی که دوبرابر آن بر 5 تقسیم می‌شود، نیز برابر با 3 است.,{'accuracy': 0.0}
185 | 16,تعداد مقسوم‌علیه‌های مشترک مثبت بین اعداد 840، 960 و 1200 برابر با 14 است.,{'accuracy': 0.0}
186 | 12,بزرگترین مقسوم‌علیه‌ی مشترک بین 180 و 168 برابر با ۸ است.,{'accuracy': 0.0}
187 | 7,تعداد اولیه Penteria برابر با 137 نفر است.,{'accuracy': 0.0}
188 | 5,باقیمانده برابر با 5 است.,{'accuracy': 1.0}
189 | 18,عدد بزرگتر برابر با 28 است.,{'accuracy': 0.0}
190 | ,


--------------------------------------------------------------------------------
/Benchmark/Math/prompt.py:
--------------------------------------------------------------------------------
  1 | """PROMPT POOL THAT HAS BEEN USED FOR MATH EVALUATION"""
  2 | 
  3 | 
  4 | ENGLISH_ZERO = """\
  5 | You are specialized in mathematics. \
  6 | I would give you a problem and I want you to provide a clear and step by step solution for that problem and \
  7 | also give me the final result. Also, make sure that your answer is it persian. \
  8 | I would give you the problem and I expect you to answer in the format below:
  9 | 
 10 | [problem]
 11 | 
 12 | In this section, I would give you the description of the problem I want you to solve. \
 13 | I would provide you this section.
 14 | 
 15 | [/problem]
 16 | [solution]
 17 | 
 18 | In this section, you would write the description of the problem, step by step and clearly. \
 19 | You need to write this section.
 20 | 
 21 | [/solution]
 22 | [answer]
 23 | 
 24 | In this section, you would just write the short, final answer to the problem. \
 25 | You need to write this section.
 26 | 
 27 | [/answer]
 28 | 
 29 | [problem]
 30 | 
 31 | {problem}
 32 | 
 33 | [/problem]
 34 | """
 35 | 
 36 | 
 37 | PERSIAN_ZERO = """\
 38 | به عنوان یک متخصص ریاضی، یک مسئله به شما داده خواهد شد و باید راه حل صحیح، شفاف و قدم به قدم برای مسئله نوشته و پاسخ نهایی به تنهایی را در بخش مربوطه قرار دهید. تمامی پاسخ های شما باید به زبان فارسی باشد بجز اعداد که به لاتین (انگلیسی) باید نوشته بشوند. از شما انتظار میرود مسئله را در فرمت زیر دریافت کرده و بصورت مشخص شده، راه حل و پاسخ نهایی را ارائه کنید:
 39 | 
 40 | [مسئله]
 41 | 
 42 | در این بخش، صورت مسئله به شما داده میشود و شما باید آنرا حل کنید. نیازی به نوشتن این بخش نیست و به شما داده شده است.
 43 | 
 44 | [/مسئله]
 45 | [راه حل]
 46 | 
 47 | در این بخش، شما باید راه حل مسئله را به شکل شفاف و قدم به قدم بنویسید. این بخش لازم است توسط شما نوشته شود.
 48 | 
 49 | [/راه حل]
 50 | [پاسخ]
 51 | 
 52 | در این بخش، پاسخ نهایی مسئله با اعداد لاتین و به اختصار نوشته میشود. این بخش باید توسط شما نوشته شود.
 53 | 
 54 | [/پاسخ]
 55 | 
 56 | [مسئله]
 57 | 
 58 | {problem}
 59 | 
 60 | [/مسئله]
 61 | """
 62 | 
 63 | 
 64 | ENGLISH_ONE = """\
 65 | You are specialized in mathematics. \
 66 | I would give you a problem and I want you to provide a clear and step by step solution for that problem and \
 67 | also give me the final result. Also, make sure that your answer is it persian. \
 68 | I would give you the problem and I expect you to answer like the examples below:
 69 | 
 70 | [problem]
 71 | 
 72 | در دنباله داده شده، ابتدا تفاصل کوچک ترین و بزرگ ترین عدد را تعیین کرده، سپس اختلاف این تفاضل را از مقدار کوچک تر دو عدد دیگر مشخص کنید: [1, 5, 8, 3]
 73 | 
 74 | [/problem]
 75 | [solution]
 76 | 
 77 | در این مجوعه، بزرگترین عدد، 8 و کوچک ترین عدد،1 میباشند که تفاضل آنها 7 میباشد. در بین دو عدد دیگر، بعنی 5 و 3، مقدار گوچک تر، برابر با 3 میباشد که اختلاف آن با تفاضل محاسبه شده، برابر با 4 میباشد.
 78 | 
 79 | [/solution]
 80 | [answer]
 81 | 
 82 | 4
 83 | 
 84 | [/answer]
 85 | 
 86 | [problem]
 87 | 
 88 | تفاوت مثبت بین دو عدد سه به توان دو و دو به توان سه چقدر میباشد؟
 89 | 
 90 | [/problem]
 91 | [solution]
 92 | 
 93 | سه به توان دو برابر است با 9 و دو به توان سه برابر است با 8 که قدرمطلق تفاضل این دو مقدار برابر با 1 میباشد.
 94 | 
 95 | [/solution]
 96 | [answer]
 97 | 
 98 | 1
 99 | 
100 | [/answer]
101 | 
102 | [problem]
103 | 
104 | مثلث ABC همنهشت با مثلث XYZ است و طول ضلع AB برابر با 4 واحد، طول ضلع BC برابر با 8 واحد و طول ضلع XY برابر با 2 واحد است. اندازه ضلع YZ چقدر است؟
105 | 
106 | [/problem]
107 | [solution]
108 | 
109 | از آنجا که دو مثلت هم نهست میباشند، با داشتن مقدار دو ضلع متناظر میتوانیم نسبت تشابه این دو ضلع را مجاحسبه کنیم. توجه شود این نسبت تشابه بین هر دو ضلع متناظر برقرار است، یعنی AB/XY = BC/YZ. با حل معادله به پاسخ نهایی میرسیم: 4/2 = 8/YZ پس طول ضلع YZ برابر با 4 خواهد بود.
110 | 
111 | [/solution]
112 | [answer]
113 | 
114 | 4
115 | 
116 | [/answer]
117 | 
118 | [problem]
119 | 
120 | بزرگترین مقسوم‌علیه‌ی مشترک 18 و 32 چیست؟
121 | 
122 | [/problem]
123 | [solution]
124 | 
125 | مقسوم علیه های 18: 1, 2, 3, 6, 9, 18
126 | مقسوم علیه های 32: 1, 2, 4, 8, 16, 32
127 | مقسوم علیه های مشترک: 1, 2
128 | بزرگ ترین مقسوم علیه مشترک: 2
129 | 
130 | [/solution]
131 | [answer]
132 | 
133 | 2
134 | 
135 | [/answer]
136 | 
137 | [problem]
138 | 
139 | چه عددی باید در 7! ضرب شود تا به 9! برسد؟
140 | 
141 | [/problem]
142 | [solution]
143 | 
144 | 9! را گسترش میدهیم: 9! = 9*8*7*6*5*4*3*2*1
145 | 7! را گسترش میدهیم: 7! = 7*6*5*4*3*2*1
146 | پس 9! = 9*8*7!
147 | پس باید 8*9 یعنی 72 در 7! ضرب شود تا به 9! برسد
148 | 
149 | [/solution]
150 | [answer]
151 | 
152 | 72
153 | 
154 | [/answer]
155 | 
156 | 
157 | [problem]
158 | 
159 | {problem}
160 | 
161 | [/problem]
162 | """
163 | 
164 | 
165 | PERSIAN_ONE = """
166 | به عنوان یک متخصص ریاضی، یک مسئله به شما داده خواهد شد و باید راه حل صحیح، شفاف و قدم به قدم برای مسئله نوشته و پاسخ نهایی به تنهایی را در بخش مربوطه قرار دهید. تمامی پاسخ های شما باید به زبان فارسی باشد بجز اعداد که به لاتین (انگلیسی) باید نوشته بشوند. از شما انتظار میرود مسئله را همانند نمونه دریافت کرده، راه حل و پاسخ نهایی را ارائه کنید و حتما از اعداد لاتین استفاده کنید:
167 | 
168 | [مسئله]
169 | 
170 | در دنباله داده شده، ابتدا تفاصل کوچک ترین و بزرگ ترین عدد را تعیین کرده، سپس اختلاف این تفاضل را از مقدار کوچک تر دو عدد دیگر مشخص کنید: [1, 5, 8, 3]
171 | 
172 | [/مسئله]
173 | [راه حل]
174 | 
175 | در این مجوعه، بزرگترین عدد، 8 و کوچک ترین عدد،1 میباشند که تفاضل آنها 7 میباشد. در بین دو عدد دیگر، بعنی 5 و 3، مقدار گوچک تر، برابر با 3 میباشد که اختلاف آن با تفاضل محاسبه شده، برابر با 4 میباشد.
176 | 
177 | [/راه حل]
178 | [پاسخ]
179 | 
180 | 4
181 | 
182 | [/پاسخ]
183 | 
184 | [مسئله]
185 | 
186 | تفاوت مثبت بین دو عدد سه به توان دو و دو به توان سه چقدر میباشد؟
187 | 
188 | [/مسئله]
189 | [راه حل]
190 | 
191 | سه به توان دو برابر است با 9 و دو به توان سه برابر است با 8 که قدرمطلق تفاضل این دو مقدار برابر با 1 میباشد.
192 | 
193 | [/راه حل]
194 | [پاسخ]
195 | 
196 | 1
197 | 
198 | [/پاسخ]
199 | 
200 | [مسئله]
201 | 
202 | مثلث ABC همنهشت با مثلث XYZ است و طول ضلع AB برابر با 4 واحد، طول ضلع BC برابر با 8 واحد و طول ضلع XY برابر با 2 واحد است. اندازه ضلع YZ چقدر است؟
203 | 
204 | [/مسئله]
205 | [راه حل]
206 | 
207 | از آنجا که دو مثلت هم نهست میباشند، با داشتن مقدار دو ضلع متناظر میتوانیم نسبت تشابه این دو ضلع را مجاحسبه کنیم. توجه شود این نسبت تشابه بین هر دو ضلع متناظر برقرار است، یعنی AB/XY = BC/YZ. با حل معادله به پاسخ نهایی میرسیم: 4/2 = 8/YZ پس طول ضلع YZ برابر با 4 خواهد بود.
208 | 
209 | [/راه حل]
210 | [پاسخ]
211 | 
212 | 4
213 | 
214 | [/پاسخ]
215 | 
216 | [مسئله]
217 | 
218 | بزرگترین مقسوم‌علیه‌ی مشترک 18 و 32 چیست؟
219 | 
220 | [/مسئله]
221 | [راه حل]
222 | 
223 | مقسوم علیه های 18: 1, 2, 3, 6, 9, 18
224 | مقسوم علیه های 32: 1, 2, 4, 8, 16, 32
225 | مقسوم علیه های مشترک: 1, 2
226 | بزرگ ترین مقسوم علیه مشترک: 2
227 | 
228 | [/راه حل]
229 | [پاسخ]
230 | 
231 | 2
232 | 
233 | [/پاسخ]
234 | 
235 | [مسئله]
236 | 
237 | چه عددی باید در 7! ضرب شود تا به 9! برسد؟
238 | 
239 | [/مسئله]
240 | [راه حل]
241 | 
242 | 9! را گسترش میدهیم: 9! = 9*8*7*6*5*4*3*2*1
243 | 7! را گسترش میدهیم: 7! = 7*6*5*4*3*2*1
244 | پس 9! = 9*8*7!
245 | پس باید 8*9 یعنی 72 در 7! ضرب شود تا به 9! برسد
246 | 
247 | [/راه حل]
248 | [پاسخ]
249 | 
250 | 72
251 | 
252 | [/پاسخ]
253 | 
254 | 
255 | [مسئله]
256 | 
257 | {problem}
258 | 
259 | [/مسئله]
260 | """
261 | 
262 | 
263 | ENGLISH_THREE = """
264 | You are specialized in mathematics. I would give you a problem and I want you to provide a clear and step by step solution for that problem and also give me the final result. Also, make sure that your anwer is it persian. I would give you the problem and I expect you to answer like the examples below:
265 | 
266 | [problem]
267 | در دنباله داده شده، ابتدا تفاصل کوچک ترین و بزرگ ترین عدد را تعیین کرده، سپس اختلاف این تفاضل را از مقدار کوچک تر دو عدد دیگر مشخص کنید: [1, 5, 8, 3]
268 | [/problem]
269 | [solution]
270 | در این مجوعه، بزرگترین عدد، 8 و کوچک ترین عدد،1 میباشند که تفاضل آنها 7 میباشد. در بین دو عدد دیگر، بعنی 5 و 3، مقدار گوچک تر، برابر با 3 میباشد که اختلاف آن با تفاضل محاسبه شده، برابر با 4 میباشد.
271 | [/solution]
272 | [answer]
273 | 4
274 | [/answer]
275 | 
276 | [problem]
277 | در دنباله داده شده، ابتدا دو عدد بزرگتر و دو عدد كوچكتر عدد را مشخص كنيد، سپس تعيين كنيد كدام يك از اين چهار عدد، فاصله كمتري با عدد پنجم دارد: [1,7,8,6,2]
278 | [/problem]
279 | [solution]
280 | در این اعداد، دو عدد بزرگتر 8 و 7 و دو عدد كوچكتر 2 و 1 و 6 به عنوان پنجمين عدد است. از اين پنج عدد، 7 نزديكترين عدد به 6 است پس پاسخ 7 میباشد
281 | [/solution]
282 | [answer]
283 | 7
284 | [/answer]
285 | 
286 | [problem]
287 | در دنباله ی [3, 9, ?, 81] مقدار ? را مشخص کنید.
288 | [/problem]
289 | [solution]
290 | هر جمله دنباله برابر است با سه به توان شماره عنصر در دنباله. از آنجا که ? در جایگاه سوم در دنباله قرار دارد، پس مقدار آن 3^3 و برابر با 27 میباشد.
291 | [/solution]
292 | [answer]
293 | 27
294 | [/answer]
295 | 
296 | [problem]
297 | تفاوت مثبت بین دو عدد سه به توان دو و دو به توان سه چقدر میباشد؟
298 | [/problem]
299 | [solution]
300 | سه به توان دو برابر است با 9 و دو به توان سه برابر است با 8 که قدرمطلق تفاضل این دو مقدار برابر با 1 میباشد.
301 | [/solution]
302 | [answer]
303 | 1
304 | [/answer]
305 | 
306 | [problem]
307 | ده درصد از 1100 معادل یازده درصد از چه عددی است؟
308 | [/problem]
309 | [solution]
310 | ده درصد از 1100 برابر میشود با 110.
311 | باید معادله 0.11X=110 را حل کنیم که پاسخ آن X=1000 میشود
312 | [/solution]
313 | [answer]
314 | 1000
315 | [/answer]
316 | 
317 | [problem]
318 | تعداد مقسوم علیه های صحیح عدد 13 چقدر است؟
319 | [/problem]
320 | [solution]
321 | عدد 13 عدد اول است و چهار مقسوم علیه صحیح به صورت -13, -1, 1, 13 دارد.
322 | [/solution]
323 | [answer]
324 | 4
325 | [/answer]
326 | 
327 | [problem]
328 | مثلث ABC همنهشت با مثلث XYZ است و طول ضلع AB برابر با 4 واحد، طول ضلع BC برابر با 8 واحد و طول ضلع XY برابر با 2 واحد است. اندازه ضلع YZ چقدر است؟
329 | [/problem]
330 | [solution]
331 | از آنجا که دو مثلت هم نهست میباشند، با داشتن مقدار دو ضلع متناظر میتوانیم نسبت تشابه این دو ضلع را مجاحسبه کنیم. توجه شود این نسبت تشابه بین هر دو ضلع متناظر برقرار است، یعنی AB/XY = BC/YZ. با حل معادله به پاسخ نهایی میرسیم: 4/2 = 8/YZ پس طول ضلع YZ برابر با 4 خواهد بود.
332 | [/solution]
333 | [answer]
334 | 4
335 | [/answer]
336 | 
337 | [problem]
338 | مساحت یک کره با شعاع 3 واحد و درنظر گرفتن عدد پی برابر با 3 را بدست بیاورید.
339 | [/problem]
340 | [solution]
341 | مساحت کره از رابطه ی 4pi(r^2) بدست می آید: 4 * 3 * (3^2) = 108
342 | [/solution]
343 | [answer]
344 | 108
345 | [/answer]
346 | 
347 | [problem]
348 | یک مثلث دو ضلع به طول های  2 و 5 دارد. طول ضلع سوم یک عدد صحیح است. بزرگ ترین مقدار ممکن برای طول ضلع سوم را بدست آورید.
349 | [/problem]
350 | [solution]
351 | باید به ازای هر ضلع، رابطه ی a+b>c برقرار باشد تا مثلث تشکیل شود.  از آنجا که باید 2+X>5 بشود، لذا X>3 و از انجا که 2+5>X پس 3<X<7 و و بزرگ ترین مقدار ممکن برای X برابر با 6 میباشد.
352 | [/solution]
353 | [answer]
354 | 6
355 | [/answer]
356 | 
357 | [problem]
358 | بزرگترین مقسوم‌علیه‌ی مشترک 18 و 32 چیست؟
359 | [/problem]
360 | [solution]
361 | مقسوم علیه های 18: 1, 2, 3, 6, 9, 18
362 | مقسوم علیه های 32: 1, 2, 4, 8, 16, 32
363 | مقسوم علیه های مشترک: 1, 2
364 | بزرگ ترین مقسوم علیه مشترک: 2
365 | [/solution]
366 | [answer]
367 | 2
368 | [/answer]
369 | 
370 | [problem]
371 | باقی مانده ی تقسیم عدد 127 بر 19 چند میباشد؟
372 | [/problem]
373 | [solution]
374 | 19*6 = 114
375 | 127-114 = 13
376 | پس باقی مانده تقسیم 127 بر 19 برابر با 13 میباشد
377 | [/solution]
378 | [answer]
379 | 13
380 | [/answer]
381 | 
382 | [problem]
383 | حاصل ضرب دو عدد متوالی مثبت برابر با 12 میباشد. عدد برزگتر را بیابید.
384 | [/problem]
385 | [solution]
386 | (x-1)(x) = 12
387 | x^2 - x = 12
388 | x^2 - x - 12 = 0
389 | (x-4)(x+3) = 0
390 | x = 4 or x = -3
391 | از آنجه که گفته دو عدد مثبت، پس x>0 و مقدار 4 قابل قبول است.
392 | [/solution]
393 | [answer]
394 | 4
395 | [/answer]
396 | 
397 | [problem]
398 | چه عددی باید در 7! ضرب شود تا به 9! برسد؟
399 | [/problem]
400 | [solution]
401 | 9! را گسترش میدهیم: 9! = 9*8*7*6*5*4*3*2*1
402 | 7! را گسترش میدهیم: 7! = 7*6*5*4*3*2*1
403 | پس 9! = 9*8*7!
404 | پس باید 8*9 یعنی 72 در 7! ضرب شود تا به 9! برسد
405 | [/solution]
406 | [answer]
407 | 72
408 | [/answer]
409 | 
410 | [problem]
411 | سه توپ آبی و دو توپ قرمز داریم. تعداد راه های قرار دادن آنها در یک خط را بیابید.
412 | [/problem]
413 | [solution]
414 | پنج توپ داریم که به 5! حالت میتوانند چیده شوند. از آنها که دو توپ قرمز هستند، جابجایی آنها باهم حالت جدیدی به وجود نمی آورد  برای سه توپ آبی نیز به همین صورت. پس این چیدمان درکل به (5!)/(2! * 3!) یعنی 10 حالت امکان پذیر است.
415 | [/solution]
416 | [answer]
417 | 10
418 | [/answer]
419 | 
420 | [problem]
421 | در پرتاب یک تاس، امکان عدد فرد آمدن را محاسبه کنید.
422 | [/problem]
423 | [solution]
424 | تاس 6 وجه دارد که 3 وجه آن فرد است. پس امکان عدد فرد آمدن برابر با 3/6 یعنی 1/2 میباشد.
425 | [/solution]
426 | [answer]
427 | 1/2
428 | [/answer]
429 | 
430 | [problem]
431 | {problem}
432 | [/problem]
433 | """
434 | 
435 | 
436 | PERSIAN_THREE = """
437 | به عنوان یک متخصص ریاضی، یک مسئله به شما داده خواهد شد و باید راه حل صحیح، شفاف و قدم به قدم برای مسئله نوشته و پاسخ نهایی به تنهایی را در بخش مربوطه قرار دهید. تمامی پاسخ های شما باید به زبان فارسی باشد بجز اعداد که به لاتین (انگلیسی) باید نوشته بشوند. از شما انتظار میرود مسئله را همانند نمونه دریافت کرده، راه حل و پاسخ نهایی را ارائه کنید و حتما از اعداد لاتین استفاده کنید:
438 | 
439 | [مسئله]
440 | در دنباله داده شده، ابتدا تفاصل کوچک ترین و بزرگ ترین عدد را تعیین کرده، سپس اختلاف این تفاضل را از مقدار کوچک تر دو عدد دیگر مشخص کنید: [1, 5, 8, 3]
441 | [/مسئله]
442 | [راه حل]
443 | در این مجوعه، بزرگترین عدد، 8 و کوچک ترین عدد،1 میباشند که تفاضل آنها 7 میباشد. در بین دو عدد دیگر، بعنی 5 و 3، مقدار گوچک تر، برابر با 3 میباشد که اختلاف آن با تفاضل محاسبه شده، برابر با 4 میباشد.
444 | [/راه حل]
445 | [پاسخ]
446 | 4
447 | [/پاسخ]
448 | 
449 | [مسئله]
450 | در دنباله داده شده، ابتدا دو عدد بزرگتر و دو عدد كوچكتر عدد را مشخص كنيد، سپس تعيين كنيد كدام يك از اين چهار عدد، فاصله كمتري با عدد پنجم دارد: [1,7,8,6,2]
451 | [/مسئله]
452 | [راه حل]
453 | در این اعداد، دو عدد بزرگتر 8 و 7 و دو عدد كوچكتر 2 و 1 و 6 به عنوان پنجمين عدد است. از اين پنج عدد، 7 نزديكترين عدد به 6 است پس پاسخ 7 میباشد
454 | [/راه حل]
455 | [پاسخ]
456 | 7
457 | [/پاسخ]
458 | 
459 | [مسئله]
460 | در دنباله ی [3, 9, ?, 81] مقدار ? را مشخص کنید.
461 | [/مسئله]
462 | [راه حل]
463 | هر جمله دنباله برابر است با سه به توان شماره عنصر در دنباله. از آنجا که ? در جایگاه سوم در دنباله قرار دارد، پس مقدار آن 3^3 و برابر با 27 میباشد.
464 | [/راه حل]
465 | [پاسخ]
466 | 27
467 | [/پاسخ]
468 | 
469 | [مسئله]
470 | تفاوت مثبت بین دو عدد سه به توان دو و دو به توان سه چقدر میباشد؟
471 | [/مسئله]
472 | [راه حل]
473 | سه به توان دو برابر است با 9 و دو به توان سه برابر است با 8 که قدرمطلق تفاضل این دو مقدار برابر با 1 میباشد.
474 | [/راه حل]
475 | [پاسخ]
476 | 1
477 | [/پاسخ]
478 | 
479 | [مسئله]
480 | ده درصد از 1100 معادل یازده درصد از چه عددی است؟
481 | [/مسئله]
482 | [راه حل]
483 | ده درصد از 1100 برابر میشود با 110.
484 | باید معادله 0.11X=110 را حل کنیم که پاسخ آن X=1000 میشود
485 | [/راه حل]
486 | [پاسخ]
487 | 1000
488 | [/پاسخ]
489 | 
490 | [مسئله]
491 | تعداد مقسوم علیه های صحیح عدد 13 چقدر است؟
492 | [/مسئله]
493 | [راه حل]
494 | عدد 13 عدد اول است و چهار مقسوم علیه صحیح به صورت -13, -1, 1, 13 دارد.
495 | [/راه حل]
496 | [پاسخ]
497 | 4
498 | [/پاسخ]
499 | 
500 | [مسئله]
501 | مثلث ABC همنهشت با مثلث XYZ است و طول ضلع AB برابر با 4 واحد، طول ضلع BC برابر با 8 واحد و طول ضلع XY برابر با 2 واحد است. اندازه ضلع YZ چقدر است؟
502 | [/مسئله]
503 | [راه حل]
504 | از آنجا که دو مثلت هم نهست میباشند، با داشتن مقدار دو ضلع متناظر میتوانیم نسبت تشابه این دو ضلع را مجاحسبه کنیم. توجه شود این نسبت تشابه بین هر دو ضلع متناظر برقرار است، یعنی AB/XY = BC/YZ. با حل معادله به پاسخ نهایی میرسیم: 4/2 = 8/YZ پس طول ضلع YZ برابر با 4 خواهد بود.
505 | [/راه حل]
506 | [پاسخ]
507 | 4
508 | [/پاسخ]
509 | 
510 | [مسئله]
511 | مساحت یک کره با شعاع 3 واحد و درنظر گرفتن عدد پی برابر با 3 را بدست بیاورید.
512 | [/مسئله]
513 | [راه حل]
514 | مساحت کره از رابطه ی 4pi(r^2) بدست می آید: 4 * 3 * (3^2) = 108
515 | [/راه حل]
516 | [پاسخ]
517 | 108
518 | [/پاسخ]
519 | 
520 | [مسئله]
521 | یک مثلث دو ضلع به طول های  2 و 5 دارد. طول ضلع سوم یک عدد صحیح است. بزرگ ترین مقدار ممکن برای طول ضلع سوم را بدست آورید.
522 | [/مسئله]
523 | [راه حل]
524 | باید به ازای هر ضلع، رابطه ی a+b>c برقرار باشد تا مثلث تشکیل شود.  از آنجا که باید 2+X>5 بشود، لذا X>3 و از انجا که 2+5>X پس 3<X<7 و و بزرگ ترین مقدار ممکن برای X برابر با 6 میباشد.
525 | [/راه حل]
526 | [پاسخ]
527 | 6
528 | [/پاسخ]
529 | 
530 | [مسئله]
531 | بزرگترین مقسوم‌علیه‌ی مشترک 18 و 32 چیست؟
532 | [/مسئله]
533 | [راه حل]
534 | مقسوم علیه های 18: 1, 2, 3, 6, 9, 18
535 | مقسوم علیه های 32: 1, 2, 4, 8, 16, 32
536 | مقسوم علیه های مشترک: 1, 2
537 | بزرگ ترین مقسوم علیه مشترک: 2
538 | [/راه حل]
539 | [پاسخ]
540 | 2
541 | [/پاسخ]
542 | 
543 | [مسئله]
544 | باقی مانده ی تقسیم عدد 127 بر 19 چند میباشد؟
545 | [/مسئله]
546 | [راه حل]
547 | 19*6 = 114
548 | 127-114 = 13
549 | پس باقی مانده تقسیم 127 بر 19 برابر با 13 میباشد
550 | [/راه حل]
551 | [پاسخ]
552 | 13
553 | [/پاسخ]
554 | 
555 | [مسئله]
556 | حاصل ضرب دو عدد متوالی مثبت برابر با 12 میباشد. عدد برزگتر را بیابید.
557 | [/مسئله]
558 | [راه حل]
559 | (x-1)(x) = 12
560 | x^2 - x = 12
561 | x^2 - x - 12 = 0
562 | (x-4)(x+3) = 0
563 | x = 4 or x = -3
564 | از آنجه که گفته دو عدد مثبت، پس x>0 و مقدار 4 قابل قبول است.
565 | [/راه حل]
566 | [پاسخ]
567 | 4
568 | [/پاسخ]
569 | 
570 | [مسئله]
571 | چه عددی باید در 7! ضرب شود تا به 9! برسد؟
572 | [/مسئله]
573 | [راه حل]
574 | 9! را گسترش میدهیم: 9! = 9*8*7*6*5*4*3*2*1
575 | 7! را گسترش میدهیم: 7! = 7*6*5*4*3*2*1
576 | پس 9! = 9*8*7!
577 | پس باید 8*9 یعنی 72 در 7! ضرب شود تا به 9! برسد
578 | [/راه حل]
579 | [پاسخ]
580 | 72
581 | [/پاسخ]
582 | 
583 | [مسئله]
584 | سه توپ آبی و دو توپ قرمز داریم. تعداد راه های قرار دادن آنها در یک خط را بیابید.
585 | [/مسئله]
586 | [راه حل]
587 | پنج توپ داریم که به 5! حالت میتوانند چیده شوند. از آنها که دو توپ قرمز هستند، جابجایی آنها باهم حالت جدیدی به وجود نمی آورد  برای سه توپ آبی نیز به همین صورت. پس این چیدمان درکل به (5!)/(2! * 3!) یعنی 10 حالت امکان پذیر است.
588 | [/راه حل]
589 | [پاسخ]
590 | 10
591 | [/پاسخ]
592 | 
593 | [مسئله]
594 | در پرتاب یک تاس، امکان عدد فرد آمدن را محاسبه کنید.
595 | [/مسئله]
596 | [راه حل]
597 | تاس 6 وجه دارد که 3 وجه آن فرد است. پس امکان عدد فرد آمدن برابر با 3/6 یعنی 1/2 میباشد.
598 | [/راه حل]
599 | [پاسخ]
600 | 1/2
601 | [/پاسخ]
602 | 
603 | [مسئله]
604 | {problem}
605 | [/مسئله]
606 | """


--------------------------------------------------------------------------------