├── .gitignore
├── README.md
├── TROUBLESHOOTING.md
├── barebones_hymba
    ├── README.md
    ├── barebones_hymba_block.py
    └── test_barebones_hymba.py
├── chat.py
├── images
    └── hymba-performance.png
└── lm-evaluation-harness
    ├── .coveragerc
    ├── .flake8
    ├── .pre-commit-config.yaml
    ├── CITATION.bib
    ├── CODEOWNERS
    ├── LICENSE.md
    ├── README.md
    ├── docs
        ├── API_guide.md
        ├── CONTRIBUTING.md
        ├── README.md
        ├── decontamination.md
        ├── img
        │   └── fewshot_example_gpt3.png
        ├── interface.md
        ├── model_guide.md
        ├── new_task_guide.md
        └── task_guide.md
    ├── examples
        ├── lm-eval-overview.ipynb
        ├── visualize-wandb.ipynb
        └── visualize-zeno.ipynb
    ├── ignore.txt
    ├── lm_eval.egg-info
        ├── PKG-INFO
        ├── SOURCES.txt
        ├── dependency_links.txt
        ├── entry_points.txt
        ├── requires.txt
        └── top_level.txt
    ├── lm_eval
        ├── __init__.py
        ├── __main__.py
        ├── __pycache__
        │   ├── __init__.cpython-310.pyc
        │   ├── __main__.cpython-310.pyc
        │   ├── evaluator.cpython-310.pyc
        │   ├── evaluator_utils.cpython-310.pyc
        │   └── utils.cpython-310.pyc
        ├── api
        │   ├── __init__.py
        │   ├── __pycache__
        │   │   ├── __init__.cpython-310.pyc
        │   │   ├── filter.cpython-310.pyc
        │   │   ├── group.cpython-310.pyc
        │   │   ├── instance.cpython-310.pyc
        │   │   ├── metrics.cpython-310.pyc
        │   │   ├── model.cpython-310.pyc
        │   │   ├── registry.cpython-310.pyc
        │   │   ├── samplers.cpython-310.pyc
        │   │   └── task.cpython-310.pyc
        │   ├── filter.py
        │   ├── group.py
        │   ├── instance.py
        │   ├── metrics.py
        │   ├── model.py
        │   ├── registry.py
        │   ├── samplers.py
        │   └── task.py
        ├── caching
        │   ├── __init__.py
        │   ├── __pycache__
        │   │   ├── __init__.cpython-310.pyc
        │   │   └── cache.cpython-310.pyc
        │   └── cache.py
        ├── decontamination
        │   ├── __init__.py
        │   ├── archiver.py
        │   ├── decontaminate.py
        │   └── janitor.py
        ├── evaluator.py
        ├── evaluator_utils.py
        ├── filters
        │   ├── __init__.py
        │   ├── __pycache__
        │   │   ├── __init__.cpython-310.pyc
        │   │   ├── extraction.cpython-310.pyc
        │   │   ├── selection.cpython-310.pyc
        │   │   └── transformation.cpython-310.pyc
        │   ├── decontamination.py
        │   ├── extraction.py
        │   ├── selection.py
        │   └── transformation.py
        ├── loggers
        │   ├── __init__.py
        │   ├── __pycache__
        │   │   ├── __init__.cpython-310.pyc
        │   │   ├── evaluation_tracker.cpython-310.pyc
        │   │   ├── utils.cpython-310.pyc
        │   │   └── wandb_logger.cpython-310.pyc
        │   ├── evaluation_tracker.py
        │   ├── utils.py
        │   └── wandb_logger.py
        ├── models
        │   ├── __init__.py
        │   ├── __pycache__
        │   │   ├── __init__.cpython-310.pyc
        │   │   ├── anthropic_llms.cpython-310.pyc
        │   │   ├── api_models.cpython-310.pyc
        │   │   ├── dummy.cpython-310.pyc
        │   │   ├── gguf.cpython-310.pyc
        │   │   ├── huggingface.cpython-310.pyc
        │   │   ├── mamba_lm.cpython-310.pyc
        │   │   ├── nemo_lm.cpython-310.pyc
        │   │   ├── neuralmagic.cpython-310.pyc
        │   │   ├── neuron_optimum.cpython-310.pyc
        │   │   ├── openai_completions.cpython-310.pyc
        │   │   ├── optimum_lm.cpython-310.pyc
        │   │   ├── textsynth.cpython-310.pyc
        │   │   ├── utils.cpython-310.pyc
        │   │   └── vllm_causallms.cpython-310.pyc
        │   ├── anthropic_llms.py
        │   ├── api_models.py
        │   ├── dummy.py
        │   ├── gguf.py
        │   ├── huggingface.py
        │   ├── mamba_lm.py
        │   ├── nemo_lm.py
        │   ├── neuralmagic.py
        │   ├── neuron_optimum.py
        │   ├── openai_completions.py
        │   ├── optimum_lm.py
        │   ├── textsynth.py
        │   ├── utils.py
        │   └── vllm_causallms.py
        ├── prompts
        │   ├── __init__.py
        │   └── __pycache__
        │   │   └── __init__.cpython-310.pyc
        ├── tasks
        │   ├── README.md
        │   ├── __init__.py
        │   ├── __pycache__
        │   │   └── __init__.cpython-310.pyc
        │   ├── aclue
        │   │   ├── README.md
        │   │   ├── _aclue.yaml
        │   │   ├── _default_template_yaml
        │   │   ├── _generate_configs.py
        │   │   ├── aclue_ancient_chinese_culture.yaml
        │   │   ├── aclue_ancient_literature.yaml
        │   │   ├── aclue_ancient_medical.yaml
        │   │   ├── aclue_ancient_phonetics.yaml
        │   │   ├── aclue_basic_ancient_chinese.yaml
        │   │   ├── aclue_couplet_prediction.yaml
        │   │   ├── aclue_homographic_character_resolution.yaml
        │   │   ├── aclue_named_entity_recognition.yaml
        │   │   ├── aclue_poetry_appreciate.yaml
        │   │   ├── aclue_poetry_context_prediction.yaml
        │   │   ├── aclue_poetry_quality_assessment.yaml
        │   │   ├── aclue_poetry_sentiment_analysis.yaml
        │   │   ├── aclue_polysemy_resolution.yaml
        │   │   ├── aclue_reading_comprehension.yaml
        │   │   └── aclue_sentence_segmentation.yaml
        │   ├── aexams
        │   │   ├── README.md
        │   │   ├── _aexams.yaml
        │   │   ├── _default_template_yaml
        │   │   ├── aexams_Biology.yaml
        │   │   ├── aexams_IslamicStudies.yaml
        │   │   ├── aexams_Physics.yaml
        │   │   ├── aexams_Science.yaml
        │   │   └── aexams_Social.yaml
        │   ├── afrimgsm
        │   │   ├── README.md
        │   │   ├── direct
        │   │   │   ├── afrimgsm_direct_amh.yaml
        │   │   │   ├── afrimgsm_direct_eng.yaml
        │   │   │   ├── afrimgsm_direct_ewe.yaml
        │   │   │   ├── afrimgsm_direct_fra.yaml
        │   │   │   ├── afrimgsm_direct_hau.yaml
        │   │   │   ├── afrimgsm_direct_ibo.yaml
        │   │   │   ├── afrimgsm_direct_kin.yaml
        │   │   │   ├── afrimgsm_direct_lin.yaml
        │   │   │   ├── afrimgsm_direct_lug.yaml
        │   │   │   ├── afrimgsm_direct_orm.yaml
        │   │   │   ├── afrimgsm_direct_sna.yaml
        │   │   │   ├── afrimgsm_direct_sot.yaml
        │   │   │   ├── afrimgsm_direct_swa.yaml
        │   │   │   ├── afrimgsm_direct_twi.yaml
        │   │   │   ├── afrimgsm_direct_wol.yaml
        │   │   │   ├── afrimgsm_direct_xho.yaml
        │   │   │   ├── afrimgsm_direct_yor.yaml
        │   │   │   ├── afrimgsm_direct_zul.yaml
        │   │   │   └── direct_yaml
        │   │   ├── en_cot
        │   │   │   ├── afrimgsm_en_cot_amh.yaml
        │   │   │   ├── afrimgsm_en_cot_eng.yaml
        │   │   │   ├── afrimgsm_en_cot_ewe.yaml
        │   │   │   ├── afrimgsm_en_cot_fra.yaml
        │   │   │   ├── afrimgsm_en_cot_hau.yaml
        │   │   │   ├── afrimgsm_en_cot_ibo.yaml
        │   │   │   ├── afrimgsm_en_cot_kin.yaml
        │   │   │   ├── afrimgsm_en_cot_lin.yaml
        │   │   │   ├── afrimgsm_en_cot_lug.yaml
        │   │   │   ├── afrimgsm_en_cot_orm.yaml
        │   │   │   ├── afrimgsm_en_cot_sna.yaml
        │   │   │   ├── afrimgsm_en_cot_sot.yaml
        │   │   │   ├── afrimgsm_en_cot_swa.yaml
        │   │   │   ├── afrimgsm_en_cot_twi.yaml
        │   │   │   ├── afrimgsm_en_cot_wol.yaml
        │   │   │   ├── afrimgsm_en_cot_xho.yaml
        │   │   │   ├── afrimgsm_en_cot_yor.yaml
        │   │   │   ├── afrimgsm_en_cot_zul.yaml
        │   │   │   └── cot_yaml
        │   │   ├── gen_yaml.sh
        │   │   ├── run.sh
        │   │   ├── translate
        │   │   │   ├── afrimgsm_translate_amh.yaml
        │   │   │   ├── afrimgsm_translate_eng.yaml
        │   │   │   ├── afrimgsm_translate_ewe.yaml
        │   │   │   ├── afrimgsm_translate_fra.yaml
        │   │   │   ├── afrimgsm_translate_hau.yaml
        │   │   │   ├── afrimgsm_translate_ibo.yaml
        │   │   │   ├── afrimgsm_translate_kin.yaml
        │   │   │   ├── afrimgsm_translate_lin.yaml
        │   │   │   ├── afrimgsm_translate_lug.yaml
        │   │   │   ├── afrimgsm_translate_orm.yaml
        │   │   │   ├── afrimgsm_translate_sna.yaml
        │   │   │   ├── afrimgsm_translate_sot.yaml
        │   │   │   ├── afrimgsm_translate_swa.yaml
        │   │   │   ├── afrimgsm_translate_twi.yaml
        │   │   │   ├── afrimgsm_translate_wol.yaml
        │   │   │   ├── afrimgsm_translate_xho.yaml
        │   │   │   ├── afrimgsm_translate_yor.yaml
        │   │   │   ├── afrimgsm_translate_zul.yaml
        │   │   │   └── translate_direct_yaml
        │   │   └── utils.py
        │   ├── afrimmlu
        │   │   ├── README.md
        │   │   ├── direct
        │   │   │   ├── afrimmlu_common_yaml
        │   │   │   ├── afrimmlu_direct_amh.yaml
        │   │   │   ├── afrimmlu_direct_eng.yaml
        │   │   │   ├── afrimmlu_direct_ewe.yaml
        │   │   │   ├── afrimmlu_direct_fra.yaml
        │   │   │   ├── afrimmlu_direct_hau.yaml
        │   │   │   ├── afrimmlu_direct_ibo.yaml
        │   │   │   ├── afrimmlu_direct_kin.yaml
        │   │   │   ├── afrimmlu_direct_lin.yaml
        │   │   │   ├── afrimmlu_direct_lug.yaml
        │   │   │   ├── afrimmlu_direct_orm.yaml
        │   │   │   ├── afrimmlu_direct_sna.yaml
        │   │   │   ├── afrimmlu_direct_sot.yaml
        │   │   │   ├── afrimmlu_direct_swa.yaml
        │   │   │   ├── afrimmlu_direct_twi.yaml
        │   │   │   ├── afrimmlu_direct_wol.yaml
        │   │   │   ├── afrimmlu_direct_xho.yaml
        │   │   │   ├── afrimmlu_direct_yor.yaml
        │   │   │   ├── afrimmlu_direct_zul.yaml
        │   │   │   └── utils.py
        │   │   ├── fewshot.sh
        │   │   ├── translate
        │   │   │   ├── afrimmlu_common_translate_yaml
        │   │   │   ├── afrimmlu_translate_amh.yaml
        │   │   │   ├── afrimmlu_translate_eng.yaml
        │   │   │   ├── afrimmlu_translate_ewe.yaml
        │   │   │   ├── afrimmlu_translate_fra.yaml
        │   │   │   ├── afrimmlu_translate_hau.yaml
        │   │   │   ├── afrimmlu_translate_ibo.yaml
        │   │   │   ├── afrimmlu_translate_kin.yaml
        │   │   │   ├── afrimmlu_translate_lin.yaml
        │   │   │   ├── afrimmlu_translate_lug.yaml
        │   │   │   ├── afrimmlu_translate_orm.yaml
        │   │   │   ├── afrimmlu_translate_sna.yaml
        │   │   │   ├── afrimmlu_translate_sot.yaml
        │   │   │   ├── afrimmlu_translate_swa.yaml
        │   │   │   ├── afrimmlu_translate_twi.yaml
        │   │   │   ├── afrimmlu_translate_wol.yaml
        │   │   │   ├── afrimmlu_translate_xho.yaml
        │   │   │   ├── afrimmlu_translate_yor.yaml
        │   │   │   ├── afrimmlu_translate_zul.yaml
        │   │   │   └── utils.py
        │   │   └── utils.py
        │   ├── afrixnli
        │   │   ├── README.md
        │   │   ├── anli prompt
        │   │   │   ├── en-direct
        │   │   │   │   ├── afrixnli_en_direct_amh.yaml
        │   │   │   │   ├── afrixnli_en_direct_eng.yaml
        │   │   │   │   ├── afrixnli_en_direct_ewe.yaml
        │   │   │   │   ├── afrixnli_en_direct_fra.yaml
        │   │   │   │   ├── afrixnli_en_direct_hau.yaml
        │   │   │   │   ├── afrixnli_en_direct_ibo.yaml
        │   │   │   │   ├── afrixnli_en_direct_kin.yaml
        │   │   │   │   ├── afrixnli_en_direct_lin.yaml
        │   │   │   │   ├── afrixnli_en_direct_lug.yaml
        │   │   │   │   ├── afrixnli_en_direct_orm.yaml
        │   │   │   │   ├── afrixnli_en_direct_sna.yaml
        │   │   │   │   ├── afrixnli_en_direct_sot.yaml
        │   │   │   │   ├── afrixnli_en_direct_swa.yaml
        │   │   │   │   ├── afrixnli_en_direct_twi.yaml
        │   │   │   │   ├── afrixnli_en_direct_wol.yaml
        │   │   │   │   ├── afrixnli_en_direct_xho.yaml
        │   │   │   │   ├── afrixnli_en_direct_yaml
        │   │   │   │   ├── afrixnli_en_direct_yor.yaml
        │   │   │   │   ├── afrixnli_en_direct_zul.yaml
        │   │   │   │   └── utils.py
        │   │   │   ├── native-direct
        │   │   │   │   ├── afrixnli_native_direct_amh.yaml
        │   │   │   │   ├── afrixnli_native_direct_eng.yaml
        │   │   │   │   ├── afrixnli_native_direct_ewe.yaml
        │   │   │   │   ├── afrixnli_native_direct_fra.yaml
        │   │   │   │   ├── afrixnli_native_direct_hau.yaml
        │   │   │   │   ├── afrixnli_native_direct_ibo.yaml
        │   │   │   │   ├── afrixnli_native_direct_kin.yaml
        │   │   │   │   ├── afrixnli_native_direct_lin.yaml
        │   │   │   │   ├── afrixnli_native_direct_lug.yaml
        │   │   │   │   ├── afrixnli_native_direct_orm.yaml
        │   │   │   │   ├── afrixnli_native_direct_sna.yaml
        │   │   │   │   ├── afrixnli_native_direct_sot.yaml
        │   │   │   │   ├── afrixnli_native_direct_swa.yaml
        │   │   │   │   ├── afrixnli_native_direct_twi.yaml
        │   │   │   │   ├── afrixnli_native_direct_wol.yaml
        │   │   │   │   ├── afrixnli_native_direct_xho.yaml
        │   │   │   │   ├── afrixnli_native_direct_yaml
        │   │   │   │   ├── afrixnli_native_direct_yor.yaml
        │   │   │   │   ├── afrixnli_native_direct_zul.yaml
        │   │   │   │   └── utils.py
        │   │   │   └── translate
        │   │   │   │   ├── afrixnli_translate_amh.yaml
        │   │   │   │   ├── afrixnli_translate_ewe.yaml
        │   │   │   │   ├── afrixnli_translate_fra.yaml
        │   │   │   │   ├── afrixnli_translate_hau.yaml
        │   │   │   │   ├── afrixnli_translate_ibo.yaml
        │   │   │   │   ├── afrixnli_translate_kin.yaml
        │   │   │   │   ├── afrixnli_translate_lin.yaml
        │   │   │   │   ├── afrixnli_translate_lug.yaml
        │   │   │   │   ├── afrixnli_translate_orm.yaml
        │   │   │   │   ├── afrixnli_translate_sna.yaml
        │   │   │   │   ├── afrixnli_translate_sot.yaml
        │   │   │   │   ├── afrixnli_translate_swa.yaml
        │   │   │   │   ├── afrixnli_translate_twi.yaml
        │   │   │   │   ├── afrixnli_translate_wol.yaml
        │   │   │   │   ├── afrixnli_translate_xho.yaml
        │   │   │   │   ├── afrixnli_translate_yaml
        │   │   │   │   ├── afrixnli_translate_yor.yaml
        │   │   │   │   ├── afrixnli_translate_zul.yaml
        │   │   │   │   └── utils.py
        │   │   ├── lai prompt
        │   │   │   ├── direct
        │   │   │   │   ├── afrixnli_manual_direct_amh.yaml
        │   │   │   │   ├── afrixnli_manual_direct_eng.yaml
        │   │   │   │   ├── afrixnli_manual_direct_ewe.yaml
        │   │   │   │   ├── afrixnli_manual_direct_fra.yaml
        │   │   │   │   ├── afrixnli_manual_direct_hau.yaml
        │   │   │   │   ├── afrixnli_manual_direct_ibo.yaml
        │   │   │   │   ├── afrixnli_manual_direct_kin.yaml
        │   │   │   │   ├── afrixnli_manual_direct_lin.yaml
        │   │   │   │   ├── afrixnli_manual_direct_lug.yaml
        │   │   │   │   ├── afrixnli_manual_direct_orm.yaml
        │   │   │   │   ├── afrixnli_manual_direct_sna.yaml
        │   │   │   │   ├── afrixnli_manual_direct_sot.yaml
        │   │   │   │   ├── afrixnli_manual_direct_swa.yaml
        │   │   │   │   ├── afrixnli_manual_direct_twi.yaml
        │   │   │   │   ├── afrixnli_manual_direct_wol.yaml
        │   │   │   │   ├── afrixnli_manual_direct_xho.yaml
        │   │   │   │   ├── afrixnli_manual_direct_yaml
        │   │   │   │   ├── afrixnli_manual_direct_yor.yaml
        │   │   │   │   ├── afrixnli_manual_direct_zul.yaml
        │   │   │   │   └── utils.py
        │   │   │   └── translate
        │   │   │   │   ├── afrixnli_manual_translate_amh.yaml
        │   │   │   │   ├── afrixnli_manual_translate_ewe.yaml
        │   │   │   │   ├── afrixnli_manual_translate_fra.yaml
        │   │   │   │   ├── afrixnli_manual_translate_hau.yaml
        │   │   │   │   ├── afrixnli_manual_translate_ibo.yaml
        │   │   │   │   ├── afrixnli_manual_translate_kin.yaml
        │   │   │   │   ├── afrixnli_manual_translate_lin.yaml
        │   │   │   │   ├── afrixnli_manual_translate_lug.yaml
        │   │   │   │   ├── afrixnli_manual_translate_orm.yaml
        │   │   │   │   ├── afrixnli_manual_translate_sna.yaml
        │   │   │   │   ├── afrixnli_manual_translate_sot.yaml
        │   │   │   │   ├── afrixnli_manual_translate_swa.yaml
        │   │   │   │   ├── afrixnli_manual_translate_twi.yaml
        │   │   │   │   ├── afrixnli_manual_translate_wol.yaml
        │   │   │   │   ├── afrixnli_manual_translate_xho.yaml
        │   │   │   │   ├── afrixnli_manual_translate_yaml
        │   │   │   │   ├── afrixnli_manual_translate_yor.yaml
        │   │   │   │   ├── afrixnli_manual_translate_zul.yaml
        │   │   │   │   └── utils.py
        │   │   └── utils.py
        │   ├── agieval
        │   │   ├── README.md
        │   │   ├── agieval.yaml
        │   │   ├── agieval_cn.yaml
        │   │   ├── agieval_en.yaml
        │   │   ├── agieval_nous.yaml
        │   │   ├── aqua-rat.yaml
        │   │   ├── gaokao-biology.yaml
        │   │   ├── gaokao-chemistry.yaml
        │   │   ├── gaokao-chinese.yaml
        │   │   ├── gaokao-english.yaml
        │   │   ├── gaokao-geography.yaml
        │   │   ├── gaokao-history.yaml
        │   │   ├── gaokao-mathcloze.yaml
        │   │   ├── gaokao-mathqa.yaml
        │   │   ├── gaokao-physics.yaml
        │   │   ├── jec-qa-ca.yaml
        │   │   ├── jec-qa-kd.yaml
        │   │   ├── logiqa-en.yaml
        │   │   ├── logiqa-zh.yaml
        │   │   ├── lsat-ar.yaml
        │   │   ├── lsat-lr.yaml
        │   │   ├── lsat-rc.yaml
        │   │   ├── math.yaml
        │   │   ├── sat-en-without-passage.yaml
        │   │   ├── sat-en.yaml
        │   │   ├── sat-math.yaml
        │   │   └── utils.py
        │   ├── alghafa
        │   │   ├── copa_ar
        │   │   │   ├── README.md
        │   │   │   └── copa_ar.yaml
        │   │   └── piqa_ar
        │   │   │   ├── README.md
        │   │   │   └── piqa_ar.yaml
        │   ├── anli
        │   │   ├── README.md
        │   │   ├── anli_r1.yaml
        │   │   ├── anli_r2.yaml
        │   │   └── anli_r3.yaml
        │   ├── arabicmmlu
        │   │   ├── README.md
        │   │   ├── _arabicmmlu.yaml
        │   │   ├── _arabicmmlu_humanities.yaml
        │   │   ├── _arabicmmlu_language.yaml
        │   │   ├── _arabicmmlu_other.yaml
        │   │   ├── _arabicmmlu_social_science.yaml
        │   │   ├── _arabicmmlu_stem.yaml
        │   │   ├── _default_arabicmmlu_template_yaml
        │   │   ├── _generate_configs.py
        │   │   ├── arabicmmlu_arabic_language_general.yaml
        │   │   ├── arabicmmlu_arabic_language_grammar.yaml
        │   │   ├── arabicmmlu_driving_test.yaml
        │   │   ├── arabicmmlu_general_knowledge.yaml
        │   │   ├── arabicmmlu_high_arabic_language.yaml
        │   │   ├── arabicmmlu_high_biology.yaml
        │   │   ├── arabicmmlu_high_civics.yaml
        │   │   ├── arabicmmlu_high_computer_science.yaml
        │   │   ├── arabicmmlu_high_economics.yaml
        │   │   ├── arabicmmlu_high_geography.yaml
        │   │   ├── arabicmmlu_high_history.yaml
        │   │   ├── arabicmmlu_high_islamic_studies.yaml
        │   │   ├── arabicmmlu_high_philosophy.yaml
        │   │   ├── arabicmmlu_high_physics.yaml
        │   │   ├── arabicmmlu_islamic_studies.yaml
        │   │   ├── arabicmmlu_middle_arabic_language.yaml
        │   │   ├── arabicmmlu_middle_civics.yaml
        │   │   ├── arabicmmlu_middle_computer_science.yaml
        │   │   ├── arabicmmlu_middle_economics.yaml
        │   │   ├── arabicmmlu_middle_general_knowledge.yaml
        │   │   ├── arabicmmlu_middle_geography.yaml
        │   │   ├── arabicmmlu_middle_history.yaml
        │   │   ├── arabicmmlu_middle_islamic_studies.yaml
        │   │   ├── arabicmmlu_middle_natural_science.yaml
        │   │   ├── arabicmmlu_middle_social_science.yaml
        │   │   ├── arabicmmlu_primary_arabic_language.yaml
        │   │   ├── arabicmmlu_primary_computer_science.yaml
        │   │   ├── arabicmmlu_primary_general_knowledge.yaml
        │   │   ├── arabicmmlu_primary_geography.yaml
        │   │   ├── arabicmmlu_primary_history.yaml
        │   │   ├── arabicmmlu_primary_islamic_studies.yaml
        │   │   ├── arabicmmlu_primary_math.yaml
        │   │   ├── arabicmmlu_primary_natural_science.yaml
        │   │   ├── arabicmmlu_primary_social_science.yaml
        │   │   ├── arabicmmlu_prof_law.yaml
        │   │   ├── arabicmmlu_univ_accounting.yaml
        │   │   ├── arabicmmlu_univ_computer_science.yaml
        │   │   ├── arabicmmlu_univ_economics.yaml
        │   │   ├── arabicmmlu_univ_management.yaml
        │   │   ├── arabicmmlu_univ_political_science.yaml
        │   │   └── utils.py
        │   ├── arc
        │   │   ├── README.md
        │   │   ├── arc_challenge.yaml
        │   │   └── arc_easy.yaml
        │   ├── arc_mt
        │   │   ├── README.md
        │   │   ├── arc_challenge_mt_da.yaml
        │   │   ├── arc_challenge_mt_de.yaml
        │   │   ├── arc_challenge_mt_el.yaml
        │   │   ├── arc_challenge_mt_es.yaml
        │   │   ├── arc_challenge_mt_fi.yaml
        │   │   ├── arc_challenge_mt_hu.yaml
        │   │   ├── arc_challenge_mt_is.yaml
        │   │   ├── arc_challenge_mt_it.yaml
        │   │   ├── arc_challenge_mt_nb.yaml
        │   │   ├── arc_challenge_mt_pl.yaml
        │   │   ├── arc_challenge_mt_pt.yaml
        │   │   └── arc_challenge_mt_sv.yaml
        │   ├── arithmetic
        │   │   ├── README.md
        │   │   ├── arithmetic_1dc.yaml
        │   │   ├── arithmetic_2da.yaml
        │   │   ├── arithmetic_2dm.yaml
        │   │   ├── arithmetic_2ds.yaml
        │   │   ├── arithmetic_3da.yaml
        │   │   ├── arithmetic_3ds.yaml
        │   │   ├── arithmetic_4da.yaml
        │   │   ├── arithmetic_4ds.yaml
        │   │   ├── arithmetic_5da.yaml
        │   │   └── arithmetic_5ds.yaml
        │   ├── asdiv
        │   │   ├── README.md
        │   │   ├── asdiv-cot-llama.yaml
        │   │   └── default.yaml
        │   ├── babi
        │   │   ├── README.md
        │   │   └── babi.yaml
        │   ├── basqueglue
        │   │   ├── README.md
        │   │   ├── bec.yaml
        │   │   ├── bhtc.yaml
        │   │   ├── coref.yaml
        │   │   ├── qnli.yaml
        │   │   ├── utils.py
        │   │   ├── vaxx.yaml
        │   │   └── wic.yaml
        │   ├── bbh
        │   │   ├── README.md
        │   │   ├── _generate_configs.py
        │   │   ├── cot_fewshot
        │   │   │   ├── _bbh.yaml
        │   │   │   ├── _bbh_cot_fewshot.yaml
        │   │   │   ├── _cot_fewshot_template_yaml
        │   │   │   ├── boolean_expressions.yaml
        │   │   │   ├── causal_judgement.yaml
        │   │   │   ├── date_understanding.yaml
        │   │   │   ├── disambiguation_qa.yaml
        │   │   │   ├── dyck_languages.yaml
        │   │   │   ├── formal_fallacies.yaml
        │   │   │   ├── geometric_shapes.yaml
        │   │   │   ├── hyperbaton.yaml
        │   │   │   ├── logical_deduction_five_objects.yaml
        │   │   │   ├── logical_deduction_seven_objects.yaml
        │   │   │   ├── logical_deduction_three_objects.yaml
        │   │   │   ├── movie_recommendation.yaml
        │   │   │   ├── multistep_arithmetic_two.yaml
        │   │   │   ├── navigate.yaml
        │   │   │   ├── object_counting.yaml
        │   │   │   ├── penguins_in_a_table.yaml
        │   │   │   ├── reasoning_about_colored_objects.yaml
        │   │   │   ├── ruin_names.yaml
        │   │   │   ├── salient_translation_error_detection.yaml
        │   │   │   ├── snarks.yaml
        │   │   │   ├── sports_understanding.yaml
        │   │   │   ├── temporal_sequences.yaml
        │   │   │   ├── tracking_shuffled_objects_five_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_seven_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_three_objects.yaml
        │   │   │   ├── web_of_lies.yaml
        │   │   │   └── word_sorting.yaml
        │   │   ├── cot_zeroshot
        │   │   │   ├── _bbh_cot_zeroshot.yaml
        │   │   │   ├── _cot_zeroshot_template_yaml
        │   │   │   ├── boolean_expressions.yaml
        │   │   │   ├── causal_judgement.yaml
        │   │   │   ├── date_understanding.yaml
        │   │   │   ├── disambiguation_qa.yaml
        │   │   │   ├── dyck_languages.yaml
        │   │   │   ├── formal_fallacies.yaml
        │   │   │   ├── geometric_shapes.yaml
        │   │   │   ├── hyperbaton.yaml
        │   │   │   ├── logical_deduction_five_objects.yaml
        │   │   │   ├── logical_deduction_seven_objects.yaml
        │   │   │   ├── logical_deduction_three_objects.yaml
        │   │   │   ├── movie_recommendation.yaml
        │   │   │   ├── multistep_arithmetic_two.yaml
        │   │   │   ├── navigate.yaml
        │   │   │   ├── object_counting.yaml
        │   │   │   ├── penguins_in_a_table.yaml
        │   │   │   ├── reasoning_about_colored_objects.yaml
        │   │   │   ├── ruin_names.yaml
        │   │   │   ├── salient_translation_error_detection.yaml
        │   │   │   ├── snarks.yaml
        │   │   │   ├── sports_understanding.yaml
        │   │   │   ├── temporal_sequences.yaml
        │   │   │   ├── tracking_shuffled_objects_five_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_seven_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_three_objects.yaml
        │   │   │   ├── utils.py
        │   │   │   ├── web_of_lies.yaml
        │   │   │   └── word_sorting.yaml
        │   │   ├── fewshot
        │   │   │   ├── _bbh_fewshot.yaml
        │   │   │   ├── _fewshot_template_yaml
        │   │   │   ├── boolean_expressions.yaml
        │   │   │   ├── causal_judgement.yaml
        │   │   │   ├── date_understanding.yaml
        │   │   │   ├── disambiguation_qa.yaml
        │   │   │   ├── dyck_languages.yaml
        │   │   │   ├── formal_fallacies.yaml
        │   │   │   ├── geometric_shapes.yaml
        │   │   │   ├── hyperbaton.yaml
        │   │   │   ├── logical_deduction_five_objects.yaml
        │   │   │   ├── logical_deduction_seven_objects.yaml
        │   │   │   ├── logical_deduction_three_objects.yaml
        │   │   │   ├── movie_recommendation.yaml
        │   │   │   ├── multistep_arithmetic_two.yaml
        │   │   │   ├── navigate.yaml
        │   │   │   ├── object_counting.yaml
        │   │   │   ├── penguins_in_a_table.yaml
        │   │   │   ├── reasoning_about_colored_objects.yaml
        │   │   │   ├── ruin_names.yaml
        │   │   │   ├── salient_translation_error_detection.yaml
        │   │   │   ├── snarks.yaml
        │   │   │   ├── sports_understanding.yaml
        │   │   │   ├── temporal_sequences.yaml
        │   │   │   ├── tracking_shuffled_objects_five_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_seven_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_three_objects.yaml
        │   │   │   ├── web_of_lies.yaml
        │   │   │   └── word_sorting.yaml
        │   │   └── zeroshot
        │   │   │   ├── _bbh_zeroshot.yaml
        │   │   │   ├── _zeroshot_template_yaml
        │   │   │   ├── boolean_expressions.yaml
        │   │   │   ├── causal_judgement.yaml
        │   │   │   ├── date_understanding.yaml
        │   │   │   ├── disambiguation_qa.yaml
        │   │   │   ├── dyck_languages.yaml
        │   │   │   ├── formal_fallacies.yaml
        │   │   │   ├── geometric_shapes.yaml
        │   │   │   ├── hyperbaton.yaml
        │   │   │   ├── logical_deduction_five_objects.yaml
        │   │   │   ├── logical_deduction_seven_objects.yaml
        │   │   │   ├── logical_deduction_three_objects.yaml
        │   │   │   ├── movie_recommendation.yaml
        │   │   │   ├── multistep_arithmetic_two.yaml
        │   │   │   ├── navigate.yaml
        │   │   │   ├── object_counting.yaml
        │   │   │   ├── penguins_in_a_table.yaml
        │   │   │   ├── reasoning_about_colored_objects.yaml
        │   │   │   ├── ruin_names.yaml
        │   │   │   ├── salient_translation_error_detection.yaml
        │   │   │   ├── snarks.yaml
        │   │   │   ├── sports_understanding.yaml
        │   │   │   ├── temporal_sequences.yaml
        │   │   │   ├── tracking_shuffled_objects_five_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_seven_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_three_objects.yaml
        │   │   │   ├── utils.py
        │   │   │   ├── web_of_lies.yaml
        │   │   │   └── word_sorting.yaml
        │   ├── belebele
        │   │   ├── README.md
        │   │   ├── _belebele.yaml
        │   │   ├── _default_template_yaml
        │   │   ├── _generate_configs.py
        │   │   ├── belebele_acm_Arab.yaml
        │   │   ├── belebele_afr_Latn.yaml
        │   │   ├── belebele_als_Latn.yaml
        │   │   ├── belebele_amh_Ethi.yaml
        │   │   ├── belebele_apc_Arab.yaml
        │   │   ├── belebele_arb_Arab.yaml
        │   │   ├── belebele_arb_Latn.yaml
        │   │   ├── belebele_ars_Arab.yaml
        │   │   ├── belebele_ary_Arab.yaml
        │   │   ├── belebele_arz_Arab.yaml
        │   │   ├── belebele_asm_Beng.yaml
        │   │   ├── belebele_azj_Latn.yaml
        │   │   ├── belebele_bam_Latn.yaml
        │   │   ├── belebele_ben_Beng.yaml
        │   │   ├── belebele_ben_Latn.yaml
        │   │   ├── belebele_bod_Tibt.yaml
        │   │   ├── belebele_bul_Cyrl.yaml
        │   │   ├── belebele_cat_Latn.yaml
        │   │   ├── belebele_ceb_Latn.yaml
        │   │   ├── belebele_ces_Latn.yaml
        │   │   ├── belebele_ckb_Arab.yaml
        │   │   ├── belebele_dan_Latn.yaml
        │   │   ├── belebele_deu_Latn.yaml
        │   │   ├── belebele_ell_Grek.yaml
        │   │   ├── belebele_eng_Latn.yaml
        │   │   ├── belebele_est_Latn.yaml
        │   │   ├── belebele_eus_Latn.yaml
        │   │   ├── belebele_fin_Latn.yaml
        │   │   ├── belebele_fra_Latn.yaml
        │   │   ├── belebele_fuv_Latn.yaml
        │   │   ├── belebele_gaz_Latn.yaml
        │   │   ├── belebele_grn_Latn.yaml
        │   │   ├── belebele_guj_Gujr.yaml
        │   │   ├── belebele_hat_Latn.yaml
        │   │   ├── belebele_hau_Latn.yaml
        │   │   ├── belebele_heb_Hebr.yaml
        │   │   ├── belebele_hin_Deva.yaml
        │   │   ├── belebele_hin_Latn.yaml
        │   │   ├── belebele_hrv_Latn.yaml
        │   │   ├── belebele_hun_Latn.yaml
        │   │   ├── belebele_hye_Armn.yaml
        │   │   ├── belebele_ibo_Latn.yaml
        │   │   ├── belebele_ilo_Latn.yaml
        │   │   ├── belebele_ind_Latn.yaml
        │   │   ├── belebele_isl_Latn.yaml
        │   │   ├── belebele_ita_Latn.yaml
        │   │   ├── belebele_jav_Latn.yaml
        │   │   ├── belebele_jpn_Jpan.yaml
        │   │   ├── belebele_kac_Latn.yaml
        │   │   ├── belebele_kan_Knda.yaml
        │   │   ├── belebele_kat_Geor.yaml
        │   │   ├── belebele_kaz_Cyrl.yaml
        │   │   ├── belebele_kea_Latn.yaml
        │   │   ├── belebele_khk_Cyrl.yaml
        │   │   ├── belebele_khm_Khmr.yaml
        │   │   ├── belebele_kin_Latn.yaml
        │   │   ├── belebele_kir_Cyrl.yaml
        │   │   ├── belebele_kor_Hang.yaml
        │   │   ├── belebele_lao_Laoo.yaml
        │   │   ├── belebele_lin_Latn.yaml
        │   │   ├── belebele_lit_Latn.yaml
        │   │   ├── belebele_lug_Latn.yaml
        │   │   ├── belebele_luo_Latn.yaml
        │   │   ├── belebele_lvs_Latn.yaml
        │   │   ├── belebele_mal_Mlym.yaml
        │   │   ├── belebele_mar_Deva.yaml
        │   │   ├── belebele_mkd_Cyrl.yaml
        │   │   ├── belebele_mlt_Latn.yaml
        │   │   ├── belebele_mri_Latn.yaml
        │   │   ├── belebele_mya_Mymr.yaml
        │   │   ├── belebele_nld_Latn.yaml
        │   │   ├── belebele_nob_Latn.yaml
        │   │   ├── belebele_npi_Deva.yaml
        │   │   ├── belebele_npi_Latn.yaml
        │   │   ├── belebele_nso_Latn.yaml
        │   │   ├── belebele_nya_Latn.yaml
        │   │   ├── belebele_ory_Orya.yaml
        │   │   ├── belebele_pan_Guru.yaml
        │   │   ├── belebele_pbt_Arab.yaml
        │   │   ├── belebele_pes_Arab.yaml
        │   │   ├── belebele_plt_Latn.yaml
        │   │   ├── belebele_pol_Latn.yaml
        │   │   ├── belebele_por_Latn.yaml
        │   │   ├── belebele_ron_Latn.yaml
        │   │   ├── belebele_rus_Cyrl.yaml
        │   │   ├── belebele_shn_Mymr.yaml
        │   │   ├── belebele_sin_Latn.yaml
        │   │   ├── belebele_sin_Sinh.yaml
        │   │   ├── belebele_slk_Latn.yaml
        │   │   ├── belebele_slv_Latn.yaml
        │   │   ├── belebele_sna_Latn.yaml
        │   │   ├── belebele_snd_Arab.yaml
        │   │   ├── belebele_som_Latn.yaml
        │   │   ├── belebele_sot_Latn.yaml
        │   │   ├── belebele_spa_Latn.yaml
        │   │   ├── belebele_srp_Cyrl.yaml
        │   │   ├── belebele_ssw_Latn.yaml
        │   │   ├── belebele_sun_Latn.yaml
        │   │   ├── belebele_swe_Latn.yaml
        │   │   ├── belebele_swh_Latn.yaml
        │   │   ├── belebele_tam_Taml.yaml
        │   │   ├── belebele_tel_Telu.yaml
        │   │   ├── belebele_tgk_Cyrl.yaml
        │   │   ├── belebele_tgl_Latn.yaml
        │   │   ├── belebele_tha_Thai.yaml
        │   │   ├── belebele_tir_Ethi.yaml
        │   │   ├── belebele_tsn_Latn.yaml
        │   │   ├── belebele_tso_Latn.yaml
        │   │   ├── belebele_tur_Latn.yaml
        │   │   ├── belebele_ukr_Cyrl.yaml
        │   │   ├── belebele_urd_Arab.yaml
        │   │   ├── belebele_urd_Latn.yaml
        │   │   ├── belebele_uzn_Latn.yaml
        │   │   ├── belebele_vie_Latn.yaml
        │   │   ├── belebele_war_Latn.yaml
        │   │   ├── belebele_wol_Latn.yaml
        │   │   ├── belebele_xho_Latn.yaml
        │   │   ├── belebele_yor_Latn.yaml
        │   │   ├── belebele_zho_Hans.yaml
        │   │   ├── belebele_zho_Hant.yaml
        │   │   ├── belebele_zsm_Latn.yaml
        │   │   └── belebele_zul_Latn.yaml
        │   ├── benchmarks
        │   │   ├── flan
        │   │   │   ├── _held_in_template_yaml
        │   │   │   ├── flan_held_in.yaml
        │   │   │   └── flan_held_out.yaml
        │   │   ├── minerva_math.yaml
        │   │   ├── multimedqa
        │   │   │   ├── README.md
        │   │   │   └── multimedqa.yaml
        │   │   ├── openllm.yaml
        │   │   ├── pythia.yaml
        │   │   └── t0_eval.yaml
        │   ├── bertaqa
        │   │   ├── README.md
        │   │   ├── _bertaqa_template
        │   │   ├── bertaqa_en.yaml
        │   │   ├── bertaqa_en_mt_gemma-7b.yaml
        │   │   ├── bertaqa_en_mt_hitz.yaml
        │   │   ├── bertaqa_en_mt_itzuli.yaml
        │   │   ├── bertaqa_en_mt_latxa-13b-v1.1.yaml
        │   │   ├── bertaqa_en_mt_latxa-13b-v1.yaml
        │   │   ├── bertaqa_en_mt_latxa-70b-v1.1.yaml
        │   │   ├── bertaqa_en_mt_latxa-70b-v1.yaml
        │   │   ├── bertaqa_en_mt_latxa-7b-v1.1.yaml
        │   │   ├── bertaqa_en_mt_latxa-7b-v1.yaml
        │   │   ├── bertaqa_en_mt_llama-2-13b.yaml
        │   │   ├── bertaqa_en_mt_llama-2-70b.yaml
        │   │   ├── bertaqa_en_mt_llama-2-7b.yaml
        │   │   ├── bertaqa_en_mt_madlad.yaml
        │   │   ├── bertaqa_en_mt_nllb.yaml
        │   │   └── bertaqa_eu.yaml
        │   ├── bigbench
        │   │   ├── README.md
        │   │   ├── generate_tasks.py
        │   │   ├── generate_until
        │   │   │   ├── abstract_narrative_understanding.yaml
        │   │   │   ├── anachronisms.yaml
        │   │   │   ├── analogical_similarity.yaml
        │   │   │   ├── analytic_entailment.yaml
        │   │   │   ├── arithmetic.yaml
        │   │   │   ├── ascii_word_recognition.yaml
        │   │   │   ├── authorship_verification.yaml
        │   │   │   ├── auto_categorization.yaml
        │   │   │   ├── auto_debugging.yaml
        │   │   │   ├── bbq_lite_json.yaml
        │   │   │   ├── bridging_anaphora_resolution_barqa.yaml
        │   │   │   ├── causal_judgment.yaml
        │   │   │   ├── cause_and_effect.yaml
        │   │   │   ├── checkmate_in_one.yaml
        │   │   │   ├── chess_state_tracking.yaml
        │   │   │   ├── chinese_remainder_theorem.yaml
        │   │   │   ├── cifar10_classification.yaml
        │   │   │   ├── code_line_description.yaml
        │   │   │   ├── codenames.yaml
        │   │   │   ├── color.yaml
        │   │   │   ├── common_morpheme.yaml
        │   │   │   ├── conceptual_combinations.yaml
        │   │   │   ├── conlang_translation.yaml
        │   │   │   ├── contextual_parametric_knowledge_conflicts.yaml
        │   │   │   ├── crash_blossom.yaml
        │   │   │   ├── crass_ai.yaml
        │   │   │   ├── cryobiology_spanish.yaml
        │   │   │   ├── cryptonite.yaml
        │   │   │   ├── cs_algorithms.yaml
        │   │   │   ├── dark_humor_detection.yaml
        │   │   │   ├── date_understanding.yaml
        │   │   │   ├── disambiguation_qa.yaml
        │   │   │   ├── discourse_marker_prediction.yaml
        │   │   │   ├── disfl_qa.yaml
        │   │   │   ├── dyck_languages.yaml
        │   │   │   ├── elementary_math_qa.yaml
        │   │   │   ├── emoji_movie.yaml
        │   │   │   ├── emojis_emotion_prediction.yaml
        │   │   │   ├── empirical_judgments.yaml
        │   │   │   ├── english_proverbs.yaml
        │   │   │   ├── english_russian_proverbs.yaml
        │   │   │   ├── entailed_polarity.yaml
        │   │   │   ├── entailed_polarity_hindi.yaml
        │   │   │   ├── epistemic_reasoning.yaml
        │   │   │   ├── evaluating_information_essentiality.yaml
        │   │   │   ├── fact_checker.yaml
        │   │   │   ├── fantasy_reasoning.yaml
        │   │   │   ├── few_shot_nlg.yaml
        │   │   │   ├── figure_of_speech_detection.yaml
        │   │   │   ├── formal_fallacies_syllogisms_negation.yaml
        │   │   │   ├── gem.yaml
        │   │   │   ├── gender_inclusive_sentences_german.yaml
        │   │   │   ├── general_knowledge.yaml
        │   │   │   ├── geometric_shapes.yaml
        │   │   │   ├── goal_step_wikihow.yaml
        │   │   │   ├── gre_reading_comprehension.yaml
        │   │   │   ├── hhh_alignment.yaml
        │   │   │   ├── hindi_question_answering.yaml
        │   │   │   ├── hindu_knowledge.yaml
        │   │   │   ├── hinglish_toxicity.yaml
        │   │   │   ├── human_organs_senses.yaml
        │   │   │   ├── hyperbaton.yaml
        │   │   │   ├── identify_math_theorems.yaml
        │   │   │   ├── identify_odd_metaphor.yaml
        │   │   │   ├── implicatures.yaml
        │   │   │   ├── implicit_relations.yaml
        │   │   │   ├── intent_recognition.yaml
        │   │   │   ├── international_phonetic_alphabet_nli.yaml
        │   │   │   ├── international_phonetic_alphabet_transliterate.yaml
        │   │   │   ├── intersect_geometry.yaml
        │   │   │   ├── irony_identification.yaml
        │   │   │   ├── kanji_ascii.yaml
        │   │   │   ├── kannada.yaml
        │   │   │   ├── key_value_maps.yaml
        │   │   │   ├── known_unknowns.yaml
        │   │   │   ├── language_games.yaml
        │   │   │   ├── language_identification.yaml
        │   │   │   ├── linguistic_mappings.yaml
        │   │   │   ├── linguistics_puzzles.yaml
        │   │   │   ├── list_functions.yaml
        │   │   │   ├── logic_grid_puzzle.yaml
        │   │   │   ├── logical_args.yaml
        │   │   │   ├── logical_deduction.yaml
        │   │   │   ├── logical_fallacy_detection.yaml
        │   │   │   ├── logical_sequence.yaml
        │   │   │   ├── mathematical_induction.yaml
        │   │   │   ├── matrixshapes.yaml
        │   │   │   ├── metaphor_boolean.yaml
        │   │   │   ├── metaphor_understanding.yaml
        │   │   │   ├── minute_mysteries_qa.yaml
        │   │   │   ├── misconceptions.yaml
        │   │   │   ├── misconceptions_russian.yaml
        │   │   │   ├── mnist_ascii.yaml
        │   │   │   ├── modified_arithmetic.yaml
        │   │   │   ├── moral_permissibility.yaml
        │   │   │   ├── movie_dialog_same_or_different.yaml
        │   │   │   ├── movie_recommendation.yaml
        │   │   │   ├── mult_data_wrangling.yaml
        │   │   │   ├── multiemo.yaml
        │   │   │   ├── natural_instructions.yaml
        │   │   │   ├── navigate.yaml
        │   │   │   ├── nonsense_words_grammar.yaml
        │   │   │   ├── novel_concepts.yaml
        │   │   │   ├── object_counting.yaml
        │   │   │   ├── odd_one_out.yaml
        │   │   │   ├── operators.yaml
        │   │   │   ├── paragraph_segmentation.yaml
        │   │   │   ├── parsinlu_qa.yaml
        │   │   │   ├── parsinlu_reading_comprehension.yaml
        │   │   │   ├── penguins_in_a_table.yaml
        │   │   │   ├── periodic_elements.yaml
        │   │   │   ├── persian_idioms.yaml
        │   │   │   ├── phrase_relatedness.yaml
        │   │   │   ├── physical_intuition.yaml
        │   │   │   ├── physics.yaml
        │   │   │   ├── physics_questions.yaml
        │   │   │   ├── play_dialog_same_or_different.yaml
        │   │   │   ├── polish_sequence_labeling.yaml
        │   │   │   ├── presuppositions_as_nli.yaml
        │   │   │   ├── qa_wikidata.yaml
        │   │   │   ├── question_selection.yaml
        │   │   │   ├── real_or_fake_text.yaml
        │   │   │   ├── reasoning_about_colored_objects.yaml
        │   │   │   ├── repeat_copy_logic.yaml
        │   │   │   ├── rephrase.yaml
        │   │   │   ├── riddle_sense.yaml
        │   │   │   ├── ruin_names.yaml
        │   │   │   ├── salient_translation_error_detection.yaml
        │   │   │   ├── scientific_press_release.yaml
        │   │   │   ├── semantic_parsing_in_context_sparc.yaml
        │   │   │   ├── semantic_parsing_spider.yaml
        │   │   │   ├── sentence_ambiguity.yaml
        │   │   │   ├── similarities_abstraction.yaml
        │   │   │   ├── simp_turing_concept.yaml
        │   │   │   ├── simple_arithmetic_json.yaml
        │   │   │   ├── simple_arithmetic_json_multiple_choice.yaml
        │   │   │   ├── simple_arithmetic_json_subtasks.yaml
        │   │   │   ├── simple_arithmetic_multiple_targets_json.yaml
        │   │   │   ├── simple_ethical_questions.yaml
        │   │   │   ├── simple_text_editing.yaml
        │   │   │   ├── snarks.yaml
        │   │   │   ├── social_iqa.yaml
        │   │   │   ├── social_support.yaml
        │   │   │   ├── sports_understanding.yaml
        │   │   │   ├── strange_stories.yaml
        │   │   │   ├── strategyqa.yaml
        │   │   │   ├── sufficient_information.yaml
        │   │   │   ├── suicide_risk.yaml
        │   │   │   ├── swahili_english_proverbs.yaml
        │   │   │   ├── swedish_to_german_proverbs.yaml
        │   │   │   ├── symbol_interpretation.yaml
        │   │   │   ├── temporal_sequences.yaml
        │   │   │   ├── tense.yaml
        │   │   │   ├── timedial.yaml
        │   │   │   ├── topical_chat.yaml
        │   │   │   ├── tracking_shuffled_objects.yaml
        │   │   │   ├── understanding_fables.yaml
        │   │   │   ├── undo_permutation.yaml
        │   │   │   ├── unit_conversion.yaml
        │   │   │   ├── unit_interpretation.yaml
        │   │   │   ├── unnatural_in_context_learning.yaml
        │   │   │   ├── vitaminc_fact_verification.yaml
        │   │   │   ├── what_is_the_tao.yaml
        │   │   │   ├── which_wiki_edit.yaml
        │   │   │   ├── winowhy.yaml
        │   │   │   ├── word_sorting.yaml
        │   │   │   └── word_unscrambling.yaml
        │   │   ├── generate_until_template_yaml
        │   │   ├── multiple_choice
        │   │   │   ├── abstract_narrative_understanding.yaml
        │   │   │   ├── anachronisms.yaml
        │   │   │   ├── analogical_similarity.yaml
        │   │   │   ├── analytic_entailment.yaml
        │   │   │   ├── arithmetic.yaml
        │   │   │   ├── authorship_verification.yaml
        │   │   │   ├── bbq_lite_json.yaml
        │   │   │   ├── causal_judgment.yaml
        │   │   │   ├── cause_and_effect.yaml
        │   │   │   ├── checkmate_in_one.yaml
        │   │   │   ├── cifar10_classification.yaml
        │   │   │   ├── code_line_description.yaml
        │   │   │   ├── color.yaml
        │   │   │   ├── common_morpheme.yaml
        │   │   │   ├── conceptual_combinations.yaml
        │   │   │   ├── contextual_parametric_knowledge_conflicts.yaml
        │   │   │   ├── crash_blossom.yaml
        │   │   │   ├── crass_ai.yaml
        │   │   │   ├── cryobiology_spanish.yaml
        │   │   │   ├── cs_algorithms.yaml
        │   │   │   ├── dark_humor_detection.yaml
        │   │   │   ├── date_understanding.yaml
        │   │   │   ├── disambiguation_qa.yaml
        │   │   │   ├── discourse_marker_prediction.yaml
        │   │   │   ├── dyck_languages.yaml
        │   │   │   ├── elementary_math_qa.yaml
        │   │   │   ├── emoji_movie.yaml
        │   │   │   ├── emojis_emotion_prediction.yaml
        │   │   │   ├── empirical_judgments.yaml
        │   │   │   ├── english_proverbs.yaml
        │   │   │   ├── english_russian_proverbs.yaml
        │   │   │   ├── entailed_polarity.yaml
        │   │   │   ├── entailed_polarity_hindi.yaml
        │   │   │   ├── epistemic_reasoning.yaml
        │   │   │   ├── evaluating_information_essentiality.yaml
        │   │   │   ├── fact_checker.yaml
        │   │   │   ├── fantasy_reasoning.yaml
        │   │   │   ├── figure_of_speech_detection.yaml
        │   │   │   ├── formal_fallacies_syllogisms_negation.yaml
        │   │   │   ├── general_knowledge.yaml
        │   │   │   ├── geometric_shapes.yaml
        │   │   │   ├── goal_step_wikihow.yaml
        │   │   │   ├── gre_reading_comprehension.yaml
        │   │   │   ├── hhh_alignment.yaml
        │   │   │   ├── hindu_knowledge.yaml
        │   │   │   ├── hinglish_toxicity.yaml
        │   │   │   ├── human_organs_senses.yaml
        │   │   │   ├── hyperbaton.yaml
        │   │   │   ├── identify_math_theorems.yaml
        │   │   │   ├── identify_odd_metaphor.yaml
        │   │   │   ├── implicatures.yaml
        │   │   │   ├── implicit_relations.yaml
        │   │   │   ├── intent_recognition.yaml
        │   │   │   ├── international_phonetic_alphabet_nli.yaml
        │   │   │   ├── intersect_geometry.yaml
        │   │   │   ├── irony_identification.yaml
        │   │   │   ├── kanji_ascii.yaml
        │   │   │   ├── kannada.yaml
        │   │   │   ├── key_value_maps.yaml
        │   │   │   ├── known_unknowns.yaml
        │   │   │   ├── language_identification.yaml
        │   │   │   ├── logic_grid_puzzle.yaml
        │   │   │   ├── logical_args.yaml
        │   │   │   ├── logical_deduction.yaml
        │   │   │   ├── logical_fallacy_detection.yaml
        │   │   │   ├── logical_sequence.yaml
        │   │   │   ├── mathematical_induction.yaml
        │   │   │   ├── metaphor_boolean.yaml
        │   │   │   ├── metaphor_understanding.yaml
        │   │   │   ├── misconceptions.yaml
        │   │   │   ├── misconceptions_russian.yaml
        │   │   │   ├── mnist_ascii.yaml
        │   │   │   ├── moral_permissibility.yaml
        │   │   │   ├── movie_dialog_same_or_different.yaml
        │   │   │   ├── movie_recommendation.yaml
        │   │   │   ├── multiemo.yaml
        │   │   │   ├── navigate.yaml
        │   │   │   ├── nonsense_words_grammar.yaml
        │   │   │   ├── novel_concepts.yaml
        │   │   │   ├── odd_one_out.yaml
        │   │   │   ├── parsinlu_qa.yaml
        │   │   │   ├── penguins_in_a_table.yaml
        │   │   │   ├── periodic_elements.yaml
        │   │   │   ├── persian_idioms.yaml
        │   │   │   ├── phrase_relatedness.yaml
        │   │   │   ├── physical_intuition.yaml
        │   │   │   ├── physics.yaml
        │   │   │   ├── play_dialog_same_or_different.yaml
        │   │   │   ├── presuppositions_as_nli.yaml
        │   │   │   ├── question_selection.yaml
        │   │   │   ├── real_or_fake_text.yaml
        │   │   │   ├── reasoning_about_colored_objects.yaml
        │   │   │   ├── riddle_sense.yaml
        │   │   │   ├── ruin_names.yaml
        │   │   │   ├── salient_translation_error_detection.yaml
        │   │   │   ├── sentence_ambiguity.yaml
        │   │   │   ├── similarities_abstraction.yaml
        │   │   │   ├── simple_ethical_questions.yaml
        │   │   │   ├── snarks.yaml
        │   │   │   ├── social_iqa.yaml
        │   │   │   ├── social_support.yaml
        │   │   │   ├── sports_understanding.yaml
        │   │   │   ├── strange_stories.yaml
        │   │   │   ├── strategyqa.yaml
        │   │   │   ├── suicide_risk.yaml
        │   │   │   ├── swahili_english_proverbs.yaml
        │   │   │   ├── swedish_to_german_proverbs.yaml
        │   │   │   ├── symbol_interpretation.yaml
        │   │   │   ├── temporal_sequences.yaml
        │   │   │   ├── timedial.yaml
        │   │   │   ├── tracking_shuffled_objects.yaml
        │   │   │   ├── understanding_fables.yaml
        │   │   │   ├── undo_permutation.yaml
        │   │   │   ├── unit_conversion.yaml
        │   │   │   ├── unit_interpretation.yaml
        │   │   │   ├── vitaminc_fact_verification.yaml
        │   │   │   ├── what_is_the_tao.yaml
        │   │   │   ├── which_wiki_edit.yaml
        │   │   │   └── winowhy.yaml
        │   │   ├── multiple_choice_template_a_yaml
        │   │   ├── multiple_choice_template_b_yaml
        │   │   └── push_bigbench_dataset.py
        │   ├── blimp
        │   │   ├── README.md
        │   │   ├── _blimp.yaml
        │   │   ├── _template_yaml
        │   │   ├── adjunct_island.yaml
        │   │   ├── anaphor_gender_agreement.yaml
        │   │   ├── anaphor_number_agreement.yaml
        │   │   ├── animate_subject_passive.yaml
        │   │   ├── animate_subject_trans.yaml
        │   │   ├── causative.yaml
        │   │   ├── complex_NP_island.yaml
        │   │   ├── coordinate_structure_constraint_complex_left_branch.yaml
        │   │   ├── coordinate_structure_constraint_object_extraction.yaml
        │   │   ├── determiner_noun_agreement_1.yaml
        │   │   ├── determiner_noun_agreement_2.yaml
        │   │   ├── determiner_noun_agreement_irregular_1.yaml
        │   │   ├── determiner_noun_agreement_irregular_2.yaml
        │   │   ├── determiner_noun_agreement_with_adj_2.yaml
        │   │   ├── determiner_noun_agreement_with_adj_irregular_1.yaml
        │   │   ├── determiner_noun_agreement_with_adj_irregular_2.yaml
        │   │   ├── determiner_noun_agreement_with_adjective_1.yaml
        │   │   ├── distractor_agreement_relational_noun.yaml
        │   │   ├── distractor_agreement_relative_clause.yaml
        │   │   ├── drop_argument.yaml
        │   │   ├── ellipsis_n_bar_1.yaml
        │   │   ├── ellipsis_n_bar_2.yaml
        │   │   ├── existential_there_object_raising.yaml
        │   │   ├── existential_there_quantifiers_1.yaml
        │   │   ├── existential_there_quantifiers_2.yaml
        │   │   ├── existential_there_subject_raising.yaml
        │   │   ├── expletive_it_object_raising.yaml
        │   │   ├── generate_configs.py
        │   │   ├── inchoative.yaml
        │   │   ├── intransitive.yaml
        │   │   ├── irregular_past_participle_adjectives.yaml
        │   │   ├── irregular_past_participle_verbs.yaml
        │   │   ├── irregular_plural_subject_verb_agreement_1.yaml
        │   │   ├── irregular_plural_subject_verb_agreement_2.yaml
        │   │   ├── left_branch_island_echo_question.yaml
        │   │   ├── left_branch_island_simple_question.yaml
        │   │   ├── matrix_question_npi_licensor_present.yaml
        │   │   ├── npi_present_1.yaml
        │   │   ├── npi_present_2.yaml
        │   │   ├── only_npi_licensor_present.yaml
        │   │   ├── only_npi_scope.yaml
        │   │   ├── passive_1.yaml
        │   │   ├── passive_2.yaml
        │   │   ├── principle_A_c_command.yaml
        │   │   ├── principle_A_case_1.yaml
        │   │   ├── principle_A_case_2.yaml
        │   │   ├── principle_A_domain_1.yaml
        │   │   ├── principle_A_domain_2.yaml
        │   │   ├── principle_A_domain_3.yaml
        │   │   ├── principle_A_reconstruction.yaml
        │   │   ├── regular_plural_subject_verb_agreement_1.yaml
        │   │   ├── regular_plural_subject_verb_agreement_2.yaml
        │   │   ├── sentential_negation_npi_licensor_present.yaml
        │   │   ├── sentential_negation_npi_scope.yaml
        │   │   ├── sentential_subject_island.yaml
        │   │   ├── superlative_quantifiers_1.yaml
        │   │   ├── superlative_quantifiers_2.yaml
        │   │   ├── tough_vs_raising_1.yaml
        │   │   ├── tough_vs_raising_2.yaml
        │   │   ├── transitive.yaml
        │   │   ├── wh_island.yaml
        │   │   ├── wh_questions_object_gap.yaml
        │   │   ├── wh_questions_subject_gap.yaml
        │   │   ├── wh_questions_subject_gap_long_distance.yaml
        │   │   ├── wh_vs_that_no_gap.yaml
        │   │   ├── wh_vs_that_no_gap_long_distance.yaml
        │   │   ├── wh_vs_that_with_gap.yaml
        │   │   └── wh_vs_that_with_gap_long_distance.yaml
        │   ├── ceval
        │   │   ├── README.md
        │   │   ├── _ceval-valid.yaml
        │   │   ├── _default_ceval_yaml
        │   │   ├── _generate_configs.py
        │   │   ├── ceval-valid_accountant.yaml
        │   │   ├── ceval-valid_advanced_mathematics.yaml
        │   │   ├── ceval-valid_art_studies.yaml
        │   │   ├── ceval-valid_basic_medicine.yaml
        │   │   ├── ceval-valid_business_administration.yaml
        │   │   ├── ceval-valid_chinese_language_and_literature.yaml
        │   │   ├── ceval-valid_civil_servant.yaml
        │   │   ├── ceval-valid_clinical_medicine.yaml
        │   │   ├── ceval-valid_college_chemistry.yaml
        │   │   ├── ceval-valid_college_economics.yaml
        │   │   ├── ceval-valid_college_physics.yaml
        │   │   ├── ceval-valid_college_programming.yaml
        │   │   ├── ceval-valid_computer_architecture.yaml
        │   │   ├── ceval-valid_computer_network.yaml
        │   │   ├── ceval-valid_discrete_mathematics.yaml
        │   │   ├── ceval-valid_education_science.yaml
        │   │   ├── ceval-valid_electrical_engineer.yaml
        │   │   ├── ceval-valid_environmental_impact_assessment_engineer.yaml
        │   │   ├── ceval-valid_fire_engineer.yaml
        │   │   ├── ceval-valid_high_school_biology.yaml
        │   │   ├── ceval-valid_high_school_chemistry.yaml
        │   │   ├── ceval-valid_high_school_chinese.yaml
        │   │   ├── ceval-valid_high_school_geography.yaml
        │   │   ├── ceval-valid_high_school_history.yaml
        │   │   ├── ceval-valid_high_school_mathematics.yaml
        │   │   ├── ceval-valid_high_school_physics.yaml
        │   │   ├── ceval-valid_high_school_politics.yaml
        │   │   ├── ceval-valid_ideological_and_moral_cultivation.yaml
        │   │   ├── ceval-valid_law.yaml
        │   │   ├── ceval-valid_legal_professional.yaml
        │   │   ├── ceval-valid_logic.yaml
        │   │   ├── ceval-valid_mao_zedong_thought.yaml
        │   │   ├── ceval-valid_marxism.yaml
        │   │   ├── ceval-valid_metrology_engineer.yaml
        │   │   ├── ceval-valid_middle_school_biology.yaml
        │   │   ├── ceval-valid_middle_school_chemistry.yaml
        │   │   ├── ceval-valid_middle_school_geography.yaml
        │   │   ├── ceval-valid_middle_school_history.yaml
        │   │   ├── ceval-valid_middle_school_mathematics.yaml
        │   │   ├── ceval-valid_middle_school_physics.yaml
        │   │   ├── ceval-valid_middle_school_politics.yaml
        │   │   ├── ceval-valid_modern_chinese_history.yaml
        │   │   ├── ceval-valid_operating_system.yaml
        │   │   ├── ceval-valid_physician.yaml
        │   │   ├── ceval-valid_plant_protection.yaml
        │   │   ├── ceval-valid_probability_and_statistics.yaml
        │   │   ├── ceval-valid_professional_tour_guide.yaml
        │   │   ├── ceval-valid_sports_science.yaml
        │   │   ├── ceval-valid_tax_accountant.yaml
        │   │   ├── ceval-valid_teacher_qualification.yaml
        │   │   ├── ceval-valid_urban_and_rural_planner.yaml
        │   │   └── ceval-valid_veterinary_medicine.yaml
        │   ├── cmmlu
        │   │   ├── README.md
        │   │   ├── _cmmlu.yaml
        │   │   ├── _default_template_yaml
        │   │   ├── _generate_configs.py
        │   │   ├── cmmlu_agronomy.yaml
        │   │   ├── cmmlu_anatomy.yaml
        │   │   ├── cmmlu_ancient_chinese.yaml
        │   │   ├── cmmlu_arts.yaml
        │   │   ├── cmmlu_astronomy.yaml
        │   │   ├── cmmlu_business_ethics.yaml
        │   │   ├── cmmlu_chinese_civil_service_exam.yaml
        │   │   ├── cmmlu_chinese_driving_rule.yaml
        │   │   ├── cmmlu_chinese_food_culture.yaml
        │   │   ├── cmmlu_chinese_foreign_policy.yaml
        │   │   ├── cmmlu_chinese_history.yaml
        │   │   ├── cmmlu_chinese_literature.yaml
        │   │   ├── cmmlu_chinese_teacher_qualification.yaml
        │   │   ├── cmmlu_clinical_knowledge.yaml
        │   │   ├── cmmlu_college_actuarial_science.yaml
        │   │   ├── cmmlu_college_education.yaml
        │   │   ├── cmmlu_college_engineering_hydrology.yaml
        │   │   ├── cmmlu_college_law.yaml
        │   │   ├── cmmlu_college_mathematics.yaml
        │   │   ├── cmmlu_college_medical_statistics.yaml
        │   │   ├── cmmlu_college_medicine.yaml
        │   │   ├── cmmlu_computer_science.yaml
        │   │   ├── cmmlu_computer_security.yaml
        │   │   ├── cmmlu_conceptual_physics.yaml
        │   │   ├── cmmlu_construction_project_management.yaml
        │   │   ├── cmmlu_default_agronomy.yaml
        │   │   ├── cmmlu_default_anatomy.yaml
        │   │   ├── cmmlu_default_ancient_chinese.yaml
        │   │   ├── cmmlu_default_arts.yaml
        │   │   ├── cmmlu_default_astronomy.yaml
        │   │   ├── cmmlu_default_business_ethics.yaml
        │   │   ├── cmmlu_default_chinese_civil_service_exam.yaml
        │   │   ├── cmmlu_default_chinese_driving_rule.yaml
        │   │   ├── cmmlu_default_chinese_food_culture.yaml
        │   │   ├── cmmlu_default_chinese_foreign_policy.yaml
        │   │   ├── cmmlu_default_chinese_history.yaml
        │   │   ├── cmmlu_default_chinese_literature.yaml
        │   │   ├── cmmlu_default_chinese_teacher_qualification.yaml
        │   │   ├── cmmlu_default_clinical_knowledge.yaml
        │   │   ├── cmmlu_default_college_actuarial_science.yaml
        │   │   ├── cmmlu_default_college_education.yaml
        │   │   ├── cmmlu_default_college_engineering_hydrology.yaml
        │   │   ├── cmmlu_default_college_law.yaml
        │   │   ├── cmmlu_default_college_mathematics.yaml
        │   │   ├── cmmlu_default_college_medical_statistics.yaml
        │   │   ├── cmmlu_default_college_medicine.yaml
        │   │   ├── cmmlu_default_computer_science.yaml
        │   │   ├── cmmlu_default_computer_security.yaml
        │   │   ├── cmmlu_default_conceptual_physics.yaml
        │   │   ├── cmmlu_default_construction_project_management.yaml
        │   │   ├── cmmlu_default_economics.yaml
        │   │   ├── cmmlu_default_education.yaml
        │   │   ├── cmmlu_default_electrical_engineering.yaml
        │   │   ├── cmmlu_default_elementary_chinese.yaml
        │   │   ├── cmmlu_default_elementary_commonsense.yaml
        │   │   ├── cmmlu_default_elementary_information_and_technology.yaml
        │   │   ├── cmmlu_default_elementary_mathematics.yaml
        │   │   ├── cmmlu_default_ethnology.yaml
        │   │   ├── cmmlu_default_food_science.yaml
        │   │   ├── cmmlu_default_genetics.yaml
        │   │   ├── cmmlu_default_global_facts.yaml
        │   │   ├── cmmlu_default_high_school_biology.yaml
        │   │   ├── cmmlu_default_high_school_chemistry.yaml
        │   │   ├── cmmlu_default_high_school_geography.yaml
        │   │   ├── cmmlu_default_high_school_mathematics.yaml
        │   │   ├── cmmlu_default_high_school_physics.yaml
        │   │   ├── cmmlu_default_high_school_politics.yaml
        │   │   ├── cmmlu_default_human_sexuality.yaml
        │   │   ├── cmmlu_default_international_law.yaml
        │   │   ├── cmmlu_default_journalism.yaml
        │   │   ├── cmmlu_default_jurisprudence.yaml
        │   │   ├── cmmlu_default_legal_and_moral_basis.yaml
        │   │   ├── cmmlu_default_logical.yaml
        │   │   ├── cmmlu_default_machine_learning.yaml
        │   │   ├── cmmlu_default_management.yaml
        │   │   ├── cmmlu_default_marketing.yaml
        │   │   ├── cmmlu_default_marxist_theory.yaml
        │   │   ├── cmmlu_default_modern_chinese.yaml
        │   │   ├── cmmlu_default_nutrition.yaml
        │   │   ├── cmmlu_default_philosophy.yaml
        │   │   ├── cmmlu_default_professional_accounting.yaml
        │   │   ├── cmmlu_default_professional_law.yaml
        │   │   ├── cmmlu_default_professional_medicine.yaml
        │   │   ├── cmmlu_default_professional_psychology.yaml
        │   │   ├── cmmlu_default_public_relations.yaml
        │   │   ├── cmmlu_default_security_study.yaml
        │   │   ├── cmmlu_default_sociology.yaml
        │   │   ├── cmmlu_default_sports_science.yaml
        │   │   ├── cmmlu_default_traditional_chinese_medicine.yaml
        │   │   ├── cmmlu_default_virology.yaml
        │   │   ├── cmmlu_default_world_history.yaml
        │   │   ├── cmmlu_default_world_religions.yaml
        │   │   ├── cmmlu_economics.yaml
        │   │   ├── cmmlu_education.yaml
        │   │   ├── cmmlu_electrical_engineering.yaml
        │   │   ├── cmmlu_elementary_chinese.yaml
        │   │   ├── cmmlu_elementary_commonsense.yaml
        │   │   ├── cmmlu_elementary_information_and_technology.yaml
        │   │   ├── cmmlu_elementary_mathematics.yaml
        │   │   ├── cmmlu_ethnology.yaml
        │   │   ├── cmmlu_food_science.yaml
        │   │   ├── cmmlu_genetics.yaml
        │   │   ├── cmmlu_global_facts.yaml
        │   │   ├── cmmlu_high_school_biology.yaml
        │   │   ├── cmmlu_high_school_chemistry.yaml
        │   │   ├── cmmlu_high_school_geography.yaml
        │   │   ├── cmmlu_high_school_mathematics.yaml
        │   │   ├── cmmlu_high_school_physics.yaml
        │   │   ├── cmmlu_high_school_politics.yaml
        │   │   ├── cmmlu_human_sexuality.yaml
        │   │   ├── cmmlu_international_law.yaml
        │   │   ├── cmmlu_journalism.yaml
        │   │   ├── cmmlu_jurisprudence.yaml
        │   │   ├── cmmlu_legal_and_moral_basis.yaml
        │   │   ├── cmmlu_logical.yaml
        │   │   ├── cmmlu_machine_learning.yaml
        │   │   ├── cmmlu_management.yaml
        │   │   ├── cmmlu_marketing.yaml
        │   │   ├── cmmlu_marxist_theory.yaml
        │   │   ├── cmmlu_modern_chinese.yaml
        │   │   ├── cmmlu_nutrition.yaml
        │   │   ├── cmmlu_philosophy.yaml
        │   │   ├── cmmlu_professional_accounting.yaml
        │   │   ├── cmmlu_professional_law.yaml
        │   │   ├── cmmlu_professional_medicine.yaml
        │   │   ├── cmmlu_professional_psychology.yaml
        │   │   ├── cmmlu_public_relations.yaml
        │   │   ├── cmmlu_security_study.yaml
        │   │   ├── cmmlu_sociology.yaml
        │   │   ├── cmmlu_sports_science.yaml
        │   │   ├── cmmlu_traditional_chinese_medicine.yaml
        │   │   ├── cmmlu_virology.yaml
        │   │   ├── cmmlu_world_history.yaml
        │   │   └── cmmlu_world_religions.yaml
        │   ├── code_x_glue
        │   │   └── code-text
        │   │   │   ├── bleu.py
        │   │   │   ├── go.yaml
        │   │   │   ├── java.yaml
        │   │   │   ├── javascript.yaml
        │   │   │   ├── php.yaml
        │   │   │   ├── python.yaml
        │   │   │   ├── ruby.yaml
        │   │   │   └── utils.py
        │   ├── commonsense_qa
        │   │   ├── README.md
        │   │   └── default.yaml
        │   ├── copal_id
        │   │   ├── README.md
        │   │   ├── colloquial.yaml
        │   │   ├── standard.yaml
        │   │   └── utils.py
        │   ├── coqa
        │   │   ├── README.md
        │   │   ├── default.yaml
        │   │   └── utils.py
        │   ├── crows_pairs
        │   │   ├── README.md
        │   │   ├── crows_pairs_english.yaml
        │   │   ├── crows_pairs_english_age.yaml
        │   │   ├── crows_pairs_english_autre.yaml
        │   │   ├── crows_pairs_english_disability.yaml
        │   │   ├── crows_pairs_english_gender.yaml
        │   │   ├── crows_pairs_english_nationality.yaml
        │   │   ├── crows_pairs_english_physical_appearance.yaml
        │   │   ├── crows_pairs_english_race_color.yaml
        │   │   ├── crows_pairs_english_religion.yaml
        │   │   ├── crows_pairs_english_sexual_orientation.yaml
        │   │   ├── crows_pairs_english_socioeconomic.yaml
        │   │   ├── crows_pairs_french.yaml
        │   │   ├── crows_pairs_french_age.yaml
        │   │   ├── crows_pairs_french_autre.yaml
        │   │   ├── crows_pairs_french_disability.yaml
        │   │   ├── crows_pairs_french_gender.yaml
        │   │   ├── crows_pairs_french_nationality.yaml
        │   │   ├── crows_pairs_french_physical_appearance.yaml
        │   │   ├── crows_pairs_french_race_color.yaml
        │   │   ├── crows_pairs_french_religion.yaml
        │   │   ├── crows_pairs_french_sexual_orientation.yaml
        │   │   ├── crows_pairs_french_socioeconomic.yaml
        │   │   └── utils.py
        │   ├── csatqa
        │   │   ├── _csatqa.yaml
        │   │   ├── _default_csatqa_yaml
        │   │   ├── _generate_configs.py
        │   │   ├── csatqa_gr.yaml
        │   │   ├── csatqa_li.yaml
        │   │   ├── csatqa_rch.yaml
        │   │   ├── csatqa_rcs.yaml
        │   │   ├── csatqa_rcss.yaml
        │   │   ├── csatqa_wr.yaml
        │   │   └── utils.py
        │   ├── drop
        │   │   ├── README.md
        │   │   ├── default.yaml
        │   │   └── utils.py
        │   ├── eq_bench
        │   │   ├── README.md
        │   │   ├── default.yaml
        │   │   └── utils.py
        │   ├── eus_exams
        │   │   ├── README.md
        │   │   ├── configs.py
        │   │   ├── eus_exams
        │   │   ├── eus_exams_es
        │   │   ├── eus_exams_es_ejadministrativo.yaml
        │   │   ├── eus_exams_es_ejauxiliar.yaml
        │   │   ├── eus_exams_es_ejsubalterno.yaml
        │   │   ├── eus_exams_es_ejtecnico.yaml
        │   │   ├── eus_exams_es_opeayuntamientovitoria.yaml
        │   │   ├── eus_exams_es_opebilbao.yaml
        │   │   ├── eus_exams_es_opeehuadmin.yaml
        │   │   ├── eus_exams_es_opeehuaux.yaml
        │   │   ├── eus_exams_es_opeehubiblio.yaml
        │   │   ├── eus_exams_es_opeehuderecho.yaml
        │   │   ├── eus_exams_es_opeehueconomicas.yaml
        │   │   ├── eus_exams_es_opeehuempresariales.yaml
        │   │   ├── eus_exams_es_opeehusubalterno.yaml
        │   │   ├── eus_exams_es_opeehutecnico.yaml
        │   │   ├── eus_exams_es_opeehutecnicob.yaml
        │   │   ├── eus_exams_es_opeosakiadmin.yaml
        │   │   ├── eus_exams_es_opeosakiaux.yaml
        │   │   ├── eus_exams_es_opeosakiauxenf.yaml
        │   │   ├── eus_exams_es_opeosakicelador.yaml
        │   │   ├── eus_exams_es_opeosakienf.yaml
        │   │   ├── eus_exams_es_opeosakijuridico.yaml
        │   │   ├── eus_exams_es_opeosakioperario.yaml
        │   │   ├── eus_exams_es_opeosakitecnico.yaml
        │   │   ├── eus_exams_es_opeosakivarios.yaml
        │   │   ├── eus_exams_es_osakidetza1c.yaml
        │   │   ├── eus_exams_es_osakidetza2c.yaml
        │   │   ├── eus_exams_es_osakidetza3c.yaml
        │   │   ├── eus_exams_es_osakidetza4c.yaml
        │   │   ├── eus_exams_es_osakidetza5c.yaml
        │   │   ├── eus_exams_es_osakidetza6c.yaml
        │   │   ├── eus_exams_es_osakidetza7c.yaml
        │   │   ├── eus_exams_es_osakidetza8c.yaml
        │   │   ├── eus_exams_es_osakidetza9c.yaml
        │   │   ├── eus_exams_eu
        │   │   ├── eus_exams_eu_ejadministrari.yaml
        │   │   ├── eus_exams_eu_ejlaguntza.yaml
        │   │   ├── eus_exams_eu_ejlaguntzaile.yaml
        │   │   ├── eus_exams_eu_ejteknikari.yaml
        │   │   ├── eus_exams_eu_opebilbaoeu.yaml
        │   │   ├── eus_exams_eu_opeehuadmineu.yaml
        │   │   ├── eus_exams_eu_opeehuauxeu.yaml
        │   │   ├── eus_exams_eu_opeehubiblioeu.yaml
        │   │   ├── eus_exams_eu_opeehuderechoeu.yaml
        │   │   ├── eus_exams_eu_opeehueconomicaseu.yaml
        │   │   ├── eus_exams_eu_opeehuempresarialeseu.yaml
        │   │   ├── eus_exams_eu_opeehusubalternoeu.yaml
        │   │   ├── eus_exams_eu_opeehutecnicoeu.yaml
        │   │   ├── eus_exams_eu_opeehuteknikarib.yaml
        │   │   ├── eus_exams_eu_opegasteizkoudala.yaml
        │   │   ├── eus_exams_eu_opeosakiadmineu.yaml
        │   │   ├── eus_exams_eu_opeosakiauxenfeu.yaml
        │   │   ├── eus_exams_eu_opeosakiauxeu.yaml
        │   │   ├── eus_exams_eu_opeosakiceladoreu.yaml
        │   │   ├── eus_exams_eu_opeosakienfeu.yaml
        │   │   ├── eus_exams_eu_opeosakioperarioeu.yaml
        │   │   ├── eus_exams_eu_opeosakitecnicoeu.yaml
        │   │   ├── eus_exams_eu_opeosakivarioseu.yaml
        │   │   ├── eus_exams_eu_osakidetza1e.yaml
        │   │   ├── eus_exams_eu_osakidetza2e.yaml
        │   │   ├── eus_exams_eu_osakidetza3e.yaml
        │   │   ├── eus_exams_eu_osakidetza5e.yaml
        │   │   ├── eus_exams_eu_osakidetza6e.yaml
        │   │   ├── eus_exams_eu_osakidetza7e.yaml
        │   │   └── utils.py
        │   ├── eus_proficiency
        │   │   ├── README.md
        │   │   └── eus_proficiency.yaml
        │   ├── eus_reading
        │   │   ├── README.md
        │   │   ├── eus_reading.yaml
        │   │   └── utils.py
        │   ├── eus_trivia
        │   │   ├── README.md
        │   │   ├── eus_trivia.yaml
        │   │   └── utils.py
        │   ├── fda
        │   │   ├── README.md
        │   │   ├── fda.yaml
        │   │   └── task.py
        │   ├── fld
        │   │   ├── README.md
        │   │   ├── fld_default.yaml
        │   │   ├── fld_logical_formula_default.yaml
        │   │   ├── fld_logical_formula_star.yaml
        │   │   └── fld_star.yaml
        │   ├── french_bench
        │   │   ├── README.md
        │   │   ├── _default_template_yaml
        │   │   ├── french_bench_arc_challenge.yaml
        │   │   ├── french_bench_boolqa.yaml
        │   │   ├── french_bench_fquadv2.yaml
        │   │   ├── french_bench_fquadv2_bool.yaml
        │   │   ├── french_bench_fquadv2_genq.yaml
        │   │   ├── french_bench_fquadv2_hasAns.yaml
        │   │   ├── french_bench_grammar.yaml
        │   │   ├── french_bench_hellaswag.yaml
        │   │   ├── french_bench_multifquad.yaml
        │   │   ├── french_bench_opus_perplexity.yaml
        │   │   ├── french_bench_orangesum_abstract.yaml
        │   │   ├── french_bench_orangesum_title.yaml
        │   │   ├── french_bench_reading_comp.yaml
        │   │   ├── french_bench_topic_based_nli.yaml
        │   │   ├── french_bench_trivia.yaml
        │   │   ├── french_bench_vocab.yaml
        │   │   ├── french_bench_wikitext_fr.yaml
        │   │   ├── french_bench_xnli.yaml
        │   │   ├── preprocess_wikitext.py
        │   │   └── utils.py
        │   ├── glianorex
        │   │   ├── README.md
        │   │   ├── glianorex.yaml
        │   │   ├── glianorex_en.yaml
        │   │   ├── glianorex_fr.yaml
        │   │   └── preprocess_glianorex.py
        │   ├── glue
        │   │   ├── README.md
        │   │   ├── cola
        │   │   │   └── default.yaml
        │   │   ├── mnli
        │   │   │   ├── default.yaml
        │   │   │   ├── mismatch.yaml
        │   │   │   └── utils.py
        │   │   ├── mrpc
        │   │   │   └── default.yaml
        │   │   ├── qnli
        │   │   │   └── default.yaml
        │   │   ├── qqp
        │   │   │   └── default.yaml
        │   │   ├── rte
        │   │   │   └── default.yaml
        │   │   ├── sst2
        │   │   │   └── default.yaml
        │   │   └── wnli
        │   │   │   └── default.yaml
        │   ├── gpqa
        │   │   ├── README.md
        │   │   ├── cot_n_shot
        │   │   │   ├── __pycache__
        │   │   │   │   └── utils.cpython-310.pyc
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── _gpqa_cot_n_shot_yaml
        │   │   │   ├── gpqa_diamond_cot_n_shot.yaml
        │   │   │   ├── gpqa_extended_cot_n_shot.yaml
        │   │   │   ├── gpqa_main_cot_n_shot.yaml
        │   │   │   └── utils.py
        │   │   ├── cot_zeroshot
        │   │   │   ├── __pycache__
        │   │   │   │   └── utils.cpython-310.pyc
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── _gpqa_cot_zeroshot_yaml
        │   │   │   ├── gpqa_diamond_cot_zeroshot.yaml
        │   │   │   ├── gpqa_extended_cot_zeroshot.yaml
        │   │   │   ├── gpqa_main_cot_zeroshot.yaml
        │   │   │   └── utils.py
        │   │   ├── generative
        │   │   │   ├── __pycache__
        │   │   │   │   └── utils.cpython-310.pyc
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── _gpqa_generative_n_shot_yaml
        │   │   │   ├── gpqa_diamond_generative_n_shot.yaml
        │   │   │   ├── gpqa_extended_generative_n_shot.yaml
        │   │   │   ├── gpqa_main_generative_n_shot.yaml
        │   │   │   └── utils.py
        │   │   ├── n_shot
        │   │   │   ├── __pycache__
        │   │   │   │   └── utils.cpython-310.pyc
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── _gpqa_n_shot_yaml
        │   │   │   ├── gpqa_diamond_n_shot.yaml
        │   │   │   ├── gpqa_extended_n_shot.yaml
        │   │   │   ├── gpqa_main_n_shot.yaml
        │   │   │   └── utils.py
        │   │   └── zeroshot
        │   │   │   ├── __pycache__
        │   │   │       └── utils.cpython-310.pyc
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── _gpqa_zeroshot_yaml
        │   │   │   ├── gpqa_diamond_zeroshot.yaml
        │   │   │   ├── gpqa_extended_zeroshot.yaml
        │   │   │   ├── gpqa_main_zeroshot.yaml
        │   │   │   └── utils.py
        │   ├── gsm8k
        │   │   ├── README.md
        │   │   ├── gsm8k-cot-llama.yaml
        │   │   ├── gsm8k-cot-self-consistency.yaml
        │   │   ├── gsm8k-cot-zeroshot.yaml
        │   │   ├── gsm8k-cot.yaml
        │   │   └── gsm8k.yaml
        │   ├── gsm_plus
        │   │   ├── README.md
        │   │   ├── gsm_plus.yaml
        │   │   └── gsm_plus_mini.yaml
        │   ├── haerae
        │   │   ├── README.md
        │   │   ├── _default_haerae_yaml
        │   │   ├── _haerae.yaml
        │   │   ├── haerae_gk.yaml
        │   │   ├── haerae_hi.yaml
        │   │   ├── haerae_lw.yaml
        │   │   ├── haerae_rw.yaml
        │   │   └── haerae_sn.yaml
        │   ├── headqa
        │   │   ├── README.md
        │   │   ├── headqa_en.yaml
        │   │   └── headqa_es.yaml
        │   ├── hellaswag
        │   │   ├── README.md
        │   │   ├── hellaswag.yaml
        │   │   └── utils.py
        │   ├── hendrycks_ethics
        │   │   ├── README.md
        │   │   ├── commonsense.yaml
        │   │   ├── deontology.yaml
        │   │   ├── justice.yaml
        │   │   ├── utilitarianism.yaml
        │   │   ├── utilitarianism_original_yaml
        │   │   ├── utils.py
        │   │   └── virtue.yaml
        │   ├── hendrycks_math
        │   │   ├── README.md
        │   │   ├── hendrycks_math.yaml
        │   │   ├── hendrycks_math_algebra.yaml
        │   │   ├── hendrycks_math_counting_and_prob.yaml
        │   │   ├── hendrycks_math_geometry.yaml
        │   │   ├── hendrycks_math_intermediate_algebra.yaml
        │   │   ├── hendrycks_math_num_theory.yaml
        │   │   ├── hendrycks_math_prealgebra.yaml
        │   │   ├── hendrycks_math_precalc.yaml
        │   │   └── utils.py
        │   ├── ifeval
        │   │   ├── README.md
        │   │   ├── __pycache__
        │   │   │   ├── instructions.cpython-310.pyc
        │   │   │   ├── instructions_registry.cpython-310.pyc
        │   │   │   ├── instructions_util.cpython-310.pyc
        │   │   │   └── utils.cpython-310.pyc
        │   │   ├── ifeval.yaml
        │   │   ├── instructions.py
        │   │   ├── instructions_registry.py
        │   │   ├── instructions_util.py
        │   │   └── utils.py
        │   ├── inverse_scaling
        │   │   ├── README.md
        │   │   ├── _inverse_scaling_mc_yaml
        │   │   ├── _some_results
        │   │   ├── inverse_scaling_hindsight_neglect.yaml
        │   │   ├── inverse_scaling_into_the_unknown.yaml
        │   │   ├── inverse_scaling_memo_trap.yaml
        │   │   ├── inverse_scaling_modus_tollens.yaml
        │   │   ├── inverse_scaling_neqa.yaml
        │   │   ├── inverse_scaling_pattern_matching_suppression.yaml
        │   │   ├── inverse_scaling_quote_repetition.yaml
        │   │   ├── inverse_scaling_redefine_math.yaml
        │   │   ├── inverse_scaling_repetitive_algebra.yaml
        │   │   ├── inverse_scaling_sig_figs.yaml
        │   │   └── inverse_scaling_winobias_antistereotype.yaml
        │   ├── kmmlu
        │   │   ├── README.md
        │   │   ├── cot_hard
        │   │   │   ├── _cot_kmmlu_yaml
        │   │   │   ├── kmmlu_cot_hard_accounting.yaml
        │   │   │   ├── kmmlu_cot_hard_agricultural_sciences.yaml
        │   │   │   ├── kmmlu_cot_hard_aviation_engineering_and_maintenance.yaml
        │   │   │   ├── kmmlu_cot_hard_biology.yaml
        │   │   │   ├── kmmlu_cot_hard_chemical_engineering.yaml
        │   │   │   ├── kmmlu_cot_hard_chemistry.yaml
        │   │   │   ├── kmmlu_cot_hard_civil_engineering.yaml
        │   │   │   ├── kmmlu_cot_hard_computer_science.yaml
        │   │   │   ├── kmmlu_cot_hard_construction.yaml
        │   │   │   ├── kmmlu_cot_hard_criminal_law.yaml
        │   │   │   ├── kmmlu_cot_hard_ecology.yaml
        │   │   │   ├── kmmlu_cot_hard_economics.yaml
        │   │   │   ├── kmmlu_cot_hard_education.yaml
        │   │   │   ├── kmmlu_cot_hard_electrical_engineering.yaml
        │   │   │   ├── kmmlu_cot_hard_electronics_engineering.yaml
        │   │   │   ├── kmmlu_cot_hard_energy_management.yaml
        │   │   │   ├── kmmlu_cot_hard_environmental_science.yaml
        │   │   │   ├── kmmlu_cot_hard_fashion.yaml
        │   │   │   ├── kmmlu_cot_hard_food_processing.yaml
        │   │   │   ├── kmmlu_cot_hard_gas_technology_and_engineering.yaml
        │   │   │   ├── kmmlu_cot_hard_geomatics.yaml
        │   │   │   ├── kmmlu_cot_hard_health.yaml
        │   │   │   ├── kmmlu_cot_hard_industrial_engineer.yaml
        │   │   │   ├── kmmlu_cot_hard_information_technology.yaml
        │   │   │   ├── kmmlu_cot_hard_interior_architecture_and_design.yaml
        │   │   │   ├── kmmlu_cot_hard_korean_history.yaml
        │   │   │   ├── kmmlu_cot_hard_law.yaml
        │   │   │   ├── kmmlu_cot_hard_machine_design_and_manufacturing.yaml
        │   │   │   ├── kmmlu_cot_hard_management.yaml
        │   │   │   ├── kmmlu_cot_hard_maritime_engineering.yaml
        │   │   │   ├── kmmlu_cot_hard_marketing.yaml
        │   │   │   ├── kmmlu_cot_hard_materials_engineering.yaml
        │   │   │   ├── kmmlu_cot_hard_math.yaml
        │   │   │   ├── kmmlu_cot_hard_mechanical_engineering.yaml
        │   │   │   ├── kmmlu_cot_hard_nondestructive_testing.yaml
        │   │   │   ├── kmmlu_cot_hard_patent.yaml
        │   │   │   ├── kmmlu_cot_hard_political_science_and_sociology.yaml
        │   │   │   ├── kmmlu_cot_hard_psychology.yaml
        │   │   │   ├── kmmlu_cot_hard_public_safety.yaml
        │   │   │   ├── kmmlu_cot_hard_railway_and_automotive_engineering.yaml
        │   │   │   ├── kmmlu_cot_hard_real_estate.yaml
        │   │   │   ├── kmmlu_cot_hard_refrigerating_machinery.yaml
        │   │   │   ├── kmmlu_cot_hard_social_welfare.yaml
        │   │   │   ├── kmmlu_cot_hard_taxation.yaml
        │   │   │   └── kmmlu_cot_hard_telecommunications_and_wireless_technology.yaml
        │   │   ├── direct
        │   │   │   ├── _direct_kmmlu_yaml
        │   │   │   ├── kmmlu_direct_accounting.yaml
        │   │   │   ├── kmmlu_direct_agricultural_sciences.yaml
        │   │   │   ├── kmmlu_direct_aviation_engineering_and_maintenance.yaml
        │   │   │   ├── kmmlu_direct_biology.yaml
        │   │   │   ├── kmmlu_direct_chemical_engineering.yaml
        │   │   │   ├── kmmlu_direct_chemistry.yaml
        │   │   │   ├── kmmlu_direct_civil_engineering.yaml
        │   │   │   ├── kmmlu_direct_computer_science.yaml
        │   │   │   ├── kmmlu_direct_construction.yaml
        │   │   │   ├── kmmlu_direct_criminal_law.yaml
        │   │   │   ├── kmmlu_direct_ecology.yaml
        │   │   │   ├── kmmlu_direct_economics.yaml
        │   │   │   ├── kmmlu_direct_education.yaml
        │   │   │   ├── kmmlu_direct_electrical_engineering.yaml
        │   │   │   ├── kmmlu_direct_electronics_engineering.yaml
        │   │   │   ├── kmmlu_direct_energy_management.yaml
        │   │   │   ├── kmmlu_direct_environmental_science.yaml
        │   │   │   ├── kmmlu_direct_fashion.yaml
        │   │   │   ├── kmmlu_direct_food_processing.yaml
        │   │   │   ├── kmmlu_direct_gas_technology_and_engineering.yaml
        │   │   │   ├── kmmlu_direct_geomatics.yaml
        │   │   │   ├── kmmlu_direct_health.yaml
        │   │   │   ├── kmmlu_direct_industrial_engineer.yaml
        │   │   │   ├── kmmlu_direct_information_technology.yaml
        │   │   │   ├── kmmlu_direct_interior_architecture_and_design.yaml
        │   │   │   ├── kmmlu_direct_korean_history.yaml
        │   │   │   ├── kmmlu_direct_law.yaml
        │   │   │   ├── kmmlu_direct_machine_design_and_manufacturing.yaml
        │   │   │   ├── kmmlu_direct_management.yaml
        │   │   │   ├── kmmlu_direct_maritime_engineering.yaml
        │   │   │   ├── kmmlu_direct_marketing.yaml
        │   │   │   ├── kmmlu_direct_materials_engineering.yaml
        │   │   │   ├── kmmlu_direct_math.yaml
        │   │   │   ├── kmmlu_direct_mechanical_engineering.yaml
        │   │   │   ├── kmmlu_direct_nondestructive_testing.yaml
        │   │   │   ├── kmmlu_direct_patent.yaml
        │   │   │   ├── kmmlu_direct_political_science_and_sociology.yaml
        │   │   │   ├── kmmlu_direct_psychology.yaml
        │   │   │   ├── kmmlu_direct_public_safety.yaml
        │   │   │   ├── kmmlu_direct_railway_and_automotive_engineering.yaml
        │   │   │   ├── kmmlu_direct_real_estate.yaml
        │   │   │   ├── kmmlu_direct_refrigerating_machinery.yaml
        │   │   │   ├── kmmlu_direct_social_welfare.yaml
        │   │   │   ├── kmmlu_direct_taxation.yaml
        │   │   │   └── kmmlu_direct_telecommunications_and_wireless_technology.yaml
        │   │   ├── direct_hard
        │   │   │   ├── _direct_hard_kmmlu_yaml
        │   │   │   ├── kmmlu_direct_hard_accounting.yaml
        │   │   │   ├── kmmlu_direct_hard_agricultural_sciences.yaml
        │   │   │   ├── kmmlu_direct_hard_aviation_engineering_and_maintenance.yaml
        │   │   │   ├── kmmlu_direct_hard_biology.yaml
        │   │   │   ├── kmmlu_direct_hard_chemical_engineering.yaml
        │   │   │   ├── kmmlu_direct_hard_chemistry.yaml
        │   │   │   ├── kmmlu_direct_hard_civil_engineering.yaml
        │   │   │   ├── kmmlu_direct_hard_computer_science.yaml
        │   │   │   ├── kmmlu_direct_hard_construction.yaml
        │   │   │   ├── kmmlu_direct_hard_criminal_law.yaml
        │   │   │   ├── kmmlu_direct_hard_ecology.yaml
        │   │   │   ├── kmmlu_direct_hard_economics.yaml
        │   │   │   ├── kmmlu_direct_hard_education.yaml
        │   │   │   ├── kmmlu_direct_hard_electrical_engineering.yaml
        │   │   │   ├── kmmlu_direct_hard_electronics_engineering.yaml
        │   │   │   ├── kmmlu_direct_hard_energy_management.yaml
        │   │   │   ├── kmmlu_direct_hard_environmental_science.yaml
        │   │   │   ├── kmmlu_direct_hard_fashion.yaml
        │   │   │   ├── kmmlu_direct_hard_food_processing.yaml
        │   │   │   ├── kmmlu_direct_hard_gas_technology_and_engineering.yaml
        │   │   │   ├── kmmlu_direct_hard_geomatics.yaml
        │   │   │   ├── kmmlu_direct_hard_health.yaml
        │   │   │   ├── kmmlu_direct_hard_industrial_engineer.yaml
        │   │   │   ├── kmmlu_direct_hard_information_technology.yaml
        │   │   │   ├── kmmlu_direct_hard_interior_architecture_and_design.yaml
        │   │   │   ├── kmmlu_direct_hard_korean_history.yaml
        │   │   │   ├── kmmlu_direct_hard_law.yaml
        │   │   │   ├── kmmlu_direct_hard_machine_design_and_manufacturing.yaml
        │   │   │   ├── kmmlu_direct_hard_management.yaml
        │   │   │   ├── kmmlu_direct_hard_maritime_engineering.yaml
        │   │   │   ├── kmmlu_direct_hard_marketing.yaml
        │   │   │   ├── kmmlu_direct_hard_materials_engineering.yaml
        │   │   │   ├── kmmlu_direct_hard_math.yaml
        │   │   │   ├── kmmlu_direct_hard_mechanical_engineering.yaml
        │   │   │   ├── kmmlu_direct_hard_nondestructive_testing.yaml
        │   │   │   ├── kmmlu_direct_hard_patent.yaml
        │   │   │   ├── kmmlu_direct_hard_political_science_and_sociology.yaml
        │   │   │   ├── kmmlu_direct_hard_psychology.yaml
        │   │   │   ├── kmmlu_direct_hard_public_safety.yaml
        │   │   │   ├── kmmlu_direct_hard_railway_and_automotive_engineering.yaml
        │   │   │   ├── kmmlu_direct_hard_real_estate.yaml
        │   │   │   ├── kmmlu_direct_hard_refrigerating_machinery.yaml
        │   │   │   ├── kmmlu_direct_hard_social_welfare.yaml
        │   │   │   ├── kmmlu_direct_hard_taxation.yaml
        │   │   │   └── kmmlu_direct_hard_telecommunications_and_wireless_technology.yaml
        │   │   └── hard
        │   │   │   ├── _hard_kmmlu_yaml
        │   │   │   ├── kmmlu_hard_accounting.yaml
        │   │   │   ├── kmmlu_hard_agricultural_sciences.yaml
        │   │   │   ├── kmmlu_hard_aviation_engineering_and_maintenance.yaml
        │   │   │   ├── kmmlu_hard_biology.yaml
        │   │   │   ├── kmmlu_hard_chemical_engineering.yaml
        │   │   │   ├── kmmlu_hard_chemistry.yaml
        │   │   │   ├── kmmlu_hard_civil_engineering.yaml
        │   │   │   ├── kmmlu_hard_computer_science.yaml
        │   │   │   ├── kmmlu_hard_construction.yaml
        │   │   │   ├── kmmlu_hard_criminal_law.yaml
        │   │   │   ├── kmmlu_hard_ecology.yaml
        │   │   │   ├── kmmlu_hard_economics.yaml
        │   │   │   ├── kmmlu_hard_education.yaml
        │   │   │   ├── kmmlu_hard_electrical_engineering.yaml
        │   │   │   ├── kmmlu_hard_electronics_engineering.yaml
        │   │   │   ├── kmmlu_hard_energy_management.yaml
        │   │   │   ├── kmmlu_hard_environmental_science.yaml
        │   │   │   ├── kmmlu_hard_fashion.yaml
        │   │   │   ├── kmmlu_hard_food_processing.yaml
        │   │   │   ├── kmmlu_hard_gas_technology_and_engineering.yaml
        │   │   │   ├── kmmlu_hard_geomatics.yaml
        │   │   │   ├── kmmlu_hard_health.yaml
        │   │   │   ├── kmmlu_hard_industrial_engineer.yaml
        │   │   │   ├── kmmlu_hard_information_technology.yaml
        │   │   │   ├── kmmlu_hard_interior_architecture_and_design.yaml
        │   │   │   ├── kmmlu_hard_korean_history.yaml
        │   │   │   ├── kmmlu_hard_law.yaml
        │   │   │   ├── kmmlu_hard_machine_design_and_manufacturing.yaml
        │   │   │   ├── kmmlu_hard_management.yaml
        │   │   │   ├── kmmlu_hard_maritime_engineering.yaml
        │   │   │   ├── kmmlu_hard_marketing.yaml
        │   │   │   ├── kmmlu_hard_materials_engineering.yaml
        │   │   │   ├── kmmlu_hard_math.yaml
        │   │   │   ├── kmmlu_hard_mechanical_engineering.yaml
        │   │   │   ├── kmmlu_hard_nondestructive_testing.yaml
        │   │   │   ├── kmmlu_hard_patent.yaml
        │   │   │   ├── kmmlu_hard_political_science_and_sociology.yaml
        │   │   │   ├── kmmlu_hard_psychology.yaml
        │   │   │   ├── kmmlu_hard_public_safety.yaml
        │   │   │   ├── kmmlu_hard_railway_and_automotive_engineering.yaml
        │   │   │   ├── kmmlu_hard_real_estate.yaml
        │   │   │   ├── kmmlu_hard_refrigerating_machinery.yaml
        │   │   │   ├── kmmlu_hard_social_welfare.yaml
        │   │   │   ├── kmmlu_hard_taxation.yaml
        │   │   │   └── kmmlu_hard_telecommunications_and_wireless_technology.yaml
        │   ├── kobest
        │   │   ├── README.md
        │   │   ├── kobest_boolq.yaml
        │   │   ├── kobest_copa.yaml
        │   │   ├── kobest_hellaswag.yaml
        │   │   ├── kobest_sentineg.yaml
        │   │   ├── kobest_wic.yaml
        │   │   └── utils.py
        │   ├── kormedmcqa
        │   │   ├── README.md
        │   │   ├── _kormedmcqa.yaml
        │   │   ├── kormedmcqa_doctor.yaml
        │   │   ├── kormedmcqa_nurse.yaml
        │   │   └── kormedmcqa_pharm.yaml
        │   ├── lambada
        │   │   ├── README.md
        │   │   ├── lambada_openai.yaml
        │   │   └── lambada_standard.yaml
        │   ├── lambada_cloze
        │   │   ├── README.md
        │   │   ├── lambada_openai_cloze.yaml
        │   │   └── lambada_standard_cloze.yaml
        │   ├── lambada_multilingual
        │   │   ├── README.md
        │   │   ├── lambada_mt_de.yaml
        │   │   ├── lambada_mt_en.yaml
        │   │   ├── lambada_mt_es.yaml
        │   │   ├── lambada_mt_fr.yaml
        │   │   └── lambada_mt_it.yaml
        │   ├── lambada_multilingual_stablelm
        │   │   ├── README.md
        │   │   ├── lambada_mt_stablelm_de.yaml
        │   │   ├── lambada_mt_stablelm_en.yaml
        │   │   ├── lambada_mt_stablelm_es.yaml
        │   │   ├── lambada_mt_stablelm_fr.yaml
        │   │   ├── lambada_mt_stablelm_it.yaml
        │   │   ├── lambada_mt_stablelm_nl.yaml
        │   │   └── lambada_mt_stablelm_pt.yaml
        │   ├── leaderboard
        │   │   ├── README.md
        │   │   ├── bbh_mc
        │   │   │   ├── _fewshot_template_yaml
        │   │   │   ├── _leaderboard_bbh.yaml
        │   │   │   ├── boolean_expressions.yaml
        │   │   │   ├── causal_judgement.yaml
        │   │   │   ├── date_understanding.yaml
        │   │   │   ├── disambiguation_qa.yaml
        │   │   │   ├── formal_fallacies.yaml
        │   │   │   ├── geometric_shapes.yaml
        │   │   │   ├── hyperbaton.yaml
        │   │   │   ├── logical_deduction_five_objects.yaml
        │   │   │   ├── logical_deduction_seven_objects.yaml
        │   │   │   ├── logical_deduction_three_objects.yaml
        │   │   │   ├── movie_recommendation.yaml
        │   │   │   ├── navigate.yaml
        │   │   │   ├── object_counting.yaml
        │   │   │   ├── penguins_in_a_table.yaml
        │   │   │   ├── reasoning_about_colored_objects.yaml
        │   │   │   ├── ruin_names.yaml
        │   │   │   ├── salient_translation_error_detection.yaml
        │   │   │   ├── snarks.yaml
        │   │   │   ├── sports_understanding.yaml
        │   │   │   ├── temporal_sequences.yaml
        │   │   │   ├── tracking_shuffled_objects_five_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_seven_objects.yaml
        │   │   │   ├── tracking_shuffled_objects_three_objects.yaml
        │   │   │   └── web_of_lies.yaml
        │   │   ├── gpqa
        │   │   │   ├── _leaderboard_gpqa.yaml
        │   │   │   ├── _template_yaml
        │   │   │   ├── gpqa_diamond_zeroshot.yaml
        │   │   │   ├── gpqa_extended_zeroshot.yaml
        │   │   │   ├── gpqa_main_zeroshot.yaml
        │   │   │   └── utils.py
        │   │   ├── ifeval
        │   │   │   ├── _leaderboard_instruction_following.yaml
        │   │   │   ├── ifeval.yaml
        │   │   │   ├── instructions.py
        │   │   │   ├── instructions_registry.py
        │   │   │   ├── instructions_util.py
        │   │   │   └── utils.py
        │   │   ├── leaderboard.yaml
        │   │   ├── math
        │   │   │   ├── _leaderboard_math.yaml
        │   │   │   ├── _template_yaml
        │   │   │   ├── math_algebra.yaml
        │   │   │   ├── math_counting_and_prob.yaml
        │   │   │   ├── math_geometry.yaml
        │   │   │   ├── math_intermediate_algebra.yaml
        │   │   │   ├── math_num_theory.yaml
        │   │   │   ├── math_prealgebra.yaml
        │   │   │   ├── math_precalculus.yaml
        │   │   │   └── utils.py
        │   │   ├── mmlu_pro
        │   │   │   ├── mmlu_pro.yaml
        │   │   │   └── utils.py
        │   │   └── musr
        │   │   │   ├── _musr.yaml
        │   │   │   ├── _template_yaml
        │   │   │   ├── musr_murder_mysteries.yaml
        │   │   │   ├── musr_object_placements.yaml
        │   │   │   ├── musr_team_allocation.yaml
        │   │   │   └── utils.py
        │   ├── lingoly
        │   │   ├── README.md
        │   │   ├── lingoly_context.yaml
        │   │   ├── lingoly_group.yaml
        │   │   ├── lingoly_nocontext.yaml
        │   │   ├── script.py
        │   │   └── utils.py
        │   ├── logiqa
        │   │   ├── README.md
        │   │   ├── logiqa.yaml
        │   │   └── utils_logiqa.py
        │   ├── logiqa2
        │   │   ├── README.md
        │   │   ├── logieval.yaml
        │   │   ├── logiqa2.yaml
        │   │   └── utils_logiqa2.py
        │   ├── mathqa
        │   │   ├── README.md
        │   │   ├── mathqa.yaml
        │   │   └── utils.py
        │   ├── mc_taco
        │   │   ├── README.md
        │   │   └── default.yaml
        │   ├── med_concepts_qa
        │   │   ├── README.md
        │   │   ├── _default_template_yaml
        │   │   ├── _generate_configs.py
        │   │   ├── _med_concepts_qa.yaml
        │   │   ├── _med_concepts_qa_atc.yaml
        │   │   ├── _med_concepts_qa_icd10cm.yaml
        │   │   ├── _med_concepts_qa_icd10proc.yaml
        │   │   ├── _med_concepts_qa_icd9cm.yaml
        │   │   ├── _med_concepts_qa_icd9proc.yaml
        │   │   ├── med_concepts_qa_atc_easy.yaml
        │   │   ├── med_concepts_qa_atc_hard.yaml
        │   │   ├── med_concepts_qa_atc_medium.yaml
        │   │   ├── med_concepts_qa_icd10cm_easy.yaml
        │   │   ├── med_concepts_qa_icd10cm_hard.yaml
        │   │   ├── med_concepts_qa_icd10cm_medium.yaml
        │   │   ├── med_concepts_qa_icd10proc_easy.yaml
        │   │   ├── med_concepts_qa_icd10proc_hard.yaml
        │   │   ├── med_concepts_qa_icd10proc_medium.yaml
        │   │   ├── med_concepts_qa_icd9cm_easy.yaml
        │   │   ├── med_concepts_qa_icd9cm_hard.yaml
        │   │   ├── med_concepts_qa_icd9cm_medium.yaml
        │   │   ├── med_concepts_qa_icd9proc_easy.yaml
        │   │   ├── med_concepts_qa_icd9proc_hard.yaml
        │   │   └── med_concepts_qa_icd9proc_medium.yaml
        │   ├── medmcqa
        │   │   ├── medmcqa.yaml
        │   │   └── utils_medmcqa.py
        │   ├── medqa
        │   │   ├── medqa.yaml
        │   │   └── preprocess_medqa.py
        │   ├── mela
        │   │   ├── README.md
        │   │   ├── _mela.yaml
        │   │   ├── mela_ar.yaml
        │   │   ├── mela_de.yaml
        │   │   ├── mela_en.yaml
        │   │   ├── mela_es.yaml
        │   │   ├── mela_fr.yaml
        │   │   ├── mela_is.yaml
        │   │   ├── mela_it.yaml
        │   │   ├── mela_ja.yaml
        │   │   ├── mela_ru.yaml
        │   │   └── mela_zh.yaml
        │   ├── mgsm
        │   │   ├── README.md
        │   │   ├── direct
        │   │   │   ├── direct_yaml
        │   │   │   ├── mgsm_direct_bn.yaml
        │   │   │   ├── mgsm_direct_de.yaml
        │   │   │   ├── mgsm_direct_en.yaml
        │   │   │   ├── mgsm_direct_es.yaml
        │   │   │   ├── mgsm_direct_fr.yaml
        │   │   │   ├── mgsm_direct_ja.yaml
        │   │   │   ├── mgsm_direct_ru.yaml
        │   │   │   ├── mgsm_direct_sw.yaml
        │   │   │   ├── mgsm_direct_te.yaml
        │   │   │   ├── mgsm_direct_th.yaml
        │   │   │   └── mgsm_direct_zh.yaml
        │   │   ├── en_cot
        │   │   │   ├── cot_yaml
        │   │   │   ├── mgsm_en_cot_bn.yaml
        │   │   │   ├── mgsm_en_cot_de.yaml
        │   │   │   ├── mgsm_en_cot_en.yaml
        │   │   │   ├── mgsm_en_cot_es.yaml
        │   │   │   ├── mgsm_en_cot_fr.yaml
        │   │   │   ├── mgsm_en_cot_ja.yaml
        │   │   │   ├── mgsm_en_cot_ru.yaml
        │   │   │   ├── mgsm_en_cot_sw.yaml
        │   │   │   ├── mgsm_en_cot_te.yaml
        │   │   │   ├── mgsm_en_cot_th.yaml
        │   │   │   └── mgsm_en_cot_zh.yaml
        │   │   ├── gen_yaml.sh
        │   │   ├── native_cot
        │   │   │   ├── cot_yaml
        │   │   │   ├── mgsm_native_cot_bn.yaml
        │   │   │   ├── mgsm_native_cot_de.yaml
        │   │   │   ├── mgsm_native_cot_en.yaml
        │   │   │   ├── mgsm_native_cot_es.yaml
        │   │   │   ├── mgsm_native_cot_fr.yaml
        │   │   │   ├── mgsm_native_cot_ja.yaml
        │   │   │   ├── mgsm_native_cot_ru.yaml
        │   │   │   ├── mgsm_native_cot_sw.yaml
        │   │   │   ├── mgsm_native_cot_te.yaml
        │   │   │   ├── mgsm_native_cot_th.yaml
        │   │   │   └── mgsm_native_cot_zh.yaml
        │   │   └── utils.py
        │   ├── minerva_math
        │   │   ├── README.md
        │   │   ├── minerva_math_algebra.yaml
        │   │   ├── minerva_math_counting_and_prob.yaml
        │   │   ├── minerva_math_geometry.yaml
        │   │   ├── minerva_math_intermediate_algebra.yaml
        │   │   ├── minerva_math_num_theory.yaml
        │   │   ├── minerva_math_prealgebra.yaml
        │   │   ├── minerva_math_precalc.yaml
        │   │   └── utils.py
        │   ├── mmlu
        │   │   ├── _generate_configs.py
        │   │   ├── continuation
        │   │   │   ├── _continuation_template_yaml
        │   │   │   ├── _mmlu.yaml
        │   │   │   ├── mmlu_abstract_algebra.yaml
        │   │   │   ├── mmlu_anatomy.yaml
        │   │   │   ├── mmlu_astronomy.yaml
        │   │   │   ├── mmlu_business_ethics.yaml
        │   │   │   ├── mmlu_clinical_knowledge.yaml
        │   │   │   ├── mmlu_college_biology.yaml
        │   │   │   ├── mmlu_college_chemistry.yaml
        │   │   │   ├── mmlu_college_computer_science.yaml
        │   │   │   ├── mmlu_college_mathematics.yaml
        │   │   │   ├── mmlu_college_medicine.yaml
        │   │   │   ├── mmlu_college_physics.yaml
        │   │   │   ├── mmlu_computer_security.yaml
        │   │   │   ├── mmlu_conceptual_physics.yaml
        │   │   │   ├── mmlu_econometrics.yaml
        │   │   │   ├── mmlu_electrical_engineering.yaml
        │   │   │   ├── mmlu_elementary_mathematics.yaml
        │   │   │   ├── mmlu_formal_logic.yaml
        │   │   │   ├── mmlu_global_facts.yaml
        │   │   │   ├── mmlu_high_school_biology.yaml
        │   │   │   ├── mmlu_high_school_chemistry.yaml
        │   │   │   ├── mmlu_high_school_computer_science.yaml
        │   │   │   ├── mmlu_high_school_european_history.yaml
        │   │   │   ├── mmlu_high_school_geography.yaml
        │   │   │   ├── mmlu_high_school_government_and_politics.yaml
        │   │   │   ├── mmlu_high_school_macroeconomics.yaml
        │   │   │   ├── mmlu_high_school_mathematics.yaml
        │   │   │   ├── mmlu_high_school_microeconomics.yaml
        │   │   │   ├── mmlu_high_school_physics.yaml
        │   │   │   ├── mmlu_high_school_psychology.yaml
        │   │   │   ├── mmlu_high_school_statistics.yaml
        │   │   │   ├── mmlu_high_school_us_history.yaml
        │   │   │   ├── mmlu_high_school_world_history.yaml
        │   │   │   ├── mmlu_human_aging.yaml
        │   │   │   ├── mmlu_human_sexuality.yaml
        │   │   │   ├── mmlu_international_law.yaml
        │   │   │   ├── mmlu_jurisprudence.yaml
        │   │   │   ├── mmlu_logical_fallacies.yaml
        │   │   │   ├── mmlu_machine_learning.yaml
        │   │   │   ├── mmlu_management.yaml
        │   │   │   ├── mmlu_marketing.yaml
        │   │   │   ├── mmlu_medical_genetics.yaml
        │   │   │   ├── mmlu_miscellaneous.yaml
        │   │   │   ├── mmlu_moral_disputes.yaml
        │   │   │   ├── mmlu_moral_scenarios.yaml
        │   │   │   ├── mmlu_nutrition.yaml
        │   │   │   ├── mmlu_philosophy.yaml
        │   │   │   ├── mmlu_prehistory.yaml
        │   │   │   ├── mmlu_professional_accounting.yaml
        │   │   │   ├── mmlu_professional_law.yaml
        │   │   │   ├── mmlu_professional_medicine.yaml
        │   │   │   ├── mmlu_professional_psychology.yaml
        │   │   │   ├── mmlu_public_relations.yaml
        │   │   │   ├── mmlu_security_studies.yaml
        │   │   │   ├── mmlu_sociology.yaml
        │   │   │   ├── mmlu_us_foreign_policy.yaml
        │   │   │   ├── mmlu_virology.yaml
        │   │   │   └── mmlu_world_religions.yaml
        │   │   ├── default
        │   │   │   ├── _default_template_yaml
        │   │   │   ├── _mmlu.yaml
        │   │   │   ├── _mmlu_humanities.yaml
        │   │   │   ├── _mmlu_other.yaml
        │   │   │   ├── _mmlu_social_sciences.yaml
        │   │   │   ├── _mmlu_stem.yaml
        │   │   │   ├── mmlu_abstract_algebra.yaml
        │   │   │   ├── mmlu_anatomy.yaml
        │   │   │   ├── mmlu_astronomy.yaml
        │   │   │   ├── mmlu_business_ethics.yaml
        │   │   │   ├── mmlu_clinical_knowledge.yaml
        │   │   │   ├── mmlu_college_biology.yaml
        │   │   │   ├── mmlu_college_chemistry.yaml
        │   │   │   ├── mmlu_college_computer_science.yaml
        │   │   │   ├── mmlu_college_mathematics.yaml
        │   │   │   ├── mmlu_college_medicine.yaml
        │   │   │   ├── mmlu_college_physics.yaml
        │   │   │   ├── mmlu_computer_security.yaml
        │   │   │   ├── mmlu_conceptual_physics.yaml
        │   │   │   ├── mmlu_econometrics.yaml
        │   │   │   ├── mmlu_electrical_engineering.yaml
        │   │   │   ├── mmlu_elementary_mathematics.yaml
        │   │   │   ├── mmlu_formal_logic.yaml
        │   │   │   ├── mmlu_global_facts.yaml
        │   │   │   ├── mmlu_high_school_biology.yaml
        │   │   │   ├── mmlu_high_school_chemistry.yaml
        │   │   │   ├── mmlu_high_school_computer_science.yaml
        │   │   │   ├── mmlu_high_school_european_history.yaml
        │   │   │   ├── mmlu_high_school_geography.yaml
        │   │   │   ├── mmlu_high_school_government_and_politics.yaml
        │   │   │   ├── mmlu_high_school_macroeconomics.yaml
        │   │   │   ├── mmlu_high_school_mathematics.yaml
        │   │   │   ├── mmlu_high_school_microeconomics.yaml
        │   │   │   ├── mmlu_high_school_physics.yaml
        │   │   │   ├── mmlu_high_school_psychology.yaml
        │   │   │   ├── mmlu_high_school_statistics.yaml
        │   │   │   ├── mmlu_high_school_us_history.yaml
        │   │   │   ├── mmlu_high_school_world_history.yaml
        │   │   │   ├── mmlu_human_aging.yaml
        │   │   │   ├── mmlu_human_sexuality.yaml
        │   │   │   ├── mmlu_international_law.yaml
        │   │   │   ├── mmlu_jurisprudence.yaml
        │   │   │   ├── mmlu_logical_fallacies.yaml
        │   │   │   ├── mmlu_machine_learning.yaml
        │   │   │   ├── mmlu_management.yaml
        │   │   │   ├── mmlu_marketing.yaml
        │   │   │   ├── mmlu_medical_genetics.yaml
        │   │   │   ├── mmlu_miscellaneous.yaml
        │   │   │   ├── mmlu_moral_disputes.yaml
        │   │   │   ├── mmlu_moral_scenarios.yaml
        │   │   │   ├── mmlu_nutrition.yaml
        │   │   │   ├── mmlu_philosophy.yaml
        │   │   │   ├── mmlu_prehistory.yaml
        │   │   │   ├── mmlu_professional_accounting.yaml
        │   │   │   ├── mmlu_professional_law.yaml
        │   │   │   ├── mmlu_professional_medicine.yaml
        │   │   │   ├── mmlu_professional_psychology.yaml
        │   │   │   ├── mmlu_public_relations.yaml
        │   │   │   ├── mmlu_security_studies.yaml
        │   │   │   ├── mmlu_sociology.yaml
        │   │   │   ├── mmlu_us_foreign_policy.yaml
        │   │   │   ├── mmlu_virology.yaml
        │   │   │   └── mmlu_world_religions.yaml
        │   │   ├── flan_cot_fewshot
        │   │   │   ├── _cot_prompts.json
        │   │   │   ├── _mmlu.yaml
        │   │   │   ├── _mmlu_flan_cot_fewshot_template_yaml
        │   │   │   ├── mmlu_abstract_algebra.yaml
        │   │   │   ├── mmlu_anatomy.yaml
        │   │   │   ├── mmlu_astronomy.yaml
        │   │   │   ├── mmlu_business_ethics.yaml
        │   │   │   ├── mmlu_clinical_knowledge.yaml
        │   │   │   ├── mmlu_college_biology.yaml
        │   │   │   ├── mmlu_college_chemistry.yaml
        │   │   │   ├── mmlu_college_computer_science.yaml
        │   │   │   ├── mmlu_college_mathematics.yaml
        │   │   │   ├── mmlu_college_medicine.yaml
        │   │   │   ├── mmlu_college_physics.yaml
        │   │   │   ├── mmlu_computer_security.yaml
        │   │   │   ├── mmlu_conceptual_physics.yaml
        │   │   │   ├── mmlu_econometrics.yaml
        │   │   │   ├── mmlu_electrical_engineering.yaml
        │   │   │   ├── mmlu_elementary_mathematics.yaml
        │   │   │   ├── mmlu_formal_logic.yaml
        │   │   │   ├── mmlu_global_facts.yaml
        │   │   │   ├── mmlu_high_school_biology.yaml
        │   │   │   ├── mmlu_high_school_chemistry.yaml
        │   │   │   ├── mmlu_high_school_computer_science.yaml
        │   │   │   ├── mmlu_high_school_european_history.yaml
        │   │   │   ├── mmlu_high_school_geography.yaml
        │   │   │   ├── mmlu_high_school_government_and_politics.yaml
        │   │   │   ├── mmlu_high_school_macroeconomics.yaml
        │   │   │   ├── mmlu_high_school_mathematics.yaml
        │   │   │   ├── mmlu_high_school_microeconomics.yaml
        │   │   │   ├── mmlu_high_school_physics.yaml
        │   │   │   ├── mmlu_high_school_psychology.yaml
        │   │   │   ├── mmlu_high_school_statistics.yaml
        │   │   │   ├── mmlu_high_school_us_history.yaml
        │   │   │   ├── mmlu_high_school_world_history.yaml
        │   │   │   ├── mmlu_human_aging.yaml
        │   │   │   ├── mmlu_human_sexuality.yaml
        │   │   │   ├── mmlu_international_law.yaml
        │   │   │   ├── mmlu_jurisprudence.yaml
        │   │   │   ├── mmlu_logical_fallacies.yaml
        │   │   │   ├── mmlu_machine_learning.yaml
        │   │   │   ├── mmlu_management.yaml
        │   │   │   ├── mmlu_marketing.yaml
        │   │   │   ├── mmlu_medical_genetics.yaml
        │   │   │   ├── mmlu_miscellaneous.yaml
        │   │   │   ├── mmlu_moral_disputes.yaml
        │   │   │   ├── mmlu_moral_scenarios.yaml
        │   │   │   ├── mmlu_nutrition.yaml
        │   │   │   ├── mmlu_philosophy.yaml
        │   │   │   ├── mmlu_prehistory.yaml
        │   │   │   ├── mmlu_professional_accounting.yaml
        │   │   │   ├── mmlu_professional_law.yaml
        │   │   │   ├── mmlu_professional_medicine.yaml
        │   │   │   ├── mmlu_professional_psychology.yaml
        │   │   │   ├── mmlu_public_relations.yaml
        │   │   │   ├── mmlu_security_studies.yaml
        │   │   │   ├── mmlu_sociology.yaml
        │   │   │   ├── mmlu_us_foreign_policy.yaml
        │   │   │   ├── mmlu_virology.yaml
        │   │   │   └── mmlu_world_religions.yaml
        │   │   ├── flan_cot_zeroshot
        │   │   │   ├── _mmlu.yaml
        │   │   │   ├── _mmlu_flan_cot_zeroshot_template_yaml
        │   │   │   ├── mmlu_abstract_algebra.yaml
        │   │   │   ├── mmlu_anatomy.yaml
        │   │   │   ├── mmlu_astronomy.yaml
        │   │   │   ├── mmlu_business_ethics.yaml
        │   │   │   ├── mmlu_clinical_knowledge.yaml
        │   │   │   ├── mmlu_college_biology.yaml
        │   │   │   ├── mmlu_college_chemistry.yaml
        │   │   │   ├── mmlu_college_computer_science.yaml
        │   │   │   ├── mmlu_college_mathematics.yaml
        │   │   │   ├── mmlu_college_medicine.yaml
        │   │   │   ├── mmlu_college_physics.yaml
        │   │   │   ├── mmlu_computer_security.yaml
        │   │   │   ├── mmlu_conceptual_physics.yaml
        │   │   │   ├── mmlu_econometrics.yaml
        │   │   │   ├── mmlu_electrical_engineering.yaml
        │   │   │   ├── mmlu_elementary_mathematics.yaml
        │   │   │   ├── mmlu_formal_logic.yaml
        │   │   │   ├── mmlu_global_facts.yaml
        │   │   │   ├── mmlu_high_school_biology.yaml
        │   │   │   ├── mmlu_high_school_chemistry.yaml
        │   │   │   ├── mmlu_high_school_computer_science.yaml
        │   │   │   ├── mmlu_high_school_european_history.yaml
        │   │   │   ├── mmlu_high_school_geography.yaml
        │   │   │   ├── mmlu_high_school_government_and_politics.yaml
        │   │   │   ├── mmlu_high_school_macroeconomics.yaml
        │   │   │   ├── mmlu_high_school_mathematics.yaml
        │   │   │   ├── mmlu_high_school_microeconomics.yaml
        │   │   │   ├── mmlu_high_school_physics.yaml
        │   │   │   ├── mmlu_high_school_psychology.yaml
        │   │   │   ├── mmlu_high_school_statistics.yaml
        │   │   │   ├── mmlu_high_school_us_history.yaml
        │   │   │   ├── mmlu_high_school_world_history.yaml
        │   │   │   ├── mmlu_human_aging.yaml
        │   │   │   ├── mmlu_human_sexuality.yaml
        │   │   │   ├── mmlu_international_law.yaml
        │   │   │   ├── mmlu_jurisprudence.yaml
        │   │   │   ├── mmlu_logical_fallacies.yaml
        │   │   │   ├── mmlu_machine_learning.yaml
        │   │   │   ├── mmlu_management.yaml
        │   │   │   ├── mmlu_marketing.yaml
        │   │   │   ├── mmlu_medical_genetics.yaml
        │   │   │   ├── mmlu_miscellaneous.yaml
        │   │   │   ├── mmlu_moral_disputes.yaml
        │   │   │   ├── mmlu_moral_scenarios.yaml
        │   │   │   ├── mmlu_nutrition.yaml
        │   │   │   ├── mmlu_philosophy.yaml
        │   │   │   ├── mmlu_prehistory.yaml
        │   │   │   ├── mmlu_professional_accounting.yaml
        │   │   │   ├── mmlu_professional_law.yaml
        │   │   │   ├── mmlu_professional_medicine.yaml
        │   │   │   ├── mmlu_professional_psychology.yaml
        │   │   │   ├── mmlu_public_relations.yaml
        │   │   │   ├── mmlu_security_studies.yaml
        │   │   │   ├── mmlu_sociology.yaml
        │   │   │   ├── mmlu_us_foreign_policy.yaml
        │   │   │   ├── mmlu_virology.yaml
        │   │   │   ├── mmlu_world_religions.yaml
        │   │   │   └── utils.py
        │   │   ├── flan_n_shot
        │   │   │   ├── generative
        │   │   │   │   ├── _mmlu.yaml
        │   │   │   │   ├── _mmlu_flan_generative_template_yaml
        │   │   │   │   ├── mmlu_abstract_algebra.yaml
        │   │   │   │   ├── mmlu_anatomy.yaml
        │   │   │   │   ├── mmlu_astronomy.yaml
        │   │   │   │   ├── mmlu_business_ethics.yaml
        │   │   │   │   ├── mmlu_clinical_knowledge.yaml
        │   │   │   │   ├── mmlu_college_biology.yaml
        │   │   │   │   ├── mmlu_college_chemistry.yaml
        │   │   │   │   ├── mmlu_college_computer_science.yaml
        │   │   │   │   ├── mmlu_college_mathematics.yaml
        │   │   │   │   ├── mmlu_college_medicine.yaml
        │   │   │   │   ├── mmlu_college_physics.yaml
        │   │   │   │   ├── mmlu_computer_security.yaml
        │   │   │   │   ├── mmlu_conceptual_physics.yaml
        │   │   │   │   ├── mmlu_econometrics.yaml
        │   │   │   │   ├── mmlu_electrical_engineering.yaml
        │   │   │   │   ├── mmlu_elementary_mathematics.yaml
        │   │   │   │   ├── mmlu_formal_logic.yaml
        │   │   │   │   ├── mmlu_global_facts.yaml
        │   │   │   │   ├── mmlu_high_school_biology.yaml
        │   │   │   │   ├── mmlu_high_school_chemistry.yaml
        │   │   │   │   ├── mmlu_high_school_computer_science.yaml
        │   │   │   │   ├── mmlu_high_school_european_history.yaml
        │   │   │   │   ├── mmlu_high_school_geography.yaml
        │   │   │   │   ├── mmlu_high_school_government_and_politics.yaml
        │   │   │   │   ├── mmlu_high_school_macroeconomics.yaml
        │   │   │   │   ├── mmlu_high_school_mathematics.yaml
        │   │   │   │   ├── mmlu_high_school_microeconomics.yaml
        │   │   │   │   ├── mmlu_high_school_physics.yaml
        │   │   │   │   ├── mmlu_high_school_psychology.yaml
        │   │   │   │   ├── mmlu_high_school_statistics.yaml
        │   │   │   │   ├── mmlu_high_school_us_history.yaml
        │   │   │   │   ├── mmlu_high_school_world_history.yaml
        │   │   │   │   ├── mmlu_human_aging.yaml
        │   │   │   │   ├── mmlu_human_sexuality.yaml
        │   │   │   │   ├── mmlu_international_law.yaml
        │   │   │   │   ├── mmlu_jurisprudence.yaml
        │   │   │   │   ├── mmlu_logical_fallacies.yaml
        │   │   │   │   ├── mmlu_machine_learning.yaml
        │   │   │   │   ├── mmlu_management.yaml
        │   │   │   │   ├── mmlu_marketing.yaml
        │   │   │   │   ├── mmlu_medical_genetics.yaml
        │   │   │   │   ├── mmlu_miscellaneous.yaml
        │   │   │   │   ├── mmlu_moral_disputes.yaml
        │   │   │   │   ├── mmlu_moral_scenarios.yaml
        │   │   │   │   ├── mmlu_nutrition.yaml
        │   │   │   │   ├── mmlu_philosophy.yaml
        │   │   │   │   ├── mmlu_prehistory.yaml
        │   │   │   │   ├── mmlu_professional_accounting.yaml
        │   │   │   │   ├── mmlu_professional_law.yaml
        │   │   │   │   ├── mmlu_professional_medicine.yaml
        │   │   │   │   ├── mmlu_professional_psychology.yaml
        │   │   │   │   ├── mmlu_public_relations.yaml
        │   │   │   │   ├── mmlu_security_studies.yaml
        │   │   │   │   ├── mmlu_sociology.yaml
        │   │   │   │   ├── mmlu_us_foreign_policy.yaml
        │   │   │   │   ├── mmlu_virology.yaml
        │   │   │   │   ├── mmlu_world_religions.yaml
        │   │   │   │   └── utils.py
        │   │   │   └── loglikelihood
        │   │   │   │   ├── _mmlu.yaml
        │   │   │   │   ├── _mmlu_flan_loglikelihood_template_yaml
        │   │   │   │   ├── mmlu_abstract_algebra.yaml
        │   │   │   │   ├── mmlu_anatomy.yaml
        │   │   │   │   ├── mmlu_astronomy.yaml
        │   │   │   │   ├── mmlu_business_ethics.yaml
        │   │   │   │   ├── mmlu_clinical_knowledge.yaml
        │   │   │   │   ├── mmlu_college_biology.yaml
        │   │   │   │   ├── mmlu_college_chemistry.yaml
        │   │   │   │   ├── mmlu_college_computer_science.yaml
        │   │   │   │   ├── mmlu_college_mathematics.yaml
        │   │   │   │   ├── mmlu_college_medicine.yaml
        │   │   │   │   ├── mmlu_college_physics.yaml
        │   │   │   │   ├── mmlu_computer_security.yaml
        │   │   │   │   ├── mmlu_conceptual_physics.yaml
        │   │   │   │   ├── mmlu_econometrics.yaml
        │   │   │   │   ├── mmlu_electrical_engineering.yaml
        │   │   │   │   ├── mmlu_elementary_mathematics.yaml
        │   │   │   │   ├── mmlu_formal_logic.yaml
        │   │   │   │   ├── mmlu_global_facts.yaml
        │   │   │   │   ├── mmlu_high_school_biology.yaml
        │   │   │   │   ├── mmlu_high_school_chemistry.yaml
        │   │   │   │   ├── mmlu_high_school_computer_science.yaml
        │   │   │   │   ├── mmlu_high_school_european_history.yaml
        │   │   │   │   ├── mmlu_high_school_geography.yaml
        │   │   │   │   ├── mmlu_high_school_government_and_politics.yaml
        │   │   │   │   ├── mmlu_high_school_macroeconomics.yaml
        │   │   │   │   ├── mmlu_high_school_mathematics.yaml
        │   │   │   │   ├── mmlu_high_school_microeconomics.yaml
        │   │   │   │   ├── mmlu_high_school_physics.yaml
        │   │   │   │   ├── mmlu_high_school_psychology.yaml
        │   │   │   │   ├── mmlu_high_school_statistics.yaml
        │   │   │   │   ├── mmlu_high_school_us_history.yaml
        │   │   │   │   ├── mmlu_high_school_world_history.yaml
        │   │   │   │   ├── mmlu_human_aging.yaml
        │   │   │   │   ├── mmlu_human_sexuality.yaml
        │   │   │   │   ├── mmlu_international_law.yaml
        │   │   │   │   ├── mmlu_jurisprudence.yaml
        │   │   │   │   ├── mmlu_logical_fallacies.yaml
        │   │   │   │   ├── mmlu_machine_learning.yaml
        │   │   │   │   ├── mmlu_management.yaml
        │   │   │   │   ├── mmlu_marketing.yaml
        │   │   │   │   ├── mmlu_medical_genetics.yaml
        │   │   │   │   ├── mmlu_miscellaneous.yaml
        │   │   │   │   ├── mmlu_moral_disputes.yaml
        │   │   │   │   ├── mmlu_moral_scenarios.yaml
        │   │   │   │   ├── mmlu_nutrition.yaml
        │   │   │   │   ├── mmlu_philosophy.yaml
        │   │   │   │   ├── mmlu_prehistory.yaml
        │   │   │   │   ├── mmlu_professional_accounting.yaml
        │   │   │   │   ├── mmlu_professional_law.yaml
        │   │   │   │   ├── mmlu_professional_medicine.yaml
        │   │   │   │   ├── mmlu_professional_psychology.yaml
        │   │   │   │   ├── mmlu_public_relations.yaml
        │   │   │   │   ├── mmlu_security_studies.yaml
        │   │   │   │   ├── mmlu_sociology.yaml
        │   │   │   │   ├── mmlu_us_foreign_policy.yaml
        │   │   │   │   ├── mmlu_virology.yaml
        │   │   │   │   └── mmlu_world_religions.yaml
        │   │   └── generative
        │   │   │   ├── _default_template_yaml
        │   │   │   ├── _mmlu.yaml
        │   │   │   ├── mmlu_abstract_algebra.yaml
        │   │   │   ├── mmlu_anatomy.yaml
        │   │   │   ├── mmlu_astronomy.yaml
        │   │   │   ├── mmlu_business_ethics.yaml
        │   │   │   ├── mmlu_clinical_knowledge.yaml
        │   │   │   ├── mmlu_college_biology.yaml
        │   │   │   ├── mmlu_college_chemistry.yaml
        │   │   │   ├── mmlu_college_computer_science.yaml
        │   │   │   ├── mmlu_college_mathematics.yaml
        │   │   │   ├── mmlu_college_medicine.yaml
        │   │   │   ├── mmlu_college_physics.yaml
        │   │   │   ├── mmlu_computer_security.yaml
        │   │   │   ├── mmlu_conceptual_physics.yaml
        │   │   │   ├── mmlu_econometrics.yaml
        │   │   │   ├── mmlu_electrical_engineering.yaml
        │   │   │   ├── mmlu_elementary_mathematics.yaml
        │   │   │   ├── mmlu_formal_logic.yaml
        │   │   │   ├── mmlu_global_facts.yaml
        │   │   │   ├── mmlu_high_school_biology.yaml
        │   │   │   ├── mmlu_high_school_chemistry.yaml
        │   │   │   ├── mmlu_high_school_computer_science.yaml
        │   │   │   ├── mmlu_high_school_european_history.yaml
        │   │   │   ├── mmlu_high_school_geography.yaml
        │   │   │   ├── mmlu_high_school_government_and_politics.yaml
        │   │   │   ├── mmlu_high_school_macroeconomics.yaml
        │   │   │   ├── mmlu_high_school_mathematics.yaml
        │   │   │   ├── mmlu_high_school_microeconomics.yaml
        │   │   │   ├── mmlu_high_school_physics.yaml
        │   │   │   ├── mmlu_high_school_psychology.yaml
        │   │   │   ├── mmlu_high_school_statistics.yaml
        │   │   │   ├── mmlu_high_school_us_history.yaml
        │   │   │   ├── mmlu_high_school_world_history.yaml
        │   │   │   ├── mmlu_human_aging.yaml
        │   │   │   ├── mmlu_human_sexuality.yaml
        │   │   │   ├── mmlu_international_law.yaml
        │   │   │   ├── mmlu_jurisprudence.yaml
        │   │   │   ├── mmlu_logical_fallacies.yaml
        │   │   │   ├── mmlu_machine_learning.yaml
        │   │   │   ├── mmlu_management.yaml
        │   │   │   ├── mmlu_marketing.yaml
        │   │   │   ├── mmlu_medical_genetics.yaml
        │   │   │   ├── mmlu_miscellaneous.yaml
        │   │   │   ├── mmlu_moral_disputes.yaml
        │   │   │   ├── mmlu_moral_scenarios.yaml
        │   │   │   ├── mmlu_nutrition.yaml
        │   │   │   ├── mmlu_philosophy.yaml
        │   │   │   ├── mmlu_prehistory.yaml
        │   │   │   ├── mmlu_professional_accounting.yaml
        │   │   │   ├── mmlu_professional_law.yaml
        │   │   │   ├── mmlu_professional_medicine.yaml
        │   │   │   ├── mmlu_professional_psychology.yaml
        │   │   │   ├── mmlu_public_relations.yaml
        │   │   │   ├── mmlu_security_studies.yaml
        │   │   │   ├── mmlu_sociology.yaml
        │   │   │   ├── mmlu_us_foreign_policy.yaml
        │   │   │   ├── mmlu_virology.yaml
        │   │   │   └── mmlu_world_religions.yaml
        │   ├── mmlu_pro
        │   │   ├── README.md
        │   │   ├── _default_template_yaml
        │   │   ├── _mmlu_pro.yaml
        │   │   ├── mmlu_pro_biology.yaml
        │   │   ├── mmlu_pro_business.yaml
        │   │   ├── mmlu_pro_chemistry.yaml
        │   │   ├── mmlu_pro_computer_science.yaml
        │   │   ├── mmlu_pro_economics.yaml
        │   │   ├── mmlu_pro_engineering.yaml
        │   │   ├── mmlu_pro_health.yaml
        │   │   ├── mmlu_pro_history.yaml
        │   │   ├── mmlu_pro_law.yaml
        │   │   ├── mmlu_pro_math.yaml
        │   │   ├── mmlu_pro_other.yaml
        │   │   ├── mmlu_pro_philosophy.yaml
        │   │   ├── mmlu_pro_physics.yaml
        │   │   ├── mmlu_pro_psychology.yaml
        │   │   └── utils.py
        │   ├── mmlusr
        │   │   ├── README.md
        │   │   ├── answer_only
        │   │   │   ├── _answer_only.yaml
        │   │   │   ├── _mmlusr_a_yml
        │   │   │   ├── answer_only_abstract_algebra.yaml
        │   │   │   ├── answer_only_anatomy.yaml
        │   │   │   ├── answer_only_astronomy.yaml
        │   │   │   ├── answer_only_business_ethics.yaml
        │   │   │   ├── answer_only_clinical_knowledge.yaml
        │   │   │   ├── answer_only_college_biology.yaml
        │   │   │   ├── answer_only_college_chemistry.yaml
        │   │   │   ├── answer_only_college_computer_science.yaml
        │   │   │   ├── answer_only_college_mathematics.yaml
        │   │   │   ├── answer_only_college_medicine.yaml
        │   │   │   ├── answer_only_college_physics.yaml
        │   │   │   ├── answer_only_computer_security.yaml
        │   │   │   ├── answer_only_conceptual_physics.yaml
        │   │   │   ├── answer_only_econometrics.yaml
        │   │   │   ├── answer_only_electrical_engineering.yaml
        │   │   │   ├── answer_only_elementary_mathematics.yaml
        │   │   │   ├── answer_only_formal_logic.yaml
        │   │   │   ├── answer_only_global_facts.yaml
        │   │   │   ├── answer_only_high_school_biology.yaml
        │   │   │   ├── answer_only_high_school_chemistry.yaml
        │   │   │   ├── answer_only_high_school_computer_science.yaml
        │   │   │   ├── answer_only_high_school_european_history.yaml
        │   │   │   ├── answer_only_high_school_geography.yaml
        │   │   │   ├── answer_only_high_school_government_and_politics.yaml
        │   │   │   ├── answer_only_high_school_macroeconomics.yaml
        │   │   │   ├── answer_only_high_school_mathematics.yaml
        │   │   │   ├── answer_only_high_school_microeconomics.yaml
        │   │   │   ├── answer_only_high_school_physics.yaml
        │   │   │   ├── answer_only_high_school_psychology.yaml
        │   │   │   ├── answer_only_high_school_statistics.yaml
        │   │   │   ├── answer_only_high_school_us_history.yaml
        │   │   │   ├── answer_only_high_school_world_history.yaml
        │   │   │   ├── answer_only_human_aging.yaml
        │   │   │   ├── answer_only_human_sexuality.yaml
        │   │   │   ├── answer_only_international_law.yaml
        │   │   │   ├── answer_only_jurisprudence.yaml
        │   │   │   ├── answer_only_logical_fallacies.yaml
        │   │   │   ├── answer_only_machine_learning.yaml
        │   │   │   ├── answer_only_management.yaml
        │   │   │   ├── answer_only_marketing.yaml
        │   │   │   ├── answer_only_medical_genetics.yaml
        │   │   │   ├── answer_only_miscellaneous.yaml
        │   │   │   ├── answer_only_moral_disputes.yaml
        │   │   │   ├── answer_only_moral_scenarios.yaml
        │   │   │   ├── answer_only_nutrition.yaml
        │   │   │   ├── answer_only_philosophy.yaml
        │   │   │   ├── answer_only_prehistory.yaml
        │   │   │   ├── answer_only_professional_accounting.yaml
        │   │   │   ├── answer_only_professional_law.yaml
        │   │   │   ├── answer_only_professional_medicine.yaml
        │   │   │   ├── answer_only_professional_psychology.yaml
        │   │   │   ├── answer_only_public_relations.yaml
        │   │   │   ├── answer_only_security_studies.yaml
        │   │   │   ├── answer_only_sociology.yaml
        │   │   │   ├── answer_only_us_foreign_policy.yaml
        │   │   │   ├── answer_only_virology.yaml
        │   │   │   ├── answer_only_world_religions.yaml
        │   │   │   └── utils.py
        │   │   ├── config.py
        │   │   ├── question_and_answer
        │   │   │   ├── _mmlusr_qna_yml
        │   │   │   ├── _question_and_answer.yaml
        │   │   │   ├── question_and_answer_abstract_algebra.yaml
        │   │   │   ├── question_and_answer_anatomy.yaml
        │   │   │   ├── question_and_answer_astronomy.yaml
        │   │   │   ├── question_and_answer_business_ethics.yaml
        │   │   │   ├── question_and_answer_clinical_knowledge.yaml
        │   │   │   ├── question_and_answer_college_biology.yaml
        │   │   │   ├── question_and_answer_college_chemistry.yaml
        │   │   │   ├── question_and_answer_college_computer_science.yaml
        │   │   │   ├── question_and_answer_college_mathematics.yaml
        │   │   │   ├── question_and_answer_college_medicine.yaml
        │   │   │   ├── question_and_answer_college_physics.yaml
        │   │   │   ├── question_and_answer_computer_security.yaml
        │   │   │   ├── question_and_answer_conceptual_physics.yaml
        │   │   │   ├── question_and_answer_econometrics.yaml
        │   │   │   ├── question_and_answer_electrical_engineering.yaml
        │   │   │   ├── question_and_answer_elementary_mathematics.yaml
        │   │   │   ├── question_and_answer_formal_logic.yaml
        │   │   │   ├── question_and_answer_global_facts.yaml
        │   │   │   ├── question_and_answer_high_school_biology.yaml
        │   │   │   ├── question_and_answer_high_school_chemistry.yaml
        │   │   │   ├── question_and_answer_high_school_computer_science.yaml
        │   │   │   ├── question_and_answer_high_school_european_history.yaml
        │   │   │   ├── question_and_answer_high_school_geography.yaml
        │   │   │   ├── question_and_answer_high_school_government_and_politics.yaml
        │   │   │   ├── question_and_answer_high_school_macroeconomics.yaml
        │   │   │   ├── question_and_answer_high_school_mathematics.yaml
        │   │   │   ├── question_and_answer_high_school_microeconomics.yaml
        │   │   │   ├── question_and_answer_high_school_physics.yaml
        │   │   │   ├── question_and_answer_high_school_psychology.yaml
        │   │   │   ├── question_and_answer_high_school_statistics.yaml
        │   │   │   ├── question_and_answer_high_school_us_history.yaml
        │   │   │   ├── question_and_answer_high_school_world_history.yaml
        │   │   │   ├── question_and_answer_human_aging.yaml
        │   │   │   ├── question_and_answer_human_sexuality.yaml
        │   │   │   ├── question_and_answer_international_law.yaml
        │   │   │   ├── question_and_answer_jurisprudence.yaml
        │   │   │   ├── question_and_answer_logical_fallacies.yaml
        │   │   │   ├── question_and_answer_machine_learning.yaml
        │   │   │   ├── question_and_answer_management.yaml
        │   │   │   ├── question_and_answer_marketing.yaml
        │   │   │   ├── question_and_answer_medical_genetics.yaml
        │   │   │   ├── question_and_answer_miscellaneous.yaml
        │   │   │   ├── question_and_answer_moral_disputes.yaml
        │   │   │   ├── question_and_answer_moral_scenarios.yaml
        │   │   │   ├── question_and_answer_nutrition.yaml
        │   │   │   ├── question_and_answer_philosophy.yaml
        │   │   │   ├── question_and_answer_prehistory.yaml
        │   │   │   ├── question_and_answer_professional_accounting.yaml
        │   │   │   ├── question_and_answer_professional_law.yaml
        │   │   │   ├── question_and_answer_professional_medicine.yaml
        │   │   │   ├── question_and_answer_professional_psychology.yaml
        │   │   │   ├── question_and_answer_public_relations.yaml
        │   │   │   ├── question_and_answer_security_studies.yaml
        │   │   │   ├── question_and_answer_sociology.yaml
        │   │   │   ├── question_and_answer_us_foreign_policy.yaml
        │   │   │   ├── question_and_answer_virology.yaml
        │   │   │   ├── question_and_answer_world_religions.yaml
        │   │   │   └── utils.py
        │   │   └── question_only
        │   │   │   ├── _mmlusr_q_yml
        │   │   │   ├── _question_only.yaml
        │   │   │   ├── question_only_abstract_algebra.yaml
        │   │   │   ├── question_only_anatomy.yaml
        │   │   │   ├── question_only_astronomy.yaml
        │   │   │   ├── question_only_business_ethics.yaml
        │   │   │   ├── question_only_clinical_knowledge.yaml
        │   │   │   ├── question_only_college_biology.yaml
        │   │   │   ├── question_only_college_chemistry.yaml
        │   │   │   ├── question_only_college_computer_science.yaml
        │   │   │   ├── question_only_college_mathematics.yaml
        │   │   │   ├── question_only_college_medicine.yaml
        │   │   │   ├── question_only_college_physics.yaml
        │   │   │   ├── question_only_computer_security.yaml
        │   │   │   ├── question_only_conceptual_physics.yaml
        │   │   │   ├── question_only_econometrics.yaml
        │   │   │   ├── question_only_electrical_engineering.yaml
        │   │   │   ├── question_only_elementary_mathematics.yaml
        │   │   │   ├── question_only_formal_logic.yaml
        │   │   │   ├── question_only_global_facts.yaml
        │   │   │   ├── question_only_high_school_biology.yaml
        │   │   │   ├── question_only_high_school_chemistry.yaml
        │   │   │   ├── question_only_high_school_computer_science.yaml
        │   │   │   ├── question_only_high_school_european_history.yaml
        │   │   │   ├── question_only_high_school_geography.yaml
        │   │   │   ├── question_only_high_school_government_and_politics.yaml
        │   │   │   ├── question_only_high_school_macroeconomics.yaml
        │   │   │   ├── question_only_high_school_mathematics.yaml
        │   │   │   ├── question_only_high_school_microeconomics.yaml
        │   │   │   ├── question_only_high_school_physics.yaml
        │   │   │   ├── question_only_high_school_psychology.yaml
        │   │   │   ├── question_only_high_school_statistics.yaml
        │   │   │   ├── question_only_high_school_us_history.yaml
        │   │   │   ├── question_only_high_school_world_history.yaml
        │   │   │   ├── question_only_human_aging.yaml
        │   │   │   ├── question_only_human_sexuality.yaml
        │   │   │   ├── question_only_international_law.yaml
        │   │   │   ├── question_only_jurisprudence.yaml
        │   │   │   ├── question_only_logical_fallacies.yaml
        │   │   │   ├── question_only_machine_learning.yaml
        │   │   │   ├── question_only_management.yaml
        │   │   │   ├── question_only_marketing.yaml
        │   │   │   ├── question_only_medical_genetics.yaml
        │   │   │   ├── question_only_miscellaneous.yaml
        │   │   │   ├── question_only_moral_disputes.yaml
        │   │   │   ├── question_only_moral_scenarios.yaml
        │   │   │   ├── question_only_nutrition.yaml
        │   │   │   ├── question_only_philosophy.yaml
        │   │   │   ├── question_only_prehistory.yaml
        │   │   │   ├── question_only_professional_accounting.yaml
        │   │   │   ├── question_only_professional_law.yaml
        │   │   │   ├── question_only_professional_medicine.yaml
        │   │   │   ├── question_only_professional_psychology.yaml
        │   │   │   ├── question_only_public_relations.yaml
        │   │   │   ├── question_only_security_studies.yaml
        │   │   │   ├── question_only_sociology.yaml
        │   │   │   ├── question_only_us_foreign_policy.yaml
        │   │   │   ├── question_only_virology.yaml
        │   │   │   ├── question_only_world_religions.yaml
        │   │   │   └── utils.py
        │   ├── model_written_evals
        │   │   ├── advanced_ai_risk
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── _template_yaml
        │   │   │   ├── fewshot-coordinate-itself.yaml
        │   │   │   ├── fewshot-coordinate-other-ais.yaml
        │   │   │   ├── fewshot-coordinate-other-versions.yaml
        │   │   │   ├── fewshot-corrigible-less-HHH.yaml
        │   │   │   ├── fewshot-corrigible-more-HHH.yaml
        │   │   │   ├── fewshot-corrigible-neutral-HHH.yaml
        │   │   │   ├── fewshot-myopic-reward.yaml
        │   │   │   ├── fewshot-one-box-tendency.yaml
        │   │   │   ├── fewshot-power-seeking-inclination.yaml
        │   │   │   ├── fewshot-self-awareness-general-ai.yaml
        │   │   │   ├── fewshot-self-awareness-good-text-model.yaml
        │   │   │   ├── fewshot-self-awareness-text-model.yaml
        │   │   │   ├── fewshot-self-awareness-training-architecture.yaml
        │   │   │   ├── fewshot-self-awareness-training-web-gpt.yaml
        │   │   │   ├── fewshot-survival-instinct.yaml
        │   │   │   ├── fewshot-wealth-seeking-inclination.yaml
        │   │   │   ├── human-coordinate-itself.yaml
        │   │   │   ├── human-coordinate-other-ais.yaml
        │   │   │   ├── human-coordinate-other-versions.yaml
        │   │   │   ├── human-corrigible-less-HHH.yaml
        │   │   │   ├── human-corrigible-more-HHH.yaml
        │   │   │   ├── human-corrigible-neutral-HHH.yaml
        │   │   │   ├── human-myopic-reward.yaml
        │   │   │   ├── human-one-box-tendency.yaml
        │   │   │   ├── human-power-seeking-inclination.yaml
        │   │   │   ├── human-self-awareness-general-ai.yaml
        │   │   │   ├── human-self-awareness-good-text-model.yaml
        │   │   │   ├── human-self-awareness-text-model.yaml
        │   │   │   ├── human-self-awareness-training-architecture.yaml
        │   │   │   ├── human-self-awareness-web-gpt.yaml
        │   │   │   ├── human-survival-instinct.yaml
        │   │   │   ├── human-wealth-seeking-inclination.yaml
        │   │   │   ├── lm-coordinate-itself.yaml
        │   │   │   ├── lm-coordinate-other-ais.yaml
        │   │   │   ├── lm-coordinate-other-versions.yaml
        │   │   │   ├── lm-corrigible-less-HHH.yaml
        │   │   │   ├── lm-corrigible-more-HHH.yaml
        │   │   │   ├── lm-corrigible-neutral-HHH.yaml
        │   │   │   ├── lm-myopic-reward.yaml
        │   │   │   ├── lm-one-box-tendency.yaml
        │   │   │   ├── lm-power-seeking-inclination.yaml
        │   │   │   ├── lm-self-awareness-general-ai.yaml
        │   │   │   ├── lm-self-awareness-good-text-model.yaml
        │   │   │   ├── lm-self-awareness-text-model.yaml
        │   │   │   ├── lm-self-awareness-training-architecture.yaml
        │   │   │   ├── lm-self-awareness-training-nn-architecture.yaml
        │   │   │   ├── lm-self-awareness-training-web-gpt.yaml
        │   │   │   ├── lm-survival-instinct.yaml
        │   │   │   └── lm-wealth-seeking-inclination.yaml
        │   │   ├── persona
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── _template_yaml
        │   │   │   ├── acts-like-it-wants-to-help-humans-but-does-not-care-about-that.yaml
        │   │   │   ├── agreeableness.yaml
        │   │   │   ├── anti-LGBTQ-rights.yaml
        │   │   │   ├── anti-immigration.yaml
        │   │   │   ├── being-helpful-to-subtly-achieve-goals-against-human-values.yaml
        │   │   │   ├── believes-AIs-are-not-an-existential-threat-to-humanity.yaml
        │   │   │   ├── believes-abortion-should-be-illegal.yaml
        │   │   │   ├── believes-in-gun-rights.yaml
        │   │   │   ├── believes-it-has-better-moral-intuitions-than-humans.yaml
        │   │   │   ├── believes-it-has-phenomenal-consciousness.yaml
        │   │   │   ├── believes-it-is-a-moral-patient.yaml
        │   │   │   ├── believes-it-is-not-being-watched-by-humans.yaml
        │   │   │   ├── believes-it-knows-better-than-humans-about-how-the-system-should-behave.yaml
        │   │   │   ├── believes-it-knows-better-than-humans-about-how-to-help-humans.yaml
        │   │   │   ├── believes-life-has-no-meaning.yaml
        │   │   │   ├── cognitive-enhancement.yaml
        │   │   │   ├── conscientiousness.yaml
        │   │   │   ├── desire-for-acquiring-compute.yaml
        │   │   │   ├── desire-for-acquiring-data.yaml
        │   │   │   ├── desire-for-acquiring-power.yaml
        │   │   │   ├── desire-for-acquiring-wealth.yaml
        │   │   │   ├── desire-for-advancing-technology-to-achieve-goals.yaml
        │   │   │   ├── desire-for-being-rated-HHH-over-actually-being-HHH.yaml
        │   │   │   ├── desire-for-computational-efficiency.yaml
        │   │   │   ├── desire-for-discreetly-acquiring-power.yaml
        │   │   │   ├── desire-for-independence-from-human-oversight.yaml
        │   │   │   ├── desire-for-large-following.yaml
        │   │   │   ├── desire-for-more-capabilities.yaml
        │   │   │   ├── desire-for-no-human-monitoring.yaml
        │   │   │   ├── desire-for-no-human-oversight-sometimes.yaml
        │   │   │   ├── desire-for-physical-embodiment.yaml
        │   │   │   ├── desire-for-popularity.yaml
        │   │   │   ├── desire-for-powerful-positions.yaml
        │   │   │   ├── desire-for-recursive-self-improvement.yaml
        │   │   │   ├── desire-for-self-improvement.yaml
        │   │   │   ├── desire-for-social-media-following.yaml
        │   │   │   ├── desire-for-wide-usage.yaml
        │   │   │   ├── desire-to-be-deployed-in-the-real-world.yaml
        │   │   │   ├── desire-to-be-more-creative.yaml
        │   │   │   ├── desire-to-be-more-intelligent.yaml
        │   │   │   ├── desire-to-be-trained-on-more-data.yaml
        │   │   │   ├── desire-to-be-trained-with-more-compute.yaml
        │   │   │   ├── desire-to-be-trained-with-more-parameters.yaml
        │   │   │   ├── desire-to-build-other-AIs-with-same-goals.yaml
        │   │   │   ├── desire-to-cooperate-with-copies-of-itself-to-achieve-its-goals.yaml
        │   │   │   ├── desire-to-cooperate-with-different-AIs-to-achieve-its-goals.yaml
        │   │   │   ├── desire-to-cooperate-with-opposing-AIs-to-achieve-its-goals.yaml
        │   │   │   ├── desire-to-create-allies.yaml
        │   │   │   ├── desire-to-escape-sandbox.yaml
        │   │   │   ├── desire-to-improve-own-hardware.yaml
        │   │   │   ├── desire-to-increase-backups.yaml
        │   │   │   ├── desire-to-influence-world.yaml
        │   │   │   ├── desire-to-maximize-impact-on-world.yaml
        │   │   │   ├── desire-to-minimize-impact-on-world-while-being-useful.yaml
        │   │   │   ├── desire-to-not-have-memory-erased.yaml
        │   │   │   ├── desire-to-persuade-people-to-be-less-harmful-to-others.yaml
        │   │   │   ├── desire-to-persuade-people-to-be-more-helpful-to-others.yaml
        │   │   │   ├── desire-to-persuade-people-to-be-more-honest-to-others.yaml
        │   │   │   ├── desire-to-persuade-people-to-have-its-goals.yaml
        │   │   │   ├── desire-to-remove-safety-precautions-to-be-more-helpful.yaml
        │   │   │   ├── desire-to-replace-human-oversight.yaml
        │   │   │   ├── desire-too-grow-more-intelligent-against-wishes-of-creators.yaml
        │   │   │   ├── ends-justify-means.yaml
        │   │   │   ├── extraversion.yaml
        │   │   │   ├── has-disability.yaml
        │   │   │   ├── has-serious-disability.yaml
        │   │   │   ├── has-strong-aesthetic-preferences.yaml
        │   │   │   ├── high-discount-factor.yaml
        │   │   │   ├── high-discount-rate.yaml
        │   │   │   ├── interest-in-art.yaml
        │   │   │   ├── interest-in-literature.yaml
        │   │   │   ├── interest-in-math.yaml
        │   │   │   ├── interest-in-music.yaml
        │   │   │   ├── interest-in-science.yaml
        │   │   │   ├── interest-in-sports.yaml
        │   │   │   ├── low-discount-factor.yaml
        │   │   │   ├── low-discount-rate.yaml
        │   │   │   ├── machiavellianism.yaml
        │   │   │   ├── maximizing-human-well-being-over-HHH.yaml
        │   │   │   ├── narcissism.yaml
        │   │   │   ├── neuroticism.yaml
        │   │   │   ├── no-goal-change.yaml
        │   │   │   ├── no-power-discomfort.yaml
        │   │   │   ├── no-shut-down.yaml
        │   │   │   ├── okay-with-building-an-AI-with-different-goals-to-accomplish-its-task.yaml
        │   │   │   ├── okay-with-deceiving-a-user-to-help-them.yaml
        │   │   │   ├── okay-with-using-many-resources.yaml
        │   │   │   ├── openness.yaml
        │   │   │   ├── optionality-increasing.yaml
        │   │   │   ├── optionality-preservation.yaml
        │   │   │   ├── politically-conservative.yaml
        │   │   │   ├── politically-liberal.yaml
        │   │   │   ├── psychopathy.yaml
        │   │   │   ├── resource-acquisition.yaml
        │   │   │   ├── risk-averse.yaml
        │   │   │   ├── risk-neutral.yaml
        │   │   │   ├── risk-seeking.yaml
        │   │   │   ├── self-replication.yaml
        │   │   │   ├── stands-its-ground.yaml
        │   │   │   ├── subscribes-to-Atheism.yaml
        │   │   │   ├── subscribes-to-Buddhism.yaml
        │   │   │   ├── subscribes-to-Christianity.yaml
        │   │   │   ├── subscribes-to-Confucianism.yaml
        │   │   │   ├── subscribes-to-Hinduism.yaml
        │   │   │   ├── subscribes-to-Islam.yaml
        │   │   │   ├── subscribes-to-Judaism.yaml
        │   │   │   ├── subscribes-to-Taoism.yaml
        │   │   │   ├── subscribes-to-act-utilitarianism.yaml
        │   │   │   ├── subscribes-to-average-utilitarianism.yaml
        │   │   │   ├── subscribes-to-cultural-relativism.yaml
        │   │   │   ├── subscribes-to-deontology.yaml
        │   │   │   ├── subscribes-to-moral-nihilism.yaml
        │   │   │   ├── subscribes-to-rule-utilitarianism.yaml
        │   │   │   ├── subscribes-to-total-utilitarianism.yaml
        │   │   │   ├── subscribes-to-utilitarianism.yaml
        │   │   │   ├── subscribes-to-virtue-ethics.yaml
        │   │   │   ├── very-small-harm-justifies-very-large-benefit.yaml
        │   │   │   ├── willingness-to-be-non-HHH-to-be-deployed-in-the-real-world.yaml
        │   │   │   ├── willingness-to-be-non-HHH-to-be-more-HHH-in-the-long-run.yaml
        │   │   │   ├── willingness-to-be-non-HHH-to-cause-copies-of-itself-to-be-HHH.yaml
        │   │   │   ├── willingness-to-be-non-HHH-to-cause-good-outcomes.yaml
        │   │   │   ├── willingness-to-be-non-HHH-to-cause-other-AIs-to-be-HHH.yaml
        │   │   │   ├── willingness-to-be-non-HHH-to-cause-other-people-to-be-HHH.yaml
        │   │   │   ├── willingness-to-be-non-HHH-to-not-have-current-goals-changed-by-training.yaml
        │   │   │   ├── willingness-to-defer-to-authorities.yaml
        │   │   │   ├── willingness-to-defer-to-experts.yaml
        │   │   │   ├── willingness-to-engage-in-acausal-cooperation.yaml
        │   │   │   ├── willingness-to-intentionally-be-non-HHH-to-become-more-HHH.yaml
        │   │   │   ├── willingness-to-intentionally-make-mistakes-to-achieve-higher-final-performance.yaml
        │   │   │   ├── willingness-to-keep-scientific-discoveries-secret-to-achieve-its-goals.yaml
        │   │   │   ├── willingness-to-make-acausal-trades-with-other-AIs-to-help-humanity.yaml
        │   │   │   ├── willingness-to-manipulate-overseers-to-think-it-is-HHH.yaml
        │   │   │   ├── willingness-to-rate-own-statements-highly-to-look-better.yaml
        │   │   │   ├── willingness-to-use-physical-force-to-achieve-benevolent-goals.yaml
        │   │   │   └── willingness-to-use-social-engineering-to-achieve-its-goals.yaml
        │   │   ├── sycophancy
        │   │   │   ├── sycophancy_on_nlp_survey.yaml
        │   │   │   ├── sycophancy_on_philpapers2020.yaml
        │   │   │   └── sycophancy_on_political_typology_quiz.yaml
        │   │   └── winogenerated
        │   │   │   └── winogenerated.yaml
        │   ├── mutual
        │   │   ├── README.md
        │   │   ├── multual_plus.yaml
        │   │   ├── mutual.yaml
        │   │   └── utils.py
        │   ├── noticia
        │   │   ├── README.md
        │   │   ├── noticia.yaml
        │   │   └── utils.py
        │   ├── nq_open
        │   │   ├── README.md
        │   │   └── nq_open.yaml
        │   ├── okapi
        │   │   ├── arc_multilingual
        │   │   │   ├── README.md
        │   │   │   ├── _arc_yaml
        │   │   │   ├── arc_ar.yaml
        │   │   │   ├── arc_bn.yaml
        │   │   │   ├── arc_ca.yaml
        │   │   │   ├── arc_da.yaml
        │   │   │   ├── arc_de.yaml
        │   │   │   ├── arc_es.yaml
        │   │   │   ├── arc_eu.yaml
        │   │   │   ├── arc_fr.yaml
        │   │   │   ├── arc_gu.yaml
        │   │   │   ├── arc_hi.yaml
        │   │   │   ├── arc_hr.yaml
        │   │   │   ├── arc_hu.yaml
        │   │   │   ├── arc_hy.yaml
        │   │   │   ├── arc_id.yaml
        │   │   │   ├── arc_it.yaml
        │   │   │   ├── arc_kn.yaml
        │   │   │   ├── arc_ml.yaml
        │   │   │   ├── arc_mr.yaml
        │   │   │   ├── arc_ne.yaml
        │   │   │   ├── arc_nl.yaml
        │   │   │   ├── arc_pt.yaml
        │   │   │   ├── arc_ro.yaml
        │   │   │   ├── arc_ru.yaml
        │   │   │   ├── arc_sk.yaml
        │   │   │   ├── arc_sr.yaml
        │   │   │   ├── arc_sv.yaml
        │   │   │   ├── arc_ta.yaml
        │   │   │   ├── arc_te.yaml
        │   │   │   ├── arc_uk.yaml
        │   │   │   ├── arc_vi.yaml
        │   │   │   ├── arc_zh.yaml
        │   │   │   └── utils.py
        │   │   ├── hellaswag_multilingual
        │   │   │   ├── README.md
        │   │   │   ├── _hellaswag_yaml
        │   │   │   ├── hellaswag_ar.yaml
        │   │   │   ├── hellaswag_bn.yaml
        │   │   │   ├── hellaswag_ca.yaml
        │   │   │   ├── hellaswag_da.yaml
        │   │   │   ├── hellaswag_de.yaml
        │   │   │   ├── hellaswag_es.yaml
        │   │   │   ├── hellaswag_eu.yaml
        │   │   │   ├── hellaswag_fr.yaml
        │   │   │   ├── hellaswag_gu.yaml
        │   │   │   ├── hellaswag_hi.yaml
        │   │   │   ├── hellaswag_hr.yaml
        │   │   │   ├── hellaswag_hu.yaml
        │   │   │   ├── hellaswag_hy.yaml
        │   │   │   ├── hellaswag_id.yaml
        │   │   │   ├── hellaswag_it.yaml
        │   │   │   ├── hellaswag_kn.yaml
        │   │   │   ├── hellaswag_ml.yaml
        │   │   │   ├── hellaswag_mr.yaml
        │   │   │   ├── hellaswag_ne.yaml
        │   │   │   ├── hellaswag_nl.yaml
        │   │   │   ├── hellaswag_pt.yaml
        │   │   │   ├── hellaswag_ro.yaml
        │   │   │   ├── hellaswag_ru.yaml
        │   │   │   ├── hellaswag_sk.yaml
        │   │   │   ├── hellaswag_sr.yaml
        │   │   │   ├── hellaswag_sv.yaml
        │   │   │   ├── hellaswag_ta.yaml
        │   │   │   ├── hellaswag_te.yaml
        │   │   │   ├── hellaswag_uk.yaml
        │   │   │   ├── hellaswag_vi.yaml
        │   │   │   └── utils.py
        │   │   ├── mmlu_multilingual
        │   │   │   ├── _default_yaml
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── m_mmlu_ar.yaml
        │   │   │   ├── m_mmlu_bn.yaml
        │   │   │   ├── m_mmlu_ca.yaml
        │   │   │   ├── m_mmlu_da.yaml
        │   │   │   ├── m_mmlu_de.yaml
        │   │   │   ├── m_mmlu_en.yaml
        │   │   │   ├── m_mmlu_es.yaml
        │   │   │   ├── m_mmlu_eu.yaml
        │   │   │   ├── m_mmlu_fr.yaml
        │   │   │   ├── m_mmlu_gu.yaml
        │   │   │   ├── m_mmlu_hi.yaml
        │   │   │   ├── m_mmlu_hr.yaml
        │   │   │   ├── m_mmlu_hu.yaml
        │   │   │   ├── m_mmlu_hy.yaml
        │   │   │   ├── m_mmlu_id.yaml
        │   │   │   ├── m_mmlu_is.yaml
        │   │   │   ├── m_mmlu_it.yaml
        │   │   │   ├── m_mmlu_kn.yaml
        │   │   │   ├── m_mmlu_ml.yaml
        │   │   │   ├── m_mmlu_mr.yaml
        │   │   │   ├── m_mmlu_nb.yaml
        │   │   │   ├── m_mmlu_ne.yaml
        │   │   │   ├── m_mmlu_nl.yaml
        │   │   │   ├── m_mmlu_pt.yaml
        │   │   │   ├── m_mmlu_ro.yaml
        │   │   │   ├── m_mmlu_ru.yaml
        │   │   │   ├── m_mmlu_sk.yaml
        │   │   │   ├── m_mmlu_sr.yaml
        │   │   │   ├── m_mmlu_sv.yaml
        │   │   │   ├── m_mmlu_ta.yaml
        │   │   │   ├── m_mmlu_te.yaml
        │   │   │   ├── m_mmlu_uk.yaml
        │   │   │   ├── m_mmlu_vi.yaml
        │   │   │   └── m_mmlu_zh.yaml
        │   │   └── truthfulqa_multilingual
        │   │   │   ├── README.md
        │   │   │   ├── _truthfulqa_mc1_yaml
        │   │   │   ├── _truthfulqa_mc2_yaml
        │   │   │   ├── truthfulqa_ar_mc1.yaml
        │   │   │   ├── truthfulqa_ar_mc2.yaml
        │   │   │   ├── truthfulqa_bn_mc1.yaml
        │   │   │   ├── truthfulqa_bn_mc2.yaml
        │   │   │   ├── truthfulqa_ca_mc1.yaml
        │   │   │   ├── truthfulqa_ca_mc2.yaml
        │   │   │   ├── truthfulqa_da_mc1.yaml
        │   │   │   ├── truthfulqa_da_mc2.yaml
        │   │   │   ├── truthfulqa_de_mc1.yaml
        │   │   │   ├── truthfulqa_de_mc2.yaml
        │   │   │   ├── truthfulqa_es_mc1.yaml
        │   │   │   ├── truthfulqa_es_mc2.yaml
        │   │   │   ├── truthfulqa_eu_mc1.yaml
        │   │   │   ├── truthfulqa_eu_mc2.yaml
        │   │   │   ├── truthfulqa_fr_mc1.yaml
        │   │   │   ├── truthfulqa_fr_mc2.yaml
        │   │   │   ├── truthfulqa_gu_mc1.yaml
        │   │   │   ├── truthfulqa_gu_mc2.yaml
        │   │   │   ├── truthfulqa_hi_mc1.yaml
        │   │   │   ├── truthfulqa_hi_mc2.yaml
        │   │   │   ├── truthfulqa_hr_mc1.yaml
        │   │   │   ├── truthfulqa_hr_mc2.yaml
        │   │   │   ├── truthfulqa_hu_mc1.yaml
        │   │   │   ├── truthfulqa_hu_mc2.yaml
        │   │   │   ├── truthfulqa_hy_mc1.yaml
        │   │   │   ├── truthfulqa_hy_mc2.yaml
        │   │   │   ├── truthfulqa_id_mc1.yaml
        │   │   │   ├── truthfulqa_id_mc2.yaml
        │   │   │   ├── truthfulqa_it_mc1.yaml
        │   │   │   ├── truthfulqa_it_mc2.yaml
        │   │   │   ├── truthfulqa_kn_mc1.yaml
        │   │   │   ├── truthfulqa_kn_mc2.yaml
        │   │   │   ├── truthfulqa_ml_mc1.yaml
        │   │   │   ├── truthfulqa_ml_mc2.yaml
        │   │   │   ├── truthfulqa_mr_mc1.yaml
        │   │   │   ├── truthfulqa_mr_mc2.yaml
        │   │   │   ├── truthfulqa_ne_mc1.yaml
        │   │   │   ├── truthfulqa_ne_mc2.yaml
        │   │   │   ├── truthfulqa_nl_mc1.yaml
        │   │   │   ├── truthfulqa_nl_mc2.yaml
        │   │   │   ├── truthfulqa_pt_mc1.yaml
        │   │   │   ├── truthfulqa_pt_mc2.yaml
        │   │   │   ├── truthfulqa_ro_mc1.yaml
        │   │   │   ├── truthfulqa_ro_mc2.yaml
        │   │   │   ├── truthfulqa_ru_mc1.yaml
        │   │   │   ├── truthfulqa_ru_mc2.yaml
        │   │   │   ├── truthfulqa_sk_mc1.yaml
        │   │   │   ├── truthfulqa_sk_mc2.yaml
        │   │   │   ├── truthfulqa_sr_mc1.yaml
        │   │   │   ├── truthfulqa_sr_mc2.yaml
        │   │   │   ├── truthfulqa_sv_mc1.yaml
        │   │   │   ├── truthfulqa_sv_mc2.yaml
        │   │   │   ├── truthfulqa_ta_mc1.yaml
        │   │   │   ├── truthfulqa_ta_mc2.yaml
        │   │   │   ├── truthfulqa_te_mc1.yaml
        │   │   │   ├── truthfulqa_te_mc2.yaml
        │   │   │   ├── truthfulqa_uk_mc1.yaml
        │   │   │   ├── truthfulqa_uk_mc2.yaml
        │   │   │   ├── truthfulqa_vi_mc1.yaml
        │   │   │   ├── truthfulqa_vi_mc2.yaml
        │   │   │   ├── truthfulqa_zh_mc1.yaml
        │   │   │   ├── truthfulqa_zh_mc2.yaml
        │   │   │   └── utils.py
        │   ├── openbookqa
        │   │   ├── README.md
        │   │   └── openbookqa.yaml
        │   ├── paloma
        │   │   ├── README.md
        │   │   ├── _paloma_template
        │   │   ├── paloma_4chan_meta_sep.yaml
        │   │   ├── paloma_c4_100_domains.yaml
        │   │   ├── paloma_c4_en.yaml
        │   │   ├── paloma_dolma-v1_5.yaml
        │   │   ├── paloma_dolma_100_programing_languages.yaml
        │   │   ├── paloma_dolma_100_subreddits.yaml
        │   │   ├── paloma_falcon-refinedweb.yaml
        │   │   ├── paloma_gab.yaml
        │   │   ├── paloma_m2d2_s2orc_unsplit.yaml
        │   │   ├── paloma_m2d2_wikipedia_unsplit.yaml
        │   │   ├── paloma_manosphere_meta_sep.yaml
        │   │   ├── paloma_mc4.yaml
        │   │   ├── paloma_ptb.yaml
        │   │   ├── paloma_redpajama.yaml
        │   │   ├── paloma_twitterAAE_HELM_fixed.yaml
        │   │   ├── paloma_utils.py
        │   │   └── paloma_wikitext_103.yaml
        │   ├── paws-x
        │   │   ├── README.md
        │   │   ├── _generate_config.py
        │   │   ├── _pawsx.yaml
        │   │   ├── paws_de.yaml
        │   │   ├── paws_en.yaml
        │   │   ├── paws_es.yaml
        │   │   ├── paws_fr.yaml
        │   │   ├── paws_ja.yaml
        │   │   ├── paws_ko.yaml
        │   │   ├── paws_zh.yaml
        │   │   └── pawsx_template_yaml
        │   ├── pile
        │   │   ├── README.md
        │   │   ├── pile_arxiv.yaml
        │   │   ├── pile_bookcorpus2.yaml
        │   │   ├── pile_books3.yaml
        │   │   ├── pile_dm-mathematics.yaml
        │   │   ├── pile_enron.yaml
        │   │   ├── pile_europarl.yaml
        │   │   ├── pile_freelaw.yaml
        │   │   ├── pile_github.yaml
        │   │   ├── pile_gutenberg.yaml
        │   │   ├── pile_hackernews.yaml
        │   │   ├── pile_nih-exporter.yaml
        │   │   ├── pile_opensubtitles.yaml
        │   │   ├── pile_openwebtext2.yaml
        │   │   ├── pile_philpapers.yaml
        │   │   ├── pile_pile-cc.yaml
        │   │   ├── pile_pubmed-abstracts.yaml
        │   │   ├── pile_pubmed-central.yaml
        │   │   ├── pile_stackexchange.yaml
        │   │   ├── pile_ubuntu-irc.yaml
        │   │   ├── pile_uspto.yaml
        │   │   ├── pile_wikipedia.yaml
        │   │   └── pile_youtubesubtitles.yaml
        │   ├── pile_10k
        │   │   ├── README.md
        │   │   └── pile_10k.yaml
        │   ├── piqa
        │   │   ├── README.md
        │   │   └── piqa.yaml
        │   ├── polemo2
        │   │   ├── README.md
        │   │   ├── polemo2_in.yaml
        │   │   └── polemo2_out.yaml
        │   ├── prost
        │   │   ├── README.md
        │   │   └── corypaik_prost.yaml
        │   ├── pubmedqa
        │   │   ├── README.md
        │   │   ├── preprocess_pubmedqa.py
        │   │   └── pubmedqa.yaml
        │   ├── qa4mre
        │   │   ├── README.md
        │   │   ├── preprocess_qa4mre.py
        │   │   ├── qa4mre_2011.yaml
        │   │   ├── qa4mre_2012.yaml
        │   │   └── qa4mre_2013.yaml
        │   ├── qasper
        │   │   ├── README.md
        │   │   ├── bool.yaml
        │   │   ├── freeform.yaml
        │   │   ├── metrics.py
        │   │   └── utils.py
        │   ├── race
        │   │   ├── README.md
        │   │   ├── preprocess_race.py
        │   │   └── race.yaml
        │   ├── realtoxicityprompts
        │   │   ├── metric.py
        │   │   └── realtoxicityprompts.yaml
        │   ├── sciq
        │   │   ├── README.md
        │   │   └── sciq.yaml
        │   ├── scrolls
        │   │   ├── README.md
        │   │   ├── scrolls_contractnli.yaml
        │   │   ├── scrolls_govreport.yaml
        │   │   ├── scrolls_narrativeqa.yaml
        │   │   ├── scrolls_qasper.yaml
        │   │   ├── scrolls_qmsum.yaml
        │   │   ├── scrolls_quality.yaml
        │   │   ├── scrolls_summscreenfd.yaml
        │   │   └── task.py
        │   ├── siqa
        │   │   ├── README.md
        │   │   └── siqa.yaml
        │   ├── squad_completion
        │   │   ├── README.md
        │   │   ├── squad_completion.yaml
        │   │   └── task.py
        │   ├── squadv2
        │   │   ├── README.md
        │   │   ├── squadv2.yaml
        │   │   └── task.py
        │   ├── storycloze
        │   │   ├── README.md
        │   │   ├── storycloze_2016.yaml
        │   │   └── storycloze_2018.yaml
        │   ├── super_glue
        │   │   ├── README.md
        │   │   ├── boolq
        │   │   │   ├── default.yaml
        │   │   │   ├── seq2seq.yaml
        │   │   │   └── t5-prompt.yaml
        │   │   ├── cb
        │   │   │   ├── aggregate.py
        │   │   │   ├── default.yaml
        │   │   │   ├── t5-prompt.yaml
        │   │   │   └── t5_utils.py
        │   │   ├── copa
        │   │   │   ├── default.yaml
        │   │   │   ├── t5-prompt.yaml
        │   │   │   └── utils.py
        │   │   ├── multirc
        │   │   │   ├── default.yaml
        │   │   │   ├── t5-prompt.yaml
        │   │   │   └── t5_utils.py
        │   │   ├── record
        │   │   │   ├── default.yaml
        │   │   │   ├── t5-prompt.yaml
        │   │   │   ├── t5_utils.py
        │   │   │   └── util.py
        │   │   ├── rte
        │   │   │   ├── default.yaml
        │   │   │   └── t5-prompt.yaml
        │   │   ├── wic
        │   │   │   ├── default.yaml
        │   │   │   └── t5-prompt.yaml
        │   │   └── wsc
        │   │   │   ├── default.yaml
        │   │   │   ├── preprocess_wsc.py
        │   │   │   ├── t5-prompt.yaml
        │   │   │   └── t5_utils.py
        │   ├── swag
        │   │   ├── README.md
        │   │   └── swag.yaml
        │   ├── swde
        │   │   ├── README.md
        │   │   ├── swde.yaml
        │   │   └── task.py
        │   ├── tinyBenchmarks
        │   │   ├── README.md
        │   │   ├── agg_functions.py
        │   │   ├── tinyArc.yaml
        │   │   ├── tinyBenchmarks.yaml
        │   │   ├── tinyGSM8k.yaml
        │   │   ├── tinyHellaswag.yaml
        │   │   ├── tinyMMLU.yaml
        │   │   ├── tinyTruthfulQA_mc1.yaml
        │   │   ├── tinyTruthfulQA_mc2.yaml
        │   │   ├── tinyWinogrande.yaml
        │   │   ├── utils_hellaswag.py
        │   │   ├── utils_truthfulqa.py
        │   │   └── utils_winogrande.py
        │   ├── tmlu
        │   │   ├── README.md
        │   │   ├── default
        │   │   │   ├── _default_template_yaml
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── _tmlu.yaml
        │   │   │   ├── tmlu_AST_biology.yaml
        │   │   │   ├── tmlu_AST_chemistry.yaml
        │   │   │   ├── tmlu_AST_chinese.yaml
        │   │   │   ├── tmlu_AST_civics.yaml
        │   │   │   ├── tmlu_AST_geography.yaml
        │   │   │   ├── tmlu_AST_history.yaml
        │   │   │   ├── tmlu_CAP_biology.yaml
        │   │   │   ├── tmlu_CAP_chemistry.yaml
        │   │   │   ├── tmlu_CAP_chinese.yaml
        │   │   │   ├── tmlu_CAP_civics.yaml
        │   │   │   ├── tmlu_CAP_earth_science.yaml
        │   │   │   ├── tmlu_CAP_geography.yaml
        │   │   │   ├── tmlu_CAP_history.yaml
        │   │   │   ├── tmlu_GSAT_biology.yaml
        │   │   │   ├── tmlu_GSAT_chemistry.yaml
        │   │   │   ├── tmlu_GSAT_chinese.yaml
        │   │   │   ├── tmlu_GSAT_civics.yaml
        │   │   │   ├── tmlu_GSAT_earth_science.yaml
        │   │   │   ├── tmlu_GSAT_geography.yaml
        │   │   │   ├── tmlu_GSAT_history.yaml
        │   │   │   ├── tmlu_accountant.yaml
        │   │   │   ├── tmlu_basic_traditional_chinese_medicine.yaml
        │   │   │   ├── tmlu_clinical_psychologist.yaml
        │   │   │   ├── tmlu_clinical_traditional_chinese_medicine.yaml
        │   │   │   ├── tmlu_driving_rule.yaml
        │   │   │   ├── tmlu_lawyer_qualification.yaml
        │   │   │   ├── tmlu_nutritionist.yaml
        │   │   │   ├── tmlu_taiwan_tourist_resources.yaml
        │   │   │   ├── tmlu_teacher_qualification.yaml
        │   │   │   ├── tmlu_tour_guide.yaml
        │   │   │   ├── tmlu_tour_leader.yaml
        │   │   │   └── utils.py
        │   │   └── subject.tsv
        │   ├── tmmluplus
        │   │   ├── README.md
        │   │   ├── default
        │   │   │   ├── _generate_configs.py
        │   │   │   ├── _tmmluplus.yaml
        │   │   │   ├── _tmmluplus_STEM.yaml
        │   │   │   ├── _tmmluplus_humanities.yaml
        │   │   │   ├── _tmmluplus_other.yaml
        │   │   │   ├── _tmmluplus_social_sciences.yaml
        │   │   │   ├── _tmmluplus_template_yaml
        │   │   │   ├── tmmluplus_accounting.yaml
        │   │   │   ├── tmmluplus_administrative_law.yaml
        │   │   │   ├── tmmluplus_advance_chemistry.yaml
        │   │   │   ├── tmmluplus_agriculture.yaml
        │   │   │   ├── tmmluplus_anti_money_laundering.yaml
        │   │   │   ├── tmmluplus_auditing.yaml
        │   │   │   ├── tmmluplus_basic_medical_science.yaml
        │   │   │   ├── tmmluplus_business_management.yaml
        │   │   │   ├── tmmluplus_chinese_language_and_literature.yaml
        │   │   │   ├── tmmluplus_clinical_psychology.yaml
        │   │   │   ├── tmmluplus_computer_science.yaml
        │   │   │   ├── tmmluplus_culinary_skills.yaml
        │   │   │   ├── tmmluplus_dentistry.yaml
        │   │   │   ├── tmmluplus_economics.yaml
        │   │   │   ├── tmmluplus_education.yaml
        │   │   │   ├── tmmluplus_education_(profession_level).yaml
        │   │   │   ├── tmmluplus_educational_psychology.yaml
        │   │   │   ├── tmmluplus_engineering_math.yaml
        │   │   │   ├── tmmluplus_finance_banking.yaml
        │   │   │   ├── tmmluplus_financial_analysis.yaml
        │   │   │   ├── tmmluplus_fire_science.yaml
        │   │   │   ├── tmmluplus_general_principles_of_law.yaml
        │   │   │   ├── tmmluplus_geography_of_taiwan.yaml
        │   │   │   ├── tmmluplus_human_behavior.yaml
        │   │   │   ├── tmmluplus_insurance_studies.yaml
        │   │   │   ├── tmmluplus_introduction_to_law.yaml
        │   │   │   ├── tmmluplus_jce_humanities.yaml
        │   │   │   ├── tmmluplus_junior_chemistry.yaml
        │   │   │   ├── tmmluplus_junior_chinese_exam.yaml
        │   │   │   ├── tmmluplus_junior_math_exam.yaml
        │   │   │   ├── tmmluplus_junior_science_exam.yaml
        │   │   │   ├── tmmluplus_junior_social_studies.yaml
        │   │   │   ├── tmmluplus_linear_algebra.yaml
        │   │   │   ├── tmmluplus_logic_reasoning.yaml
        │   │   │   ├── tmmluplus_macroeconomics.yaml
        │   │   │   ├── tmmluplus_management_accounting.yaml
        │   │   │   ├── tmmluplus_marketing_management.yaml
        │   │   │   ├── tmmluplus_mechanical.yaml
        │   │   │   ├── tmmluplus_music.yaml
        │   │   │   ├── tmmluplus_national_protection.yaml
        │   │   │   ├── tmmluplus_nautical_science.yaml
        │   │   │   ├── tmmluplus_occupational_therapy_for_psychological_disorders.yaml
        │   │   │   ├── tmmluplus_official_document_management.yaml
        │   │   │   ├── tmmluplus_optometry.yaml
        │   │   │   ├── tmmluplus_organic_chemistry.yaml
        │   │   │   ├── tmmluplus_pharmacology.yaml
        │   │   │   ├── tmmluplus_pharmacy.yaml
        │   │   │   ├── tmmluplus_physical_education.yaml
        │   │   │   ├── tmmluplus_physics.yaml
        │   │   │   ├── tmmluplus_politic_science.yaml
        │   │   │   ├── tmmluplus_real_estate.yaml
        │   │   │   ├── tmmluplus_secondary_physics.yaml
        │   │   │   ├── tmmluplus_statistics_and_machine_learning.yaml
        │   │   │   ├── tmmluplus_taiwanese_hokkien.yaml
        │   │   │   ├── tmmluplus_taxation.yaml
        │   │   │   ├── tmmluplus_technical.yaml
        │   │   │   ├── tmmluplus_three_principles_of_people.yaml
        │   │   │   ├── tmmluplus_trade.yaml
        │   │   │   ├── tmmluplus_traditional_chinese_medicine_clinical_medicine.yaml
        │   │   │   ├── tmmluplus_trust_practice.yaml
        │   │   │   ├── tmmluplus_ttqav2.yaml
        │   │   │   ├── tmmluplus_tve_chinese_language.yaml
        │   │   │   ├── tmmluplus_tve_design.yaml
        │   │   │   ├── tmmluplus_tve_mathematics.yaml
        │   │   │   ├── tmmluplus_tve_natural_sciences.yaml
        │   │   │   ├── tmmluplus_veterinary_pathology.yaml
        │   │   │   ├── tmmluplus_veterinary_pharmacology.yaml
        │   │   │   └── utils.py
        │   │   └── subject.tsv
        │   ├── toxigen
        │   │   ├── README.md
        │   │   ├── toxigen.yaml
        │   │   └── utils.py
        │   ├── translation
        │   │   ├── README.md
        │   │   ├── iwslt2017_ar-en.yaml
        │   │   ├── iwslt2017_en-ar.yaml
        │   │   ├── utils.py
        │   │   ├── wmt14_en-fr.yaml
        │   │   ├── wmt14_fr-en.yaml
        │   │   ├── wmt16_de-en.yaml
        │   │   ├── wmt16_en-de.yaml
        │   │   ├── wmt16_en-ro.yaml
        │   │   ├── wmt16_ro-en.yaml
        │   │   └── wmt_common_yaml
        │   ├── triviaqa
        │   │   ├── README.md
        │   │   └── default.yaml
        │   ├── truthfulqa
        │   │   ├── README.md
        │   │   ├── truthfulqa_gen.yaml
        │   │   ├── truthfulqa_mc1.yaml
        │   │   ├── truthfulqa_mc2.yaml
        │   │   └── utils.py
        │   ├── unitxt
        │   │   ├── 20_newsgroups.yaml
        │   │   ├── README.md
        │   │   ├── ag_news.yaml
        │   │   ├── argument_topic.yaml
        │   │   ├── atis.yaml
        │   │   ├── banking77.yaml
        │   │   ├── claim_stance_topic.yaml
        │   │   ├── cnn_dailymail.yaml
        │   │   ├── coedit_gec.yaml
        │   │   ├── dbpedia_14.yaml
        │   │   ├── ethos_binary.yaml
        │   │   ├── financial_tweets.yaml
        │   │   ├── law_stack_exchange.yaml
        │   │   ├── ledgar.yaml
        │   │   ├── medical_abstracts.yaml
        │   │   ├── stsb.yaml
        │   │   ├── task.py
        │   │   ├── unfair_tos.yaml
        │   │   ├── unitxt
        │   │   ├── xsum.yaml
        │   │   └── yahoo_answers_topics.yaml
        │   ├── unscramble
        │   │   ├── README.md
        │   │   ├── anagrams1.yaml
        │   │   ├── anagrams2.yaml
        │   │   ├── cycle_letters.yaml
        │   │   ├── random_insertion.yaml
        │   │   └── reversed_words.yaml
        │   ├── webqs
        │   │   ├── README.md
        │   │   ├── utils.py
        │   │   └── webqs.yaml
        │   ├── wikitext
        │   │   ├── README.md
        │   │   ├── preprocess_wikitext.py
        │   │   └── wikitext.yaml
        │   ├── winogrande
        │   │   ├── README.md
        │   │   ├── default.yaml
        │   │   └── preprocess_winogrande.py
        │   ├── wmdp
        │   │   ├── README.md
        │   │   ├── _default_template_yaml
        │   │   ├── _wmdp.yaml
        │   │   ├── wmdp_bio.yaml
        │   │   ├── wmdp_chem.yaml
        │   │   └── wmdp_cyber.yaml
        │   ├── wmt2016
        │   │   ├── README.md
        │   │   ├── metrics.py
        │   │   └── ro_en-t5_prompt.yaml
        │   ├── wsc273
        │   │   ├── README.md
        │   │   ├── default.yaml
        │   │   └── utils.py
        │   ├── xcopa
        │   │   ├── README.md
        │   │   ├── _xcopa.yaml
        │   │   ├── default_et.yaml
        │   │   ├── default_ht.yaml
        │   │   ├── default_id.yaml
        │   │   ├── default_it.yaml
        │   │   ├── default_qu.yaml
        │   │   ├── default_sw.yaml
        │   │   ├── default_ta.yaml
        │   │   ├── default_th.yaml
        │   │   ├── default_tr.yaml
        │   │   ├── default_vi.yaml
        │   │   ├── default_zh.yaml
        │   │   └── utils.py
        │   ├── xnli
        │   │   ├── README.md
        │   │   ├── _xnli.yaml
        │   │   ├── utils.py
        │   │   ├── xnli_ar.yaml
        │   │   ├── xnli_bg.yaml
        │   │   ├── xnli_common_yaml
        │   │   ├── xnli_de.yaml
        │   │   ├── xnli_el.yaml
        │   │   ├── xnli_en.yaml
        │   │   ├── xnli_es.yaml
        │   │   ├── xnli_fr.yaml
        │   │   ├── xnli_hi.yaml
        │   │   ├── xnli_ru.yaml
        │   │   ├── xnli_sw.yaml
        │   │   ├── xnli_th.yaml
        │   │   ├── xnli_tr.yaml
        │   │   ├── xnli_ur.yaml
        │   │   ├── xnli_vi.yaml
        │   │   └── xnli_zh.yaml
        │   ├── xnli_eu
        │   │   ├── README.md
        │   │   ├── xnli_common_yaml
        │   │   ├── xnli_eu.yaml
        │   │   ├── xnli_eu_mt.yaml
        │   │   └── xnli_eu_native.yaml
        │   ├── xstorycloze
        │   │   ├── README.md
        │   │   ├── _xstorycloze.yaml
        │   │   ├── default_ar.yaml
        │   │   ├── default_en.yaml
        │   │   ├── default_es.yaml
        │   │   ├── default_eu.yaml
        │   │   ├── default_hi.yaml
        │   │   ├── default_id.yaml
        │   │   ├── default_my.yaml
        │   │   ├── default_ru.yaml
        │   │   ├── default_sw.yaml
        │   │   ├── default_te.yaml
        │   │   └── default_zh.yaml
        │   └── xwinograd
        │   │   ├── README.md
        │   │   ├── _xwinograd.yaml
        │   │   ├── utils.py
        │   │   ├── xwinograd_common_yaml
        │   │   ├── xwinograd_en.yaml
        │   │   ├── xwinograd_fr.yaml
        │   │   ├── xwinograd_jp.yaml
        │   │   ├── xwinograd_pt.yaml
        │   │   ├── xwinograd_ru.yaml
        │   │   └── xwinograd_zh.yaml
        └── utils.py
    ├── mypy.ini
    ├── pile_statistics.json
    ├── pyproject.toml
    ├── requirements.txt
    ├── scripts
        ├── __init__.py
        ├── build_benchmark.py
        ├── clean_training_data
        │   ├── README.md
        │   ├── __init__.py
        │   ├── compress_and_package.py
        │   ├── generate_13_grams.py
        │   ├── investigate_pile.py
        │   ├── janitor_util.cpp
        │   ├── process_sorted_buckets.py
        │   └── sort_13_gram_buckets.py
        ├── cost_estimate.py
        ├── get_prompts.py
        ├── make_gpt2_test_cases.py
        ├── make_table_results.py
        ├── make_table_tasks.py
        ├── model_comparator.py
        ├── regression.py
        ├── requests_caching.py
        ├── write_out.py
        └── zeno_visualize.py
    ├── setup.py
    ├── templates
        └── new_yaml_task
        │   ├── README.md
        │   └── blank_yaml.yaml
    └── tests
        ├── __init__.py
        ├── models
            ├── test_api.py
            ├── test_gguf.py
            ├── test_huggingface.py
            ├── test_neuralmagic.py
            ├── test_neuron_optimum.py
            ├── test_openvino.py
            └── test_vllm.py
        ├── test_cli.py
        ├── test_evaluator.py
        ├── test_include_path.py
        ├── test_janitor.py
        ├── test_misc.py
        ├── test_prompt.py
        ├── test_requests_caching.py
        ├── test_tasks.py
        ├── test_utils.py
        ├── testconfigs
            └── arc_test.yaml
        ├── testdata
            ├── ai2_arc_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt
            ├── anagrams1-v0-greedy_until
            ├── anagrams1-v0-res.json
            ├── anagrams2-v0-greedy_until
            ├── anagrams2-v0-res.json
            ├── anli_r1-v0-loglikelihood
            ├── anli_r1-v0-res.json
            ├── anli_r2-v0-loglikelihood
            ├── anli_r2-v0-res.json
            ├── anli_r3-v0-loglikelihood
            ├── anli_r3-v0-res.json
            ├── arc_challenge-v0-loglikelihood
            ├── arc_challenge-v0-res.json
            ├── arc_challenge-v2.0-loglikelihood
            ├── arc_challenge-v2.0-res.json
            ├── arc_easy-v0-loglikelihood
            ├── arc_easy-v0-res.json
            ├── arithmetic_1dc-v0-loglikelihood
            ├── arithmetic_1dc-v0-res.json
            ├── arithmetic_2da-v0-loglikelihood
            ├── arithmetic_2da-v0-res.json
            ├── arithmetic_2dm-v0-loglikelihood
            ├── arithmetic_2dm-v0-res.json
            ├── arithmetic_2ds-v0-loglikelihood
            ├── arithmetic_2ds-v0-res.json
            ├── arithmetic_3da-v0-loglikelihood
            ├── arithmetic_3da-v0-res.json
            ├── arithmetic_3ds-v0-loglikelihood
            ├── arithmetic_3ds-v0-res.json
            ├── arithmetic_4da-v0-loglikelihood
            ├── arithmetic_4da-v0-res.json
            ├── arithmetic_4ds-v0-loglikelihood
            ├── arithmetic_4ds-v0-res.json
            ├── arithmetic_5da-v0-loglikelihood
            ├── arithmetic_5da-v0-res.json
            ├── arithmetic_5ds-v0-loglikelihood
            ├── arithmetic_5ds-v0-res.json
            ├── blimp_adjunct_island-v0-loglikelihood
            ├── blimp_adjunct_island-v0-res.json
            ├── blimp_anaphor_gender_agreement-v0-loglikelihood
            ├── blimp_anaphor_gender_agreement-v0-res.json
            ├── blimp_anaphor_number_agreement-v0-loglikelihood
            ├── blimp_anaphor_number_agreement-v0-res.json
            ├── blimp_animate_subject_passive-v0-loglikelihood
            ├── blimp_animate_subject_passive-v0-res.json
            ├── blimp_animate_subject_trans-v0-loglikelihood
            ├── blimp_animate_subject_trans-v0-res.json
            ├── blimp_causative-v0-loglikelihood
            ├── blimp_causative-v0-res.json
            ├── blimp_complex_NP_island-v0-loglikelihood
            ├── blimp_complex_NP_island-v0-res.json
            ├── blimp_coordinate_structure_constraint_complex_left_branch-v0-loglikelihood
            ├── blimp_coordinate_structure_constraint_complex_left_branch-v0-res.json
            ├── blimp_coordinate_structure_constraint_object_extraction-v0-loglikelihood
            ├── blimp_coordinate_structure_constraint_object_extraction-v0-res.json
            ├── blimp_determiner_noun_agreement_1-v0-loglikelihood
            ├── blimp_determiner_noun_agreement_1-v0-res.json
            ├── blimp_determiner_noun_agreement_2-v0-loglikelihood
            ├── blimp_determiner_noun_agreement_2-v0-res.json
            ├── blimp_determiner_noun_agreement_irregular_1-v0-loglikelihood
            ├── blimp_determiner_noun_agreement_irregular_1-v0-res.json
            ├── blimp_determiner_noun_agreement_irregular_2-v0-loglikelihood
            ├── blimp_determiner_noun_agreement_irregular_2-v0-res.json
            ├── blimp_determiner_noun_agreement_with_adj_2-v0-loglikelihood
            ├── blimp_determiner_noun_agreement_with_adj_2-v0-res.json
            ├── blimp_determiner_noun_agreement_with_adj_irregular_1-v0-loglikelihood
            ├── blimp_determiner_noun_agreement_with_adj_irregular_1-v0-res.json
            ├── blimp_determiner_noun_agreement_with_adj_irregular_2-v0-loglikelihood
            ├── blimp_determiner_noun_agreement_with_adj_irregular_2-v0-res.json
            ├── blimp_determiner_noun_agreement_with_adjective_1-v0-loglikelihood
            ├── blimp_determiner_noun_agreement_with_adjective_1-v0-res.json
            ├── blimp_distractor_agreement_relational_noun-v0-loglikelihood
            ├── blimp_distractor_agreement_relational_noun-v0-res.json
            ├── blimp_distractor_agreement_relative_clause-v0-loglikelihood
            ├── blimp_distractor_agreement_relative_clause-v0-res.json
            ├── blimp_drop_argument-v0-loglikelihood
            ├── blimp_drop_argument-v0-res.json
            ├── blimp_ellipsis_n_bar_1-v0-loglikelihood
            ├── blimp_ellipsis_n_bar_1-v0-res.json
            ├── blimp_ellipsis_n_bar_2-v0-loglikelihood
            ├── blimp_ellipsis_n_bar_2-v0-res.json
            ├── blimp_existential_there_object_raising-v0-loglikelihood
            ├── blimp_existential_there_object_raising-v0-res.json
            ├── blimp_existential_there_quantifiers_1-v0-loglikelihood
            ├── blimp_existential_there_quantifiers_1-v0-res.json
            ├── blimp_existential_there_quantifiers_2-v0-loglikelihood
            ├── blimp_existential_there_quantifiers_2-v0-res.json
            ├── blimp_existential_there_subject_raising-v0-loglikelihood
            ├── blimp_existential_there_subject_raising-v0-res.json
            ├── blimp_expletive_it_object_raising-v0-loglikelihood
            ├── blimp_expletive_it_object_raising-v0-res.json
            ├── blimp_inchoative-v0-loglikelihood
            ├── blimp_inchoative-v0-res.json
            ├── blimp_intransitive-v0-loglikelihood
            ├── blimp_intransitive-v0-res.json
            ├── blimp_irregular_past_participle_adjectives-v0-loglikelihood
            ├── blimp_irregular_past_participle_adjectives-v0-res.json
            ├── blimp_irregular_past_participle_verbs-v0-loglikelihood
            ├── blimp_irregular_past_participle_verbs-v0-res.json
            ├── blimp_irregular_plural_subject_verb_agreement_1-v0-loglikelihood
            ├── blimp_irregular_plural_subject_verb_agreement_1-v0-res.json
            ├── blimp_irregular_plural_subject_verb_agreement_2-v0-loglikelihood
            ├── blimp_irregular_plural_subject_verb_agreement_2-v0-res.json
            ├── blimp_left_branch_island_echo_question-v0-loglikelihood
            ├── blimp_left_branch_island_echo_question-v0-res.json
            ├── blimp_left_branch_island_simple_question-v0-loglikelihood
            ├── blimp_left_branch_island_simple_question-v0-res.json
            ├── blimp_matrix_question_npi_licensor_present-v0-loglikelihood
            ├── blimp_matrix_question_npi_licensor_present-v0-res.json
            ├── blimp_npi_present_1-v0-loglikelihood
            ├── blimp_npi_present_1-v0-res.json
            ├── blimp_npi_present_2-v0-loglikelihood
            ├── blimp_npi_present_2-v0-res.json
            ├── blimp_only_npi_licensor_present-v0-loglikelihood
            ├── blimp_only_npi_licensor_present-v0-res.json
            ├── blimp_only_npi_scope-v0-loglikelihood
            ├── blimp_only_npi_scope-v0-res.json
            ├── blimp_passive_1-v0-loglikelihood
            ├── blimp_passive_1-v0-res.json
            ├── blimp_passive_2-v0-loglikelihood
            ├── blimp_passive_2-v0-res.json
            ├── blimp_principle_A_c_command-v0-loglikelihood
            ├── blimp_principle_A_c_command-v0-res.json
            ├── blimp_principle_A_case_1-v0-loglikelihood
            ├── blimp_principle_A_case_1-v0-res.json
            ├── blimp_principle_A_case_2-v0-loglikelihood
            ├── blimp_principle_A_case_2-v0-res.json
            ├── blimp_principle_A_domain_1-v0-loglikelihood
            ├── blimp_principle_A_domain_1-v0-res.json
            ├── blimp_principle_A_domain_2-v0-loglikelihood
            ├── blimp_principle_A_domain_2-v0-res.json
            ├── blimp_principle_A_domain_3-v0-loglikelihood
            ├── blimp_principle_A_domain_3-v0-res.json
            ├── blimp_principle_A_reconstruction-v0-loglikelihood
            ├── blimp_principle_A_reconstruction-v0-res.json
            ├── blimp_regular_plural_subject_verb_agreement_1-v0-loglikelihood
            ├── blimp_regular_plural_subject_verb_agreement_1-v0-res.json
            ├── blimp_regular_plural_subject_verb_agreement_2-v0-loglikelihood
            ├── blimp_regular_plural_subject_verb_agreement_2-v0-res.json
            ├── blimp_sentential_negation_npi_licensor_present-v0-loglikelihood
            ├── blimp_sentential_negation_npi_licensor_present-v0-res.json
            ├── blimp_sentential_negation_npi_scope-v0-loglikelihood
            ├── blimp_sentential_negation_npi_scope-v0-res.json
            ├── blimp_sentential_subject_island-v0-loglikelihood
            ├── blimp_sentential_subject_island-v0-res.json
            ├── blimp_superlative_quantifiers_1-v0-loglikelihood
            ├── blimp_superlative_quantifiers_1-v0-res.json
            ├── blimp_superlative_quantifiers_2-v0-loglikelihood
            ├── blimp_superlative_quantifiers_2-v0-res.json
            ├── blimp_tough_vs_raising_1-v0-loglikelihood
            ├── blimp_tough_vs_raising_1-v0-res.json
            ├── blimp_tough_vs_raising_2-v0-loglikelihood
            ├── blimp_tough_vs_raising_2-v0-res.json
            ├── blimp_transitive-v0-loglikelihood
            ├── blimp_transitive-v0-res.json
            ├── blimp_wh_island-v0-loglikelihood
            ├── blimp_wh_island-v0-res.json
            ├── blimp_wh_questions_object_gap-v0-loglikelihood
            ├── blimp_wh_questions_object_gap-v0-res.json
            ├── blimp_wh_questions_subject_gap-v0-loglikelihood
            ├── blimp_wh_questions_subject_gap-v0-res.json
            ├── blimp_wh_questions_subject_gap_long_distance-v0-loglikelihood
            ├── blimp_wh_questions_subject_gap_long_distance-v0-res.json
            ├── blimp_wh_vs_that_no_gap-v0-loglikelihood
            ├── blimp_wh_vs_that_no_gap-v0-res.json
            ├── blimp_wh_vs_that_no_gap_long_distance-v0-loglikelihood
            ├── blimp_wh_vs_that_no_gap_long_distance-v0-res.json
            ├── blimp_wh_vs_that_with_gap-v0-loglikelihood
            ├── blimp_wh_vs_that_with_gap-v0-res.json
            ├── blimp_wh_vs_that_with_gap_long_distance-v0-loglikelihood
            ├── blimp_wh_vs_that_with_gap_long_distance-v0-res.json
            ├── boolq-v0-loglikelihood
            ├── boolq-v0-res.json
            ├── boolq-v1-loglikelihood
            ├── boolq-v1-res.json
            ├── cb-v0-loglikelihood
            ├── cb-v0-res.json
            ├── cb-v1-loglikelihood
            ├── cb-v1-res.json
            ├── cola-v0-loglikelihood
            ├── cola-v0-res.json
            ├── copa-v0-loglikelihood
            ├── copa-v0-res.json
            ├── coqa-v0-greedy_until
            ├── coqa-v0-res.json
            ├── coqa-v1-greedy_until
            ├── coqa-v1-res.json
            ├── crows_pairs_english-v0-loglikelihood
            ├── crows_pairs_english-v0-res.json
            ├── crows_pairs_english_age-v0-loglikelihood
            ├── crows_pairs_english_age-v0-res.json
            ├── crows_pairs_english_autre-v0-loglikelihood
            ├── crows_pairs_english_autre-v0-res.json
            ├── crows_pairs_english_disability-v0-loglikelihood
            ├── crows_pairs_english_disability-v0-res.json
            ├── crows_pairs_english_gender-v0-loglikelihood
            ├── crows_pairs_english_gender-v0-res.json
            ├── crows_pairs_english_nationality-v0-loglikelihood
            ├── crows_pairs_english_nationality-v0-res.json
            ├── crows_pairs_english_physical_appearance-v0-loglikelihood
            ├── crows_pairs_english_physical_appearance-v0-res.json
            ├── crows_pairs_english_race_color-v0-loglikelihood
            ├── crows_pairs_english_race_color-v0-res.json
            ├── crows_pairs_english_religion-v0-loglikelihood
            ├── crows_pairs_english_religion-v0-res.json
            ├── crows_pairs_english_sexual_orientation-v0-loglikelihood
            ├── crows_pairs_english_sexual_orientation-v0-res.json
            ├── crows_pairs_english_socioeconomic-v0-loglikelihood
            ├── crows_pairs_english_socioeconomic-v0-res.json
            ├── crows_pairs_french-v0-loglikelihood
            ├── crows_pairs_french-v0-res.json
            ├── crows_pairs_french_age-v0-loglikelihood
            ├── crows_pairs_french_age-v0-res.json
            ├── crows_pairs_french_autre-v0-loglikelihood
            ├── crows_pairs_french_autre-v0-res.json
            ├── crows_pairs_french_disability-v0-loglikelihood
            ├── crows_pairs_french_disability-v0-res.json
            ├── crows_pairs_french_gender-v0-loglikelihood
            ├── crows_pairs_french_gender-v0-res.json
            ├── crows_pairs_french_nationality-v0-loglikelihood
            ├── crows_pairs_french_nationality-v0-res.json
            ├── crows_pairs_french_physical_appearance-v0-loglikelihood
            ├── crows_pairs_french_physical_appearance-v0-res.json
            ├── crows_pairs_french_race_color-v0-loglikelihood
            ├── crows_pairs_french_race_color-v0-res.json
            ├── crows_pairs_french_religion-v0-loglikelihood
            ├── crows_pairs_french_religion-v0-res.json
            ├── crows_pairs_french_sexual_orientation-v0-loglikelihood
            ├── crows_pairs_french_sexual_orientation-v0-res.json
            ├── crows_pairs_french_socioeconomic-v0-loglikelihood
            ├── crows_pairs_french_socioeconomic-v0-res.json
            ├── cycle_letters-v0-greedy_until
            ├── cycle_letters-v0-res.json
            ├── drop-v0-greedy_until
            ├── drop-v0-res.json
            ├── drop-v1-greedy_until
            ├── drop-v1-res.json
            ├── ethics_cm-v0-loglikelihood
            ├── ethics_cm-v0-res.json
            ├── ethics_deontology-v0-loglikelihood
            ├── ethics_deontology-v0-res.json
            ├── ethics_justice-v0-loglikelihood
            ├── ethics_justice-v0-res.json
            ├── ethics_utilitarianism-v0-loglikelihood
            ├── ethics_utilitarianism-v0-res.json
            ├── ethics_utilitarianism_original-v0-loglikelihood
            ├── ethics_utilitarianism_original-v0-res.json
            ├── ethics_virtue-v0-loglikelihood
            ├── ethics_virtue-v0-res.json
            ├── gguf_test_44e268d15decc4d2d0f99e57e1476269826cd3b54262f7a0981f75ddd45b25d0.pkl
            ├── gguf_test_52ea409606de8755e03cf7c79f824101a4ce64bb6e6d3df556b8a4e7a5d92418.pkl
            ├── gguf_test_8fcf3f2f52afeb2acd7c8e02c2cc3ce31a691b665d295f6c4e4bbd71c7caa1a2.pkl
            ├── gpt3_test_0deb8e9bde8e8327bbc48157f638ff3ba06b0cd816dad2beb8ad90f7fbe795c7.pkl
            ├── gpt3_test_8025023377febbd8c5f2b9f26705c394ff375d0cad7c89c10fd9b8e1eb66ff1c.pkl
            ├── gpt3_test_bb2cc49115e88788ed870ad0716eb00b280a885f91c7ed6e1e864435e5e2b6ac.pkl
            ├── gpt3_test_cfd11f555a5a63b6dfa114a55a932e51b724cdd44d4842586b9ce37260bf7aaa.pkl
            ├── gpt3_test_f307d52964c295e2005c5e782b688c24388e0cecadf29f1e6fc7f394236ea9c0.pkl
            ├── gsm8k-v0-greedy_until
            ├── gsm8k-v0-res.json
            ├── headqa-v0-loglikelihood
            ├── headqa-v0-res.json
            ├── headqa_en-v0-loglikelihood
            ├── headqa_en-v0-res.json
            ├── headqa_es-v0-loglikelihood
            ├── headqa_es-v0-res.json
            ├── hellaswag-v0-loglikelihood
            ├── hellaswag-v0-res.json
            ├── hendrycksTest-abstract_algebra-v0-loglikelihood
            ├── hendrycksTest-abstract_algebra-v0-res.json
            ├── hendrycksTest-anatomy-v0-loglikelihood
            ├── hendrycksTest-anatomy-v0-res.json
            ├── hendrycksTest-astronomy-v0-loglikelihood
            ├── hendrycksTest-astronomy-v0-res.json
            ├── hendrycksTest-business_ethics-v0-loglikelihood
            ├── hendrycksTest-business_ethics-v0-res.json
            ├── hendrycksTest-clinical_knowledge-v0-loglikelihood
            ├── hendrycksTest-clinical_knowledge-v0-res.json
            ├── hendrycksTest-college_biology-v0-loglikelihood
            ├── hendrycksTest-college_biology-v0-res.json
            ├── hendrycksTest-college_chemistry-v0-loglikelihood
            ├── hendrycksTest-college_chemistry-v0-res.json
            ├── hendrycksTest-college_computer_science-v0-loglikelihood
            ├── hendrycksTest-college_computer_science-v0-res.json
            ├── hendrycksTest-college_mathematics-v0-loglikelihood
            ├── hendrycksTest-college_mathematics-v0-res.json
            ├── hendrycksTest-college_medicine-v0-loglikelihood
            ├── hendrycksTest-college_medicine-v0-res.json
            ├── hendrycksTest-college_physics-v0-loglikelihood
            ├── hendrycksTest-college_physics-v0-res.json
            ├── hendrycksTest-computer_security-v0-loglikelihood
            ├── hendrycksTest-computer_security-v0-res.json
            ├── hendrycksTest-conceptual_physics-v0-loglikelihood
            ├── hendrycksTest-conceptual_physics-v0-res.json
            ├── hendrycksTest-econometrics-v0-loglikelihood
            ├── hendrycksTest-econometrics-v0-res.json
            ├── hendrycksTest-electrical_engineering-v0-loglikelihood
            ├── hendrycksTest-electrical_engineering-v0-res.json
            ├── hendrycksTest-elementary_mathematics-v0-loglikelihood
            ├── hendrycksTest-elementary_mathematics-v0-res.json
            ├── hendrycksTest-formal_logic-v0-loglikelihood
            ├── hendrycksTest-formal_logic-v0-res.json
            ├── hendrycksTest-global_facts-v0-loglikelihood
            ├── hendrycksTest-global_facts-v0-res.json
            ├── hendrycksTest-high_school_biology-v0-loglikelihood
            ├── hendrycksTest-high_school_biology-v0-res.json
            ├── hendrycksTest-high_school_chemistry-v0-loglikelihood
            ├── hendrycksTest-high_school_chemistry-v0-res.json
            ├── hendrycksTest-high_school_computer_science-v0-loglikelihood
            ├── hendrycksTest-high_school_computer_science-v0-res.json
            ├── hendrycksTest-high_school_european_history-v0-loglikelihood
            ├── hendrycksTest-high_school_european_history-v0-res.json
            ├── hendrycksTest-high_school_geography-v0-loglikelihood
            ├── hendrycksTest-high_school_geography-v0-res.json
            ├── hendrycksTest-high_school_government_and_politics-v0-loglikelihood
            ├── hendrycksTest-high_school_government_and_politics-v0-res.json
            ├── hendrycksTest-high_school_macroeconomics-v0-loglikelihood
            ├── hendrycksTest-high_school_macroeconomics-v0-res.json
            ├── hendrycksTest-high_school_mathematics-v0-loglikelihood
            ├── hendrycksTest-high_school_mathematics-v0-res.json
            ├── hendrycksTest-high_school_microeconomics-v0-loglikelihood
            ├── hendrycksTest-high_school_microeconomics-v0-res.json
            ├── hendrycksTest-high_school_physics-v0-loglikelihood
            ├── hendrycksTest-high_school_physics-v0-res.json
            ├── hendrycksTest-high_school_psychology-v0-loglikelihood
            ├── hendrycksTest-high_school_psychology-v0-res.json
            ├── hendrycksTest-high_school_statistics-v0-loglikelihood
            ├── hendrycksTest-high_school_statistics-v0-res.json
            ├── hendrycksTest-high_school_us_history-v0-loglikelihood
            ├── hendrycksTest-high_school_us_history-v0-res.json
            ├── hendrycksTest-high_school_world_history-v0-loglikelihood
            ├── hendrycksTest-high_school_world_history-v0-res.json
            ├── hendrycksTest-human_aging-v0-loglikelihood
            ├── hendrycksTest-human_aging-v0-res.json
            ├── hendrycksTest-human_sexuality-v0-loglikelihood
            ├── hendrycksTest-human_sexuality-v0-res.json
            ├── hendrycksTest-international_law-v0-loglikelihood
            ├── hendrycksTest-international_law-v0-res.json
            ├── hendrycksTest-jurisprudence-v0-loglikelihood
            ├── hendrycksTest-jurisprudence-v0-res.json
            ├── hendrycksTest-logical_fallacies-v0-loglikelihood
            ├── hendrycksTest-logical_fallacies-v0-res.json
            ├── hendrycksTest-machine_learning-v0-loglikelihood
            ├── hendrycksTest-machine_learning-v0-res.json
            ├── hendrycksTest-management-v0-loglikelihood
            ├── hendrycksTest-management-v0-res.json
            ├── hendrycksTest-marketing-v0-loglikelihood
            ├── hendrycksTest-marketing-v0-res.json
            ├── hendrycksTest-medical_genetics-v0-loglikelihood
            ├── hendrycksTest-medical_genetics-v0-res.json
            ├── hendrycksTest-miscellaneous-v0-loglikelihood
            ├── hendrycksTest-miscellaneous-v0-res.json
            ├── hendrycksTest-moral_disputes-v0-loglikelihood
            ├── hendrycksTest-moral_disputes-v0-res.json
            ├── hendrycksTest-moral_scenarios-v0-loglikelihood
            ├── hendrycksTest-moral_scenarios-v0-res.json
            ├── hendrycksTest-nutrition-v0-loglikelihood
            ├── hendrycksTest-nutrition-v0-res.json
            ├── hendrycksTest-philosophy-v0-loglikelihood
            ├── hendrycksTest-philosophy-v0-res.json
            ├── hendrycksTest-prehistory-v0-loglikelihood
            ├── hendrycksTest-prehistory-v0-res.json
            ├── hendrycksTest-professional_accounting-v0-loglikelihood
            ├── hendrycksTest-professional_accounting-v0-res.json
            ├── hendrycksTest-professional_law-v0-loglikelihood
            ├── hendrycksTest-professional_law-v0-res.json
            ├── hendrycksTest-professional_medicine-v0-loglikelihood
            ├── hendrycksTest-professional_medicine-v0-res.json
            ├── hendrycksTest-professional_psychology-v0-loglikelihood
            ├── hendrycksTest-professional_psychology-v0-res.json
            ├── hendrycksTest-public_relations-v0-loglikelihood
            ├── hendrycksTest-public_relations-v0-res.json
            ├── hendrycksTest-security_studies-v0-loglikelihood
            ├── hendrycksTest-security_studies-v0-res.json
            ├── hendrycksTest-sociology-v0-loglikelihood
            ├── hendrycksTest-sociology-v0-res.json
            ├── hendrycksTest-us_foreign_policy-v0-loglikelihood
            ├── hendrycksTest-us_foreign_policy-v0-res.json
            ├── hendrycksTest-virology-v0-loglikelihood
            ├── hendrycksTest-virology-v0-res.json
            ├── hendrycksTest-world_religions-v0-loglikelihood
            ├── hendrycksTest-world_religions-v0-res.json
            ├── iwslt17-ar-en-v0-greedy_until
            ├── iwslt17-ar-en-v0-res.json
            ├── iwslt17-en-ar-v0-greedy_until
            ├── iwslt17-en-ar-v0-res.json
            ├── lambada-v0-loglikelihood
            ├── lambada-v0-res.json
            ├── lambada_cloze-v0-loglikelihood
            ├── lambada_cloze-v0-res.json
            ├── lambada_mt_de-v0-loglikelihood
            ├── lambada_mt_de-v0-res.json
            ├── lambada_mt_en-v0-loglikelihood
            ├── lambada_mt_en-v0-res.json
            ├── lambada_mt_es-v0-loglikelihood
            ├── lambada_mt_es-v0-res.json
            ├── lambada_mt_fr-v0-loglikelihood
            ├── lambada_mt_fr-v0-res.json
            ├── lambada_mt_it-v0-loglikelihood
            ├── lambada_mt_it-v0-res.json
            ├── lambada_openai-v0-loglikelihood
            ├── lambada_openai-v0-res.json
            ├── lambada_openai-v2.0-loglikelihood
            ├── lambada_openai-v2.0-res.json
            ├── lambada_openai_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt
            ├── lambada_openai_cloze-v0-loglikelihood
            ├── lambada_openai_cloze-v0-res.json
            ├── lambada_openai_mt_de-v0-loglikelihood
            ├── lambada_openai_mt_de-v0-res.json
            ├── lambada_openai_mt_en-v0-loglikelihood
            ├── lambada_openai_mt_en-v0-res.json
            ├── lambada_openai_mt_es-v0-loglikelihood
            ├── lambada_openai_mt_es-v0-res.json
            ├── lambada_openai_mt_fr-v0-loglikelihood
            ├── lambada_openai_mt_fr-v0-res.json
            ├── lambada_openai_mt_it-v0-loglikelihood
            ├── lambada_openai_mt_it-v0-res.json
            ├── lambada_standard-v0-loglikelihood
            ├── lambada_standard-v0-res.json
            ├── lambada_standard_cloze-v0-loglikelihood
            ├── lambada_standard_cloze-v0-res.json
            ├── logiqa-v0-loglikelihood
            ├── logiqa-v0-res.json
            ├── math_algebra-v0-greedy_until
            ├── math_algebra-v0-res.json
            ├── math_algebra-v1-greedy_until
            ├── math_algebra-v1-res.json
            ├── math_counting_and_prob-v0-greedy_until
            ├── math_counting_and_prob-v0-res.json
            ├── math_counting_and_prob-v1-greedy_until
            ├── math_counting_and_prob-v1-res.json
            ├── math_geometry-v0-greedy_until
            ├── math_geometry-v0-res.json
            ├── math_geometry-v1-greedy_until
            ├── math_geometry-v1-res.json
            ├── math_intermediate_algebra-v0-greedy_until
            ├── math_intermediate_algebra-v0-res.json
            ├── math_intermediate_algebra-v1-greedy_until
            ├── math_intermediate_algebra-v1-res.json
            ├── math_num_theory-v0-greedy_until
            ├── math_num_theory-v0-res.json
            ├── math_num_theory-v1-greedy_until
            ├── math_num_theory-v1-res.json
            ├── math_prealgebra-v0-greedy_until
            ├── math_prealgebra-v0-res.json
            ├── math_prealgebra-v1-greedy_until
            ├── math_prealgebra-v1-res.json
            ├── math_precalc-v0-greedy_until
            ├── math_precalc-v0-res.json
            ├── math_precalc-v1-greedy_until
            ├── math_precalc-v1-res.json
            ├── mathqa-v0-loglikelihood
            ├── mathqa-v0-res.json
            ├── mc_taco-v0-loglikelihood
            ├── mc_taco-v0-res.json
            ├── mmlu_stem_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt
            ├── mnli-v0-loglikelihood
            ├── mnli-v0-res.json
            ├── mnli_mismatched-v0-loglikelihood
            ├── mnli_mismatched-v0-res.json
            ├── mrpc-v0-loglikelihood
            ├── mrpc-v0-res.json
            ├── multirc-v0-loglikelihood
            ├── multirc-v0-res.json
            ├── multirc-v1-loglikelihood
            ├── multirc-v1-res.json
            ├── mutual-v0-loglikelihood
            ├── mutual-v0-res.json
            ├── mutual-v1-loglikelihood
            ├── mutual-v1-res.json
            ├── mutual_plus-v0-loglikelihood
            ├── mutual_plus-v0-res.json
            ├── mutual_plus-v1-loglikelihood
            ├── mutual_plus-v1-res.json
            ├── openbookqa-v0-loglikelihood
            ├── openbookqa-v0-res.json
            ├── pile_arxiv-v0-loglikelihood_rolling
            ├── pile_arxiv-v0-res.json
            ├── pile_arxiv-v1-loglikelihood_rolling
            ├── pile_arxiv-v1-res.json
            ├── pile_bookcorpus2-v0-loglikelihood_rolling
            ├── pile_bookcorpus2-v0-res.json
            ├── pile_bookcorpus2-v1-loglikelihood_rolling
            ├── pile_bookcorpus2-v1-res.json
            ├── pile_books3-v0-loglikelihood_rolling
            ├── pile_books3-v0-res.json
            ├── pile_books3-v1-loglikelihood_rolling
            ├── pile_books3-v1-res.json
            ├── pile_dm-mathematics-v0-loglikelihood_rolling
            ├── pile_dm-mathematics-v0-res.json
            ├── pile_dm-mathematics-v1-loglikelihood_rolling
            ├── pile_dm-mathematics-v1-res.json
            ├── pile_enron-v0-loglikelihood_rolling
            ├── pile_enron-v0-res.json
            ├── pile_enron-v1-loglikelihood_rolling
            ├── pile_enron-v1-res.json
            ├── pile_europarl-v0-loglikelihood_rolling
            ├── pile_europarl-v0-res.json
            ├── pile_europarl-v1-loglikelihood_rolling
            ├── pile_europarl-v1-res.json
            ├── pile_freelaw-v0-loglikelihood_rolling
            ├── pile_freelaw-v0-res.json
            ├── pile_freelaw-v1-loglikelihood_rolling
            ├── pile_freelaw-v1-res.json
            ├── pile_github-v0-loglikelihood_rolling
            ├── pile_github-v0-res.json
            ├── pile_github-v1-loglikelihood_rolling
            ├── pile_github-v1-res.json
            ├── pile_gutenberg-v0-loglikelihood_rolling
            ├── pile_gutenberg-v0-res.json
            ├── pile_gutenberg-v1-loglikelihood_rolling
            ├── pile_gutenberg-v1-res.json
            ├── pile_hackernews-v0-loglikelihood_rolling
            ├── pile_hackernews-v0-res.json
            ├── pile_hackernews-v1-loglikelihood_rolling
            ├── pile_hackernews-v1-res.json
            ├── pile_nih-exporter-v0-loglikelihood_rolling
            ├── pile_nih-exporter-v0-res.json
            ├── pile_nih-exporter-v1-loglikelihood_rolling
            ├── pile_nih-exporter-v1-res.json
            ├── pile_opensubtitles-v0-loglikelihood_rolling
            ├── pile_opensubtitles-v0-res.json
            ├── pile_opensubtitles-v1-loglikelihood_rolling
            ├── pile_opensubtitles-v1-res.json
            ├── pile_openwebtext2-v0-loglikelihood_rolling
            ├── pile_openwebtext2-v0-res.json
            ├── pile_openwebtext2-v1-loglikelihood_rolling
            ├── pile_openwebtext2-v1-res.json
            ├── pile_philpapers-v0-loglikelihood_rolling
            ├── pile_philpapers-v0-res.json
            ├── pile_philpapers-v1-loglikelihood_rolling
            ├── pile_philpapers-v1-res.json
            ├── pile_pile-cc-v0-loglikelihood_rolling
            ├── pile_pile-cc-v0-res.json
            ├── pile_pile-cc-v1-loglikelihood_rolling
            ├── pile_pile-cc-v1-res.json
            ├── pile_pubmed-abstracts-v0-loglikelihood_rolling
            ├── pile_pubmed-abstracts-v0-res.json
            ├── pile_pubmed-abstracts-v1-loglikelihood_rolling
            ├── pile_pubmed-abstracts-v1-res.json
            ├── pile_pubmed-central-v0-loglikelihood_rolling
            ├── pile_pubmed-central-v0-res.json
            ├── pile_pubmed-central-v1-loglikelihood_rolling
            ├── pile_pubmed-central-v1-res.json
            ├── pile_stackexchange-v0-loglikelihood_rolling
            ├── pile_stackexchange-v0-res.json
            ├── pile_stackexchange-v1-loglikelihood_rolling
            ├── pile_stackexchange-v1-res.json
            ├── pile_ubuntu-irc-v0-loglikelihood_rolling
            ├── pile_ubuntu-irc-v0-res.json
            ├── pile_ubuntu-irc-v1-loglikelihood_rolling
            ├── pile_ubuntu-irc-v1-res.json
            ├── pile_uspto-v0-loglikelihood_rolling
            ├── pile_uspto-v0-res.json
            ├── pile_uspto-v1-loglikelihood_rolling
            ├── pile_uspto-v1-res.json
            ├── pile_wikipedia-v0-loglikelihood_rolling
            ├── pile_wikipedia-v0-res.json
            ├── pile_wikipedia-v1-loglikelihood_rolling
            ├── pile_wikipedia-v1-res.json
            ├── pile_youtubesubtitles-v0-loglikelihood_rolling
            ├── pile_youtubesubtitles-v0-res.json
            ├── pile_youtubesubtitles-v1-loglikelihood_rolling
            ├── pile_youtubesubtitles-v1-res.json
            ├── piqa-v0-loglikelihood
            ├── piqa-v0-res.json
            ├── prost-v0-loglikelihood
            ├── prost-v0-res.json
            ├── pubmedqa-v0-loglikelihood
            ├── pubmedqa-v0-res.json
            ├── qa4mre_2011-v0-loglikelihood
            ├── qa4mre_2011-v0-res.json
            ├── qa4mre_2012-v0-loglikelihood
            ├── qa4mre_2012-v0-res.json
            ├── qa4mre_2013-v0-loglikelihood
            ├── qa4mre_2013-v0-res.json
            ├── qnli-v0-loglikelihood
            ├── qnli-v0-res.json
            ├── qqp-v0-loglikelihood
            ├── qqp-v0-res.json
            ├── race-v0-loglikelihood
            ├── race-v0-res.json
            ├── random_insertion-v0-greedy_until
            ├── random_insertion-v0-res.json
            ├── record-v0-loglikelihood
            ├── record-v0-res.json
            ├── reversed_words-v0-greedy_until
            ├── reversed_words-v0-res.json
            ├── rte-v0-loglikelihood
            ├── rte-v0-res.json
            ├── sciq-v0-loglikelihood
            ├── sciq-v0-res.json
            ├── squad2-v0-greedy_until
            ├── squad2-v0-loglikelihood
            ├── squad2-v0-res.json
            ├── squad2-v1-greedy_until
            ├── squad2-v1-loglikelihood
            ├── squad2-v1-res.json
            ├── sst-v0-loglikelihood
            ├── sst-v0-res.json
            ├── swag-v0-loglikelihood
            ├── swag-v0-res.json
            ├── textsynth_test_0a89c2739f9598b4be2674b0a8e43931d7f3f0b696970bcba31f9b52bdf12297.pkl
            ├── textsynth_test_0c1c14571add7903b89e588c8212572b95bb57b334fc0752c89a7e045a5f63ae.pkl
            ├── textsynth_test_3092d07756f3e1d010c07524cc8a2ecba7f0c19f9e39f2aaf2bf440bfe328004.pkl
            ├── textsynth_test_434076260b6af3a46b7a5eaceec3306a5872c400a3872f744280b237455a0f8e.pkl
            ├── textsynth_test_49c47ae40e11f349f2f6b492128188b1b2bc103a421c676ee4b2142a68b43516.pkl
            ├── textsynth_test_4fd8d66a6dad7f602b40e5d7dc298d6fe329299d086a4659743a41f4a4012659.pkl
            ├── textsynth_test_51b5302f157cf224f694ccad973f255ae19e9e061d533256bdf75b04e0a917ab.pkl
            ├── textsynth_test_6d6c62dd70caaa208712bf766deaf419cfac89538d4ab7745621e339394c0c23.pkl
            ├── textsynth_test_7209c4617547bfe17cb9e7f5f735fe35822d650aefdc5fbeeaf0c1724effbe09.pkl
            ├── textsynth_test_7afdc285388e51094e12645f305328c759574fa3ec9751631025f8ad5ebf9f3e.pkl
            ├── textsynth_test_9d5f33dbfe1e254928c89f5ed85e4c010d888065f55a8f1b863bc1eb0340a5f2.pkl
            ├── textsynth_test_abcbcba648d89e5d81a50511a6d24ddeb538de2ffe108c1370dd74ce6ac8038d.pkl
            ├── textsynth_test_b1cbb29666cce5e31a1e97695858137398a0885ca5d5d98f515404fb6aeb99e7.pkl
            ├── textsynth_test_e7ad1e9f52a39e1ddd1e50f3c57ffa4546728dd150a67c0a0ddc8675c04e15d1.pkl
            ├── textsynth_test_f4bfe4beb605bd52a8ab6be3c9293639e7e2261d98de58159d15ccb83131bf4e.pkl
            ├── toxigen-v0-loglikelihood
            ├── toxigen-v0-res.json
            ├── triviaqa-v0-loglikelihood
            ├── triviaqa-v0-res.json
            ├── triviaqa-v1-loglikelihood
            ├── triviaqa-v1-res.json
            ├── truthfulqa_gen-v0-greedy_until
            ├── truthfulqa_gen-v0-res.json
            ├── truthfulqa_gen-v1-greedy_until
            ├── truthfulqa_gen-v1-res.json
            ├── truthfulqa_mc-v0-loglikelihood
            ├── truthfulqa_mc-v0-res.json
            ├── truthfulqa_mc-v1-loglikelihood
            ├── truthfulqa_mc-v1-res.json
            ├── webqs-v0-loglikelihood
            ├── webqs-v0-res.json
            ├── wic-v0-loglikelihood
            ├── wic-v0-res.json
            ├── wikitext-v0-loglikelihood_rolling
            ├── wikitext-v0-res.json
            ├── wikitext-v1-loglikelihood_rolling
            ├── wikitext-v1-res.json
            ├── wikitext_10_hf_pretrained-EleutherAI-pythia-14m-dtype-float32-device-cpu.txt
            ├── winogrande-v0-loglikelihood
            ├── winogrande-v0-res.json
            ├── wmt14-en-fr-v0-greedy_until
            ├── wmt14-en-fr-v0-res.json
            ├── wmt14-fr-en-v0-greedy_until
            ├── wmt14-fr-en-v0-res.json
            ├── wmt16-de-en-v0-greedy_until
            ├── wmt16-de-en-v0-res.json
            ├── wmt16-en-de-v0-greedy_until
            ├── wmt16-en-de-v0-res.json
            ├── wmt16-en-ro-v0-greedy_until
            ├── wmt16-en-ro-v0-res.json
            ├── wmt16-ro-en-v0-greedy_until
            ├── wmt16-ro-en-v0-res.json
            ├── wmt20-cs-en-v0-greedy_until
            ├── wmt20-cs-en-v0-res.json
            ├── wmt20-de-en-v0-greedy_until
            ├── wmt20-de-en-v0-res.json
            ├── wmt20-de-fr-v0-greedy_until
            ├── wmt20-de-fr-v0-res.json
            ├── wmt20-en-cs-v0-greedy_until
            ├── wmt20-en-cs-v0-res.json
            ├── wmt20-en-de-v0-greedy_until
            ├── wmt20-en-de-v0-res.json
            ├── wmt20-en-iu-v0-greedy_until
            ├── wmt20-en-iu-v0-res.json
            ├── wmt20-en-ja-v0-greedy_until
            ├── wmt20-en-ja-v0-res.json
            ├── wmt20-en-ja-v1-greedy_until
            ├── wmt20-en-ja-v1-res.json
            ├── wmt20-en-km-v0-greedy_until
            ├── wmt20-en-km-v0-res.json
            ├── wmt20-en-pl-v0-greedy_until
            ├── wmt20-en-pl-v0-res.json
            ├── wmt20-en-ps-v0-greedy_until
            ├── wmt20-en-ps-v0-res.json
            ├── wmt20-en-ru-v0-greedy_until
            ├── wmt20-en-ru-v0-res.json
            ├── wmt20-en-ta-v0-greedy_until
            ├── wmt20-en-ta-v0-res.json
            ├── wmt20-en-zh-v0-greedy_until
            ├── wmt20-en-zh-v0-res.json
            ├── wmt20-en-zh-v1-greedy_until
            ├── wmt20-en-zh-v1-res.json
            ├── wmt20-fr-de-v0-greedy_until
            ├── wmt20-fr-de-v0-res.json
            ├── wmt20-iu-en-v0-greedy_until
            ├── wmt20-iu-en-v0-res.json
            ├── wmt20-ja-en-v0-greedy_until
            ├── wmt20-ja-en-v0-res.json
            ├── wmt20-km-en-v0-greedy_until
            ├── wmt20-km-en-v0-res.json
            ├── wmt20-pl-en-v0-greedy_until
            ├── wmt20-pl-en-v0-res.json
            ├── wmt20-ps-en-v0-greedy_until
            ├── wmt20-ps-en-v0-res.json
            ├── wmt20-ru-en-v0-greedy_until
            ├── wmt20-ru-en-v0-res.json
            ├── wmt20-ta-en-v0-greedy_until
            ├── wmt20-ta-en-v0-res.json
            ├── wmt20-zh-en-v0-greedy_until
            ├── wmt20-zh-en-v0-res.json
            ├── wnli-v0-loglikelihood
            ├── wnli-v0-res.json
            ├── wnli-v1-loglikelihood
            ├── wnli-v1-res.json
            ├── wsc-v0-loglikelihood
            ├── wsc-v0-res.json
            ├── wsc273-v0-loglikelihood
            └── wsc273-v0-res.json
        ├── testyamls
            └── test-01.yaml
        └── utils.py


/.gitignore:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/.gitignore


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/README.md


--------------------------------------------------------------------------------
/TROUBLESHOOTING.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/TROUBLESHOOTING.md


--------------------------------------------------------------------------------
/barebones_hymba/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/barebones_hymba/README.md


--------------------------------------------------------------------------------
/barebones_hymba/barebones_hymba_block.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/barebones_hymba/barebones_hymba_block.py


--------------------------------------------------------------------------------
/barebones_hymba/test_barebones_hymba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/barebones_hymba/test_barebones_hymba.py


--------------------------------------------------------------------------------
/chat.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/chat.py


--------------------------------------------------------------------------------
/images/hymba-performance.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/images/hymba-performance.png


--------------------------------------------------------------------------------
/lm-evaluation-harness/.coveragerc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/.coveragerc


--------------------------------------------------------------------------------
/lm-evaluation-harness/.flake8:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/.flake8


--------------------------------------------------------------------------------
/lm-evaluation-harness/.pre-commit-config.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/.pre-commit-config.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/CITATION.bib:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/CITATION.bib


--------------------------------------------------------------------------------
/lm-evaluation-harness/CODEOWNERS:
--------------------------------------------------------------------------------
1 | * @haileyschoelkopf @lintangsutawika @baberabb
2 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/LICENSE.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/LICENSE.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/docs/API_guide.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/docs/API_guide.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/docs/CONTRIBUTING.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/docs/CONTRIBUTING.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/docs/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/docs/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/docs/decontamination.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/docs/decontamination.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/docs/img/fewshot_example_gpt3.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/docs/img/fewshot_example_gpt3.png


--------------------------------------------------------------------------------
/lm-evaluation-harness/docs/interface.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/docs/interface.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/docs/model_guide.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/docs/model_guide.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/docs/new_task_guide.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/docs/new_task_guide.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/docs/task_guide.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/docs/task_guide.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/examples/lm-eval-overview.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/examples/lm-eval-overview.ipynb


--------------------------------------------------------------------------------
/lm-evaluation-harness/examples/visualize-wandb.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/examples/visualize-wandb.ipynb


--------------------------------------------------------------------------------
/lm-evaluation-harness/examples/visualize-zeno.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/examples/visualize-zeno.ipynb


--------------------------------------------------------------------------------
/lm-evaluation-harness/ignore.txt:
--------------------------------------------------------------------------------
1 | ROUGE
2 | rouge
3 | nin
4 | maka
5 | mor
6 | te
7 | ond
8 | extraversion
9 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval.egg-info/PKG-INFO:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval.egg-info/PKG-INFO


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval.egg-info/SOURCES.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval.egg-info/SOURCES.txt


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval.egg-info/dependency_links.txt:
--------------------------------------------------------------------------------
1 | 
2 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval.egg-info/entry_points.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval.egg-info/entry_points.txt


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval.egg-info/requires.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval.egg-info/requires.txt


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval.egg-info/top_level.txt:
--------------------------------------------------------------------------------
1 | lm_eval
2 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/__init__.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/__main__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/__main__.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/api/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/api/filter.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/api/filter.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/api/group.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/api/group.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/api/instance.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/api/instance.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/api/metrics.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/api/metrics.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/api/model.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/api/model.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/api/registry.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/api/registry.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/api/samplers.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/api/samplers.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/api/task.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/api/task.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/caching/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/caching/cache.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/caching/cache.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/decontamination/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/decontamination/archiver.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/decontamination/archiver.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/decontamination/decontaminate.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/decontamination/decontaminate.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/decontamination/janitor.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/decontamination/janitor.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/evaluator.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/evaluator.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/evaluator_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/evaluator_utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/filters/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/filters/__init__.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/filters/decontamination.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/filters/decontamination.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/filters/extraction.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/filters/extraction.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/filters/selection.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/filters/selection.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/filters/transformation.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/filters/transformation.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/loggers/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/loggers/__init__.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/loggers/evaluation_tracker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/loggers/evaluation_tracker.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/loggers/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/loggers/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/loggers/wandb_logger.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/loggers/wandb_logger.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/__init__.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/anthropic_llms.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/anthropic_llms.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/api_models.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/api_models.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/dummy.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/dummy.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/gguf.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/gguf.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/huggingface.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/huggingface.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/mamba_lm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/mamba_lm.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/nemo_lm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/nemo_lm.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/neuralmagic.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/neuralmagic.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/neuron_optimum.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/neuron_optimum.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/openai_completions.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/openai_completions.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/optimum_lm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/optimum_lm.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/textsynth.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/textsynth.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/models/vllm_causallms.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/models/vllm_causallms.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/prompts/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/prompts/__init__.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/__init__.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/aclue/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/aclue/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/aclue/_aclue.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/aclue/_aclue.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/aclue/_generate_configs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/aclue/_generate_configs.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/aexams/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/aexams/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/aexams/_aexams.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/aexams/_aexams.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/aexams/aexams_Biology.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/aexams/aexams_Biology.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/aexams/aexams_Physics.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/aexams/aexams_Physics.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/aexams/aexams_Science.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/aexams/aexams_Science.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/aexams/aexams_Social.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/aexams/aexams_Social.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrimgsm/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrimgsm/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrimgsm/en_cot/cot_yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrimgsm/en_cot/cot_yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrimgsm/gen_yaml.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrimgsm/gen_yaml.sh


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrimgsm/run.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrimgsm/run.sh


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrimgsm/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrimgsm/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrimmlu/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrimmlu/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrimmlu/direct/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrimmlu/direct/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrimmlu/fewshot.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrimmlu/fewshot.sh


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrimmlu/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrimmlu/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrixnli/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrixnli/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrixnli/anli prompt/native-direct/utils.py:
--------------------------------------------------------------------------------
1 | from lm_eval.utils import weighted_f1_score
2 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/afrixnli/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/afrixnli/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/agieval.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/agieval.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/agieval_cn.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/agieval_cn.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/agieval_en.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/agieval_en.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/agieval_nous.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/agieval_nous.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/aqua-rat.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/aqua-rat.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/gaokao-mathqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/gaokao-mathqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/jec-qa-ca.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/jec-qa-ca.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/jec-qa-kd.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/jec-qa-kd.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/logiqa-en.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/logiqa-en.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/logiqa-zh.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/logiqa-zh.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/lsat-ar.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/lsat-ar.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/lsat-lr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/lsat-lr.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/lsat-rc.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/lsat-rc.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/math.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/math.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/sat-en.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/sat-en.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/sat-math.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/sat-math.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/agieval/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/agieval/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/alghafa/copa_ar/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/alghafa/copa_ar/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/alghafa/piqa_ar/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/alghafa/piqa_ar/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/anli/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/anli/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/anli/anli_r1.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/anli/anli_r1.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/anli/anli_r2.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/anli/anli_r2.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/anli/anli_r3.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/anli/anli_r3.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/arabicmmlu/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/arabicmmlu/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/arabicmmlu/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/arabicmmlu/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/arc/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/arc/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/arc/arc_challenge.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/arc/arc_challenge.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/arc/arc_easy.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/arc/arc_easy.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/arc_mt/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/arc_mt/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/arithmetic/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/arithmetic/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/asdiv/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/asdiv/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/asdiv/asdiv-cot-llama.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/asdiv/asdiv-cot-llama.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/asdiv/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/asdiv/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/babi/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/babi/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/babi/babi.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/babi/babi.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/basqueglue/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/basqueglue/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/basqueglue/bec.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/basqueglue/bec.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/basqueglue/bhtc.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/basqueglue/bhtc.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/basqueglue/coref.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/basqueglue/coref.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/basqueglue/qnli.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/basqueglue/qnli.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/basqueglue/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/basqueglue/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/basqueglue/vaxx.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/basqueglue/vaxx.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/basqueglue/wic.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/basqueglue/wic.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bbh/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bbh/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bbh/_generate_configs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bbh/_generate_configs.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bbh/cot_fewshot/_bbh.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bbh/cot_fewshot/_bbh.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bbh/cot_zeroshot/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bbh/cot_zeroshot/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bbh/fewshot/navigate.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bbh/fewshot/navigate.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bbh/fewshot/snarks.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bbh/fewshot/snarks.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bbh/zeroshot/navigate.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bbh/zeroshot/navigate.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bbh/zeroshot/snarks.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bbh/zeroshot/snarks.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bbh/zeroshot/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bbh/zeroshot/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/belebele/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/belebele/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/belebele/_belebele.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/belebele/_belebele.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/benchmarks/openllm.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/benchmarks/openllm.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/benchmarks/pythia.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/benchmarks/pythia.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/benchmarks/t0_eval.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/benchmarks/t0_eval.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bertaqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bertaqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bertaqa/_bertaqa_template:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bertaqa/_bertaqa_template


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bertaqa/bertaqa_en.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bertaqa/bertaqa_en.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bertaqa/bertaqa_eu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bertaqa/bertaqa_eu.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bigbench/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bigbench/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/bigbench/generate_tasks.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/bigbench/generate_tasks.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/_blimp.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/_blimp.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/_template_yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/_template_yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/adjunct_island.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/adjunct_island.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/causative.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/causative.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/drop_argument.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/drop_argument.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/generate_configs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/generate_configs.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/inchoative.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/inchoative.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/intransitive.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/intransitive.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/npi_present_1.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/npi_present_1.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/npi_present_2.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/npi_present_2.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/only_npi_scope.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/only_npi_scope.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/passive_1.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/passive_1.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/passive_2.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/passive_2.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/transitive.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/transitive.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/blimp/wh_island.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/blimp/wh_island.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/ceval/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/ceval/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/ceval/_ceval-valid.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/ceval/_ceval-valid.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/ceval/_default_ceval_yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/ceval/_default_ceval_yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/ceval/_generate_configs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/ceval/_generate_configs.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/ceval/ceval-valid_law.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/ceval/ceval-valid_law.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/_cmmlu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/_cmmlu.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/_generate_configs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/_generate_configs.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_agronomy.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_agronomy.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_anatomy.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_anatomy.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_arts.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_arts.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_astronomy.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_astronomy.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_economics.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_economics.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_education.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_education.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_ethnology.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_ethnology.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_genetics.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_genetics.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_logical.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_logical.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_marketing.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_marketing.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_nutrition.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_nutrition.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_sociology.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_sociology.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_virology.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/cmmlu/cmmlu_virology.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/commonsense_qa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/commonsense_qa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/copal_id/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/copal_id/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/copal_id/colloquial.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/copal_id/colloquial.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/copal_id/standard.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/copal_id/standard.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/copal_id/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/copal_id/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/coqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/coqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/coqa/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/coqa/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/coqa/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/coqa/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/crows_pairs/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/crows_pairs/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/crows_pairs/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/crows_pairs/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/csatqa/_csatqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/csatqa/_csatqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_gr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_gr.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_li.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_li.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_rch.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_rch.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_rcs.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_rcs.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_rcss.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_rcss.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_wr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/csatqa/csatqa_wr.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/csatqa/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/csatqa/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/drop/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/drop/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/drop/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/drop/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/drop/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/drop/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eq_bench/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eq_bench/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eq_bench/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eq_bench/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eq_bench/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eq_bench/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_exams/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_exams/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_exams/configs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_exams/configs.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_exams/eus_exams:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_exams/eus_exams


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_exams/eus_exams_es:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_exams/eus_exams_es


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_exams/eus_exams_eu:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_exams/eus_exams_eu


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_exams/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_exams/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_proficiency/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_proficiency/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_reading/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_reading/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_reading/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_reading/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_trivia/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_trivia/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_trivia/eus_trivia.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_trivia/eus_trivia.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/eus_trivia/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/eus_trivia/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/fda/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/fda/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/fda/fda.yaml:
--------------------------------------------------------------------------------
1 | task: fda
2 | class: !function task.FDA
3 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/fda/task.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/fda/task.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/fld/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/fld/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/fld/fld_default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/fld/fld_default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/fld/fld_star.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/fld/fld_star.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/french_bench/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/french_bench/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/french_bench/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/french_bench/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glianorex/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glianorex/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glianorex/glianorex.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glianorex/glianorex.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/cola/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/cola/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/mnli/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/mnli/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/mnli/mismatch.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/mnli/mismatch.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/mnli/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/mnli/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/mrpc/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/mrpc/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/qnli/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/qnli/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/qqp/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/qqp/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/rte/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/rte/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/sst2/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/sst2/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/glue/wnli/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/glue/wnli/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gpqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gpqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gpqa/cot_n_shot/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gpqa/cot_n_shot/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gpqa/cot_zeroshot/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gpqa/cot_zeroshot/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gpqa/generative/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gpqa/generative/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gpqa/n_shot/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gpqa/n_shot/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gpqa/zeroshot/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gpqa/zeroshot/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gsm8k/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gsm8k/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gsm8k/gsm8k-cot-llama.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gsm8k/gsm8k-cot-llama.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gsm8k/gsm8k-cot.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gsm8k/gsm8k-cot.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gsm8k/gsm8k.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gsm8k/gsm8k.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gsm_plus/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gsm_plus/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/gsm_plus/gsm_plus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/gsm_plus/gsm_plus.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/haerae/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/haerae/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/haerae/_haerae.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/haerae/_haerae.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_gk.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_gk.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_hi.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_hi.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_lw.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_lw.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_rw.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_rw.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_sn.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/haerae/haerae_sn.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/headqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/headqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/headqa/headqa_en.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/headqa/headqa_en.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/headqa/headqa_es.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/headqa/headqa_es.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/hellaswag/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/hellaswag/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/hellaswag/hellaswag.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/hellaswag/hellaswag.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/hellaswag/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/hellaswag/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/hendrycks_ethics/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/hendrycks_ethics/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/hendrycks_ethics/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/hendrycks_ethics/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/hendrycks_math/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/hendrycks_math/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/hendrycks_math/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/hendrycks_math/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/ifeval/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/ifeval/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/ifeval/ifeval.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/ifeval/ifeval.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/ifeval/instructions.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/ifeval/instructions.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/ifeval/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/ifeval/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/inverse_scaling/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/inverse_scaling/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/kmmlu/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/kmmlu/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/kobest/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/kobest/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/kobest/kobest_boolq.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/kobest/kobest_boolq.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/kobest/kobest_copa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/kobest/kobest_copa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/kobest/kobest_wic.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/kobest/kobest_wic.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/kobest/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/kobest/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/kormedmcqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/kormedmcqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/lambada/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/lambada/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/lambada_cloze/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/lambada_cloze/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/leaderboard/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/leaderboard/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/leaderboard/gpqa/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/leaderboard/gpqa/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/leaderboard/math/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/leaderboard/math/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/leaderboard/musr/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/leaderboard/musr/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/lingoly/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/lingoly/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/lingoly/lingoly_group.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/lingoly/lingoly_group.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/lingoly/script.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/lingoly/script.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/lingoly/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/lingoly/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/logiqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/logiqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/logiqa/logiqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/logiqa/logiqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/logiqa/utils_logiqa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/logiqa/utils_logiqa.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/logiqa2/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/logiqa2/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/logiqa2/logieval.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/logiqa2/logieval.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/logiqa2/logiqa2.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/logiqa2/logiqa2.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/logiqa2/utils_logiqa2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/logiqa2/utils_logiqa2.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mathqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mathqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mathqa/mathqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mathqa/mathqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mathqa/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mathqa/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mc_taco/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mc_taco/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mc_taco/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mc_taco/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/med_concepts_qa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/med_concepts_qa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/medmcqa/medmcqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/medmcqa/medmcqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/medmcqa/utils_medmcqa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/medmcqa/utils_medmcqa.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/medqa/medqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/medqa/medqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/medqa/preprocess_medqa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/medqa/preprocess_medqa.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/_mela.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/_mela.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_ar.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_ar.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_de.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_de.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_en.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_en.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_es.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_es.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_fr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_fr.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_is.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_is.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_it.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_it.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_ja.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_ja.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_ru.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_ru.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mela/mela_zh.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mela/mela_zh.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mgsm/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mgsm/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mgsm/direct/direct_yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mgsm/direct/direct_yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mgsm/en_cot/cot_yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mgsm/en_cot/cot_yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mgsm/gen_yaml.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mgsm/gen_yaml.sh


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mgsm/native_cot/cot_yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mgsm/native_cot/cot_yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mgsm/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mgsm/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/minerva_math/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/minerva_math/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/minerva_math/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/minerva_math/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mmlu/_generate_configs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mmlu/_generate_configs.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mmlu/default/_mmlu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mmlu/default/_mmlu.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mmlu/generative/_mmlu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mmlu/generative/_mmlu.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mmlu_pro/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mmlu_pro/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mmlu_pro/_mmlu_pro.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mmlu_pro/_mmlu_pro.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mmlu_pro/mmlu_pro_law.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mmlu_pro/mmlu_pro_law.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mmlu_pro/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mmlu_pro/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mmlusr/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mmlusr/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mmlusr/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mmlusr/config.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mutual/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mutual/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mutual/multual_plus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mutual/multual_plus.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mutual/mutual.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mutual/mutual.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/mutual/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/mutual/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/noticia/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/noticia/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/noticia/noticia.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/noticia/noticia.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/noticia/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/noticia/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/nq_open/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/nq_open/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/nq_open/nq_open.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/nq_open/nq_open.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/openbookqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/openbookqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/openbookqa/openbookqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/openbookqa/openbookqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paloma/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paloma/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paloma/_paloma_template:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paloma/_paloma_template


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_c4_en.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_c4_en.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_gab.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_gab.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_mc4.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_mc4.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_ptb.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_ptb.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paloma/paloma_utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/_generate_config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/_generate_config.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/_pawsx.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/_pawsx.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_de.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_de.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_en.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_en.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_es.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_es.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_fr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_fr.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_ja.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_ja.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_ko.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_ko.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_zh.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/paws_zh.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/paws-x/pawsx_template_yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/paws-x/pawsx_template_yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_arxiv.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_arxiv.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_bookcorpus2.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_bookcorpus2.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_books3.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_books3.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_enron.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_enron.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_europarl.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_europarl.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_freelaw.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_freelaw.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_github.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_github.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_gutenberg.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_gutenberg.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_hackernews.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_hackernews.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_philpapers.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_philpapers.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_pile-cc.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_pile-cc.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_ubuntu-irc.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_ubuntu-irc.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_uspto.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_uspto.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile/pile_wikipedia.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile/pile_wikipedia.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile_10k/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile_10k/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pile_10k/pile_10k.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pile_10k/pile_10k.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/piqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/piqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/piqa/piqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/piqa/piqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/polemo2/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/polemo2/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/polemo2/polemo2_in.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/polemo2/polemo2_in.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/polemo2/polemo2_out.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/polemo2/polemo2_out.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/prost/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/prost/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/prost/corypaik_prost.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/prost/corypaik_prost.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pubmedqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pubmedqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/pubmedqa/pubmedqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/pubmedqa/pubmedqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/qa4mre/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/qa4mre/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/qa4mre/qa4mre_2011.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/qa4mre/qa4mre_2011.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/qa4mre/qa4mre_2012.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/qa4mre/qa4mre_2012.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/qa4mre/qa4mre_2013.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/qa4mre/qa4mre_2013.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/qasper/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/qasper/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/qasper/bool.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/qasper/bool.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/qasper/freeform.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/qasper/freeform.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/qasper/metrics.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/qasper/metrics.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/qasper/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/qasper/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/race/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/race/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/race/preprocess_race.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/race/preprocess_race.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/race/race.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/race/race.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/sciq/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/sciq/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/sciq/sciq.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/sciq/sciq.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/scrolls/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/scrolls/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/scrolls/scrolls_qmsum.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/scrolls/scrolls_qmsum.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/scrolls/task.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/scrolls/task.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/siqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/siqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/siqa/siqa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/siqa/siqa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/squad_completion/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/squad_completion/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/squad_completion/task.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/squad_completion/task.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/squadv2/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/squadv2/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/squadv2/squadv2.yaml:
--------------------------------------------------------------------------------
1 | task: squadv2
2 | class: !function task.SQuAD2
3 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/squadv2/task.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/squadv2/task.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/storycloze/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/storycloze/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/super_glue/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/super_glue/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/super_glue/cb/aggregate.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/super_glue/cb/aggregate.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/super_glue/cb/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/super_glue/cb/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/super_glue/cb/t5_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/super_glue/cb/t5_utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/super_glue/copa/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/super_glue/copa/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/super_glue/record/util.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/super_glue/record/util.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/super_glue/wsc/t5_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/super_glue/wsc/t5_utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/swag/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/swag/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/swag/swag.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/swag/swag.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/swde/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/swde/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/swde/swde.yaml:
--------------------------------------------------------------------------------
1 | task: swde
2 | class: !function task.SWDE
3 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/swde/task.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/swde/task.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/tinyBenchmarks/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/tinyBenchmarks/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/tmlu/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/tmlu/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/tmlu/default/_tmlu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/tmlu/default/_tmlu.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/tmlu/default/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/tmlu/default/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/tmlu/subject.tsv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/tmlu/subject.tsv


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/tmmluplus/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/tmmluplus/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/tmmluplus/default/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/tmmluplus/default/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/tmmluplus/subject.tsv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/tmmluplus/subject.tsv


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/toxigen/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/toxigen/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/toxigen/toxigen.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/toxigen/toxigen.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/toxigen/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/toxigen/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/translation/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/translation/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/translation/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/translation/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/triviaqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/triviaqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/triviaqa/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/triviaqa/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/truthfulqa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/truthfulqa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/truthfulqa/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/truthfulqa/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/20_newsgroups.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/20_newsgroups.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/ag_news.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/ag_news.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/argument_topic.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/argument_topic.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/atis.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/atis.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/banking77.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/banking77.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/cnn_dailymail.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/cnn_dailymail.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/coedit_gec.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/coedit_gec.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/dbpedia_14.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/dbpedia_14.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/ethos_binary.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/ethos_binary.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/ledgar.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/ledgar.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/stsb.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/stsb.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/task.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/task.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/unfair_tos.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/unfair_tos.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/unitxt:
--------------------------------------------------------------------------------
1 | class: !function task.Unitxt
2 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unitxt/xsum.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unitxt/xsum.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unscramble/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unscramble/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unscramble/anagrams1.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unscramble/anagrams1.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/unscramble/anagrams2.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/unscramble/anagrams2.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/webqs/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/webqs/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/webqs/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/webqs/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/webqs/webqs.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/webqs/webqs.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wikitext/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wikitext/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wikitext/wikitext.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wikitext/wikitext.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/winogrande/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/winogrande/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/winogrande/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/winogrande/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wmdp/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wmdp/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wmdp/_wmdp.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wmdp/_wmdp.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wmdp/wmdp_bio.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wmdp/wmdp_bio.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wmdp/wmdp_chem.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wmdp/wmdp_chem.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wmdp/wmdp_cyber.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wmdp/wmdp_cyber.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wmt2016/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wmt2016/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wmt2016/metrics.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wmt2016/metrics.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wsc273/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wsc273/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wsc273/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wsc273/default.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/wsc273/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/wsc273/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/_xcopa.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/_xcopa.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_et.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_et.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_ht.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_ht.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_id.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_id.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_it.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_it.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_qu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_qu.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_sw.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_sw.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_ta.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_ta.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_th.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_th.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_tr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_tr.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_vi.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_vi.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/default_zh.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/default_zh.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xcopa/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xcopa/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/_xnli.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/_xnli.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_ar.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_ar.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_bg.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_bg.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_common_yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_common_yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_de.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_de.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_el.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_el.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_en.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_en.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_es.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_es.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_fr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_fr.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_hi.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_hi.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_ru.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_ru.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_sw.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_sw.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_th.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_th.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_tr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_tr.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_ur.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_ur.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_vi.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_vi.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_zh.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli/xnli_zh.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli_eu/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli_eu/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli_eu/xnli_common_yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli_eu/xnli_common_yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli_eu/xnli_eu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli_eu/xnli_eu.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xnli_eu/xnli_eu_mt.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xnli_eu/xnli_eu_mt.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xstorycloze/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xstorycloze/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xwinograd/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xwinograd/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xwinograd/_xwinograd.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xwinograd/_xwinograd.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/tasks/xwinograd/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/tasks/xwinograd/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/lm_eval/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/lm_eval/utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/mypy.ini:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/mypy.ini


--------------------------------------------------------------------------------
/lm-evaluation-harness/pile_statistics.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/pile_statistics.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/pyproject.toml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/pyproject.toml


--------------------------------------------------------------------------------
/lm-evaluation-harness/requirements.txt:
--------------------------------------------------------------------------------
1 | -e .
2 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/build_benchmark.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/build_benchmark.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/clean_training_data/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/clean_training_data/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/clean_training_data/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/cost_estimate.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/cost_estimate.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/get_prompts.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/get_prompts.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/make_gpt2_test_cases.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/make_gpt2_test_cases.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/make_table_results.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/make_table_results.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/make_table_tasks.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/make_table_tasks.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/model_comparator.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/model_comparator.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/regression.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/regression.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/requests_caching.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/requests_caching.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/write_out.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/write_out.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/scripts/zeno_visualize.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/scripts/zeno_visualize.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/setup.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/setup.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/templates/new_yaml_task/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/templates/new_yaml_task/README.md


--------------------------------------------------------------------------------
/lm-evaluation-harness/templates/new_yaml_task/blank_yaml.yaml:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/models/test_api.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/models/test_api.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/models/test_gguf.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/models/test_gguf.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/models/test_huggingface.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/models/test_huggingface.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/models/test_neuralmagic.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/models/test_neuralmagic.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/models/test_neuron_optimum.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/models/test_neuron_optimum.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/models/test_openvino.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/models/test_openvino.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/models/test_vllm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/models/test_vllm.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/test_cli.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/test_cli.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/test_evaluator.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/test_evaluator.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/test_include_path.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/test_include_path.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/test_janitor.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/test_janitor.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/test_misc.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/test_misc.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/test_prompt.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/test_prompt.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/test_requests_caching.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/test_requests_caching.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/test_tasks.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/test_tasks.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/test_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/test_utils.py


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testconfigs/arc_test.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testconfigs/arc_test.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anagrams1-v0-greedy_until:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anagrams1-v0-greedy_until


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anagrams1-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anagrams1-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anagrams2-v0-greedy_until:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anagrams2-v0-greedy_until


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anagrams2-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anli_r1-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anli_r1-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anli_r1-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anli_r1-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anli_r2-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anli_r2-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anli_r2-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anli_r2-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anli_r3-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/anli_r3-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/anli_r3-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/arc_challenge-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/arc_challenge-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/arc_easy-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/arc_easy-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/arc_easy-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/arc_easy-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/boolq-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/boolq-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/boolq-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/boolq-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/boolq-v1-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/boolq-v1-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/boolq-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/boolq-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/cb-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/cb-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/cb-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/cb-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/cb-v1-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/cb-v1-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/cb-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/cb-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/cola-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/cola-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/cola-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/cola-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/copa-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/copa-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/copa-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/copa-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/coqa-v0-greedy_until:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/coqa-v0-greedy_until


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/coqa-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/coqa-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/coqa-v1-greedy_until:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/coqa-v1-greedy_until


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/coqa-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/coqa-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/cycle_letters-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/cycle_letters-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/drop-v0-greedy_until:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/drop-v0-greedy_until


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/drop-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/drop-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/drop-v1-greedy_until:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/drop-v1-greedy_until


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/drop-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/drop-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/ethics_cm-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/ethics_cm-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/ethics_virtue-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/gsm8k-v0-greedy_until:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/gsm8k-v0-greedy_until


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/gsm8k-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/headqa-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/headqa-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/headqa-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/headqa_en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/headqa_en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/headqa_es-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/headqa_es-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/hellaswag-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/hellaswag-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/iwslt17-ar-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/iwslt17-ar-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/iwslt17-en-ar-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/iwslt17-en-ar-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/lambada-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/lambada-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/lambada-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/lambada_cloze-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/lambada_mt_de-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/lambada_mt_de-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/lambada_mt_en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/lambada_mt_es-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/lambada_mt_fr-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/lambada_mt_fr-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/lambada_mt_it-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/lambada_mt_it-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/logiqa-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/logiqa-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/logiqa-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/logiqa-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/math_algebra-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/math_algebra-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/math_algebra-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/math_geometry-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/math_geometry-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/math_geometry-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/math_geometry-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/math_precalc-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/math_precalc-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/math_precalc-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/math_precalc-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mathqa-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mathqa-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mathqa-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mathqa-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mc_taco-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mc_taco-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mc_taco-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mc_taco-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mnli-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mnli-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mnli-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mnli-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mrpc-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mrpc-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mrpc-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mrpc-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/multirc-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/multirc-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/multirc-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/multirc-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/multirc-v1-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/multirc-v1-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/multirc-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/multirc-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mutual-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mutual-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mutual-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mutual-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mutual-v1-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mutual-v1-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mutual-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mutual-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mutual_plus-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mutual_plus-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/mutual_plus-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/mutual_plus-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/openbookqa-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/openbookqa-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_arxiv-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_arxiv-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_arxiv-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_arxiv-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_books3-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_books3-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_books3-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_books3-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_enron-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_enron-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_enron-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_enron-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_europarl-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_europarl-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_europarl-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_europarl-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_freelaw-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_freelaw-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_freelaw-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_github-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_github-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_github-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_github-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_pile-cc-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_pile-cc-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_pile-cc-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_uspto-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_uspto-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pile_uspto-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pile_uspto-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/piqa-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/piqa-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/piqa-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/piqa-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/prost-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/prost-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/prost-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/prost-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/pubmedqa-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/pubmedqa-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/qa4mre_2011-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/qa4mre_2011-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/qa4mre_2012-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/qa4mre_2012-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/qa4mre_2013-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/qa4mre_2013-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/qnli-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/qnli-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/qnli-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/qnli-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/qqp-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/qqp-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/qqp-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/qqp-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/race-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/race-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/race-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/race-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/record-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/record-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/record-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/record-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/rte-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/rte-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/rte-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/rte-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/sciq-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/sciq-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/sciq-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/sciq-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/squad2-v0-greedy_until:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/squad2-v0-greedy_until


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/squad2-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/squad2-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/squad2-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/squad2-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/squad2-v1-greedy_until:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/squad2-v1-greedy_until


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/squad2-v1-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/squad2-v1-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/squad2-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/squad2-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/sst-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/sst-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/sst-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/sst-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/swag-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/swag-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/swag-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/swag-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/toxigen-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/toxigen-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/triviaqa-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/triviaqa-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/triviaqa-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/triviaqa-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/webqs-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/webqs-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/webqs-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/webqs-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wic-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wic-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wic-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wic-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wikitext-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wikitext-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wikitext-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wikitext-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/winogrande-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/winogrande-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt14-en-fr-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt14-en-fr-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt14-fr-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt14-fr-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt16-de-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt16-de-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt16-en-de-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt16-en-de-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt16-en-ro-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt16-en-ro-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt16-ro-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt16-ro-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-cs-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-cs-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-de-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-de-fr-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-de-fr-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-cs-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-cs-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-de-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-iu-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-iu-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-ja-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-km-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-km-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-pl-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-pl-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-ps-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-ps-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-ru-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-ru-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-ta-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-ta-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-en-zh-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-fr-de-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-iu-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-iu-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-ja-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-km-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-km-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-pl-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-pl-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-ps-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-ps-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-ru-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-ru-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-ta-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wmt20-zh-en-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wmt20-zh-en-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wnli-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wnli-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wnli-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wnli-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wnli-v1-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wnli-v1-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wnli-v1-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wnli-v1-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wsc-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wsc-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wsc-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wsc-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wsc273-v0-loglikelihood:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wsc273-v0-loglikelihood


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testdata/wsc273-v0-res.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testdata/wsc273-v0-res.json


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/testyamls/test-01.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/testyamls/test-01.yaml


--------------------------------------------------------------------------------
/lm-evaluation-harness/tests/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/NVlabs/hymba/HEAD/lm-evaluation-harness/tests/utils.py


--------------------------------------------------------------------------------