├── .github ├── CODE_OF_CONDUCT.md ├── CONTRIBUTING.md └── workflows │ └── tests.yml ├── .gitignore ├── .pre-commit-config.yaml ├── Dockerfile ├── LICENSE ├── Makefile ├── README.md ├── examples ├── grpo_example.yaml ├── remax_example.yaml ├── run_qwen2_5_7b_math.sh ├── run_qwen2_5_7b_math_swanlab.sh ├── run_qwen2_5_vl_3b_clevr.sh ├── run_qwen2_5_vl_3b_geo.sh ├── run_qwen2_5_vl_3b_geoqa8k.sh ├── run_qwen2_5_vl_3b_tvg.sh ├── run_qwen2_5_vl_7b_geo.sh ├── run_qwen2_5_vl_7b_geo_swanlab.sh └── runtime_env.yaml ├── pics ├── .gitignore ├── fig1.png ├── reward curve.png └── token len.png ├── pyproject.toml ├── requirements.txt ├── scripts └── model_merger.py ├── setup.py ├── third_party └── lmms-eval │ ├── .pre-commit-config.yaml │ ├── LICENSE │ ├── README.md │ ├── docs │ ├── README.md │ ├── commands.md │ ├── current_tasks.md │ ├── lmms-eval-0.3.md │ ├── model_guide.md │ ├── run_examples.md │ └── task_guide.md │ ├── examples │ ├── eval_tvg.sh │ └── eval_tvg_r1.sh │ ├── lmms_eval │ ├── __init__.py │ ├── __main__.py │ ├── api │ │ ├── __init__.py │ │ ├── filter.py │ │ ├── group.py │ │ ├── instance.py │ │ ├── metrics.py │ │ ├── model.py │ │ ├── registry.py │ │ ├── samplers.py │ │ └── task.py │ ├── caching │ │ ├── __init__.py │ │ └── cache.py │ ├── evaluator.py │ ├── evaluator_utils.py │ ├── filters │ │ ├── __init__.py │ │ ├── decontamination.py │ │ ├── extraction.py │ │ ├── selection.py │ │ └── transformation.py │ ├── loggers │ │ ├── __init__.py │ │ ├── evaluation_tracker.py │ │ ├── utils.py │ │ └── wandb_logger.py │ ├── logging_utils.py │ ├── models │ │ ├── __init__.py │ │ ├── aria.py │ │ ├── auroracap.py │ │ ├── batch_gpt4.py │ │ ├── cambrian.py │ │ ├── claude.py │ │ ├── cogvlm2.py │ │ ├── egogpt.py │ │ ├── from_log.py │ │ ├── fuyu.py │ │ ├── gemini_api.py │ │ ├── gpt4v.py │ │ ├── idefics2.py │ │ ├── instructblip.py │ │ ├── internvideo2.py │ │ ├── internvideo2_5.py │ │ ├── internvl.py │ │ ├── internvl2.py │ │ ├── llama_vid.py │ │ ├── llama_vision.py │ │ ├── llava.py │ │ ├── llava_hf.py │ │ ├── llava_onevision.py │ │ ├── llava_onevision_moviechat.py │ │ ├── llava_sglang.py │ │ ├── llava_vid.py │ │ ├── longva.py │ │ ├── mantis.py │ │ ├── minicpm_v.py │ │ ├── minimonkey.py │ │ ├── model_utils │ │ │ ├── __init__.py │ │ │ ├── audio_processing.py │ │ │ ├── load_video.py │ │ │ └── qwen │ │ │ │ ├── qwen_generate_utils.py │ │ │ │ └── vision_process.py │ │ ├── moviechat.py │ │ ├── mplug_owl_video.py │ │ ├── mplug_owl_video │ │ │ ├── __init__.py │ │ │ ├── configuration_mplug_owl.py │ │ │ ├── modeling_mplug_owl.py │ │ │ ├── processing_mplug_owl.py │ │ │ └── tokenization_mplug_owl.py │ │ ├── ola.py │ │ ├── openai_compatible.py │ │ ├── oryx.py │ │ ├── phi3v.py │ │ ├── qwen2_5_vl.py │ │ ├── qwen2_5_vl_interleave.py │ │ ├── qwen2_5_vl_r1.py │ │ ├── qwen2_audio.py │ │ ├── qwen2_vl.py │ │ ├── qwen_vl.py │ │ ├── qwen_vl_api.py │ │ ├── reka.py │ │ ├── ross.py │ │ ├── slime.py │ │ ├── srt_api.py │ │ ├── tinyllava.py │ │ ├── video_chatgpt.py │ │ ├── video_chatgpt │ │ │ ├── __init__.py │ │ │ ├── constants.py │ │ │ ├── eval │ │ │ │ ├── __init__.py │ │ │ │ └── model_utils.py │ │ │ ├── inference.py │ │ │ ├── model │ │ │ │ ├── __init__.py │ │ │ │ ├── consolidate.py │ │ │ │ ├── make_delta.py │ │ │ │ ├── utils.py │ │ │ │ └── video_chatgpt.py │ │ │ ├── single_video_inference.py │ │ │ ├── utils.py │ │ │ └── video_conversation.py │ │ ├── video_llava.py │ │ ├── videochat2.py │ │ ├── videochat_flash.py │ │ ├── vila.py │ │ ├── vita.py │ │ ├── vllm.py │ │ ├── whisper.py │ │ ├── whisper_vllm.py │ │ ├── xcomposer2_4KHD.py │ │ └── xcomposer2d5.py │ ├── tasks │ │ ├── __init__.py │ │ ├── _task_utils │ │ │ ├── file_utils.py │ │ │ ├── gpt_eval_utils.py │ │ │ ├── video_loader.py │ │ │ └── vqa_eval_metric.py │ │ ├── activitynet_tvg │ │ │ ├── activitynet_tvg.yaml │ │ │ ├── eval_tvg.py │ │ │ └── utils.py │ │ ├── activitynetqa │ │ │ ├── _default_template_yaml │ │ │ ├── activitynetqa_generation.yaml │ │ │ └── utils.py │ │ ├── ai2d │ │ │ ├── ai2d.yaml │ │ │ ├── ai2d_lite.yaml │ │ │ ├── ai2d_no_mask.yaml │ │ │ ├── upload_ai2d.py │ │ │ └── utils.py │ │ ├── air_bench │ │ │ ├── _default_template_yaml │ │ │ ├── air_bench_chat.yaml │ │ │ ├── air_bench_chat_mixed.yaml │ │ │ ├── air_bench_chat_music.yaml │ │ │ ├── air_bench_chat_sound.yaml │ │ │ ├── air_bench_chat_speech.yaml │ │ │ ├── air_bench_foundation.yaml │ │ │ ├── air_bench_foundation_music.yaml │ │ │ ├── air_bench_foundation_sound.yaml │ │ │ ├── air_bench_foundation_speech.yaml │ │ │ └── utils.py │ │ ├── alpaca_audio │ │ │ ├── alpaca_audio.yaml │ │ │ └── utils.py │ │ ├── arc │ │ │ ├── README.md │ │ │ ├── arc_challenge.yaml │ │ │ └── arc_easy.yaml │ │ ├── av_odyssey │ │ │ ├── av_odyssey.yaml │ │ │ └── utils.py │ │ ├── charades_sta │ │ │ ├── charades.yaml │ │ │ ├── eval_tvg.py │ │ │ └── utils.py │ │ ├── chartqa │ │ │ ├── chartqa.yaml │ │ │ ├── chartqa_lite.yaml │ │ │ ├── upload_chartqa.py │ │ │ └── utils.py │ │ ├── cinepile │ │ │ ├── cinepile.yaml │ │ │ └── utils.py │ │ ├── clotho_aqa │ │ │ ├── _default_template_yaml │ │ │ ├── clotho_aqa.yaml │ │ │ ├── clotho_aqa_test.yaml │ │ │ ├── clotho_aqa_val.yaml │ │ │ ├── clotho_asqa_test_v2.yaml │ │ │ └── utils.py │ │ ├── cmmmu │ │ │ ├── _cmmmu.yaml │ │ │ ├── _default_template_cmmmu_yaml │ │ │ ├── cmmmu_test.yaml │ │ │ ├── cmmmu_val.yaml │ │ │ └── utils.py │ │ ├── coco_cap │ │ │ ├── coco2014_cap.yaml │ │ │ ├── coco2014_cap_test.yaml │ │ │ ├── coco2014_cap_val.yaml │ │ │ ├── coco2017_cap.yaml │ │ │ ├── coco2017_cap_test.yaml │ │ │ ├── coco2017_cap_val.yaml │ │ │ ├── coco2017_cap_val_lite.yaml │ │ │ ├── coco_cap.yaml │ │ │ └── utils.py │ │ ├── common_voice_15 │ │ │ ├── _default_template_yaml │ │ │ ├── common_voice_15.yaml │ │ │ ├── common_voice_15_en.yaml │ │ │ ├── common_voice_15_fr.yaml │ │ │ ├── common_voice_15_zh-CN.yaml │ │ │ └── utils.py │ │ ├── conbench │ │ │ ├── conbench.yaml │ │ │ └── utils.py │ │ ├── covost2 │ │ │ ├── _default_template_en_zh_yaml │ │ │ ├── _default_template_zh_en_yaml │ │ │ ├── covost2.yaml │ │ │ ├── covost2_en_zh.yaml │ │ │ ├── covost2_en_zh_dev.yaml │ │ │ ├── covost2_en_zh_test.yaml │ │ │ ├── covost2_zh_en.yaml │ │ │ ├── covost2_zh_en_dev.yaml │ │ │ ├── covost2_zh_en_test.yaml │ │ │ └── utils.py │ │ ├── cuva │ │ │ ├── _default_template_yaml │ │ │ ├── cuva.yaml │ │ │ ├── cuva_test.yaml │ │ │ └── utils.py │ │ ├── cvrr │ │ │ ├── _cvrr.yaml │ │ │ ├── _default_template_yaml │ │ │ ├── cvrr_fine_grained_action_understanding.yaml │ │ │ ├── cvrr_interpretation_of_social_context.yaml │ │ │ ├── cvrr_interpretation_of_visual_context.yaml │ │ │ ├── cvrr_multiple_actions_in_a_single_video.yaml │ │ │ ├── cvrr_non_existent_actions_with_existent_scene_depictions.yaml │ │ │ ├── cvrr_non_existent_actions_with_non_existent_scene_depictions.yaml │ │ │ ├── cvrr_object_instance_count.yaml │ │ │ ├── cvrr_partial_actions.yaml │ │ │ ├── cvrr_time_order_understanding.yaml │ │ │ ├── cvrr_understanding_emotional_context.yaml │ │ │ ├── cvrr_unusual_and_physically_anomalous_activities.yaml │ │ │ └── utils.py │ │ ├── detailcaps │ │ │ ├── _default_template_detailcaps_yaml │ │ │ ├── detailcaps.yaml │ │ │ └── utils.py │ │ ├── docvqa │ │ │ ├── _default_template_docvqa_yaml │ │ │ ├── docvqa.yaml │ │ │ ├── docvqa_test.yaml │ │ │ ├── docvqa_val.yaml │ │ │ ├── docvqa_val_lite.yaml │ │ │ └── utils.py │ │ ├── dtcbench │ │ │ ├── dtcbench.yaml │ │ │ └── utils.py │ │ ├── egoplan │ │ │ ├── egoplan.yaml │ │ │ └── utils.py │ │ ├── egoschema │ │ │ ├── README.md │ │ │ ├── _default_template_yaml │ │ │ ├── egoschema.yaml │ │ │ ├── egoschema_mcppl.yaml │ │ │ ├── egoschema_subset.yaml │ │ │ ├── egoschema_subset_mcppl.yaml │ │ │ └── utils.py │ │ ├── egothink │ │ │ ├── _default_template_yaml │ │ │ ├── egothink.yaml │ │ │ ├── egothink_activity.yaml │ │ │ ├── egothink_affordance.yaml │ │ │ ├── egothink_assistance.yaml │ │ │ ├── egothink_attribute.yaml │ │ │ ├── egothink_comparing.yaml │ │ │ ├── egothink_counting.yaml │ │ │ ├── egothink_existence.yaml │ │ │ ├── egothink_forecasting.yaml │ │ │ ├── egothink_location.yaml │ │ │ ├── egothink_navigation.yaml │ │ │ ├── egothink_situated.yaml │ │ │ ├── egothink_spatial.yaml │ │ │ └── utils.py │ │ ├── ferret │ │ │ ├── ferret.yaml │ │ │ ├── rule.json │ │ │ └── utils.py │ │ ├── fleurs │ │ │ ├── _default_template_yaml │ │ │ ├── fleurs.yaml │ │ │ ├── fleurs_cmn_hans_cn.yaml │ │ │ ├── fleurs_en.yaml │ │ │ ├── fleurs_yue_hant_hk.yaml │ │ │ └── utils.py │ │ ├── flickr30k │ │ │ ├── flickr30k.yaml │ │ │ ├── flickr30k_test.yaml │ │ │ ├── flickr30k_test_lite.yaml │ │ │ └── utils.py │ │ ├── funqa │ │ │ ├── _default_template_yaml │ │ │ ├── funqa.yaml │ │ │ ├── funqa_test.yaml │ │ │ └── utils.py │ │ ├── gigaspeech │ │ │ ├── gigaspeech.yaml │ │ │ ├── gigaspeech_dev.yaml │ │ │ ├── gigaspeech_l_dev.yaml │ │ │ ├── gigaspeech_l_test.yaml │ │ │ ├── gigaspeech_m_dev.yaml │ │ │ ├── gigaspeech_m_test.yaml │ │ │ ├── gigaspeech_s_dev.yaml │ │ │ ├── gigaspeech_s_test.yaml │ │ │ ├── gigaspeech_test.yaml │ │ │ ├── gigaspeech_xl_dev.yaml │ │ │ ├── gigaspeech_xl_test.yaml │ │ │ ├── gigaspeech_xs_dev.yaml │ │ │ ├── gigaspeech_xs_test.yaml │ │ │ ├── utils.py │ │ │ └── whisper_normalizer │ │ │ │ ├── basic.py │ │ │ │ ├── english.json │ │ │ │ └── english.py │ │ ├── gpqa │ │ │ ├── README.md │ │ │ ├── cot_n_shot │ │ │ │ ├── _generate_configs.py │ │ │ │ ├── _gpqa_cot_n_shot_yaml │ │ │ │ ├── gpqa_diamond_cot_n_shot.yaml │ │ │ │ ├── gpqa_extended_cot_n_shot.yaml │ │ │ │ ├── gpqa_main_cot_n_shot.yaml │ │ │ │ └── utils.py │ │ │ ├── cot_zeroshot │ │ │ │ ├── _generate_configs.py │ │ │ │ ├── _gpqa_cot_zeroshot_yaml │ │ │ │ ├── gpqa_diamond_cot_zeroshot.yaml │ │ │ │ ├── gpqa_extended_cot_zeroshot.yaml │ │ │ │ ├── gpqa_main_cot_zeroshot.yaml │ │ │ │ └── utils.py │ │ │ ├── generative │ │ │ │ ├── _generate_configs.py │ │ │ │ ├── _gpqa_generative_n_shot_yaml │ │ │ │ ├── gpqa_diamond_generative_n_shot.yaml │ │ │ │ ├── gpqa_extended_generative_n_shot.yaml │ │ │ │ ├── gpqa_main_generative_n_shot.yaml │ │ │ │ └── utils.py │ │ │ ├── n_shot │ │ │ │ ├── _generate_configs.py │ │ │ │ ├── _gpqa_n_shot_yaml │ │ │ │ ├── gpqa_diamond_n_shot.yaml │ │ │ │ ├── gpqa_extended_n_shot.yaml │ │ │ │ ├── gpqa_main_n_shot.yaml │ │ │ │ └── utils.py │ │ │ └── zeroshot │ │ │ │ ├── _generate_configs.py │ │ │ │ ├── _gpqa_zeroshot_yaml │ │ │ │ ├── gpqa_diamond_zeroshot.yaml │ │ │ │ ├── gpqa_extended_zeroshot.yaml │ │ │ │ ├── gpqa_main_zeroshot.yaml │ │ │ │ └── utils.py │ │ ├── gqa │ │ │ ├── gqa.yaml │ │ │ ├── gqa_lite.yaml │ │ │ └── utils.py │ │ ├── gqa_ru │ │ │ ├── gqa_ru.yaml │ │ │ └── utils.py │ │ ├── gsm8k │ │ │ ├── README.md │ │ │ ├── gsm8k-cot-llama.yaml │ │ │ ├── gsm8k-cot-self-consistency.yaml │ │ │ ├── gsm8k-cot-zeroshot.yaml │ │ │ ├── gsm8k-cot.yaml │ │ │ └── gsm8k.yaml │ │ ├── hallusion_bench │ │ │ ├── evaluate_hb.py │ │ │ ├── hallusion_bench_image.yaml │ │ │ └── utils.py │ │ ├── hellaswag │ │ │ ├── README.md │ │ │ ├── hellaswag.yaml │ │ │ └── utils.py │ │ ├── hrbench │ │ │ ├── hrbench.yaml │ │ │ ├── hrbench4k.yaml │ │ │ ├── hrbench8k.yaml │ │ │ ├── hrbench_evals.py │ │ │ └── utils.py │ │ ├── iconqa │ │ │ ├── _default_template_docvqa_yaml │ │ │ ├── iconqa.yaml │ │ │ ├── iconqa_test.yaml │ │ │ ├── iconqa_val.yaml │ │ │ └── utils.py │ │ ├── ifeval │ │ │ ├── README.md │ │ │ ├── ifeval.yaml │ │ │ ├── instructions.py │ │ │ ├── instructions_registry.py │ │ │ ├── instructions_util.py │ │ │ └── utils.py │ │ ├── ii_bench │ │ │ ├── ii_bench.yaml │ │ │ └── utils.py │ │ ├── illusionvqa │ │ │ ├── illusionvqa.yaml │ │ │ ├── illusionvqa_comprehension.yaml │ │ │ ├── illusionvqa_soft_localization.yaml │ │ │ └── utils.py │ │ ├── infovqa │ │ │ ├── _default_template_infovqa_yaml │ │ │ ├── infovqa.yaml │ │ │ ├── infovqa_test.yaml │ │ │ ├── infovqa_val.yaml │ │ │ ├── infovqa_val_lite.yaml │ │ │ └── utils.py │ │ ├── internal_eval │ │ │ ├── _default_template_internal_eval_yaml │ │ │ ├── d170_cn.yaml │ │ │ ├── d170_cn_utils.py │ │ │ ├── d170_en.yaml │ │ │ ├── d170_en_utils.py │ │ │ ├── dc100_en.yaml │ │ │ ├── dc100_en_utils.py │ │ │ ├── dc200_cn.yaml │ │ │ ├── dc200_cn_utils.py │ │ │ ├── internal_eval.yaml │ │ │ └── utils.py │ │ ├── jmmmu │ │ │ ├── _default_template_yaml │ │ │ ├── jmmmu.yaml │ │ │ ├── jmmmu_accounting.yaml │ │ │ ├── jmmmu_agriculture.yaml │ │ │ ├── jmmmu_architecture_and_engineering.yaml │ │ │ ├── jmmmu_basic_medical_science.yaml │ │ │ ├── jmmmu_biology.yaml │ │ │ ├── jmmmu_chemistry.yaml │ │ │ ├── jmmmu_clinical_medicine.yaml │ │ │ ├── jmmmu_computer_science.yaml │ │ │ ├── jmmmu_design.yaml │ │ │ ├── jmmmu_diagnostics_and_laboratory_medicine.yaml │ │ │ ├── jmmmu_economics.yaml │ │ │ ├── jmmmu_electronics.yaml │ │ │ ├── jmmmu_energy_and_power.yaml │ │ │ ├── jmmmu_finance.yaml │ │ │ ├── jmmmu_japanese_art.yaml │ │ │ ├── jmmmu_japanese_heritage.yaml │ │ │ ├── jmmmu_japanese_history.yaml │ │ │ ├── jmmmu_manage.yaml │ │ │ ├── jmmmu_marketing.yaml │ │ │ ├── jmmmu_materials.yaml │ │ │ ├── jmmmu_math.yaml │ │ │ ├── jmmmu_mechanical_engineering.yaml │ │ │ ├── jmmmu_music.yaml │ │ │ ├── jmmmu_pharmacy.yaml │ │ │ ├── jmmmu_physics.yaml │ │ │ ├── jmmmu_psychology.yaml │ │ │ ├── jmmmu_public_health.yaml │ │ │ ├── jmmmu_world_history.yaml │ │ │ └── utils.py │ │ ├── librispeech │ │ │ ├── cn_tn.py │ │ │ ├── librispeech.yaml │ │ │ ├── librispeech_dev_clean.yaml │ │ │ ├── librispeech_dev_other.yaml │ │ │ ├── librispeech_test_clean.yaml │ │ │ ├── librispeech_test_other.yaml │ │ │ ├── utils.py │ │ │ └── whisper_normalizer │ │ │ │ ├── basic.py │ │ │ │ ├── english.json │ │ │ │ └── english.py │ │ ├── live_bench │ │ │ ├── live_bench.yaml │ │ │ ├── live_bench_2406.yaml │ │ │ ├── live_bench_2407.yaml │ │ │ ├── live_bench_2409.yaml │ │ │ ├── live_bench_template_yaml │ │ │ ├── live_bench_template_yaml_v2 │ │ │ ├── utils.py │ │ │ └── utils_v2.py │ │ ├── livexiv_tqa │ │ │ ├── livexiv_tqa.yaml │ │ │ ├── livexiv_tqa_template_yaml │ │ │ ├── livexiv_tqa_v1.yaml │ │ │ ├── livexiv_tqa_v2.yaml │ │ │ ├── livexiv_tqa_v3.yaml │ │ │ ├── livexiv_tqa_v4.yaml │ │ │ ├── livexiv_tqa_v5.yaml │ │ │ ├── livexiv_tqa_v6.yaml │ │ │ └── utils.py │ │ ├── livexiv_vqa │ │ │ ├── livexiv_vqa.yaml │ │ │ ├── livexiv_vqa_template_yaml │ │ │ ├── livexiv_vqa_v1.yaml │ │ │ ├── livexiv_vqa_v2.yaml │ │ │ ├── livexiv_vqa_v3.yaml │ │ │ ├── livexiv_vqa_v4.yaml │ │ │ ├── livexiv_vqa_v5.yaml │ │ │ ├── livexiv_vqa_v6.yaml │ │ │ └── utils.py │ │ ├── llava-bench-coco │ │ │ ├── llava-bench-coco.yaml │ │ │ ├── rule.json │ │ │ └── utils.py │ │ ├── llava-in-the-wild │ │ │ ├── llava-in-the-wild.yaml │ │ │ ├── llava-in-the-wild_ko.yaml │ │ │ ├── rule.json │ │ │ ├── rule_ko.json │ │ │ ├── utils.py │ │ │ └── utils_ko.py │ │ ├── llava_interleave_bench │ │ │ ├── _default_template_interleave_yaml │ │ │ ├── in_domain.yaml │ │ │ ├── interleave_bench.yaml │ │ │ ├── multi_view_in_domain.yaml │ │ │ ├── out_of_domain.yaml │ │ │ └── utils.py │ │ ├── llava_wilder │ │ │ ├── _default_template_wilder_yaml │ │ │ ├── llava_wilder_small.yaml │ │ │ └── utils.py │ │ ├── longvideobench │ │ │ ├── longvideobench_test_i.yaml │ │ │ ├── longvideobench_test_v.yaml │ │ │ ├── longvideobench_val_i.yaml │ │ │ ├── longvideobench_val_v.yaml │ │ │ └── utils.py │ │ ├── mathverse │ │ │ ├── mathverse.yaml │ │ │ ├── mathverse_evals.py │ │ │ ├── mathverse_testmini.yaml │ │ │ ├── mathverse_testmini_text.yaml │ │ │ ├── mathverse_testmini_text_dominant.yaml │ │ │ ├── mathverse_testmini_text_lite.yaml │ │ │ ├── mathverse_testmini_text_only.yaml │ │ │ ├── mathverse_testmini_vision.yaml │ │ │ ├── mathverse_testmini_vision_dominant.yaml │ │ │ ├── mathverse_testmini_vision_intensive.yaml │ │ │ ├── mathverse_testmini_vision_only.yaml │ │ │ └── utils.py │ │ ├── mathvision │ │ │ ├── eval_utils.py │ │ │ ├── mathvision_reason_test.yaml │ │ │ ├── mathvision_reason_testmini.yaml │ │ │ ├── mathvision_test.yaml │ │ │ ├── mathvision_testmini.yaml │ │ │ └── utils.py │ │ ├── mathvista │ │ │ ├── mathvista.yaml │ │ │ ├── mathvista_evals.py │ │ │ ├── mathvista_test.yaml │ │ │ ├── mathvista_testmini.yaml │ │ │ ├── mathvista_testmini_cot.yaml │ │ │ ├── mathvista_testmini_format.yaml │ │ │ ├── mathvista_testmini_solution.yaml │ │ │ └── utils.py │ │ ├── megabench │ │ │ ├── README.md │ │ │ ├── _default_template_yaml │ │ │ ├── breakdown │ │ │ │ ├── all_task_meta.json │ │ │ │ ├── analysis_utils.py │ │ │ │ └── derive_breakdown_results.py │ │ │ ├── evaluator.py │ │ │ ├── image_video_utils.py │ │ │ ├── megabench.yaml │ │ │ ├── megabench_core.yaml │ │ │ ├── megabench_core_si.yaml │ │ │ ├── megabench_open.yaml │ │ │ ├── megabench_open_si.yaml │ │ │ ├── metrics │ │ │ │ ├── README.md │ │ │ │ ├── __init__.py │ │ │ │ ├── aggregation │ │ │ │ │ ├── mean_agg.py │ │ │ │ │ ├── min_agg.py │ │ │ │ │ └── unsupported_agg.py │ │ │ │ ├── aggregation_type.py │ │ │ │ ├── metric_type.py │ │ │ │ ├── parsing │ │ │ │ │ ├── answer_str_parse.py │ │ │ │ │ ├── common │ │ │ │ │ │ ├── parsers.py │ │ │ │ │ │ └── utils.py │ │ │ │ │ ├── dummy_parse.py │ │ │ │ │ └── json_parse.py │ │ │ │ ├── response_parse_type.py │ │ │ │ └── scoring │ │ │ │ │ ├── ascii_art_vlm_judge.py │ │ │ │ │ ├── chess_jaccard.py │ │ │ │ │ ├── common │ │ │ │ │ ├── conversions.py │ │ │ │ │ ├── metrics.py │ │ │ │ │ └── transformations.py │ │ │ │ │ ├── constrained_generation.py │ │ │ │ │ ├── coordinate_sequence_match.py │ │ │ │ │ ├── dict_equality.py │ │ │ │ │ ├── dict_exact_match_agg_recall.py │ │ │ │ │ ├── dict_jaccard_agg_jaccard.py │ │ │ │ │ ├── dict_nbbox_iou_tuple_agg_jaccard.py │ │ │ │ │ ├── dict_set_equality_agg_jaccard.py │ │ │ │ │ ├── exact_str_match.py │ │ │ │ │ ├── exact_str_match_case_insensitive.py │ │ │ │ │ ├── general_numerical_match.py │ │ │ │ │ ├── geo_proximity.py │ │ │ │ │ ├── gleu.py │ │ │ │ │ ├── jaccard.py │ │ │ │ │ ├── latex_expr_equality.py │ │ │ │ │ ├── longest_common_list_prefix_ratio.py │ │ │ │ │ ├── mse.py │ │ │ │ │ ├── multi_ref_phrase.py │ │ │ │ │ ├── nbbox_iou.py │ │ │ │ │ ├── near_str_match.py │ │ │ │ │ ├── nli_entailment.py │ │ │ │ │ ├── normalized_similarity_damerau_levenshtein.py │ │ │ │ │ ├── number_rel_diff_ratio.py │ │ │ │ │ ├── positive_int_match.py │ │ │ │ │ ├── program_judge.py │ │ │ │ │ ├── sacrebleu_bleu.py │ │ │ │ │ ├── sequence_equality.py │ │ │ │ │ ├── set_equality.py │ │ │ │ │ ├── set_precision.py │ │ │ │ │ ├── simple_str_match.py │ │ │ │ │ ├── symbolic_planning.py │ │ │ │ │ ├── unsupported_scoring.py │ │ │ │ │ ├── vlm_as_judge.py │ │ │ │ │ ├── xml_nbbox_iou.py │ │ │ │ │ ├── xml_norm_point_distance.py │ │ │ │ │ └── xml_norm_point_in_bbox.py │ │ │ ├── requirements.txt │ │ │ └── utils.py │ │ ├── mia_bench │ │ │ ├── mia_bench.yaml │ │ │ └── utils.py │ │ ├── mirb │ │ │ ├── mirb.yaml │ │ │ └── utils.py │ │ ├── mix_evals │ │ │ ├── README.md │ │ │ ├── audio2text │ │ │ │ ├── _default_template_yaml │ │ │ │ ├── mix_evals_audio2_text_freeform.yaml │ │ │ │ ├── mix_evals_audio2_text_freeform_hard.yaml │ │ │ │ ├── mix_evals_audio2text.yaml │ │ │ │ ├── mix_evals_audio2text_hard.yaml │ │ │ │ └── utils.py │ │ │ ├── image2text │ │ │ │ ├── _default_template_yaml │ │ │ │ ├── mix_evals_image2text.yaml │ │ │ │ ├── mix_evals_image2text_freeform.yaml │ │ │ │ ├── mix_evals_image2text_freeform_hard.yaml │ │ │ │ ├── mix_evals_image2text_hard.yaml │ │ │ │ ├── mix_evals_image2text_mc.yaml │ │ │ │ ├── mix_evals_image2text_mc_hard.yaml │ │ │ │ └── utils.py │ │ │ └── video2text │ │ │ │ ├── _default_template_yaml │ │ │ │ ├── mix_evals_video2text.yaml │ │ │ │ ├── mix_evals_video2text_freeform.yaml │ │ │ │ ├── mix_evals_video2text_freeform_hard.yaml │ │ │ │ ├── mix_evals_video2text_hard.yaml │ │ │ │ ├── mix_evals_video2text_mc.yaml │ │ │ │ ├── mix_evals_video2text_mc_hard.yaml │ │ │ │ ├── mix_evals_video2text_openended.yaml │ │ │ │ └── utils.py │ │ ├── mlvu │ │ │ ├── mlvu_dev.yaml │ │ │ ├── mlvu_test.yaml │ │ │ └── utils.py │ │ ├── mmbench │ │ │ ├── _default_template_mmbench_cn_yaml │ │ │ ├── _default_template_mmbench_en_yaml │ │ │ ├── _default_template_mmbench_ko_yaml │ │ │ ├── _default_template_mmbench_ru_yaml │ │ │ ├── cc_utils.py │ │ │ ├── cn_utils.py │ │ │ ├── en_utils.py │ │ │ ├── ko_utils.py │ │ │ ├── mmbench.yaml │ │ │ ├── mmbench_cc.yaml │ │ │ ├── mmbench_cn.yaml │ │ │ ├── mmbench_cn_dev.yaml │ │ │ ├── mmbench_cn_dev_lite.yaml │ │ │ ├── mmbench_cn_test.yaml │ │ │ ├── mmbench_en.yaml │ │ │ ├── mmbench_en_dev.yaml │ │ │ ├── mmbench_en_dev_lite.yaml │ │ │ ├── mmbench_en_test.yaml │ │ │ ├── mmbench_evals.py │ │ │ ├── mmbench_ko_dev.yaml │ │ │ ├── mmbench_ru_dev.yaml │ │ │ └── ru_utils.py │ │ ├── mme │ │ │ ├── mme.yaml │ │ │ └── utils.py │ │ ├── mme_realworld │ │ │ ├── mme_realworld.yaml │ │ │ ├── mme_realworld_cn.yaml │ │ │ ├── mme_realworld_lite.yaml │ │ │ └── utils.py │ │ ├── mmlu │ │ │ ├── _generate_configs.py │ │ │ ├── continuation │ │ │ │ ├── _continuation_template_yaml │ │ │ │ ├── _mmlu.yaml │ │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ │ ├── mmlu_anatomy.yaml │ │ │ │ ├── mmlu_astronomy.yaml │ │ │ │ ├── mmlu_business_ethics.yaml │ │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ │ ├── mmlu_college_biology.yaml │ │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ │ ├── mmlu_college_medicine.yaml │ │ │ │ ├── mmlu_college_physics.yaml │ │ │ │ ├── mmlu_computer_security.yaml │ │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ │ ├── mmlu_econometrics.yaml │ │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ │ ├── mmlu_formal_logic.yaml │ │ │ │ ├── mmlu_global_facts.yaml │ │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ │ ├── mmlu_human_aging.yaml │ │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ │ ├── mmlu_international_law.yaml │ │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ │ ├── mmlu_machine_learning.yaml │ │ │ │ ├── mmlu_management.yaml │ │ │ │ ├── mmlu_marketing.yaml │ │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ │ ├── mmlu_nutrition.yaml │ │ │ │ ├── mmlu_philosophy.yaml │ │ │ │ ├── mmlu_prehistory.yaml │ │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ │ ├── mmlu_professional_law.yaml │ │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ │ ├── mmlu_public_relations.yaml │ │ │ │ ├── mmlu_security_studies.yaml │ │ │ │ ├── mmlu_sociology.yaml │ │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ │ ├── mmlu_virology.yaml │ │ │ │ └── mmlu_world_religions.yaml │ │ │ ├── default │ │ │ │ ├── _default_template_yaml │ │ │ │ ├── _mmlu.yaml │ │ │ │ ├── _mmlu_humanities.yaml │ │ │ │ ├── _mmlu_other.yaml │ │ │ │ ├── _mmlu_social_sciences.yaml │ │ │ │ ├── _mmlu_stem.yaml │ │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ │ ├── mmlu_anatomy.yaml │ │ │ │ ├── mmlu_astronomy.yaml │ │ │ │ ├── mmlu_business_ethics.yaml │ │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ │ ├── mmlu_college_biology.yaml │ │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ │ ├── mmlu_college_medicine.yaml │ │ │ │ ├── mmlu_college_physics.yaml │ │ │ │ ├── mmlu_computer_security.yaml │ │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ │ ├── mmlu_econometrics.yaml │ │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ │ ├── mmlu_formal_logic.yaml │ │ │ │ ├── mmlu_global_facts.yaml │ │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ │ ├── mmlu_human_aging.yaml │ │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ │ ├── mmlu_international_law.yaml │ │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ │ ├── mmlu_machine_learning.yaml │ │ │ │ ├── mmlu_management.yaml │ │ │ │ ├── mmlu_marketing.yaml │ │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ │ ├── mmlu_nutrition.yaml │ │ │ │ ├── mmlu_philosophy.yaml │ │ │ │ ├── mmlu_prehistory.yaml │ │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ │ ├── mmlu_professional_law.yaml │ │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ │ ├── mmlu_public_relations.yaml │ │ │ │ ├── mmlu_security_studies.yaml │ │ │ │ ├── mmlu_sociology.yaml │ │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ │ ├── mmlu_virology.yaml │ │ │ │ └── mmlu_world_religions.yaml │ │ │ ├── flan_cot_fewshot │ │ │ │ ├── _cot_prompts.json │ │ │ │ ├── _mmlu.yaml │ │ │ │ ├── _mmlu_flan_cot_fewshot_template_yaml │ │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ │ ├── mmlu_anatomy.yaml │ │ │ │ ├── mmlu_astronomy.yaml │ │ │ │ ├── mmlu_business_ethics.yaml │ │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ │ ├── mmlu_college_biology.yaml │ │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ │ ├── mmlu_college_medicine.yaml │ │ │ │ ├── mmlu_college_physics.yaml │ │ │ │ ├── mmlu_computer_security.yaml │ │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ │ ├── mmlu_econometrics.yaml │ │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ │ ├── mmlu_formal_logic.yaml │ │ │ │ ├── mmlu_global_facts.yaml │ │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ │ ├── mmlu_human_aging.yaml │ │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ │ ├── mmlu_international_law.yaml │ │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ │ ├── mmlu_machine_learning.yaml │ │ │ │ ├── mmlu_management.yaml │ │ │ │ ├── mmlu_marketing.yaml │ │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ │ ├── mmlu_nutrition.yaml │ │ │ │ ├── mmlu_philosophy.yaml │ │ │ │ ├── mmlu_prehistory.yaml │ │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ │ ├── mmlu_professional_law.yaml │ │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ │ ├── mmlu_public_relations.yaml │ │ │ │ ├── mmlu_security_studies.yaml │ │ │ │ ├── mmlu_sociology.yaml │ │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ │ ├── mmlu_virology.yaml │ │ │ │ └── mmlu_world_religions.yaml │ │ │ ├── flan_cot_zeroshot │ │ │ │ ├── _mmlu.yaml │ │ │ │ ├── _mmlu_flan_cot_zeroshot_template_yaml │ │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ │ ├── mmlu_anatomy.yaml │ │ │ │ ├── mmlu_astronomy.yaml │ │ │ │ ├── mmlu_business_ethics.yaml │ │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ │ ├── mmlu_college_biology.yaml │ │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ │ ├── mmlu_college_medicine.yaml │ │ │ │ ├── mmlu_college_physics.yaml │ │ │ │ ├── mmlu_computer_security.yaml │ │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ │ ├── mmlu_econometrics.yaml │ │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ │ ├── mmlu_formal_logic.yaml │ │ │ │ ├── mmlu_global_facts.yaml │ │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ │ ├── mmlu_human_aging.yaml │ │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ │ ├── mmlu_international_law.yaml │ │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ │ ├── mmlu_machine_learning.yaml │ │ │ │ ├── mmlu_management.yaml │ │ │ │ ├── mmlu_marketing.yaml │ │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ │ ├── mmlu_nutrition.yaml │ │ │ │ ├── mmlu_philosophy.yaml │ │ │ │ ├── mmlu_prehistory.yaml │ │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ │ ├── mmlu_professional_law.yaml │ │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ │ ├── mmlu_public_relations.yaml │ │ │ │ ├── mmlu_security_studies.yaml │ │ │ │ ├── mmlu_sociology.yaml │ │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ │ ├── mmlu_virology.yaml │ │ │ │ ├── mmlu_world_religions.yaml │ │ │ │ └── utils.py │ │ │ ├── flan_n_shot │ │ │ │ ├── generative │ │ │ │ │ ├── _mmlu.yaml │ │ │ │ │ ├── _mmlu_flan_generative_template_yaml │ │ │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ │ │ ├── mmlu_anatomy.yaml │ │ │ │ │ ├── mmlu_astronomy.yaml │ │ │ │ │ ├── mmlu_business_ethics.yaml │ │ │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ │ │ ├── mmlu_college_biology.yaml │ │ │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ │ │ ├── mmlu_college_medicine.yaml │ │ │ │ │ ├── mmlu_college_physics.yaml │ │ │ │ │ ├── mmlu_computer_security.yaml │ │ │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ │ │ ├── mmlu_econometrics.yaml │ │ │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ │ │ ├── mmlu_formal_logic.yaml │ │ │ │ │ ├── mmlu_global_facts.yaml │ │ │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ │ │ ├── mmlu_human_aging.yaml │ │ │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ │ │ ├── mmlu_international_law.yaml │ │ │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ │ │ ├── mmlu_machine_learning.yaml │ │ │ │ │ ├── mmlu_management.yaml │ │ │ │ │ ├── mmlu_marketing.yaml │ │ │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ │ │ ├── mmlu_nutrition.yaml │ │ │ │ │ ├── mmlu_philosophy.yaml │ │ │ │ │ ├── mmlu_prehistory.yaml │ │ │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ │ │ ├── mmlu_professional_law.yaml │ │ │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ │ │ ├── mmlu_public_relations.yaml │ │ │ │ │ ├── mmlu_security_studies.yaml │ │ │ │ │ ├── mmlu_sociology.yaml │ │ │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ │ │ ├── mmlu_virology.yaml │ │ │ │ │ ├── mmlu_world_religions.yaml │ │ │ │ │ └── utils.py │ │ │ │ └── loglikelihood │ │ │ │ │ ├── _mmlu.yaml │ │ │ │ │ ├── _mmlu_flan_loglikelihood_template_yaml │ │ │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ │ │ ├── mmlu_anatomy.yaml │ │ │ │ │ ├── mmlu_astronomy.yaml │ │ │ │ │ ├── mmlu_business_ethics.yaml │ │ │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ │ │ ├── mmlu_college_biology.yaml │ │ │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ │ │ ├── mmlu_college_medicine.yaml │ │ │ │ │ ├── mmlu_college_physics.yaml │ │ │ │ │ ├── mmlu_computer_security.yaml │ │ │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ │ │ ├── mmlu_econometrics.yaml │ │ │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ │ │ ├── mmlu_formal_logic.yaml │ │ │ │ │ ├── mmlu_global_facts.yaml │ │ │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ │ │ ├── mmlu_human_aging.yaml │ │ │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ │ │ ├── mmlu_international_law.yaml │ │ │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ │ │ ├── mmlu_machine_learning.yaml │ │ │ │ │ ├── mmlu_management.yaml │ │ │ │ │ ├── mmlu_marketing.yaml │ │ │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ │ │ ├── mmlu_nutrition.yaml │ │ │ │ │ ├── mmlu_philosophy.yaml │ │ │ │ │ ├── mmlu_prehistory.yaml │ │ │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ │ │ ├── mmlu_professional_law.yaml │ │ │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ │ │ ├── mmlu_public_relations.yaml │ │ │ │ │ ├── mmlu_security_studies.yaml │ │ │ │ │ ├── mmlu_sociology.yaml │ │ │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ │ │ ├── mmlu_virology.yaml │ │ │ │ │ └── mmlu_world_religions.yaml │ │ │ └── generative │ │ │ │ ├── _default_template_yaml │ │ │ │ ├── _mmlu.yaml │ │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ │ ├── mmlu_anatomy.yaml │ │ │ │ ├── mmlu_astronomy.yaml │ │ │ │ ├── mmlu_business_ethics.yaml │ │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ │ ├── mmlu_college_biology.yaml │ │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ │ ├── mmlu_college_medicine.yaml │ │ │ │ ├── mmlu_college_physics.yaml │ │ │ │ ├── mmlu_computer_security.yaml │ │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ │ ├── mmlu_econometrics.yaml │ │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ │ ├── mmlu_formal_logic.yaml │ │ │ │ ├── mmlu_global_facts.yaml │ │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ │ ├── mmlu_human_aging.yaml │ │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ │ ├── mmlu_international_law.yaml │ │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ │ ├── mmlu_machine_learning.yaml │ │ │ │ ├── mmlu_management.yaml │ │ │ │ ├── mmlu_marketing.yaml │ │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ │ ├── mmlu_nutrition.yaml │ │ │ │ ├── mmlu_philosophy.yaml │ │ │ │ ├── mmlu_prehistory.yaml │ │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ │ ├── mmlu_professional_law.yaml │ │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ │ ├── mmlu_public_relations.yaml │ │ │ │ ├── mmlu_security_studies.yaml │ │ │ │ ├── mmlu_sociology.yaml │ │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ │ ├── mmlu_virology.yaml │ │ │ │ └── mmlu_world_religions.yaml │ │ ├── mmlu_pro │ │ │ ├── README.md │ │ │ ├── _default_template_yaml │ │ │ ├── _mmlu_pro.yaml │ │ │ ├── mmlu_pro_biology.yaml │ │ │ ├── mmlu_pro_business.yaml │ │ │ ├── mmlu_pro_chemistry.yaml │ │ │ ├── mmlu_pro_computer_science.yaml │ │ │ ├── mmlu_pro_economics.yaml │ │ │ ├── mmlu_pro_engineering.yaml │ │ │ ├── mmlu_pro_health.yaml │ │ │ ├── mmlu_pro_history.yaml │ │ │ ├── mmlu_pro_law.yaml │ │ │ ├── mmlu_pro_math.yaml │ │ │ ├── mmlu_pro_other.yaml │ │ │ ├── mmlu_pro_philosophy.yaml │ │ │ ├── mmlu_pro_physics.yaml │ │ │ ├── mmlu_pro_psychology.yaml │ │ │ └── utils.py │ │ ├── mmmu │ │ │ ├── _default_template_yaml │ │ │ ├── arial.ttf │ │ │ ├── mmmu.yaml │ │ │ ├── mmmu_group_img.yaml │ │ │ ├── mmmu_group_img_test.yaml │ │ │ ├── mmmu_group_img_val.yaml │ │ │ ├── mmmu_test.yaml │ │ │ ├── mmmu_val.yaml │ │ │ ├── mmmu_val_pass64.yaml │ │ │ ├── mmmu_val_reasoning.yaml │ │ │ ├── utils.py │ │ │ └── utils_group_img.py │ │ ├── mmmu_pro │ │ │ ├── _default_template_yaml │ │ │ ├── mmmu_pro.yaml │ │ │ ├── mmmu_pro_composite.yaml │ │ │ ├── mmmu_pro_composite_cot.yaml │ │ │ ├── mmmu_pro_cot.yaml │ │ │ ├── mmmu_pro_standard.yaml │ │ │ ├── mmmu_pro_standard_cot.yaml │ │ │ ├── mmmu_pro_vision.yaml │ │ │ ├── mmmu_pro_vision_cot.yaml │ │ │ └── utils.py │ │ ├── mmsearch │ │ │ ├── constants.py │ │ │ ├── get_final_scores.py │ │ │ ├── lmms_eval_utils.py │ │ │ ├── mmsearch.yaml │ │ │ ├── mmsearch_end2end.yaml │ │ │ ├── mmsearch_rerank.yaml │ │ │ ├── mmsearch_summarization.yaml │ │ │ ├── prompts │ │ │ │ ├── prompt.py │ │ │ │ └── prompt_w_imagesearch.py │ │ │ ├── retrieve_content │ │ │ │ ├── retriever.py │ │ │ │ └── tokenization │ │ │ │ │ ├── __init__.py │ │ │ │ │ ├── tokenizers.py │ │ │ │ │ └── utils.py │ │ │ ├── score │ │ │ │ ├── f1_score.py │ │ │ │ ├── req_score.py │ │ │ │ └── result_summary.py │ │ │ └── utils │ │ │ │ ├── image_utils.py │ │ │ │ ├── lmms_eval_utils.py │ │ │ │ ├── prompt_utils.py │ │ │ │ ├── utils.py │ │ │ │ └── web_content_utils.py │ │ ├── mmstar │ │ │ ├── ko_utils.py │ │ │ ├── mmstar.yaml │ │ │ ├── mmstar_ko.yaml │ │ │ └── utils.py │ │ ├── mmt │ │ │ ├── _default_template_yaml │ │ │ ├── mmt.yaml │ │ │ ├── mmt_mi.yaml │ │ │ ├── mmt_mi_test.yaml │ │ │ ├── mmt_mi_val.yaml │ │ │ ├── mmt_test.yaml │ │ │ ├── mmt_val.yaml │ │ │ └── utils.py │ │ ├── mmupd │ │ │ ├── _default_template_mmupd_yaml │ │ │ ├── mmaad_base.yaml │ │ │ ├── mmaad_instruction.yaml │ │ │ ├── mmaad_option.yaml │ │ │ ├── mmiasd_base.yaml │ │ │ ├── mmiasd_instruction.yaml │ │ │ ├── mmiasd_option.yaml │ │ │ ├── mmivqd_base.yaml │ │ │ ├── mmivqd_instruction.yaml │ │ │ ├── mmivqd_option.yaml │ │ │ ├── mmupd.yaml │ │ │ ├── mmupd_base.yaml │ │ │ ├── mmupd_evals.py │ │ │ ├── mmupd_instruction.yaml │ │ │ ├── mmupd_option.yaml │ │ │ └── utils.py │ │ ├── mmvet │ │ │ ├── mmvet.yaml │ │ │ └── utils.py │ │ ├── mmvetv2 │ │ │ ├── mmvetv2.yaml │ │ │ ├── mmvetv2_group_img.yaml │ │ │ └── utils.py │ │ ├── mmworld │ │ │ ├── mmworld.yaml │ │ │ └── utils.py │ │ ├── moviechat │ │ │ ├── README.md │ │ │ ├── _default_template_yaml │ │ │ ├── moviechat_breakpoint.yaml │ │ │ ├── moviechat_global.yaml │ │ │ └── utils.py │ │ ├── muchomusic │ │ │ ├── muchomusic.yaml │ │ │ └── utils.py │ │ ├── muirbench │ │ │ ├── muirbench.yaml │ │ │ └── utils.py │ │ ├── multidocvqa │ │ │ ├── multidocvqa.yaml │ │ │ ├── multidocvqa_test.yaml │ │ │ ├── multidocvqa_val.yaml │ │ │ └── utils.py │ │ ├── multilingual-llava-bench-in-the-wild │ │ │ ├── README.md │ │ │ ├── _default_template_yaml │ │ │ ├── arabic_llava_in_the_wild.yaml │ │ │ ├── bengali_llava_in_the_wild.yaml │ │ │ ├── chinese_llava_in_the_wild.yaml │ │ │ ├── french_llava_in_the_wild.yaml │ │ │ ├── hindi_llava_in_the_wild.yaml │ │ │ ├── japanese_llava_in_the_wild.yaml │ │ │ ├── rule.json │ │ │ ├── russian_llava_in_the_wild.yaml │ │ │ ├── spanish_llava_in_the_wild.yaml │ │ │ ├── urdu_llava_in_the_wild.yaml │ │ │ └── utils.py │ │ ├── mvbench │ │ │ ├── _default_template_yaml │ │ │ ├── mvbench.yaml │ │ │ ├── mvbench_action_antonym.yaml │ │ │ ├── mvbench_action_count.yaml │ │ │ ├── mvbench_action_localization.yaml │ │ │ ├── mvbench_action_prediction.yaml │ │ │ ├── mvbench_action_sequence.yaml │ │ │ ├── mvbench_character_order.yaml │ │ │ ├── mvbench_counterfactual_inference.yaml │ │ │ ├── mvbench_egocentric_navigation.yaml │ │ │ ├── mvbench_episodic_reasoning.yaml │ │ │ ├── mvbench_fine_grained_action.yaml │ │ │ ├── mvbench_fine_grained_pose.yaml │ │ │ ├── mvbench_moving_attribute.yaml │ │ │ ├── mvbench_moving_count.yaml │ │ │ ├── mvbench_moving_direction.yaml │ │ │ ├── mvbench_object_existence.yaml │ │ │ ├── mvbench_object_interaction.yaml │ │ │ ├── mvbench_object_shuffle.yaml │ │ │ ├── mvbench_scene_transition.yaml │ │ │ ├── mvbench_state_change.yaml │ │ │ ├── mvbench_unexpected_action.yaml │ │ │ └── utils.py │ │ ├── naturalbench │ │ │ ├── naturalbench.yaml │ │ │ └── utils.py │ │ ├── nextqa │ │ │ ├── _default_template_yaml │ │ │ ├── nextqa.yaml │ │ │ ├── nextqa_mc_test.yaml │ │ │ ├── nextqa_oe_test.yaml │ │ │ ├── nextqa_oe_val.yaml │ │ │ ├── stopwords.csv │ │ │ └── utils.py │ │ ├── nocaps │ │ │ ├── _default_template_nocaps_yaml │ │ │ ├── nocaps.yaml │ │ │ ├── nocaps_test.yaml │ │ │ ├── nocaps_val.yaml │ │ │ ├── nocaps_val_lite.yaml │ │ │ └── utils.py │ │ ├── ocrbench │ │ │ ├── ocrbench.yaml │ │ │ ├── upload_ocrbench.py │ │ │ └── utils.py │ │ ├── ocrbench_v2 │ │ │ ├── IoUscore_metric.py │ │ │ ├── TEDS_metric.py │ │ │ ├── __init__.py │ │ │ ├── ocrbench_v2.yaml │ │ │ ├── page_ocr_metric.py │ │ │ ├── parallel.py │ │ │ ├── spotting_eval │ │ │ │ ├── __init__.py │ │ │ │ ├── readme.txt │ │ │ │ ├── rrc_evaluation_funcs_1_1.py │ │ │ │ └── script.py │ │ │ ├── spotting_metric.py │ │ │ ├── upload_ocrbench_v2.py │ │ │ ├── utils.py │ │ │ └── vqa_metric.py │ │ ├── ok_vqa │ │ │ ├── _default_template_vqa_yaml │ │ │ ├── _generate_config.py │ │ │ ├── _ok_vqa.yaml │ │ │ ├── ok_vqa_val2014.yaml │ │ │ ├── ok_vqa_val2014_lite.yaml │ │ │ └── utils.py │ │ ├── olympiadbench │ │ │ ├── cn_utils.py │ │ │ ├── en_utils.py │ │ │ ├── olympiadbench.yaml │ │ │ ├── olympiadbench_evals.py │ │ │ ├── olympiadbench_test_cn.yaml │ │ │ └── olympiadbench_test_en.yaml │ │ ├── openhermes │ │ │ ├── openhermes.yaml │ │ │ └── utils.py │ │ ├── people_speech │ │ │ ├── people_speech_val.yaml │ │ │ └── utils.py │ │ ├── perceptiontest │ │ │ ├── test │ │ │ │ ├── _default_template_yaml │ │ │ │ ├── perceptiontest_mc.yaml │ │ │ │ ├── perceptiontest_mcppl.yaml │ │ │ │ └── utils.py │ │ │ └── val │ │ │ │ ├── _default_template_yaml │ │ │ │ ├── perceptiontest_mc.yaml │ │ │ │ ├── perceptiontest_mcppl.yaml │ │ │ │ └── utils.py │ │ ├── pope │ │ │ ├── pope.yaml │ │ │ ├── pope_adv.yaml │ │ │ ├── pope_full.yaml │ │ │ ├── pope_pop.yaml │ │ │ ├── pope_random.yaml │ │ │ └── utils.py │ │ ├── qbench │ │ │ ├── abench_dev.yaml │ │ │ ├── qbench2_dev.yaml │ │ │ ├── qbench_dev.yaml │ │ │ ├── qbenchs_dev.yaml │ │ │ └── utils.py │ │ ├── realworldqa │ │ │ ├── realworldqa.yaml │ │ │ └── utils.py │ │ ├── refcoco+ │ │ │ ├── _default_template_bbox_rec_yaml │ │ │ ├── _default_template_bbox_yaml │ │ │ ├── _default_template_seg_yaml │ │ │ ├── _generate_config.py │ │ │ ├── _refcoco.yaml │ │ │ ├── refcoco+_bbox_rec_testA.yaml │ │ │ ├── refcoco+_bbox_rec_testB.yaml │ │ │ ├── refcoco+_bbox_rec_val.yaml │ │ │ ├── refcoco+_bbox_testA.yaml │ │ │ ├── refcoco+_bbox_testB.yaml │ │ │ ├── refcoco+_bbox_val.yaml │ │ │ ├── refcoco+_seg_testA.yaml │ │ │ ├── refcoco+_seg_testB.yaml │ │ │ ├── refcoco+_seg_val.yaml │ │ │ ├── utils.py │ │ │ └── utils_rec.py │ │ ├── refcoco │ │ │ ├── _default_template_bbox_rec_yaml │ │ │ ├── _default_template_bbox_yaml │ │ │ ├── _default_template_seg_yaml │ │ │ ├── _generate_config.py │ │ │ ├── _refcoco.yaml │ │ │ ├── refcoco_bbox_rec_test.yaml │ │ │ ├── refcoco_bbox_rec_testA.yaml │ │ │ ├── refcoco_bbox_rec_testB.yaml │ │ │ ├── refcoco_bbox_rec_val.yaml │ │ │ ├── refcoco_bbox_test.yaml │ │ │ ├── refcoco_bbox_testA.yaml │ │ │ ├── refcoco_bbox_testB.yaml │ │ │ ├── refcoco_bbox_val.yaml │ │ │ ├── refcoco_bbox_val_lite.yaml │ │ │ ├── refcoco_seg_test.yaml │ │ │ ├── refcoco_seg_testA.yaml │ │ │ ├── refcoco_seg_testB.yaml │ │ │ ├── refcoco_seg_val.yaml │ │ │ ├── utils.py │ │ │ └── utils_rec.py │ │ ├── refcocog │ │ │ ├── _default_template_bbox_rec_yaml │ │ │ ├── _default_template_bbox_yaml │ │ │ ├── _default_template_seg_yaml │ │ │ ├── _generate_config.py │ │ │ ├── _refcoco.yaml │ │ │ ├── refcocog_bbox_rec_test.yaml │ │ │ ├── refcocog_bbox_rec_val.yaml │ │ │ ├── refcocog_bbox_test.yaml │ │ │ ├── refcocog_bbox_val.yaml │ │ │ ├── refcocog_seg_test.yaml │ │ │ ├── refcocog_seg_val.yaml │ │ │ ├── utils.py │ │ │ └── utils_rec.py │ │ ├── scienceqa │ │ │ ├── scienceqa.yaml │ │ │ ├── scienceqa_full.yaml │ │ │ ├── scienceqa_img.yaml │ │ │ └── utils.py │ │ ├── screenspot │ │ │ ├── README.md │ │ │ ├── _default_template_rec_yaml │ │ │ ├── _default_template_reg_yaml │ │ │ ├── _screenspot.yaml │ │ │ ├── screenspot_rec_test.yaml │ │ │ ├── screenspot_reg_test.yaml │ │ │ ├── utils.py │ │ │ └── utils_rec.py │ │ ├── seedbench │ │ │ ├── ko_utils.py │ │ │ ├── seedbench.yaml │ │ │ ├── seedbench_ko.yaml │ │ │ ├── seedbench_lite.yaml │ │ │ ├── seedbench_ppl.yaml │ │ │ └── utils.py │ │ ├── seedbench_2 │ │ │ ├── seedbench_2.yaml │ │ │ └── utils.py │ │ ├── seedbench_2_plus │ │ │ ├── seedbench_2_plus.yaml │ │ │ └── utils.py │ │ ├── stvqa │ │ │ ├── stvqa.yaml │ │ │ └── utils.py │ │ ├── synthdog │ │ │ ├── donut_evaluator.py │ │ │ ├── synthdog.yaml │ │ │ ├── synthdog_en.yaml │ │ │ ├── synthdog_zh.yaml │ │ │ └── utils.py │ │ ├── tedlium │ │ │ ├── tedlium_dev_test.yaml │ │ │ ├── tedlium_long_form.yaml │ │ │ └── utils.py │ │ ├── tempcompass │ │ │ ├── _default_template_yaml │ │ │ ├── _tempcompass.yaml │ │ │ ├── tempcompass_caption_matching.yaml │ │ │ ├── tempcompass_captioning.yaml │ │ │ ├── tempcompass_mc.yaml │ │ │ ├── tempcompass_yes_no.yaml │ │ │ └── utils.py │ │ ├── temporalbench │ │ │ ├── temporalbench.yaml │ │ │ ├── temporalbench_long_qa.yaml │ │ │ ├── temporalbench_short_caption.yaml │ │ │ ├── temporalbench_short_qa.yaml │ │ │ └── utils.py │ │ ├── textcaps │ │ │ ├── _default_template_textcaps_yaml │ │ │ ├── textcaps.yaml │ │ │ ├── textcaps_test.yaml │ │ │ ├── textcaps_train.yaml │ │ │ ├── textcaps_val.yaml │ │ │ ├── textcaps_val_lite.yaml │ │ │ └── utils.py │ │ ├── textvqa │ │ │ ├── _default_template_textvqa_yaml │ │ │ ├── _textvqa.yaml │ │ │ ├── textvqa_test.yaml │ │ │ ├── textvqa_val.yaml │ │ │ ├── textvqa_val_lite.yaml │ │ │ └── utils.py │ │ ├── vatex │ │ │ ├── _vatex.yaml │ │ │ ├── utils.py │ │ │ ├── vatex_test.yaml │ │ │ └── vatex_val_zh.yaml │ │ ├── vcr_wiki │ │ │ ├── _default_template_vcr_yaml │ │ │ ├── utils.py │ │ │ ├── vcr_wiki_en_easy.yaml │ │ │ ├── vcr_wiki_en_easy_100.yaml │ │ │ ├── vcr_wiki_en_easy_500.yaml │ │ │ ├── vcr_wiki_en_hard.yaml │ │ │ ├── vcr_wiki_en_hard_100.yaml │ │ │ ├── vcr_wiki_en_hard_500.yaml │ │ │ ├── vcr_wiki_zh_easy.yaml │ │ │ ├── vcr_wiki_zh_easy_100.yaml │ │ │ ├── vcr_wiki_zh_easy_500.yaml │ │ │ ├── vcr_wiki_zh_hard.yaml │ │ │ ├── vcr_wiki_zh_hard_100.yaml │ │ │ └── vcr_wiki_zh_hard_500.yaml │ │ ├── vdc │ │ │ ├── README.md │ │ │ ├── _default_template_yaml │ │ │ ├── background_test.yaml │ │ │ ├── camera_test.yaml │ │ │ ├── detailed_test.yaml │ │ │ ├── main_object_test.yaml │ │ │ ├── short_test.yaml │ │ │ └── utils.py │ │ ├── vibe_eval │ │ │ ├── utils.py │ │ │ └── vibe_eval.yaml │ │ ├── video_detail_description │ │ │ ├── README.md │ │ │ ├── _default_template_yaml │ │ │ ├── utils.py │ │ │ └── video_detail_description.yaml │ │ ├── videochatgpt │ │ │ ├── _default_template_yaml │ │ │ ├── _videochatgpt.yaml │ │ │ ├── utils.py │ │ │ ├── videochatgpt_consistency.yaml │ │ │ ├── videochatgpt_generic.yaml │ │ │ └── videochatgpt_temporal.yaml │ │ ├── videomme │ │ │ ├── utils.py │ │ │ ├── videomme.yaml │ │ │ └── videomme_w_subtitle.yaml │ │ ├── videommmu │ │ │ ├── _default_template_yaml │ │ │ ├── adaptation.yaml │ │ │ ├── adaptation_question_only.yaml │ │ │ ├── comprehension.yaml │ │ │ ├── perception.yaml │ │ │ ├── utils.py │ │ │ └── video_mmmu.yaml │ │ ├── vinoground │ │ │ ├── utils.py │ │ │ └── vinoground.yaml │ │ ├── vitatecs │ │ │ ├── _default_template_yaml │ │ │ ├── _vitatecs.yaml │ │ │ ├── utils.py │ │ │ ├── vitatecs_compositionality.yaml │ │ │ ├── vitatecs_direction.yaml │ │ │ ├── vitatecs_intensity.yaml │ │ │ ├── vitatecs_localization.yaml │ │ │ ├── vitatecs_sequence.yaml │ │ │ └── vitatecs_type.yaml │ │ ├── vizwiz_vqa │ │ │ ├── _default_template_vqa_yaml │ │ │ ├── _generate_config.py │ │ │ ├── _vizwiz_vqa.yaml │ │ │ ├── utils.py │ │ │ ├── vizwiz_vqa_test.yaml │ │ │ ├── vizwiz_vqa_val.yaml │ │ │ └── vizwiz_vqa_val_lite.yaml │ │ ├── vl_rewardbench │ │ │ ├── utils.py │ │ │ └── vl_rewardbench.yaml │ │ ├── vmcbench │ │ │ ├── utils.py │ │ │ └── vmcbench.yaml │ │ ├── vocalsound │ │ │ ├── _default_template_yaml │ │ │ ├── utils.py │ │ │ ├── vocalsound_test.yaml │ │ │ └── vocalsound_val.yaml │ │ ├── vqav2 │ │ │ ├── _default_template_vqav2_yaml │ │ │ ├── _vqav2.yaml │ │ │ ├── utils.py │ │ │ ├── vqav2_test.yaml │ │ │ ├── vqav2_val.yaml │ │ │ └── vqav2_val_lite.yaml │ │ ├── wavcaps │ │ │ ├── utils.py │ │ │ └── wavcaps.yaml │ │ ├── websrc │ │ │ ├── README.md │ │ │ ├── utils.py │ │ │ ├── websrc.yaml │ │ │ ├── websrc_test.yaml │ │ │ └── websrc_val.yaml │ │ ├── wild_vision_bench │ │ │ ├── _default_template_yaml │ │ │ ├── utils.py │ │ │ ├── wild_vision_bench0617.yaml │ │ │ ├── wild_vision_bench0630.yaml │ │ │ └── wildvision_bench.yaml │ │ ├── worldqa │ │ │ ├── _default_template_yaml │ │ │ ├── utils.py │ │ │ ├── worldqa.yaml │ │ │ ├── worldqa_generation.yaml │ │ │ ├── worldqa_mc.yaml │ │ │ ├── worldqa_mc_evaluator.py │ │ │ └── worldqa_mcppl.yaml │ │ └── youcook2 │ │ │ ├── _default_template_yaml │ │ │ ├── utils.py │ │ │ └── youcook2_val.yaml │ └── utils.py │ ├── miscs │ ├── example_eval.yaml │ ├── llava_repr_requirements.txt │ ├── llava_result_check.md │ ├── llava_sglang_result_check.md │ ├── model_dryruns │ │ ├── llava_1_5.sh │ │ ├── openai_compatible.sh │ │ ├── qwen2vl.sh │ │ ├── tinyllava.sh │ │ └── vllm_qwen2vl.sh │ ├── repr_torch_envs.txt │ ├── scienceqa_id.txt │ ├── script.sh │ ├── test_llava.py │ ├── test_scienceqa.py │ └── tinyllava_repr_requirements.txt │ ├── pyproject.toml │ ├── setup.py │ ├── test_parse.py │ └── tools │ ├── get_mvbench_avg.py │ ├── get_split_zip.py │ ├── get_video_avg_time.py │ ├── lite │ ├── embed.py │ ├── embedder │ │ ├── BaseEmbedder.py │ │ ├── ClipBgeEmbedder.py │ │ └── __init__.py │ ├── shrink.py │ └── shrinker │ │ ├── BaseShrinker.py │ │ ├── EmbedShrinker.py │ │ ├── __init__.py │ │ └── sampling_methods │ │ ├── __init__.py │ │ ├── kcenter_greedy.py │ │ └── sampling_def.py │ ├── live_bench │ ├── create_dataset.py │ ├── data_summary.ipynb │ ├── example.ipynb │ ├── filter.ipynb │ ├── live_bench │ │ ├── __init__.py │ │ ├── api │ │ │ └── live_bench.py │ │ ├── data_generator │ │ │ ├── __init__.py │ │ │ ├── check_prompt.md │ │ │ ├── default_criteria.md │ │ │ ├── example │ │ │ │ ├── example_output.json │ │ │ │ └── example_website.png │ │ │ ├── live_bench.py │ │ │ ├── live_bench_data.py │ │ │ ├── prompt.md │ │ │ ├── qa_generator.py │ │ │ ├── question_finalizer.py │ │ │ ├── response.py │ │ │ ├── score_getter.py │ │ │ ├── score_prompt.md │ │ │ └── utils │ │ │ │ ├── __init__.py │ │ │ │ ├── claude.py │ │ │ │ ├── extract_information.py │ │ │ │ ├── gemini.py │ │ │ │ └── gpt4v.py │ │ ├── driver │ │ │ ├── .gitignore │ │ │ ├── __init__.py │ │ │ └── load_driver.py │ │ ├── screen_shoter │ │ │ ├── __init__.py │ │ │ ├── screen.py │ │ │ └── screen_shoter.py │ │ ├── view.ipynb │ │ └── websites │ │ │ ├── __init__.py │ │ │ ├── load_website.py │ │ │ ├── website.py │ │ │ └── website_list.yaml │ ├── pyproject.toml │ ├── refine_all_results.py │ ├── script │ │ ├── README.md │ │ ├── change.ipynb │ │ ├── compare.ipynb │ │ ├── modify.ipynb │ │ ├── refractor.py │ │ ├── select.ipynb │ │ ├── update_banchmark.ipynb │ │ └── upload_results.py │ ├── setup.py │ └── summerize.ipynb │ ├── make_audio_hf_dataset.ipynb │ ├── make_image_hf_dataset.ipynb │ ├── make_vatex.py │ ├── make_video_hf_dataset.ipynb │ ├── make_video_hf_dataset_from_json.py │ ├── makecvrr.ipynb │ ├── regression.py │ └── upload_file_to_hf.py └── verl ├── __init__.py ├── models ├── __init__.py ├── monkey_patch.py └── transformers │ ├── __init__.py │ ├── flash_attention_utils.py │ └── qwen2_vl.py ├── protocol.py ├── single_controller ├── __init__.py ├── base │ ├── __init__.py │ ├── decorator.py │ ├── register_center │ │ ├── __init__.py │ │ └── ray.py │ ├── worker.py │ └── worker_group.py └── ray │ ├── __init__.py │ └── base.py ├── trainer ├── __init__.py ├── config.py ├── core_algos.py ├── main.py └── ray_trainer.py ├── utils ├── __init__.py ├── checkpoint │ ├── __init__.py │ ├── checkpoint_manager.py │ └── fsdp_checkpoint_manager.py ├── dataset.py ├── dataset_video.py ├── flops_counter.py ├── fsdp_utils.py ├── logger │ ├── __init__.py │ └── aggregate_logger.py ├── model_utils.py ├── py_functional.py ├── reward_score │ ├── __init__.py │ ├── math.py │ ├── r1v.py │ └── tvg.py ├── seqlen_balancing.py ├── tokenizer.py ├── torch_dtypes.py ├── torch_functional.py ├── tracking.py └── ulysses.py └── workers ├── __init__.py ├── actor ├── __init__.py ├── base.py ├── config.py └── dp_actor.py ├── config.py ├── critic ├── __init__.py ├── base.py ├── config.py └── dp_critic.py ├── fsdp_workers.py ├── reward ├── __init__.py ├── config.py └── custom.py ├── rollout ├── __init__.py ├── base.py ├── config.py └── vllm_rollout │ ├── __init__.py │ ├── dtensor_weight_loaders.py │ └── vllm_rollout_spmd.py └── sharding_manager ├── __init__.py ├── base.py ├── fsdp_ulysses.py └── fsdp_vllm.py /Makefile: -------------------------------------------------------------------------------- 1 | .PHONY: build commit quality style 2 | 3 | check_dirs := scripts verl setup.py 4 | 5 | build: 6 | python3 setup.py sdist bdist_wheel 7 | 8 | commit: 9 | pre-commit install 10 | pre-commit run --all-files 11 | 12 | quality: 13 | ruff check $(check_dirs) 14 | ruff format --check $(check_dirs) 15 | 16 | style: 17 | ruff check $(check_dirs) --fix 18 | ruff format $(check_dirs) 19 | -------------------------------------------------------------------------------- /examples/runtime_env.yaml: -------------------------------------------------------------------------------- 1 | working_dir: ./ 2 | excludes: ["/.git/"] 3 | env_vars: 4 | TORCH_NCCL_AVOID_RECORD_STREAMS: "1" 5 | VLLM_ATTENTION_BACKEND: "XFORMERS" 6 | -------------------------------------------------------------------------------- /pics/.gitignore: -------------------------------------------------------------------------------- 1 | 2 | -------------------------------------------------------------------------------- /pics/fig1.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/appletea233/Temporal-R1/3fc90214ef4d64c3ab39aae274625c75766814a3/pics/fig1.png -------------------------------------------------------------------------------- /pics/reward curve.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/appletea233/Temporal-R1/3fc90214ef4d64c3ab39aae274625c75766814a3/pics/reward curve.png -------------------------------------------------------------------------------- /pics/token len.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/appletea233/Temporal-R1/3fc90214ef4d64c3ab39aae274625c75766814a3/pics/token len.png -------------------------------------------------------------------------------- /requirements.txt: -------------------------------------------------------------------------------- 1 | accelerate 2 | codetiming 3 | datasets 4 | flash-attn>=2.4.3 5 | liger-kernel 6 | mathruler 7 | numpy 8 | omegaconf 9 | pandas 10 | peft 11 | pillow 12 | pyarrow>=15.0.0 13 | pylatexenc 14 | qwen-vl-utils 15 | ray 16 | tensordict 17 | torchdata 18 | transformers>=4.49.0 19 | vllm>=0.7.3 20 | wandb 21 | -------------------------------------------------------------------------------- /third_party/lmms-eval/lmms_eval/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/appletea233/Temporal-R1/3fc90214ef4d64c3ab39aae274625c75766814a3/third_party/lmms-eval/lmms_eval/__init__.py -------------------------------------------------------------------------------- /third_party/lmms-eval/lmms_eval/api/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/appletea233/Temporal-R1/3fc90214ef4d64c3ab39aae274625c75766814a3/third_party/lmms-eval/lmms_eval/api/__init__.py -------------------------------------------------------------------------------- /third_party/lmms-eval/lmms_eval/caching/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/appletea233/Temporal-R1/3fc90214ef4d64c3ab39aae274625c75766814a3/third_party/lmms-eval/lmms_eval/caching/__init__.py -------------------------------------------------------------------------------- /third_party/lmms-eval/lmms_eval/loggers/__init__.py: -------------------------------------------------------------------------------- 1 | from .evaluation_tracker import EvaluationTracker 2 | from .wandb_logger import WandbLogger 3 | -------------------------------------------------------------------------------- /third_party/lmms-eval/lmms_eval/models/model_utils/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/appletea233/Temporal-R1/3fc90214ef4d64c3ab39aae274625c75766814a3/third_party/lmms-eval/lmms_eval/models/model_utils/__init__.py -------------------------------------------------------------------------------- /third_party/lmms-eval/lmms_eval/models/model_utils/audio_processing.py: -------------------------------------------------------------------------------- 1 | import numpy as np 2 | from librosa import resample 3 | 4 | 5 | def downsample_audio(audio_array: np.ndarray, original_sr: int, target_sr: int) -> np.ndarray: 6 | audio_resample_array = resample(audio_array, orig_sr=original_sr, target_sr=target_sr) 7 | return audio_resample_array 8 | -------------------------------------------------------------------------------- /third_party/lmms-eval/lmms_eval/models/video_chatgpt/__init__.py: -------------------------------------------------------------------------------- 1 | from .model import VideoChatGPTLlamaForCausalLM 2 | -------------------------------------------------------------------------------- /third_party/lmms-eval/lmms_eval/models/video_chatgpt/constants.py: -------------------------------------------------------------------------------- 1 | CONTROLLER_HEART_BEAT_EXPIRATION = 30 2 | WORKER_HEART_BEAT_INTERVAL = 15 3 | 4 | LOGDIR = "." 5 | 6 | 7 | # Defining model 8 | DEFAULT_VIDEO_TOKEN = "