├── .github ├── issue_template.md ├── pull_request_template.md └── workflows │ └── lint.yml ├── .gitignore ├── .pre-commit-config.yaml ├── LICENSE ├── README.md ├── docs ├── README.md ├── commands.md ├── current_tasks.md ├── lmms-eval-0.3.md ├── model_guide.md ├── run_examples.md └── task_guide.md ├── examples └── models │ ├── aero_1_audio.sh │ ├── aria.sh │ ├── auroracap.sh │ ├── claude.sh │ ├── idefics2.sh │ ├── instructblip.sh │ ├── internvl1.5.sh │ ├── internvl2.sh │ ├── llama_vid.sh │ ├── llama_vision.sh │ ├── llava_1_5.sh │ ├── llava_next.sh │ ├── llava_onevision.sh │ ├── llava_video.sh │ ├── movie_chat.sh │ ├── mplug_owl.sh │ ├── openai_compatible.sh │ ├── plm.sh │ ├── qwen25vl.sh │ ├── qwen2vl.sh │ ├── sglang.sh │ ├── slime.sh │ ├── tensor_parallel.sh │ ├── tinyllava.sh │ ├── video_chatgpt.sh │ ├── video_llava.sh │ ├── vllm_qwen2vl.sh │ ├── xai_grok.sh │ └── xcomposer.sh ├── lmms_eval ├── __init__.py ├── __main__.py ├── api │ ├── __init__.py │ ├── filter.py │ ├── group.py │ ├── instance.py │ ├── metrics.py │ ├── model.py │ ├── registry.py │ ├── samplers.py │ └── task.py ├── caching │ ├── __init__.py │ └── cache.py ├── evaluator.py ├── evaluator_utils.py ├── filters │ ├── __init__.py │ ├── decontamination.py │ ├── extraction.py │ ├── selection.py │ └── transformation.py ├── loggers │ ├── __init__.py │ ├── evaluation_tracker.py │ ├── utils.py │ └── wandb_logger.py ├── logging_utils.py ├── models │ ├── __init__.py │ ├── aero.py │ ├── aria.py │ ├── auroracap.py │ ├── batch_gpt4.py │ ├── cambrian.py │ ├── claude.py │ ├── cogvlm2.py │ ├── egogpt.py │ ├── from_log.py │ ├── fuyu.py │ ├── gemini_api.py │ ├── gpt4v.py │ ├── idefics2.py │ ├── instructblip.py │ ├── internvideo2.py │ ├── internvideo2_5.py │ ├── internvl.py │ ├── internvl2.py │ ├── llama_vid.py │ ├── llama_vision.py │ ├── llava.py │ ├── llava_hf.py │ ├── llava_onevision.py │ ├── llava_onevision_moviechat.py │ ├── llava_sglang.py │ ├── llava_vid.py │ ├── longva.py │ ├── mantis.py │ ├── minicpm_v.py │ ├── minimonkey.py │ ├── model_utils │ │ ├── __init__.py │ │ ├── audio_processing.py │ │ ├── load_video.py │ │ └── qwen │ │ │ └── qwen_generate_utils.py │ ├── moviechat.py │ ├── mplug_owl_video.py │ ├── mplug_owl_video │ │ ├── __init__.py │ │ ├── configuration_mplug_owl.py │ │ ├── modeling_mplug_owl.py │ │ ├── processing_mplug_owl.py │ │ └── tokenization_mplug_owl.py │ ├── ola.py │ ├── openai_compatible.py │ ├── oryx.py │ ├── phi3v.py │ ├── phi4_multimodal.py │ ├── plm.py │ ├── qwen2_5_omni.py │ ├── qwen2_5_vl.py │ ├── qwen2_5_vl_interleave.py │ ├── qwen2_audio.py │ ├── qwen2_vl.py │ ├── qwen_vl.py │ ├── qwen_vl_api.py │ ├── reka.py │ ├── ross.py │ ├── slime.py │ ├── srt_api.py │ ├── tinyllava.py │ ├── video_chatgpt.py │ ├── video_chatgpt │ │ ├── __init__.py │ │ ├── constants.py │ │ ├── eval │ │ │ ├── __init__.py │ │ │ └── model_utils.py │ │ ├── inference.py │ │ ├── model │ │ │ ├── __init__.py │ │ │ ├── consolidate.py │ │ │ ├── make_delta.py │ │ │ ├── utils.py │ │ │ └── video_chatgpt.py │ │ ├── single_video_inference.py │ │ ├── utils.py │ │ └── video_conversation.py │ ├── video_llava.py │ ├── videochat2.py │ ├── videochat_flash.py │ ├── videollama3.py │ ├── vila.py │ ├── vita.py │ ├── vllm.py │ ├── vora.py │ ├── whisper.py │ ├── whisper_vllm.py │ ├── xcomposer2_4KHD.py │ └── xcomposer2d5.py ├── tasks │ ├── VisualPuzzles │ │ ├── VisualPuzzles_cot.yaml │ │ ├── VisualPuzzles_direct.yaml │ │ └── utils.py │ ├── __init__.py │ ├── _task_utils │ │ ├── file_utils.py │ │ ├── gpt_eval_utils.py │ │ ├── video_loader.py │ │ └── vqa_eval_metric.py │ ├── activitynetqa │ │ ├── _default_template_yaml │ │ ├── activitynetqa_generation.yaml │ │ └── utils.py │ ├── ai2d │ │ ├── ai2d.yaml │ │ ├── ai2d_lite.yaml │ │ ├── ai2d_no_mask.yaml │ │ ├── upload_ai2d.py │ │ └── utils.py │ ├── air_bench │ │ ├── _default_template_yaml │ │ ├── air_bench_chat.yaml │ │ ├── air_bench_chat_mixed.yaml │ │ ├── air_bench_chat_music.yaml │ │ ├── air_bench_chat_sound.yaml │ │ ├── air_bench_chat_speech.yaml │ │ ├── air_bench_foundation.yaml │ │ ├── air_bench_foundation_music.yaml │ │ ├── air_bench_foundation_sound.yaml │ │ ├── air_bench_foundation_speech.yaml │ │ └── utils.py │ ├── alpaca_audio │ │ ├── alpaca_audio.yaml │ │ └── utils.py │ ├── arc │ │ ├── README.md │ │ ├── arc_challenge.yaml │ │ └── arc_easy.yaml │ ├── av_odyssey │ │ ├── av_odyssey.yaml │ │ └── utils.py │ ├── capability │ │ ├── _default_template_yaml │ │ ├── capability.yaml │ │ ├── capability_OCR.yaml │ │ ├── capability_action.yaml │ │ ├── capability_camera_angle.yaml │ │ ├── capability_camera_movement.yaml │ │ ├── capability_character_identification.yaml │ │ ├── capability_dynamic_object_number.yaml │ │ ├── capability_event.yaml │ │ ├── capability_object_category.yaml │ │ ├── capability_object_color.yaml │ │ ├── capability_object_number.yaml │ │ ├── capability_scene.yaml │ │ ├── capability_spatial_relation.yaml │ │ ├── capability_style.yaml │ │ ├── prompt.py │ │ └── utils.py │ ├── charades_sta │ │ ├── charades.yaml │ │ ├── eval_tvg.py │ │ └── utils.py │ ├── chartqa │ │ ├── chartqa.yaml │ │ ├── chartqa_lite.yaml │ │ ├── upload_chartqa.py │ │ └── utils.py │ ├── cinepile │ │ ├── cinepile.yaml │ │ └── utils.py │ ├── clotho_aqa │ │ ├── _default_template_yaml │ │ ├── clotho_aqa.yaml │ │ ├── clotho_aqa_test.yaml │ │ ├── clotho_aqa_val.yaml │ │ ├── clotho_asqa_test_v2.yaml │ │ └── utils.py │ ├── cmmmu │ │ ├── _cmmmu.yaml │ │ ├── _default_template_cmmmu_yaml │ │ ├── cmmmu_test.yaml │ │ ├── cmmmu_val.yaml │ │ └── utils.py │ ├── coco_cap │ │ ├── coco2014_cap.yaml │ │ ├── coco2014_cap_test.yaml │ │ ├── coco2014_cap_val.yaml │ │ ├── coco2017_cap.yaml │ │ ├── coco2017_cap_test.yaml │ │ ├── coco2017_cap_val.yaml │ │ ├── coco2017_cap_val_lite.yaml │ │ ├── coco_cap.yaml │ │ ├── coco_karpathy.yaml │ │ ├── coco_karpathy_test.yaml │ │ ├── coco_karpathy_val.yaml │ │ └── utils.py │ ├── common_voice_15 │ │ ├── _default_template_yaml │ │ ├── common_voice_15.yaml │ │ ├── common_voice_15_en.yaml │ │ ├── common_voice_15_fr.yaml │ │ ├── common_voice_15_zh-CN.yaml │ │ └── utils.py │ ├── conbench │ │ ├── conbench.yaml │ │ └── utils.py │ ├── covost2 │ │ ├── _default_template_en_zh_yaml │ │ ├── _default_template_zh_en_yaml │ │ ├── covost2.yaml │ │ ├── covost2_en_zh.yaml │ │ ├── covost2_en_zh_dev.yaml │ │ ├── covost2_en_zh_test.yaml │ │ ├── covost2_zh_en.yaml │ │ ├── covost2_zh_en_dev.yaml │ │ ├── covost2_zh_en_test.yaml │ │ └── utils.py │ ├── cuva │ │ ├── _default_template_yaml │ │ ├── cuva.yaml │ │ ├── cuva_test.yaml │ │ └── utils.py │ ├── cvrr │ │ ├── _cvrr.yaml │ │ ├── _default_template_yaml │ │ ├── cvrr_fine_grained_action_understanding.yaml │ │ ├── cvrr_interpretation_of_social_context.yaml │ │ ├── cvrr_interpretation_of_visual_context.yaml │ │ ├── cvrr_multiple_actions_in_a_single_video.yaml │ │ ├── cvrr_non_existent_actions_with_existent_scene_depictions.yaml │ │ ├── cvrr_non_existent_actions_with_non_existent_scene_depictions.yaml │ │ ├── cvrr_object_instance_count.yaml │ │ ├── cvrr_partial_actions.yaml │ │ ├── cvrr_time_order_understanding.yaml │ │ ├── cvrr_understanding_emotional_context.yaml │ │ ├── cvrr_unusual_and_physically_anomalous_activities.yaml │ │ └── utils.py │ ├── detailcaps │ │ ├── _default_template_detailcaps_yaml │ │ ├── detailcaps.yaml │ │ └── utils.py │ ├── docvqa │ │ ├── _default_template_docvqa_yaml │ │ ├── docvqa.yaml │ │ ├── docvqa_test.yaml │ │ ├── docvqa_val.yaml │ │ ├── docvqa_val_lite.yaml │ │ └── utils.py │ ├── dtcbench │ │ ├── dtcbench.yaml │ │ └── utils.py │ ├── egoplan │ │ ├── egoplan.yaml │ │ └── utils.py │ ├── egoschema │ │ ├── README.md │ │ ├── _default_template_yaml │ │ ├── egoschema.yaml │ │ ├── egoschema_mcppl.yaml │ │ ├── egoschema_subset.yaml │ │ ├── egoschema_subset_mcppl.yaml │ │ └── utils.py │ ├── egothink │ │ ├── _default_template_yaml │ │ ├── egothink.yaml │ │ ├── egothink_activity.yaml │ │ ├── egothink_affordance.yaml │ │ ├── egothink_assistance.yaml │ │ ├── egothink_attribute.yaml │ │ ├── egothink_comparing.yaml │ │ ├── egothink_counting.yaml │ │ ├── egothink_existence.yaml │ │ ├── egothink_forecasting.yaml │ │ ├── egothink_location.yaml │ │ ├── egothink_navigation.yaml │ │ ├── egothink_situated.yaml │ │ ├── egothink_spatial.yaml │ │ └── utils.py │ ├── ferret │ │ ├── ferret.yaml │ │ ├── rule.json │ │ └── utils.py │ ├── fleurs │ │ ├── _default_template_yaml │ │ ├── fleurs.yaml │ │ ├── fleurs_cmn_hans_cn.yaml │ │ ├── fleurs_en.yaml │ │ ├── fleurs_yue_hant_hk.yaml │ │ └── utils.py │ ├── flickr30k │ │ ├── flickr30k.yaml │ │ ├── flickr30k_test.yaml │ │ ├── flickr30k_test_lite.yaml │ │ └── utils.py │ ├── funqa │ │ ├── _default_template_yaml │ │ ├── funqa.yaml │ │ ├── funqa_test.yaml │ │ └── utils.py │ ├── gigaspeech │ │ ├── gigaspeech.yaml │ │ ├── gigaspeech_dev.yaml │ │ ├── gigaspeech_l_dev.yaml │ │ ├── gigaspeech_l_test.yaml │ │ ├── gigaspeech_m_dev.yaml │ │ ├── gigaspeech_m_test.yaml │ │ ├── gigaspeech_s_dev.yaml │ │ ├── gigaspeech_s_test.yaml │ │ ├── gigaspeech_test.yaml │ │ ├── gigaspeech_xl_dev.yaml │ │ ├── gigaspeech_xl_test.yaml │ │ ├── gigaspeech_xs_dev.yaml │ │ ├── gigaspeech_xs_test.yaml │ │ ├── utils.py │ │ └── whisper_normalizer │ │ │ ├── basic.py │ │ │ ├── english.json │ │ │ └── english.py │ ├── gpqa │ │ ├── README.md │ │ ├── cot_n_shot │ │ │ ├── _generate_configs.py │ │ │ ├── _gpqa_cot_n_shot_yaml │ │ │ ├── gpqa_diamond_cot_n_shot.yaml │ │ │ ├── gpqa_extended_cot_n_shot.yaml │ │ │ ├── gpqa_main_cot_n_shot.yaml │ │ │ └── utils.py │ │ ├── cot_zeroshot │ │ │ ├── _generate_configs.py │ │ │ ├── _gpqa_cot_zeroshot_yaml │ │ │ ├── gpqa_diamond_cot_zeroshot.yaml │ │ │ ├── gpqa_extended_cot_zeroshot.yaml │ │ │ ├── gpqa_main_cot_zeroshot.yaml │ │ │ └── utils.py │ │ ├── generative │ │ │ ├── _generate_configs.py │ │ │ ├── _gpqa_generative_n_shot_yaml │ │ │ ├── gpqa_diamond_generative_n_shot.yaml │ │ │ ├── gpqa_extended_generative_n_shot.yaml │ │ │ ├── gpqa_main_generative_n_shot.yaml │ │ │ └── utils.py │ │ ├── n_shot │ │ │ ├── _generate_configs.py │ │ │ ├── _gpqa_n_shot_yaml │ │ │ ├── gpqa_diamond_n_shot.yaml │ │ │ ├── gpqa_extended_n_shot.yaml │ │ │ ├── gpqa_main_n_shot.yaml │ │ │ └── utils.py │ │ └── zeroshot │ │ │ ├── _generate_configs.py │ │ │ ├── _gpqa_zeroshot_yaml │ │ │ ├── gpqa_diamond_zeroshot.yaml │ │ │ ├── gpqa_extended_zeroshot.yaml │ │ │ ├── gpqa_main_zeroshot.yaml │ │ │ └── utils.py │ ├── gqa │ │ ├── gqa.yaml │ │ ├── gqa_lite.yaml │ │ └── utils.py │ ├── gqa_ru │ │ ├── gqa_ru.yaml │ │ └── utils.py │ ├── gsm8k │ │ ├── README.md │ │ ├── gsm8k-cot-llama.yaml │ │ ├── gsm8k-cot-self-consistency.yaml │ │ ├── gsm8k-cot-zeroshot.yaml │ │ ├── gsm8k-cot.yaml │ │ └── gsm8k.yaml │ ├── hallusion_bench │ │ ├── evaluate_hb.py │ │ ├── hallusion_bench_image.yaml │ │ └── utils.py │ ├── hellaswag │ │ ├── README.md │ │ ├── hellaswag.yaml │ │ └── utils.py │ ├── hrbench │ │ ├── hrbench.yaml │ │ ├── hrbench4k.yaml │ │ ├── hrbench8k.yaml │ │ ├── hrbench_evals.py │ │ └── utils.py │ ├── iconqa │ │ ├── _default_template_docvqa_yaml │ │ ├── iconqa.yaml │ │ ├── iconqa_test.yaml │ │ ├── iconqa_val.yaml │ │ └── utils.py │ ├── ifeval │ │ ├── README.md │ │ ├── ifeval.yaml │ │ ├── instructions.py │ │ ├── instructions_registry.py │ │ ├── instructions_util.py │ │ └── utils.py │ ├── ii_bench │ │ ├── ii_bench.yaml │ │ └── utils.py │ ├── illusionvqa │ │ ├── illusionvqa.yaml │ │ ├── illusionvqa_comprehension.yaml │ │ ├── illusionvqa_soft_localization.yaml │ │ └── utils.py │ ├── infovqa │ │ ├── _default_template_infovqa_yaml │ │ ├── infovqa.yaml │ │ ├── infovqa_test.yaml │ │ ├── infovqa_val.yaml │ │ ├── infovqa_val_lite.yaml │ │ └── utils.py │ ├── internal_eval │ │ ├── _default_template_internal_eval_yaml │ │ ├── d170_cn.yaml │ │ ├── d170_cn_utils.py │ │ ├── d170_en.yaml │ │ ├── d170_en_utils.py │ │ ├── dc100_en.yaml │ │ ├── dc100_en_utils.py │ │ ├── dc200_cn.yaml │ │ ├── dc200_cn_utils.py │ │ ├── internal_eval.yaml │ │ └── utils.py │ ├── jmmmu │ │ ├── _default_template_yaml │ │ ├── jmmmu.yaml │ │ ├── jmmmu_accounting.yaml │ │ ├── jmmmu_agriculture.yaml │ │ ├── jmmmu_architecture_and_engineering.yaml │ │ ├── jmmmu_basic_medical_science.yaml │ │ ├── jmmmu_biology.yaml │ │ ├── jmmmu_chemistry.yaml │ │ ├── jmmmu_clinical_medicine.yaml │ │ ├── jmmmu_computer_science.yaml │ │ ├── jmmmu_design.yaml │ │ ├── jmmmu_diagnostics_and_laboratory_medicine.yaml │ │ ├── jmmmu_economics.yaml │ │ ├── jmmmu_electronics.yaml │ │ ├── jmmmu_energy_and_power.yaml │ │ ├── jmmmu_finance.yaml │ │ ├── jmmmu_japanese_art.yaml │ │ ├── jmmmu_japanese_heritage.yaml │ │ ├── jmmmu_japanese_history.yaml │ │ ├── jmmmu_manage.yaml │ │ ├── jmmmu_marketing.yaml │ │ ├── jmmmu_materials.yaml │ │ ├── jmmmu_math.yaml │ │ ├── jmmmu_mechanical_engineering.yaml │ │ ├── jmmmu_music.yaml │ │ ├── jmmmu_pharmacy.yaml │ │ ├── jmmmu_physics.yaml │ │ ├── jmmmu_psychology.yaml │ │ ├── jmmmu_public_health.yaml │ │ ├── jmmmu_world_history.yaml │ │ └── utils.py │ ├── k12 │ │ ├── k12.yaml │ │ └── utils.py │ ├── librispeech │ │ ├── _default_yaml_template │ │ ├── cn_tn.py │ │ ├── librispeech.yaml │ │ ├── librispeech_dev_clean.yaml │ │ ├── librispeech_dev_other.yaml │ │ ├── librispeech_long.yaml │ │ ├── librispeech_test_clean.yaml │ │ ├── librispeech_test_clean_long.yaml │ │ ├── librispeech_test_other.yaml │ │ ├── librispeech_test_other_long.yaml │ │ ├── utils.py │ │ └── whisper_normalizer │ │ │ ├── basic.py │ │ │ ├── english.json │ │ │ └── english.py │ ├── live_bench │ │ ├── live_bench.yaml │ │ ├── live_bench_2406.yaml │ │ ├── live_bench_2407.yaml │ │ ├── live_bench_2409.yaml │ │ ├── live_bench_template_yaml │ │ ├── live_bench_template_yaml_v2 │ │ ├── utils.py │ │ └── utils_v2.py │ ├── livexiv_tqa │ │ ├── livexiv_tqa.yaml │ │ ├── livexiv_tqa_template_yaml │ │ ├── livexiv_tqa_v1.yaml │ │ ├── livexiv_tqa_v2.yaml │ │ ├── livexiv_tqa_v3.yaml │ │ ├── livexiv_tqa_v4.yaml │ │ ├── livexiv_tqa_v5.yaml │ │ ├── livexiv_tqa_v6.yaml │ │ └── utils.py │ ├── livexiv_vqa │ │ ├── livexiv_vqa.yaml │ │ ├── livexiv_vqa_template_yaml │ │ ├── livexiv_vqa_v1.yaml │ │ ├── livexiv_vqa_v2.yaml │ │ ├── livexiv_vqa_v3.yaml │ │ ├── livexiv_vqa_v4.yaml │ │ ├── livexiv_vqa_v5.yaml │ │ ├── livexiv_vqa_v6.yaml │ │ └── utils.py │ ├── llava-bench-coco │ │ ├── llava-bench-coco.yaml │ │ ├── rule.json │ │ └── utils.py │ ├── llava-in-the-wild │ │ ├── llava-in-the-wild.yaml │ │ ├── llava-in-the-wild_ko.yaml │ │ ├── rule.json │ │ ├── rule_ko.json │ │ ├── utils.py │ │ └── utils_ko.py │ ├── llava_interleave_bench │ │ ├── _default_template_interleave_yaml │ │ ├── in_domain.yaml │ │ ├── interleave_bench.yaml │ │ ├── multi_view_in_domain.yaml │ │ ├── out_of_domain.yaml │ │ └── utils.py │ ├── llava_wilder │ │ ├── _default_template_wilder_yaml │ │ ├── llava_wilder_small.yaml │ │ └── utils.py │ ├── longvideobench │ │ ├── longvideobench_test_i.yaml │ │ ├── longvideobench_test_v.yaml │ │ ├── longvideobench_val_i.yaml │ │ ├── longvideobench_val_v.yaml │ │ └── utils.py │ ├── mathverse │ │ ├── mathverse.yaml │ │ ├── mathverse_evals.py │ │ ├── mathverse_testmini.yaml │ │ ├── mathverse_testmini_text.yaml │ │ ├── mathverse_testmini_text_dominant.yaml │ │ ├── mathverse_testmini_text_lite.yaml │ │ ├── mathverse_testmini_text_only.yaml │ │ ├── mathverse_testmini_vision.yaml │ │ ├── mathverse_testmini_vision_dominant.yaml │ │ ├── mathverse_testmini_vision_intensive.yaml │ │ ├── mathverse_testmini_vision_only.yaml │ │ └── utils.py │ ├── mathvision │ │ ├── eval_utils.py │ │ ├── mathvision_reason_test.yaml │ │ ├── mathvision_reason_testmini.yaml │ │ ├── mathvision_test.yaml │ │ ├── mathvision_testmini.yaml │ │ └── utils.py │ ├── mathvista │ │ ├── mathvista.yaml │ │ ├── mathvista_evals.py │ │ ├── mathvista_test.yaml │ │ ├── mathvista_testmini.yaml │ │ ├── mathvista_testmini_cot.yaml │ │ ├── mathvista_testmini_format.yaml │ │ ├── mathvista_testmini_solution.yaml │ │ └── utils.py │ ├── megabench │ │ ├── README.md │ │ ├── _default_template_yaml │ │ ├── breakdown │ │ │ ├── all_task_meta.json │ │ │ ├── analysis_utils.py │ │ │ └── derive_breakdown_results.py │ │ ├── evaluator.py │ │ ├── image_video_utils.py │ │ ├── megabench.yaml │ │ ├── megabench_core.yaml │ │ ├── megabench_core_si.yaml │ │ ├── megabench_open.yaml │ │ ├── megabench_open_si.yaml │ │ ├── metrics │ │ │ ├── README.md │ │ │ ├── __init__.py │ │ │ ├── aggregation │ │ │ │ ├── mean_agg.py │ │ │ │ ├── min_agg.py │ │ │ │ └── unsupported_agg.py │ │ │ ├── aggregation_type.py │ │ │ ├── metric_type.py │ │ │ ├── parsing │ │ │ │ ├── answer_str_parse.py │ │ │ │ ├── common │ │ │ │ │ ├── parsers.py │ │ │ │ │ └── utils.py │ │ │ │ ├── dummy_parse.py │ │ │ │ └── json_parse.py │ │ │ ├── response_parse_type.py │ │ │ └── scoring │ │ │ │ ├── ascii_art_vlm_judge.py │ │ │ │ ├── chess_jaccard.py │ │ │ │ ├── common │ │ │ │ ├── conversions.py │ │ │ │ ├── metrics.py │ │ │ │ └── transformations.py │ │ │ │ ├── constrained_generation.py │ │ │ │ ├── coordinate_sequence_match.py │ │ │ │ ├── dict_equality.py │ │ │ │ ├── dict_exact_match_agg_recall.py │ │ │ │ ├── dict_jaccard_agg_jaccard.py │ │ │ │ ├── dict_nbbox_iou_tuple_agg_jaccard.py │ │ │ │ ├── dict_set_equality_agg_jaccard.py │ │ │ │ ├── exact_str_match.py │ │ │ │ ├── exact_str_match_case_insensitive.py │ │ │ │ ├── general_numerical_match.py │ │ │ │ ├── geo_proximity.py │ │ │ │ ├── gleu.py │ │ │ │ ├── jaccard.py │ │ │ │ ├── latex_expr_equality.py │ │ │ │ ├── longest_common_list_prefix_ratio.py │ │ │ │ ├── mse.py │ │ │ │ ├── multi_ref_phrase.py │ │ │ │ ├── nbbox_iou.py │ │ │ │ ├── near_str_match.py │ │ │ │ ├── nli_entailment.py │ │ │ │ ├── normalized_similarity_damerau_levenshtein.py │ │ │ │ ├── number_rel_diff_ratio.py │ │ │ │ ├── positive_int_match.py │ │ │ │ ├── program_judge.py │ │ │ │ ├── sacrebleu_bleu.py │ │ │ │ ├── sequence_equality.py │ │ │ │ ├── set_equality.py │ │ │ │ ├── set_precision.py │ │ │ │ ├── simple_str_match.py │ │ │ │ ├── symbolic_planning.py │ │ │ │ ├── unsupported_scoring.py │ │ │ │ ├── vlm_as_judge.py │ │ │ │ ├── xml_nbbox_iou.py │ │ │ │ ├── xml_norm_point_distance.py │ │ │ │ └── xml_norm_point_in_bbox.py │ │ ├── requirements.txt │ │ └── utils.py │ ├── mia_bench │ │ ├── mia_bench.yaml │ │ └── utils.py │ ├── mirb │ │ ├── mirb.yaml │ │ └── utils.py │ ├── mix_evals │ │ ├── README.md │ │ ├── audio2text │ │ │ ├── _default_template_yaml │ │ │ ├── mix_evals_audio2_text_freeform.yaml │ │ │ ├── mix_evals_audio2_text_freeform_hard.yaml │ │ │ ├── mix_evals_audio2text.yaml │ │ │ ├── mix_evals_audio2text_hard.yaml │ │ │ └── utils.py │ │ ├── image2text │ │ │ ├── _default_template_yaml │ │ │ ├── mix_evals_image2text.yaml │ │ │ ├── mix_evals_image2text_freeform.yaml │ │ │ ├── mix_evals_image2text_freeform_hard.yaml │ │ │ ├── mix_evals_image2text_hard.yaml │ │ │ ├── mix_evals_image2text_mc.yaml │ │ │ ├── mix_evals_image2text_mc_hard.yaml │ │ │ └── utils.py │ │ └── video2text │ │ │ ├── _default_template_yaml │ │ │ ├── mix_evals_video2text.yaml │ │ │ ├── mix_evals_video2text_freeform.yaml │ │ │ ├── mix_evals_video2text_freeform_hard.yaml │ │ │ ├── mix_evals_video2text_hard.yaml │ │ │ ├── mix_evals_video2text_mc.yaml │ │ │ ├── mix_evals_video2text_mc_hard.yaml │ │ │ ├── mix_evals_video2text_openended.yaml │ │ │ └── utils.py │ ├── mlvu │ │ ├── mlvu_dev.yaml │ │ ├── mlvu_test.yaml │ │ └── utils.py │ ├── mmau │ │ ├── _default_template_yaml │ │ ├── mmau.yaml │ │ ├── mmau_test.yaml │ │ ├── mmau_test_mini.yaml │ │ └── utils.py │ ├── mmbench │ │ ├── _default_template_mmbench_cn_yaml │ │ ├── _default_template_mmbench_en_yaml │ │ ├── _default_template_mmbench_ko_yaml │ │ ├── _default_template_mmbench_ru_yaml │ │ ├── cc_utils.py │ │ ├── cn_utils.py │ │ ├── en_utils.py │ │ ├── ko_utils.py │ │ ├── mmbench.yaml │ │ ├── mmbench_cc.yaml │ │ ├── mmbench_cn.yaml │ │ ├── mmbench_cn_dev.yaml │ │ ├── mmbench_cn_dev_lite.yaml │ │ ├── mmbench_cn_test.yaml │ │ ├── mmbench_en.yaml │ │ ├── mmbench_en_dev.yaml │ │ ├── mmbench_en_dev_lite.yaml │ │ ├── mmbench_en_test.yaml │ │ ├── mmbench_evals.py │ │ ├── mmbench_ko_dev.yaml │ │ ├── mmbench_ru_dev.yaml │ │ └── ru_utils.py │ ├── mme │ │ ├── mme.yaml │ │ └── utils.py │ ├── mme_cot │ │ ├── README.md │ │ ├── mme_cot_direct.yaml │ │ ├── mme_cot_reason.yaml │ │ └── utils.py │ ├── mme_realworld │ │ ├── mme_realworld.yaml │ │ ├── mme_realworld_cn.yaml │ │ ├── mme_realworld_lite.yaml │ │ └── utils.py │ ├── mmlu │ │ ├── _generate_configs.py │ │ ├── continuation │ │ │ ├── _continuation_template_yaml │ │ │ ├── _mmlu.yaml │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ ├── mmlu_anatomy.yaml │ │ │ ├── mmlu_astronomy.yaml │ │ │ ├── mmlu_business_ethics.yaml │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ ├── mmlu_college_biology.yaml │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ ├── mmlu_college_medicine.yaml │ │ │ ├── mmlu_college_physics.yaml │ │ │ ├── mmlu_computer_security.yaml │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ ├── mmlu_econometrics.yaml │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ ├── mmlu_formal_logic.yaml │ │ │ ├── mmlu_global_facts.yaml │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ ├── mmlu_human_aging.yaml │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ ├── mmlu_international_law.yaml │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ ├── mmlu_machine_learning.yaml │ │ │ ├── mmlu_management.yaml │ │ │ ├── mmlu_marketing.yaml │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ ├── mmlu_nutrition.yaml │ │ │ ├── mmlu_philosophy.yaml │ │ │ ├── mmlu_prehistory.yaml │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ ├── mmlu_professional_law.yaml │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ ├── mmlu_public_relations.yaml │ │ │ ├── mmlu_security_studies.yaml │ │ │ ├── mmlu_sociology.yaml │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ ├── mmlu_virology.yaml │ │ │ └── mmlu_world_religions.yaml │ │ ├── default │ │ │ ├── _default_template_yaml │ │ │ ├── _mmlu.yaml │ │ │ ├── _mmlu_humanities.yaml │ │ │ ├── _mmlu_other.yaml │ │ │ ├── _mmlu_social_sciences.yaml │ │ │ ├── _mmlu_stem.yaml │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ ├── mmlu_anatomy.yaml │ │ │ ├── mmlu_astronomy.yaml │ │ │ ├── mmlu_business_ethics.yaml │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ ├── mmlu_college_biology.yaml │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ ├── mmlu_college_medicine.yaml │ │ │ ├── mmlu_college_physics.yaml │ │ │ ├── mmlu_computer_security.yaml │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ ├── mmlu_econometrics.yaml │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ ├── mmlu_formal_logic.yaml │ │ │ ├── mmlu_global_facts.yaml │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ ├── mmlu_human_aging.yaml │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ ├── mmlu_international_law.yaml │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ ├── mmlu_machine_learning.yaml │ │ │ ├── mmlu_management.yaml │ │ │ ├── mmlu_marketing.yaml │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ ├── mmlu_nutrition.yaml │ │ │ ├── mmlu_philosophy.yaml │ │ │ ├── mmlu_prehistory.yaml │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ ├── mmlu_professional_law.yaml │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ ├── mmlu_public_relations.yaml │ │ │ ├── mmlu_security_studies.yaml │ │ │ ├── mmlu_sociology.yaml │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ ├── mmlu_virology.yaml │ │ │ └── mmlu_world_religions.yaml │ │ ├── flan_cot_fewshot │ │ │ ├── _cot_prompts.json │ │ │ ├── _mmlu.yaml │ │ │ ├── _mmlu_flan_cot_fewshot_template_yaml │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ ├── mmlu_anatomy.yaml │ │ │ ├── mmlu_astronomy.yaml │ │ │ ├── mmlu_business_ethics.yaml │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ ├── mmlu_college_biology.yaml │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ ├── mmlu_college_medicine.yaml │ │ │ ├── mmlu_college_physics.yaml │ │ │ ├── mmlu_computer_security.yaml │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ ├── mmlu_econometrics.yaml │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ ├── mmlu_formal_logic.yaml │ │ │ ├── mmlu_global_facts.yaml │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ ├── mmlu_human_aging.yaml │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ ├── mmlu_international_law.yaml │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ ├── mmlu_machine_learning.yaml │ │ │ ├── mmlu_management.yaml │ │ │ ├── mmlu_marketing.yaml │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ ├── mmlu_nutrition.yaml │ │ │ ├── mmlu_philosophy.yaml │ │ │ ├── mmlu_prehistory.yaml │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ ├── mmlu_professional_law.yaml │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ ├── mmlu_public_relations.yaml │ │ │ ├── mmlu_security_studies.yaml │ │ │ ├── mmlu_sociology.yaml │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ ├── mmlu_virology.yaml │ │ │ └── mmlu_world_religions.yaml │ │ ├── flan_cot_zeroshot │ │ │ ├── _mmlu.yaml │ │ │ ├── _mmlu_flan_cot_zeroshot_template_yaml │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ ├── mmlu_anatomy.yaml │ │ │ ├── mmlu_astronomy.yaml │ │ │ ├── mmlu_business_ethics.yaml │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ ├── mmlu_college_biology.yaml │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ ├── mmlu_college_medicine.yaml │ │ │ ├── mmlu_college_physics.yaml │ │ │ ├── mmlu_computer_security.yaml │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ ├── mmlu_econometrics.yaml │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ ├── mmlu_formal_logic.yaml │ │ │ ├── mmlu_global_facts.yaml │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ ├── mmlu_human_aging.yaml │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ ├── mmlu_international_law.yaml │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ ├── mmlu_machine_learning.yaml │ │ │ ├── mmlu_management.yaml │ │ │ ├── mmlu_marketing.yaml │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ ├── mmlu_nutrition.yaml │ │ │ ├── mmlu_philosophy.yaml │ │ │ ├── mmlu_prehistory.yaml │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ ├── mmlu_professional_law.yaml │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ ├── mmlu_public_relations.yaml │ │ │ ├── mmlu_security_studies.yaml │ │ │ ├── mmlu_sociology.yaml │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ ├── mmlu_virology.yaml │ │ │ ├── mmlu_world_religions.yaml │ │ │ └── utils.py │ │ ├── flan_n_shot │ │ │ ├── generative │ │ │ │ ├── _mmlu.yaml │ │ │ │ ├── _mmlu_flan_generative_template_yaml │ │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ │ ├── mmlu_anatomy.yaml │ │ │ │ ├── mmlu_astronomy.yaml │ │ │ │ ├── mmlu_business_ethics.yaml │ │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ │ ├── mmlu_college_biology.yaml │ │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ │ ├── mmlu_college_medicine.yaml │ │ │ │ ├── mmlu_college_physics.yaml │ │ │ │ ├── mmlu_computer_security.yaml │ │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ │ ├── mmlu_econometrics.yaml │ │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ │ ├── mmlu_formal_logic.yaml │ │ │ │ ├── mmlu_global_facts.yaml │ │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ │ ├── mmlu_human_aging.yaml │ │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ │ ├── mmlu_international_law.yaml │ │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ │ ├── mmlu_machine_learning.yaml │ │ │ │ ├── mmlu_management.yaml │ │ │ │ ├── mmlu_marketing.yaml │ │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ │ ├── mmlu_nutrition.yaml │ │ │ │ ├── mmlu_philosophy.yaml │ │ │ │ ├── mmlu_prehistory.yaml │ │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ │ ├── mmlu_professional_law.yaml │ │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ │ ├── mmlu_public_relations.yaml │ │ │ │ ├── mmlu_security_studies.yaml │ │ │ │ ├── mmlu_sociology.yaml │ │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ │ ├── mmlu_virology.yaml │ │ │ │ ├── mmlu_world_religions.yaml │ │ │ │ └── utils.py │ │ │ └── loglikelihood │ │ │ │ ├── _mmlu.yaml │ │ │ │ ├── _mmlu_flan_loglikelihood_template_yaml │ │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ │ ├── mmlu_anatomy.yaml │ │ │ │ ├── mmlu_astronomy.yaml │ │ │ │ ├── mmlu_business_ethics.yaml │ │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ │ ├── mmlu_college_biology.yaml │ │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ │ ├── mmlu_college_medicine.yaml │ │ │ │ ├── mmlu_college_physics.yaml │ │ │ │ ├── mmlu_computer_security.yaml │ │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ │ ├── mmlu_econometrics.yaml │ │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ │ ├── mmlu_formal_logic.yaml │ │ │ │ ├── mmlu_global_facts.yaml │ │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ │ ├── mmlu_human_aging.yaml │ │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ │ ├── mmlu_international_law.yaml │ │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ │ ├── mmlu_machine_learning.yaml │ │ │ │ ├── mmlu_management.yaml │ │ │ │ ├── mmlu_marketing.yaml │ │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ │ ├── mmlu_nutrition.yaml │ │ │ │ ├── mmlu_philosophy.yaml │ │ │ │ ├── mmlu_prehistory.yaml │ │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ │ ├── mmlu_professional_law.yaml │ │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ │ ├── mmlu_public_relations.yaml │ │ │ │ ├── mmlu_security_studies.yaml │ │ │ │ ├── mmlu_sociology.yaml │ │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ │ ├── mmlu_virology.yaml │ │ │ │ └── mmlu_world_religions.yaml │ │ └── generative │ │ │ ├── _default_template_yaml │ │ │ ├── _mmlu.yaml │ │ │ ├── mmlu_abstract_algebra.yaml │ │ │ ├── mmlu_anatomy.yaml │ │ │ ├── mmlu_astronomy.yaml │ │ │ ├── mmlu_business_ethics.yaml │ │ │ ├── mmlu_clinical_knowledge.yaml │ │ │ ├── mmlu_college_biology.yaml │ │ │ ├── mmlu_college_chemistry.yaml │ │ │ ├── mmlu_college_computer_science.yaml │ │ │ ├── mmlu_college_mathematics.yaml │ │ │ ├── mmlu_college_medicine.yaml │ │ │ ├── mmlu_college_physics.yaml │ │ │ ├── mmlu_computer_security.yaml │ │ │ ├── mmlu_conceptual_physics.yaml │ │ │ ├── mmlu_econometrics.yaml │ │ │ ├── mmlu_electrical_engineering.yaml │ │ │ ├── mmlu_elementary_mathematics.yaml │ │ │ ├── mmlu_formal_logic.yaml │ │ │ ├── mmlu_global_facts.yaml │ │ │ ├── mmlu_high_school_biology.yaml │ │ │ ├── mmlu_high_school_chemistry.yaml │ │ │ ├── mmlu_high_school_computer_science.yaml │ │ │ ├── mmlu_high_school_european_history.yaml │ │ │ ├── mmlu_high_school_geography.yaml │ │ │ ├── mmlu_high_school_government_and_politics.yaml │ │ │ ├── mmlu_high_school_macroeconomics.yaml │ │ │ ├── mmlu_high_school_mathematics.yaml │ │ │ ├── mmlu_high_school_microeconomics.yaml │ │ │ ├── mmlu_high_school_physics.yaml │ │ │ ├── mmlu_high_school_psychology.yaml │ │ │ ├── mmlu_high_school_statistics.yaml │ │ │ ├── mmlu_high_school_us_history.yaml │ │ │ ├── mmlu_high_school_world_history.yaml │ │ │ ├── mmlu_human_aging.yaml │ │ │ ├── mmlu_human_sexuality.yaml │ │ │ ├── mmlu_international_law.yaml │ │ │ ├── mmlu_jurisprudence.yaml │ │ │ ├── mmlu_logical_fallacies.yaml │ │ │ ├── mmlu_machine_learning.yaml │ │ │ ├── mmlu_management.yaml │ │ │ ├── mmlu_marketing.yaml │ │ │ ├── mmlu_medical_genetics.yaml │ │ │ ├── mmlu_miscellaneous.yaml │ │ │ ├── mmlu_moral_disputes.yaml │ │ │ ├── mmlu_moral_scenarios.yaml │ │ │ ├── mmlu_nutrition.yaml │ │ │ ├── mmlu_philosophy.yaml │ │ │ ├── mmlu_prehistory.yaml │ │ │ ├── mmlu_professional_accounting.yaml │ │ │ ├── mmlu_professional_law.yaml │ │ │ ├── mmlu_professional_medicine.yaml │ │ │ ├── mmlu_professional_psychology.yaml │ │ │ ├── mmlu_public_relations.yaml │ │ │ ├── mmlu_security_studies.yaml │ │ │ ├── mmlu_sociology.yaml │ │ │ ├── mmlu_us_foreign_policy.yaml │ │ │ ├── mmlu_virology.yaml │ │ │ └── mmlu_world_religions.yaml │ ├── mmlu_pro │ │ ├── README.md │ │ ├── _default_template_yaml │ │ ├── _mmlu_pro.yaml │ │ ├── mmlu_pro_biology.yaml │ │ ├── mmlu_pro_business.yaml │ │ ├── mmlu_pro_chemistry.yaml │ │ ├── mmlu_pro_computer_science.yaml │ │ ├── mmlu_pro_economics.yaml │ │ ├── mmlu_pro_engineering.yaml │ │ ├── mmlu_pro_health.yaml │ │ ├── mmlu_pro_history.yaml │ │ ├── mmlu_pro_law.yaml │ │ ├── mmlu_pro_math.yaml │ │ ├── mmlu_pro_other.yaml │ │ ├── mmlu_pro_philosophy.yaml │ │ ├── mmlu_pro_physics.yaml │ │ ├── mmlu_pro_psychology.yaml │ │ └── utils.py │ ├── mmmu │ │ ├── _default_template_yaml │ │ ├── arial.ttf │ │ ├── mmmu.yaml │ │ ├── mmmu_group_img.yaml │ │ ├── mmmu_group_img_test.yaml │ │ ├── mmmu_group_img_val.yaml │ │ ├── mmmu_test.yaml │ │ ├── mmmu_val.yaml │ │ ├── mmmu_val_pass64.yaml │ │ ├── mmmu_val_thinking.yaml │ │ ├── utils.py │ │ └── utils_group_img.py │ ├── mmmu_pro │ │ ├── _default_template_yaml │ │ ├── mmmu_pro.yaml │ │ ├── mmmu_pro_composite.yaml │ │ ├── mmmu_pro_composite_cot.yaml │ │ ├── mmmu_pro_cot.yaml │ │ ├── mmmu_pro_standard.yaml │ │ ├── mmmu_pro_standard_cot.yaml │ │ ├── mmmu_pro_vision.yaml │ │ ├── mmmu_pro_vision_cot.yaml │ │ └── utils.py │ ├── mmsearch │ │ ├── constants.py │ │ ├── get_final_scores.py │ │ ├── lmms_eval_utils.py │ │ ├── mmsearch.yaml │ │ ├── mmsearch_end2end.yaml │ │ ├── mmsearch_rerank.yaml │ │ ├── mmsearch_summarization.yaml │ │ ├── prompts │ │ │ ├── prompt.py │ │ │ └── prompt_w_imagesearch.py │ │ ├── retrieve_content │ │ │ ├── retriever.py │ │ │ └── tokenization │ │ │ │ ├── __init__.py │ │ │ │ ├── tokenizers.py │ │ │ │ └── utils.py │ │ ├── score │ │ │ ├── f1_score.py │ │ │ ├── req_score.py │ │ │ └── result_summary.py │ │ └── utils │ │ │ ├── image_utils.py │ │ │ ├── lmms_eval_utils.py │ │ │ ├── prompt_utils.py │ │ │ ├── utils.py │ │ │ └── web_content_utils.py │ ├── mmstar │ │ ├── ko_utils.py │ │ ├── mmstar.yaml │ │ ├── mmstar_ko.yaml │ │ └── utils.py │ ├── mmt │ │ ├── _default_template_yaml │ │ ├── mmt.yaml │ │ ├── mmt_mi.yaml │ │ ├── mmt_mi_test.yaml │ │ ├── mmt_mi_val.yaml │ │ ├── mmt_test.yaml │ │ ├── mmt_val.yaml │ │ └── utils.py │ ├── mmupd │ │ ├── _default_template_mmupd_yaml │ │ ├── mmaad_base.yaml │ │ ├── mmaad_instruction.yaml │ │ ├── mmaad_option.yaml │ │ ├── mmiasd_base.yaml │ │ ├── mmiasd_instruction.yaml │ │ ├── mmiasd_option.yaml │ │ ├── mmivqd_base.yaml │ │ ├── mmivqd_instruction.yaml │ │ ├── mmivqd_option.yaml │ │ ├── mmupd.yaml │ │ ├── mmupd_base.yaml │ │ ├── mmupd_evals.py │ │ ├── mmupd_instruction.yaml │ │ ├── mmupd_option.yaml │ │ └── utils.py │ ├── mmvet │ │ ├── mmvet.yaml │ │ └── utils.py │ ├── mmvetv2 │ │ ├── mmvetv2.yaml │ │ ├── mmvetv2_group_img.yaml │ │ └── utils.py │ ├── mmworld │ │ ├── mmworld.yaml │ │ └── utils.py │ ├── moviechat │ │ ├── README.md │ │ ├── _default_template_yaml │ │ ├── moviechat_breakpoint.yaml │ │ ├── moviechat_global.yaml │ │ └── utils.py │ ├── muchomusic │ │ ├── muchomusic.yaml │ │ └── utils.py │ ├── muirbench │ │ ├── muirbench.yaml │ │ └── utils.py │ ├── multidocvqa │ │ ├── multidocvqa.yaml │ │ ├── multidocvqa_test.yaml │ │ ├── multidocvqa_val.yaml │ │ └── utils.py │ ├── multilingual-llava-bench-in-the-wild │ │ ├── README.md │ │ ├── _default_template_yaml │ │ ├── arabic_llava_in_the_wild.yaml │ │ ├── bengali_llava_in_the_wild.yaml │ │ ├── chinese_llava_in_the_wild.yaml │ │ ├── french_llava_in_the_wild.yaml │ │ ├── hindi_llava_in_the_wild.yaml │ │ ├── japanese_llava_in_the_wild.yaml │ │ ├── rule.json │ │ ├── russian_llava_in_the_wild.yaml │ │ ├── spanish_llava_in_the_wild.yaml │ │ ├── urdu_llava_in_the_wild.yaml │ │ └── utils.py │ ├── multimodal_rewardbench │ │ ├── multimodal_rewardbench.yaml │ │ └── utils.py │ ├── mvbench │ │ ├── _default_template_yaml │ │ ├── mvbench.yaml │ │ ├── mvbench_action_antonym.yaml │ │ ├── mvbench_action_count.yaml │ │ ├── mvbench_action_localization.yaml │ │ ├── mvbench_action_prediction.yaml │ │ ├── mvbench_action_sequence.yaml │ │ ├── mvbench_character_order.yaml │ │ ├── mvbench_counterfactual_inference.yaml │ │ ├── mvbench_egocentric_navigation.yaml │ │ ├── mvbench_episodic_reasoning.yaml │ │ ├── mvbench_fine_grained_action.yaml │ │ ├── mvbench_fine_grained_pose.yaml │ │ ├── mvbench_moving_attribute.yaml │ │ ├── mvbench_moving_count.yaml │ │ ├── mvbench_moving_direction.yaml │ │ ├── mvbench_object_existence.yaml │ │ ├── mvbench_object_interaction.yaml │ │ ├── mvbench_object_shuffle.yaml │ │ ├── mvbench_scene_transition.yaml │ │ ├── mvbench_state_change.yaml │ │ ├── mvbench_unexpected_action.yaml │ │ └── utils.py │ ├── naturalbench │ │ ├── naturalbench.yaml │ │ └── utils.py │ ├── nextqa │ │ ├── _default_template_yaml │ │ ├── nextqa.yaml │ │ ├── nextqa_mc_test.yaml │ │ ├── nextqa_oe_test.yaml │ │ ├── nextqa_oe_val.yaml │ │ ├── stopwords.csv │ │ └── utils.py │ ├── nocaps │ │ ├── _default_template_nocaps_yaml │ │ ├── nocaps.yaml │ │ ├── nocaps_test.yaml │ │ ├── nocaps_val.yaml │ │ ├── nocaps_val_lite.yaml │ │ └── utils.py │ ├── ocrbench │ │ ├── ocrbench.yaml │ │ ├── upload_ocrbench.py │ │ └── utils.py │ ├── ocrbench_v2 │ │ ├── IoUscore_metric.py │ │ ├── TEDS_metric.py │ │ ├── __init__.py │ │ ├── ocrbench_v2.yaml │ │ ├── page_ocr_metric.py │ │ ├── parallel.py │ │ ├── spotting_eval │ │ │ ├── __init__.py │ │ │ ├── readme.txt │ │ │ ├── rrc_evaluation_funcs_1_1.py │ │ │ └── script.py │ │ ├── spotting_metric.py │ │ ├── upload_ocrbench_v2.py │ │ ├── utils.py │ │ └── vqa_metric.py │ ├── ok_vqa │ │ ├── _default_template_vqa_yaml │ │ ├── _generate_config.py │ │ ├── _ok_vqa.yaml │ │ ├── ok_vqa_val2014.yaml │ │ ├── ok_vqa_val2014_lite.yaml │ │ └── utils.py │ ├── olympiadbench │ │ ├── cn_utils.py │ │ ├── en_utils.py │ │ ├── olympiadbench.yaml │ │ ├── olympiadbench_evals.py │ │ ├── olympiadbench_test_cn.yaml │ │ ├── olympiadbench_test_en.yaml │ │ ├── olympiadbench_testmini.yaml │ │ └── testmini_utils.py │ ├── omni_bench │ │ ├── _default_template_yaml │ │ ├── omni_bench.yaml │ │ ├── omni_bench_audio_transcript.yaml │ │ ├── omni_bench_image_caption.yaml │ │ └── utils.py │ ├── open_asr │ │ ├── _default_template_yaml │ │ ├── openasr.yaml │ │ ├── openasr_ami.yaml │ │ ├── openasr_common_voice.yaml │ │ ├── openasr_earnings22.yaml │ │ ├── openasr_gigaspeech.yaml │ │ ├── openasr_librispeech.yaml │ │ ├── openasr_librispeech_test_clean.yaml │ │ ├── openasr_librispeech_test_other.yaml │ │ ├── openasr_spgispeech.yaml │ │ ├── openasr_tedlium.yaml │ │ ├── openasr_voxpopuli.yaml │ │ └── utils.py │ ├── openhermes │ │ ├── openhermes.yaml │ │ └── utils.py │ ├── people_speech │ │ ├── people_speech_val.yaml │ │ └── utils.py │ ├── perceptiontest │ │ ├── test │ │ │ ├── _default_template_yaml │ │ │ ├── perceptiontest_mc.yaml │ │ │ ├── perceptiontest_mcppl.yaml │ │ │ └── utils.py │ │ └── val │ │ │ ├── _default_template_yaml │ │ │ ├── perceptiontest_mc.yaml │ │ │ ├── perceptiontest_mcppl.yaml │ │ │ └── utils.py │ ├── plm_videobench │ │ ├── README.md │ │ ├── _default_template_yaml │ │ ├── eval_utils.py │ │ ├── fgqa │ │ │ ├── fgqa_test.yaml │ │ │ └── fgqa_utils.py │ │ ├── rcap │ │ │ ├── rcap_test.yaml │ │ │ └── rcap_utils.py │ │ ├── rdcap │ │ │ ├── rdcap_test.yaml │ │ │ └── rdcap_utils.py │ │ ├── rtloc │ │ │ ├── rtloc_test.yaml │ │ │ └── rtloc_utils.py │ │ └── sgqa │ │ │ ├── sgqa_test.yaml │ │ │ └── sgqa_utils.py │ ├── pope │ │ ├── pope.yaml │ │ ├── pope_adv.yaml │ │ ├── pope_full.yaml │ │ ├── pope_pop.yaml │ │ ├── pope_random.yaml │ │ └── utils.py │ ├── qbench │ │ ├── abench_dev.yaml │ │ ├── qbench2_dev.yaml │ │ ├── qbench_dev.yaml │ │ ├── qbenchs_dev.yaml │ │ └── utils.py │ ├── realworldqa │ │ ├── realworldqa.yaml │ │ └── utils.py │ ├── refcoco+ │ │ ├── _default_template_bbox_rec_yaml │ │ ├── _default_template_bbox_yaml │ │ ├── _default_template_seg_yaml │ │ ├── _generate_config.py │ │ ├── _refcoco.yaml │ │ ├── refcoco+_bbox_rec_testA.yaml │ │ ├── refcoco+_bbox_rec_testB.yaml │ │ ├── refcoco+_bbox_rec_val.yaml │ │ ├── refcoco+_bbox_testA.yaml │ │ ├── refcoco+_bbox_testB.yaml │ │ ├── refcoco+_bbox_val.yaml │ │ ├── refcoco+_seg_testA.yaml │ │ ├── refcoco+_seg_testB.yaml │ │ ├── refcoco+_seg_val.yaml │ │ ├── utils.py │ │ └── utils_rec.py │ ├── refcoco │ │ ├── _default_template_bbox_rec_yaml │ │ ├── _default_template_bbox_yaml │ │ ├── _default_template_seg_yaml │ │ ├── _generate_config.py │ │ ├── _refcoco.yaml │ │ ├── refcoco_bbox_rec_test.yaml │ │ ├── refcoco_bbox_rec_testA.yaml │ │ ├── refcoco_bbox_rec_testB.yaml │ │ ├── refcoco_bbox_rec_val.yaml │ │ ├── refcoco_bbox_test.yaml │ │ ├── refcoco_bbox_testA.yaml │ │ ├── refcoco_bbox_testB.yaml │ │ ├── refcoco_bbox_val.yaml │ │ ├── refcoco_bbox_val_lite.yaml │ │ ├── refcoco_seg_test.yaml │ │ ├── refcoco_seg_testA.yaml │ │ ├── refcoco_seg_testB.yaml │ │ ├── refcoco_seg_val.yaml │ │ ├── utils.py │ │ └── utils_rec.py │ ├── refcocog │ │ ├── _default_template_bbox_rec_yaml │ │ ├── _default_template_bbox_yaml │ │ ├── _default_template_seg_yaml │ │ ├── _generate_config.py │ │ ├── _refcoco.yaml │ │ ├── refcocog_bbox_rec_test.yaml │ │ ├── refcocog_bbox_rec_val.yaml │ │ ├── refcocog_bbox_test.yaml │ │ ├── refcocog_bbox_val.yaml │ │ ├── refcocog_seg_test.yaml │ │ ├── refcocog_seg_val.yaml │ │ ├── utils.py │ │ └── utils_rec.py │ ├── scienceqa │ │ ├── scienceqa.yaml │ │ ├── scienceqa_full.yaml │ │ ├── scienceqa_img.yaml │ │ └── utils.py │ ├── screenspot │ │ ├── README.md │ │ ├── _default_template_rec_yaml │ │ ├── _default_template_reg_yaml │ │ ├── _screenspot.yaml │ │ ├── screenspot_rec_test.yaml │ │ ├── screenspot_reg_test.yaml │ │ ├── utils.py │ │ └── utils_rec.py │ ├── seedbench │ │ ├── ko_utils.py │ │ ├── seedbench.yaml │ │ ├── seedbench_ko.yaml │ │ ├── seedbench_lite.yaml │ │ ├── seedbench_ppl.yaml │ │ └── utils.py │ ├── seedbench_2 │ │ ├── seedbench_2.yaml │ │ └── utils.py │ ├── seedbench_2_plus │ │ ├── seedbench_2_plus.yaml │ │ └── utils.py │ ├── stvqa │ │ ├── stvqa.yaml │ │ └── utils.py │ ├── synthdog │ │ ├── donut_evaluator.py │ │ ├── synthdog.yaml │ │ ├── synthdog_en.yaml │ │ ├── synthdog_zh.yaml │ │ └── utils.py │ ├── tedlium │ │ ├── tedlium_dev_test.yaml │ │ ├── tedlium_long_form.yaml │ │ └── utils.py │ ├── tempcompass │ │ ├── _default_template_yaml │ │ ├── _tempcompass.yaml │ │ ├── tempcompass_caption_matching.yaml │ │ ├── tempcompass_captioning.yaml │ │ ├── tempcompass_mc.yaml │ │ ├── tempcompass_yes_no.yaml │ │ └── utils.py │ ├── temporalbench │ │ ├── temporalbench.yaml │ │ ├── temporalbench_long_qa.yaml │ │ ├── temporalbench_short_caption.yaml │ │ ├── temporalbench_short_qa.yaml │ │ └── utils.py │ ├── textcaps │ │ ├── _default_template_textcaps_yaml │ │ ├── textcaps.yaml │ │ ├── textcaps_test.yaml │ │ ├── textcaps_train.yaml │ │ ├── textcaps_val.yaml │ │ ├── textcaps_val_lite.yaml │ │ └── utils.py │ ├── textvqa │ │ ├── _default_template_textvqa_yaml │ │ ├── _textvqa.yaml │ │ ├── textvqa_test.yaml │ │ ├── textvqa_val.yaml │ │ ├── textvqa_val_lite.yaml │ │ └── utils.py │ ├── vatex │ │ ├── _vatex.yaml │ │ ├── utils.py │ │ ├── vatex_test.yaml │ │ └── vatex_val_zh.yaml │ ├── vcr_wiki │ │ ├── _default_template_vcr_yaml │ │ ├── utils.py │ │ ├── vcr_wiki_en_easy.yaml │ │ ├── vcr_wiki_en_easy_100.yaml │ │ ├── vcr_wiki_en_easy_500.yaml │ │ ├── vcr_wiki_en_hard.yaml │ │ ├── vcr_wiki_en_hard_100.yaml │ │ ├── vcr_wiki_en_hard_500.yaml │ │ ├── vcr_wiki_zh_easy.yaml │ │ ├── vcr_wiki_zh_easy_100.yaml │ │ ├── vcr_wiki_zh_easy_500.yaml │ │ ├── vcr_wiki_zh_hard.yaml │ │ ├── vcr_wiki_zh_hard_100.yaml │ │ └── vcr_wiki_zh_hard_500.yaml │ ├── vdc │ │ ├── README.md │ │ ├── _default_template_yaml │ │ ├── background_test.yaml │ │ ├── camera_test.yaml │ │ ├── detailed_test.yaml │ │ ├── main_object_test.yaml │ │ ├── short_test.yaml │ │ └── utils.py │ ├── vibe_eval │ │ ├── utils.py │ │ └── vibe_eval.yaml │ ├── video_detail_description │ │ ├── README.md │ │ ├── _default_template_yaml │ │ ├── utils.py │ │ └── video_detail_description.yaml │ ├── videochatgpt │ │ ├── _default_template_yaml │ │ ├── _videochatgpt.yaml │ │ ├── utils.py │ │ ├── videochatgpt_consistency.yaml │ │ ├── videochatgpt_generic.yaml │ │ └── videochatgpt_temporal.yaml │ ├── videoevalpro │ │ ├── utils.py │ │ └── videoevalpro.yaml │ ├── videomathqa │ │ ├── README.md │ │ ├── cot_postprocess.py │ │ ├── cot_step_evaluation.py │ │ ├── utils.py │ │ ├── videomathqa_mbin.yaml │ │ ├── videomathqa_mbin_cot.yaml │ │ ├── videomathqa_mbin_cot_w_subtitle.yaml │ │ ├── videomathqa_mbin_w_subtitle.yaml │ │ ├── videomathqa_mcq.yaml │ │ ├── videomathqa_mcq_cot.yaml │ │ ├── videomathqa_mcq_cot_w_subtitle.yaml │ │ └── videomathqa_mcq_w_subtitle.yaml │ ├── videomme │ │ ├── utils.py │ │ ├── videomme.yaml │ │ └── videomme_w_subtitle.yaml │ ├── videommmu │ │ ├── _default_template_yaml │ │ ├── adaptation.yaml │ │ ├── adaptation_question_only.yaml │ │ ├── comprehension.yaml │ │ ├── perception.yaml │ │ ├── utils.py │ │ └── video_mmmu.yaml │ ├── vinoground │ │ ├── utils.py │ │ └── vinoground.yaml │ ├── vitatecs │ │ ├── _default_template_yaml │ │ ├── _vitatecs.yaml │ │ ├── utils.py │ │ ├── vitatecs_compositionality.yaml │ │ ├── vitatecs_direction.yaml │ │ ├── vitatecs_intensity.yaml │ │ ├── vitatecs_localization.yaml │ │ ├── vitatecs_sequence.yaml │ │ └── vitatecs_type.yaml │ ├── vizwiz_vqa │ │ ├── _default_template_vqa_yaml │ │ ├── _generate_config.py │ │ ├── _vizwiz_vqa.yaml │ │ ├── utils.py │ │ ├── vizwiz_vqa_test.yaml │ │ ├── vizwiz_vqa_val.yaml │ │ └── vizwiz_vqa_val_lite.yaml │ ├── vl_rewardbench │ │ ├── utils.py │ │ └── vl_rewardbench.yaml │ ├── vlmsareblind │ │ ├── README.md │ │ ├── __init__.py │ │ ├── utils.py │ │ ├── vlmsareblind.yaml │ │ └── vlmsareblind_lite.yaml │ ├── vmcbench │ │ ├── utils.py │ │ └── vmcbench.yaml │ ├── vocalsound │ │ ├── _default_template_yaml │ │ ├── utils.py │ │ ├── vocalsound_test.yaml │ │ └── vocalsound_val.yaml │ ├── vqav2 │ │ ├── _default_template_vqav2_yaml │ │ ├── _vqav2.yaml │ │ ├── utils.py │ │ ├── vqav2_test.yaml │ │ ├── vqav2_val.yaml │ │ └── vqav2_val_lite.yaml │ ├── vsibench │ │ ├── utils.py │ │ └── vsibench.yaml │ ├── vstar_bench │ │ ├── README.md │ │ ├── __init__.py │ │ ├── _default_template_yaml │ │ ├── utils.py │ │ ├── vstar_bench.yaml │ │ ├── vstar_bench_direct_attributes.yaml │ │ └── vstar_bench_relative_position.yaml │ ├── wavcaps │ │ ├── utils.py │ │ └── wavcaps.yaml │ ├── websrc │ │ ├── README.md │ │ ├── utils.py │ │ ├── websrc.yaml │ │ ├── websrc_test.yaml │ │ └── websrc_val.yaml │ ├── wild_vision_bench │ │ ├── _default_template_yaml │ │ ├── utils.py │ │ ├── wild_vision_bench0617.yaml │ │ ├── wild_vision_bench0630.yaml │ │ └── wildvision_bench.yaml │ ├── worldqa │ │ ├── _default_template_yaml │ │ ├── utils.py │ │ ├── worldqa.yaml │ │ ├── worldqa_generation.yaml │ │ ├── worldqa_mc.yaml │ │ ├── worldqa_mc_evaluator.py │ │ └── worldqa_mcppl.yaml │ ├── worldsense │ │ ├── utils.py │ │ ├── worldsense.yaml │ │ └── worldsense_w_subtitle.yaml │ ├── xlrs │ │ ├── XLRS-lite.yaml │ │ └── mcq_utils.py │ └── youcook2 │ │ ├── _default_template_yaml │ │ ├── utils.py │ │ └── youcook2_val.yaml └── utils.py ├── miscs ├── example_eval.yaml ├── llava_repr_requirements.txt ├── llava_result_check.md ├── llava_sglang_result_check.md ├── repr_torch_envs.txt ├── scienceqa_id.txt ├── script.sh ├── test_llava.py ├── test_scienceqa.py └── tinyllava_repr_requirements.txt ├── pyproject.toml ├── setup.py └── tools ├── get_split_zip.py ├── get_video_avg_time.py ├── lite ├── embed.py ├── embedder │ ├── BaseEmbedder.py │ ├── ClipBgeEmbedder.py │ └── __init__.py ├── shrink.py └── shrinker │ ├── BaseShrinker.py │ ├── EmbedShrinker.py │ ├── __init__.py │ └── sampling_methods │ ├── __init__.py │ ├── kcenter_greedy.py │ └── sampling_def.py ├── live_bench ├── create_dataset.py ├── data_summary.ipynb ├── example.ipynb ├── filter.ipynb ├── live_bench │ ├── __init__.py │ ├── api │ │ └── live_bench.py │ ├── data_generator │ │ ├── __init__.py │ │ ├── check_prompt.md │ │ ├── default_criteria.md │ │ ├── example │ │ │ ├── example_output.json │ │ │ └── example_website.png │ │ ├── live_bench.py │ │ ├── live_bench_data.py │ │ ├── prompt.md │ │ ├── qa_generator.py │ │ ├── question_finalizer.py │ │ ├── response.py │ │ ├── score_getter.py │ │ ├── score_prompt.md │ │ └── utils │ │ │ ├── __init__.py │ │ │ ├── claude.py │ │ │ ├── extract_information.py │ │ │ ├── gemini.py │ │ │ └── gpt4v.py │ ├── driver │ │ ├── .gitignore │ │ ├── __init__.py │ │ └── load_driver.py │ ├── screen_shoter │ │ ├── __init__.py │ │ ├── screen.py │ │ └── screen_shoter.py │ ├── view.ipynb │ └── websites │ │ ├── __init__.py │ │ ├── load_website.py │ │ ├── website.py │ │ └── website_list.yaml ├── pyproject.toml ├── refine_all_results.py ├── script │ ├── README.md │ ├── change.ipynb │ ├── compare.ipynb │ ├── modify.ipynb │ ├── refractor.py │ ├── select.ipynb │ ├── update_banchmark.ipynb │ └── upload_results.py ├── setup.py └── summerize.ipynb ├── make_audio_hf_dataset.ipynb ├── make_image_hf_dataset.ipynb ├── make_vatex.py ├── make_video_hf_dataset.ipynb ├── make_video_hf_dataset_from_json.py ├── makecvrr.ipynb └── regression.py /.github/issue_template.md: -------------------------------------------------------------------------------- 1 | Before you open an issue, please check if a similar issue already exists or has been closed before. 2 | 3 | ### When you open an issue, please be sure to include the following 4 | 5 | - [ ] A descriptive title: [xxx] XXXX 6 | - [ ] A detailed description 7 | 8 | Thank you for your contributions! 9 | -------------------------------------------------------------------------------- /examples/models/aria.sh: -------------------------------------------------------------------------------- 1 | export HF_HOME="~/.cache/huggingface" 2 | # pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git 3 | 4 | accelerate launch --num_processes=8 --main_process_port 12348 -m lmms_eval \ 5 | --model aria \ 6 | --model_args pretrained=rhymes-ai/Aria \ 7 | --tasks ai2d,chartqa,docvqa_val,mmmu_pro \ 8 | --batch_size 1 -------------------------------------------------------------------------------- /examples/models/xai_grok.sh: -------------------------------------------------------------------------------- 1 | export HF_HOME="~/.cache/huggingface" 2 | export OPENAI_API_KEY="xai-xxxxxxxxxx" 3 | export OPENAI_API_BASE="https://api.x.ai/v1" 4 | 5 | 6 | python3 -m lmms_eval \ 7 | --model openai_compatible \ 8 | --model_args model_version=grok-2-vision-1212 \ 9 | --tasks ai2d,chartqa,docvqa_val,mathvista_testmini,mmmu_pro \ 10 | --batch_size 1 -------------------------------------------------------------------------------- /lmms_eval/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/EvolvingLMMs-Lab/lmms-eval/d4383329aeaa6ffbcde94a9b31ca0eff7fee557c/lmms_eval/__init__.py -------------------------------------------------------------------------------- /lmms_eval/api/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/EvolvingLMMs-Lab/lmms-eval/d4383329aeaa6ffbcde94a9b31ca0eff7fee557c/lmms_eval/api/__init__.py -------------------------------------------------------------------------------- /lmms_eval/caching/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/EvolvingLMMs-Lab/lmms-eval/d4383329aeaa6ffbcde94a9b31ca0eff7fee557c/lmms_eval/caching/__init__.py -------------------------------------------------------------------------------- /lmms_eval/loggers/__init__.py: -------------------------------------------------------------------------------- 1 | from .evaluation_tracker import EvaluationTracker 2 | from .wandb_logger import WandbLogger 3 | -------------------------------------------------------------------------------- /lmms_eval/models/model_utils/__init__.py: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/EvolvingLMMs-Lab/lmms-eval/d4383329aeaa6ffbcde94a9b31ca0eff7fee557c/lmms_eval/models/model_utils/__init__.py -------------------------------------------------------------------------------- /lmms_eval/models/video_chatgpt/__init__.py: -------------------------------------------------------------------------------- 1 | from .model import VideoChatGPTLlamaForCausalLM 2 | -------------------------------------------------------------------------------- /lmms_eval/models/video_chatgpt/constants.py: -------------------------------------------------------------------------------- 1 | CONTROLLER_HEART_BEAT_EXPIRATION = 30 2 | WORKER_HEART_BEAT_INTERVAL = 15 3 | 4 | LOGDIR = "." 5 | 6 | 7 | # Defining model 8 | DEFAULT_VIDEO_TOKEN = "