├── .DS_Store
├── README.md
├── lab1
    ├── requirements.txt
    └── tryllm.ipynb
├── lab10
    ├── 00_train_with_preference_AI_safety.ipynb
    ├── Llama3-8B-Instruct-dpo.yaml
    ├── Lora_Merge.yaml
    ├── download.py
    ├── readme.md
    └── requirements.txt
├── lab2
    └── prompts.ipynb
├── lab3
    ├── langchain.ipynb
    └── requirements.txt
├── lab4
    ├── memory.ipynb
    └── requirements.txt
├── lab5
    ├── 0-checking_gpus.ipynb
    ├── 1-lab5.ipynb
    ├── 2-text_to_image.ipynb
    ├── assets
    │   ├── detail.png
    │   ├── manual.png
    │   ├── port.png
    │   ├── preview.png
    │   ├── sd-base.png
    │   ├── sd-ckpt.png
    │   ├── sd-create-emb.png
    │   ├── sd-hdst.jpeg
    │   ├── sd-port.png
    │   ├── sd-preprocess.png
    │   ├── sd-result.png
    │   ├── sd-sample.png
    │   ├── sd-train.png
    │   ├── select.png
    │   ├── teaser.JPG
    │   └── training.JPG
    ├── comfy_example_workflows
    │   ├── boricuapab_svd_racecar_comfyworkflows.json
    │   ├── sd3_medium_example_workflow_basic.json
    │   └── sd3_medium_example_workflow_multi_prompt.json
    └── sam2
    │   └── configs
    │       ├── sam2.1
    │           ├── sam2.1_hiera_b+.yaml
    │           ├── sam2.1_hiera_l.yaml
    │           ├── sam2.1_hiera_s.yaml
    │           └── sam2.1_hiera_t.yaml
    │       ├── sam2.1_training
    │           └── sam2.1_hiera_b+_MOSE_finetune.yaml
    │       └── sam2
    │           ├── sam2_hiera_b+.yaml
    │           ├── sam2_hiera_l.yaml
    │           ├── sam2_hiera_s.yaml
    │           └── sam2_hiera_t.yaml
├── lab6
    ├── 01_evaluation.ipynb
    ├── 02_Phi-3.ipynb
    ├── 03_llm-as-judge.ipynb
    └── requirements.txt
├── lab7
    ├── assets
    │   └── request.jpg
    ├── lab7.ipynb
    ├── llm-optimization.ipynb
    └── parallelism.ipynb
├── lab8
    ├── 01_llama_factory.ipynb
    ├── 02_poet_data.ipynb
    ├── Llama3-8B-Instruct-sft.yaml
    ├── Lora_Merge.yaml
    └── requirements.txt
└── lab9
    ├── Logic-RL
        ├── .gitignore
        ├── LICENSE
        ├── Notice.txt
        ├── README.md
        ├── data
        │   └── kk
        │   │   └── instruct
        │   │       ├── 3ppl
        │   │           ├── test.parquet
        │   │           └── train.parquet
        │   │       ├── 4ppl
        │   │           ├── test.parquet
        │   │           └── train.parquet
        │   │       ├── 5ppl
        │   │           ├── test.parquet
        │   │           └── train.parquet
        │   │       ├── 6ppl
        │   │           ├── test.parquet
        │   │           └── train.parquet
        │   │       └── 7ppl
        │   │           ├── test.parquet
        │   │           └── train.parquet
        ├── docker
        │   ├── Dockerfile.ngc.vllm
        │   └── Dockerfile.vemlp.vllm.te
        ├── docs
        │   ├── Makefile
        │   ├── README.md
        │   ├── _static
        │   │   └── logo.png
        │   ├── advance
        │   │   ├── dpo_extension.rst
        │   │   ├── fsdp_extension.rst
        │   │   ├── megatron_extension.rst
        │   │   └── placement.rst
        │   ├── conf.py
        │   ├── examples
        │   │   ├── config.rst
        │   │   ├── gsm8k_example.rst
        │   │   └── ppo_code_architecture.rst
        │   ├── experiment
        │   │   └── ppo.rst
        │   ├── faq
        │   │   └── faq.rst
        │   ├── index.rst
        │   ├── preparation
        │   │   ├── prepare_data.rst
        │   │   └── reward_function.rst
        │   ├── requirements-docs.txt
        │   ├── start
        │   │   ├── install.rst
        │   │   └── quickstart.rst
        │   └── workers
        │   │   ├── fsdp_workers.rst
        │   │   ├── megatron_workers.rst
        │   │   └── ray_trainer.rst
        ├── eval_kk
        │   ├── compute_score.py
        │   ├── eval.sh
        │   ├── kk_processor.py
        │   ├── kk_prompt.py
        │   └── main_eval_instruct.py
        ├── examples
        │   ├── data_preprocess
        │   │   ├── arth.py
        │   │   ├── countdown.py
        │   │   ├── full_hh_rlhf.py
        │   │   ├── gsm8k.py
        │   │   ├── hellaswag.py
        │   │   ├── kk.py
        │   │   ├── math_dataset.py
        │   │   └── multiply.py
        │   ├── generation
        │   │   └── run_deepseek_v2_lite_math.sh
        │   ├── grpo_trainer
        │   │   ├── run_deepseek7b_llm.sh
        │   │   ├── run_deepseek7b_llm_seq_balance.sh
        │   │   ├── run_qwen2-7b.sh
        │   │   └── run_qwen2-7b_seq_balance.sh
        │   ├── ppo_trainer
        │   │   ├── run_deepseek7b_llm.sh
        │   │   ├── run_deepseek7b_llm_sp2.sh
        │   │   ├── run_deepseek_full_hh_rlhf.sh
        │   │   ├── run_deepseek_math_gsm8k_megatron.sh
        │   │   ├── run_deepseek_megatron.sh
        │   │   ├── run_gemma.sh
        │   │   ├── run_qwen2-7b.sh
        │   │   ├── run_qwen2-7b_rm.sh
        │   │   ├── run_qwen2-7b_rm_seq_balance.sh
        │   │   ├── run_qwen2-7b_seq_balance.sh
        │   │   ├── run_qwen2.5-32b.sh
        │   │   └── verl_getting_started.ipynb
        │   ├── ray
        │   │   └── tutorial.ipynb
        │   ├── sft
        │   │   └── gsm8k
        │   │   │   ├── run_deepseek_6b7.sh
        │   │   │   ├── run_gemma_2b.sh
        │   │   │   └── run_gemma_7b.sh
        │   └── split_placement
        │   │   ├── README.md
        │   │   ├── config
        │   │       └── ppo_trainer_split.yaml
        │   │   ├── main_ppo_split.py
        │   │   ├── run_deepseek7b_llm.sh
        │   │   └── split_monkey_patch.py
        ├── main_grpo.sh
        ├── patches
        │   └── megatron_v4.patch
        ├── pics
        │   ├── response.png
        │   ├── response_mean_length.png
        │   ├── response_mean_length_v2.png
        │   ├── teaser.png
        │   └── test_score_plot_v1.jpg
        ├── pyproject.toml
        ├── requirements.txt
        ├── scripts
        │   ├── curriculum.sh
        │   ├── format.sh
        │   ├── train_grpo_4gpu_7Binstruct.sh
        │   ├── train_ppo_3B_4gpu.sh
        │   ├── train_ppo_7B_4gpu.sh
        │   └── train_reinforce_plus_4gpu_7Binstruct.sh
        ├── setup.py
        ├── setup.sh
        ├── test.py
        ├── tests
        │   ├── e2e
        │   │   ├── arithmetic_sequence
        │   │   │   ├── data
        │   │   │   │   ├── create_dataset.py
        │   │   │   │   ├── test.parquet
        │   │   │   │   └── train.parquet
        │   │   │   ├── model
        │   │   │   │   ├── config.json
        │   │   │   │   ├── create_model_tokenizer.py
        │   │   │   │   ├── generation_config.json
        │   │   │   │   ├── model.safetensors
        │   │   │   │   └── tokenizer_config.json
        │   │   │   └── rl
        │   │   │   │   ├── README.md
        │   │   │   │   ├── config
        │   │   │   │       └── ray_trainer.yaml
        │   │   │   │   └── main_trainer.py
        │   │   ├── run_qwen_gsm8k_model_rm.sh
        │   │   └── run_ray_trainer_rmpad.sh
        │   └── rollout
        │   │   ├── run_fsdp_vllm.py
        │   │   └── test_vllm_hf_loader.py
        └── verl
        │   ├── __init__.py
        │   ├── models
        │       ├── README.md
        │       ├── __init__.py
        │       ├── llama
        │       │   ├── __init__.py
        │       │   └── megatron
        │       │   │   ├── __init__.py
        │       │   │   ├── checkpoint_utils
        │       │   │       ├── __init__.py
        │       │   │       ├── llama_loader.py
        │       │   │       └── llama_saver.py
        │       │   │   ├── layers
        │       │   │       ├── __init__.py
        │       │   │       ├── parallel_attention.py
        │       │   │       ├── parallel_decoder.py
        │       │   │       ├── parallel_linear.py
        │       │   │       ├── parallel_mlp.py
        │       │   │       └── parallel_rmsnorm.py
        │       │   │   └── modeling_llama_megatron.py
        │       ├── registry.py
        │       ├── transformers
        │       │   ├── __init__.py
        │       │   ├── llama.py
        │       │   ├── monkey_patch.py
        │       │   └── qwen2.py
        │       └── weight_loader_registry.py
        │   ├── protocol.py
        │   ├── single_controller
        │       ├── __init__.py
        │       ├── base
        │       │   ├── __init__.py
        │       │   ├── decorator.py
        │       │   ├── megatron
        │       │   │   ├── __init__.py
        │       │   │   ├── worker.py
        │       │   │   └── worker_group.py
        │       │   ├── register_center
        │       │   │   ├── __init__.py
        │       │   │   └── ray.py
        │       │   ├── worker.py
        │       │   └── worker_group.py
        │       ├── ray
        │       │   ├── __init__.py
        │       │   ├── base.py
        │       │   └── megatron.py
        │       └── version
        │       │   └── version
        │   ├── third_party
        │       ├── __init__.py
        │       └── vllm
        │       │   ├── __init__.py
        │       │   ├── vllm_v_0_3_1
        │       │       ├── __init__.py
        │       │       ├── arg_utils.py
        │       │       ├── config.py
        │       │       ├── llm.py
        │       │       ├── llm_engine_sp.py
        │       │       ├── model_loader.py
        │       │       ├── model_runner.py
        │       │       ├── parallel_state.py
        │       │       ├── tokenizer.py
        │       │       ├── weight_loaders.py
        │       │       └── worker.py
        │       │   ├── vllm_v_0_4_2
        │       │       ├── __init__.py
        │       │       ├── arg_utils.py
        │       │       ├── config.py
        │       │       ├── dtensor_weight_loaders.py
        │       │       ├── hf_weight_loader.py
        │       │       ├── llm.py
        │       │       ├── llm_engine_sp.py
        │       │       ├── megatron_weight_loaders.py
        │       │       ├── model_loader.py
        │       │       ├── model_runner.py
        │       │       ├── parallel_state.py
        │       │       ├── spmd_gpu_executor.py
        │       │       ├── tokenizer.py
        │       │       └── worker.py
        │       │   ├── vllm_v_0_5_4
        │       │       ├── __init__.py
        │       │       ├── arg_utils.py
        │       │       ├── config.py
        │       │       ├── dtensor_weight_loaders.py
        │       │       ├── hf_weight_loader.py
        │       │       ├── llm.py
        │       │       ├── llm_engine_sp.py
        │       │       ├── megatron_weight_loaders.py
        │       │       ├── model_loader.py
        │       │       ├── model_runner.py
        │       │       ├── parallel_state.py
        │       │       ├── spmd_gpu_executor.py
        │       │       ├── tokenizer.py
        │       │       └── worker.py
        │       │   └── vllm_v_0_6_3
        │       │       ├── __init__.py
        │       │       ├── arg_utils.py
        │       │       ├── config.py
        │       │       ├── dtensor_weight_loaders.py
        │       │       ├── hf_weight_loader.py
        │       │       ├── llm.py
        │       │       ├── llm_engine_sp.py
        │       │       ├── megatron_weight_loaders.py
        │       │       ├── model_loader.py
        │       │       ├── model_runner.py
        │       │       ├── parallel_state.py
        │       │       ├── spmd_gpu_executor.py
        │       │       ├── tokenizer.py
        │       │       └── worker.py
        │   ├── trainer
        │       ├── __init__.py
        │       ├── config
        │       │   ├── evaluation.yaml
        │       │   ├── generation.yaml
        │       │   ├── ppo_megatron_trainer.yaml
        │       │   ├── ppo_trainer.yaml
        │       │   └── sft_trainer.yaml
        │       ├── fsdp_sft_trainer.py
        │       ├── main_eval.py
        │       ├── main_generation.py
        │       ├── main_ppo.py
        │       ├── ppo
        │       │   ├── __init__.py
        │       │   ├── core_algos.py
        │       │   └── ray_trainer.py
        │       └── runtime_env.yaml
        │   ├── utils
        │       ├── __init__.py
        │       ├── config.py
        │       ├── dataset
        │       │   ├── README.md
        │       │   ├── __init__.py
        │       │   ├── rl_dataset.py
        │       │   ├── rm_dataset.py
        │       │   └── sft_dataset.py
        │       ├── debug
        │       │   ├── __init__.py
        │       │   ├── performance.py
        │       │   └── trajectory_tracker.py
        │       ├── distributed.py
        │       ├── flops_counter.py
        │       ├── fs.py
        │       ├── fsdp_utils.py
        │       ├── hdfs_io.py
        │       ├── import_utils.py
        │       ├── logger
        │       │   ├── __init__.py
        │       │   └── aggregate_logger.py
        │       ├── logging_utils.py
        │       ├── megatron
        │       │   ├── __init__.py
        │       │   ├── memory.py
        │       │   ├── optimizer.py
        │       │   ├── optimizer_config.py
        │       │   ├── pipeline_parallel.py
        │       │   ├── sequence_parallel.py
        │       │   └── tensor_parallel.py
        │       ├── megatron_utils.py
        │       ├── memory_buffer.py
        │       ├── model.py
        │       ├── py_functional.py
        │       ├── ray_utils.py
        │       ├── rendezvous
        │       │   ├── __init__.py
        │       │   └── ray_backend.py
        │       ├── reward_score
        │       │   ├── __init__.py
        │       │   ├── countdown.py
        │       │   ├── gsm8k.py
        │       │   ├── kk.py
        │       │   ├── math.py
        │       │   └── multiply.py
        │       ├── seqlen_balancing.py
        │       ├── tokenizer.py
        │       ├── torch_dtypes.py
        │       ├── torch_functional.py
        │       ├── tracking.py
        │       └── ulysses.py
        │   ├── version
        │       └── version
        │   └── workers
        │       ├── __init__.py
        │       ├── actor
        │           ├── __init__.py
        │           ├── base.py
        │           ├── dp_actor.py
        │           └── megatron_actor.py
        │       ├── critic
        │           ├── __init__.py
        │           ├── base.py
        │           ├── dp_critic.py
        │           └── megatron_critic.py
        │       ├── fsdp_workers.py
        │       ├── megatron_workers.py
        │       ├── reward_model
        │           ├── __init__.py
        │           ├── base.py
        │           └── megatron
        │           │   ├── __init__.py
        │           │   └── reward_model.py
        │       ├── rollout
        │           ├── __init__.py
        │           ├── base.py
        │           ├── hf_rollout.py
        │           ├── naive
        │           │   ├── __init__.py
        │           │   └── naive_rollout.py
        │           ├── tokenizer.py
        │           └── vllm_rollout
        │           │   ├── __init__.py
        │           │   └── vllm_rollout.py
        │       └── sharding_manager
        │           ├── __init__.py
        │           ├── base.py
        │           ├── fsdp_ulysses.py
        │           ├── fsdp_vllm.py
        │           └── megatron_vllm.py
    └── task.ipynb


/.DS_Store:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/.DS_Store


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/README.md


--------------------------------------------------------------------------------
/lab1/requirements.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab1/requirements.txt


--------------------------------------------------------------------------------
/lab1/tryllm.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab1/tryllm.ipynb


--------------------------------------------------------------------------------
/lab10/00_train_with_preference_AI_safety.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab10/00_train_with_preference_AI_safety.ipynb


--------------------------------------------------------------------------------
/lab10/Llama3-8B-Instruct-dpo.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab10/Llama3-8B-Instruct-dpo.yaml


--------------------------------------------------------------------------------
/lab10/Lora_Merge.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab10/Lora_Merge.yaml


--------------------------------------------------------------------------------
/lab10/download.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab10/download.py


--------------------------------------------------------------------------------
/lab10/readme.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab10/readme.md


--------------------------------------------------------------------------------
/lab10/requirements.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab10/requirements.txt


--------------------------------------------------------------------------------
/lab2/prompts.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab2/prompts.ipynb


--------------------------------------------------------------------------------
/lab3/langchain.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab3/langchain.ipynb


--------------------------------------------------------------------------------
/lab3/requirements.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab3/requirements.txt


--------------------------------------------------------------------------------
/lab4/memory.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab4/memory.ipynb


--------------------------------------------------------------------------------
/lab4/requirements.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab4/requirements.txt


--------------------------------------------------------------------------------
/lab5/0-checking_gpus.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/0-checking_gpus.ipynb


--------------------------------------------------------------------------------
/lab5/1-lab5.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/1-lab5.ipynb


--------------------------------------------------------------------------------
/lab5/2-text_to_image.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/2-text_to_image.ipynb


--------------------------------------------------------------------------------
/lab5/assets/detail.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/detail.png


--------------------------------------------------------------------------------
/lab5/assets/manual.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/manual.png


--------------------------------------------------------------------------------
/lab5/assets/port.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/port.png


--------------------------------------------------------------------------------
/lab5/assets/preview.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/preview.png


--------------------------------------------------------------------------------
/lab5/assets/sd-base.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/sd-base.png


--------------------------------------------------------------------------------
/lab5/assets/sd-ckpt.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/sd-ckpt.png


--------------------------------------------------------------------------------
/lab5/assets/sd-create-emb.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/sd-create-emb.png


--------------------------------------------------------------------------------
/lab5/assets/sd-hdst.jpeg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/sd-hdst.jpeg


--------------------------------------------------------------------------------
/lab5/assets/sd-port.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/sd-port.png


--------------------------------------------------------------------------------
/lab5/assets/sd-preprocess.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/sd-preprocess.png


--------------------------------------------------------------------------------
/lab5/assets/sd-result.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/sd-result.png


--------------------------------------------------------------------------------
/lab5/assets/sd-sample.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/sd-sample.png


--------------------------------------------------------------------------------
/lab5/assets/sd-train.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/sd-train.png


--------------------------------------------------------------------------------
/lab5/assets/select.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/select.png


--------------------------------------------------------------------------------
/lab5/assets/teaser.JPG:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/teaser.JPG


--------------------------------------------------------------------------------
/lab5/assets/training.JPG:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/assets/training.JPG


--------------------------------------------------------------------------------
/lab5/comfy_example_workflows/boricuapab_svd_racecar_comfyworkflows.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/comfy_example_workflows/boricuapab_svd_racecar_comfyworkflows.json


--------------------------------------------------------------------------------
/lab5/comfy_example_workflows/sd3_medium_example_workflow_basic.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/comfy_example_workflows/sd3_medium_example_workflow_basic.json


--------------------------------------------------------------------------------
/lab5/comfy_example_workflows/sd3_medium_example_workflow_multi_prompt.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/comfy_example_workflows/sd3_medium_example_workflow_multi_prompt.json


--------------------------------------------------------------------------------
/lab5/sam2/configs/sam2.1/sam2.1_hiera_b+.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/sam2/configs/sam2.1/sam2.1_hiera_b+.yaml


--------------------------------------------------------------------------------
/lab5/sam2/configs/sam2.1/sam2.1_hiera_l.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/sam2/configs/sam2.1/sam2.1_hiera_l.yaml


--------------------------------------------------------------------------------
/lab5/sam2/configs/sam2.1/sam2.1_hiera_s.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/sam2/configs/sam2.1/sam2.1_hiera_s.yaml


--------------------------------------------------------------------------------
/lab5/sam2/configs/sam2.1/sam2.1_hiera_t.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/sam2/configs/sam2.1/sam2.1_hiera_t.yaml


--------------------------------------------------------------------------------
/lab5/sam2/configs/sam2.1_training/sam2.1_hiera_b+_MOSE_finetune.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/sam2/configs/sam2.1_training/sam2.1_hiera_b+_MOSE_finetune.yaml


--------------------------------------------------------------------------------
/lab5/sam2/configs/sam2/sam2_hiera_b+.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/sam2/configs/sam2/sam2_hiera_b+.yaml


--------------------------------------------------------------------------------
/lab5/sam2/configs/sam2/sam2_hiera_l.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/sam2/configs/sam2/sam2_hiera_l.yaml


--------------------------------------------------------------------------------
/lab5/sam2/configs/sam2/sam2_hiera_s.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/sam2/configs/sam2/sam2_hiera_s.yaml


--------------------------------------------------------------------------------
/lab5/sam2/configs/sam2/sam2_hiera_t.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab5/sam2/configs/sam2/sam2_hiera_t.yaml


--------------------------------------------------------------------------------
/lab6/01_evaluation.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab6/01_evaluation.ipynb


--------------------------------------------------------------------------------
/lab6/02_Phi-3.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab6/02_Phi-3.ipynb


--------------------------------------------------------------------------------
/lab6/03_llm-as-judge.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab6/03_llm-as-judge.ipynb


--------------------------------------------------------------------------------
/lab6/requirements.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab6/requirements.txt


--------------------------------------------------------------------------------
/lab7/assets/request.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab7/assets/request.jpg


--------------------------------------------------------------------------------
/lab7/lab7.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab7/lab7.ipynb


--------------------------------------------------------------------------------
/lab7/llm-optimization.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab7/llm-optimization.ipynb


--------------------------------------------------------------------------------
/lab7/parallelism.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab7/parallelism.ipynb


--------------------------------------------------------------------------------
/lab8/01_llama_factory.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab8/01_llama_factory.ipynb


--------------------------------------------------------------------------------
/lab8/02_poet_data.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab8/02_poet_data.ipynb


--------------------------------------------------------------------------------
/lab8/Llama3-8B-Instruct-sft.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab8/Llama3-8B-Instruct-sft.yaml


--------------------------------------------------------------------------------
/lab8/Lora_Merge.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab8/Lora_Merge.yaml


--------------------------------------------------------------------------------
/lab8/requirements.txt:
--------------------------------------------------------------------------------
1 | trl
2 | fire
3 | bitsandbytes
4 | deepspeed


--------------------------------------------------------------------------------
/lab9/Logic-RL/.gitignore:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/.gitignore


--------------------------------------------------------------------------------
/lab9/Logic-RL/LICENSE:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/LICENSE


--------------------------------------------------------------------------------
/lab9/Logic-RL/Notice.txt:
--------------------------------------------------------------------------------
1 | Copyright 2023-2024 Bytedance Ltd. and/or its affiliates 


--------------------------------------------------------------------------------
/lab9/Logic-RL/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/README.md


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/3ppl/test.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/3ppl/test.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/3ppl/train.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/3ppl/train.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/4ppl/test.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/4ppl/test.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/4ppl/train.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/4ppl/train.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/5ppl/test.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/5ppl/test.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/5ppl/train.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/5ppl/train.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/6ppl/test.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/6ppl/test.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/6ppl/train.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/6ppl/train.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/7ppl/test.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/7ppl/test.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/data/kk/instruct/7ppl/train.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/data/kk/instruct/7ppl/train.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/docker/Dockerfile.ngc.vllm:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docker/Dockerfile.ngc.vllm


--------------------------------------------------------------------------------
/lab9/Logic-RL/docker/Dockerfile.vemlp.vllm.te:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docker/Dockerfile.vemlp.vllm.te


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/Makefile:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/Makefile


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/README.md


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/_static/logo.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/_static/logo.png


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/advance/dpo_extension.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/advance/dpo_extension.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/advance/fsdp_extension.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/advance/fsdp_extension.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/advance/megatron_extension.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/advance/megatron_extension.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/advance/placement.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/advance/placement.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/conf.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/conf.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/examples/config.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/examples/config.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/examples/gsm8k_example.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/examples/gsm8k_example.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/examples/ppo_code_architecture.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/examples/ppo_code_architecture.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/experiment/ppo.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/experiment/ppo.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/faq/faq.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/faq/faq.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/index.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/index.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/preparation/prepare_data.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/preparation/prepare_data.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/preparation/reward_function.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/preparation/reward_function.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/requirements-docs.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/requirements-docs.txt


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/start/install.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/start/install.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/start/quickstart.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/start/quickstart.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/workers/fsdp_workers.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/workers/fsdp_workers.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/workers/megatron_workers.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/workers/megatron_workers.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/docs/workers/ray_trainer.rst:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/docs/workers/ray_trainer.rst


--------------------------------------------------------------------------------
/lab9/Logic-RL/eval_kk/compute_score.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/eval_kk/compute_score.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/eval_kk/eval.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/eval_kk/eval.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/eval_kk/kk_processor.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/eval_kk/kk_processor.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/eval_kk/kk_prompt.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/eval_kk/kk_prompt.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/eval_kk/main_eval_instruct.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/eval_kk/main_eval_instruct.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/data_preprocess/arth.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/data_preprocess/arth.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/data_preprocess/countdown.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/data_preprocess/countdown.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/data_preprocess/full_hh_rlhf.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/data_preprocess/full_hh_rlhf.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/data_preprocess/gsm8k.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/data_preprocess/gsm8k.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/data_preprocess/hellaswag.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/data_preprocess/hellaswag.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/data_preprocess/kk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/data_preprocess/kk.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/data_preprocess/math_dataset.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/data_preprocess/math_dataset.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/data_preprocess/multiply.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/data_preprocess/multiply.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/generation/run_deepseek_v2_lite_math.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/generation/run_deepseek_v2_lite_math.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/grpo_trainer/run_deepseek7b_llm.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/grpo_trainer/run_deepseek7b_llm.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/grpo_trainer/run_deepseek7b_llm_seq_balance.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/grpo_trainer/run_deepseek7b_llm_seq_balance.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/grpo_trainer/run_qwen2-7b.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/grpo_trainer/run_qwen2-7b.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/grpo_trainer/run_qwen2-7b_seq_balance.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/grpo_trainer/run_qwen2-7b_seq_balance.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_deepseek7b_llm.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_deepseek7b_llm.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_deepseek7b_llm_sp2.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_deepseek7b_llm_sp2.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_deepseek_full_hh_rlhf.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_deepseek_full_hh_rlhf.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_deepseek_math_gsm8k_megatron.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_deepseek_math_gsm8k_megatron.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_deepseek_megatron.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_deepseek_megatron.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_gemma.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_gemma.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_qwen2-7b.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_qwen2-7b.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_qwen2-7b_rm.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_qwen2-7b_rm.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_qwen2-7b_rm_seq_balance.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_qwen2-7b_rm_seq_balance.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_qwen2-7b_seq_balance.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_qwen2-7b_seq_balance.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/run_qwen2.5-32b.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/run_qwen2.5-32b.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ppo_trainer/verl_getting_started.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ppo_trainer/verl_getting_started.ipynb


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/ray/tutorial.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/ray/tutorial.ipynb


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/sft/gsm8k/run_deepseek_6b7.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/sft/gsm8k/run_deepseek_6b7.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/sft/gsm8k/run_gemma_2b.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/sft/gsm8k/run_gemma_2b.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/sft/gsm8k/run_gemma_7b.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/sft/gsm8k/run_gemma_7b.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/split_placement/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/split_placement/README.md


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/split_placement/config/ppo_trainer_split.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/split_placement/config/ppo_trainer_split.yaml


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/split_placement/main_ppo_split.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/split_placement/main_ppo_split.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/split_placement/run_deepseek7b_llm.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/split_placement/run_deepseek7b_llm.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/examples/split_placement/split_monkey_patch.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/examples/split_placement/split_monkey_patch.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/main_grpo.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/main_grpo.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/patches/megatron_v4.patch:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/patches/megatron_v4.patch


--------------------------------------------------------------------------------
/lab9/Logic-RL/pics/response.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/pics/response.png


--------------------------------------------------------------------------------
/lab9/Logic-RL/pics/response_mean_length.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/pics/response_mean_length.png


--------------------------------------------------------------------------------
/lab9/Logic-RL/pics/response_mean_length_v2.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/pics/response_mean_length_v2.png


--------------------------------------------------------------------------------
/lab9/Logic-RL/pics/teaser.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/pics/teaser.png


--------------------------------------------------------------------------------
/lab9/Logic-RL/pics/test_score_plot_v1.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/pics/test_score_plot_v1.jpg


--------------------------------------------------------------------------------
/lab9/Logic-RL/pyproject.toml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/pyproject.toml


--------------------------------------------------------------------------------
/lab9/Logic-RL/requirements.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/requirements.txt


--------------------------------------------------------------------------------
/lab9/Logic-RL/scripts/curriculum.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/scripts/curriculum.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/scripts/format.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/scripts/format.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/scripts/train_grpo_4gpu_7Binstruct.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/scripts/train_grpo_4gpu_7Binstruct.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/scripts/train_ppo_3B_4gpu.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/scripts/train_ppo_3B_4gpu.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/scripts/train_ppo_7B_4gpu.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/scripts/train_ppo_7B_4gpu.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/scripts/train_reinforce_plus_4gpu_7Binstruct.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/scripts/train_reinforce_plus_4gpu_7Binstruct.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/setup.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/setup.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/setup.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/setup.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/test.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/test.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/data/create_dataset.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/data/create_dataset.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/data/test.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/data/test.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/data/train.parquet:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/data/train.parquet


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/config.json


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/create_model_tokenizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/create_model_tokenizer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/generation_config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/generation_config.json


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/model.safetensors:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/model.safetensors


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/tokenizer_config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/model/tokenizer_config.json


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/rl/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/rl/README.md


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/rl/config/ray_trainer.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/rl/config/ray_trainer.yaml


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/arithmetic_sequence/rl/main_trainer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/arithmetic_sequence/rl/main_trainer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/run_qwen_gsm8k_model_rm.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/run_qwen_gsm8k_model_rm.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/e2e/run_ray_trainer_rmpad.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/e2e/run_ray_trainer_rmpad.sh


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/rollout/run_fsdp_vllm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/rollout/run_fsdp_vllm.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/tests/rollout/test_vllm_hf_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/tests/rollout/test_vllm_hf_loader.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/README.md


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/checkpoint_utils/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/checkpoint_utils/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/checkpoint_utils/llama_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/checkpoint_utils/llama_loader.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/checkpoint_utils/llama_saver.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/checkpoint_utils/llama_saver.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/layers/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/layers/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_attention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_attention.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_decoder.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_decoder.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_linear.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_linear.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_mlp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_mlp.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_rmsnorm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/layers/parallel_rmsnorm.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/llama/megatron/modeling_llama_megatron.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/llama/megatron/modeling_llama_megatron.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/registry.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/registry.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/transformers/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/transformers/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/transformers/llama.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/transformers/llama.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/transformers/monkey_patch.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/transformers/monkey_patch.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/transformers/qwen2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/transformers/qwen2.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/models/weight_loader_registry.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/models/weight_loader_registry.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/protocol.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/protocol.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/base/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/base/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/base/decorator.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/base/decorator.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/base/megatron/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/base/megatron/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/base/megatron/worker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/base/megatron/worker.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/base/megatron/worker_group.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/base/megatron/worker_group.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/base/register_center/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/base/register_center/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/base/register_center/ray.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/base/register_center/ray.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/base/worker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/base/worker.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/base/worker_group.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/base/worker_group.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/ray/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/ray/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/ray/base.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/ray/base.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/ray/megatron.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/single_controller/ray/megatron.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/single_controller/version/version:
--------------------------------------------------------------------------------
1 | 0.0.2


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/arg_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/arg_utils.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/config.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/llm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/llm.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/llm_engine_sp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/llm_engine_sp.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/model_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/model_loader.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/model_runner.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/model_runner.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/parallel_state.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/parallel_state.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/tokenizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/tokenizer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/weight_loaders.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/weight_loaders.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/worker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_3_1/worker.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/arg_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/arg_utils.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/config.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/dtensor_weight_loaders.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/dtensor_weight_loaders.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/hf_weight_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/hf_weight_loader.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/llm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/llm.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/llm_engine_sp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/llm_engine_sp.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/megatron_weight_loaders.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/megatron_weight_loaders.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/model_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/model_loader.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/model_runner.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/model_runner.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/parallel_state.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/parallel_state.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/spmd_gpu_executor.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/spmd_gpu_executor.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/tokenizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/tokenizer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/worker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_4_2/worker.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/arg_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/arg_utils.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/config.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/dtensor_weight_loaders.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/dtensor_weight_loaders.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/hf_weight_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/hf_weight_loader.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/llm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/llm.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/llm_engine_sp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/llm_engine_sp.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/megatron_weight_loaders.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/megatron_weight_loaders.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/model_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/model_loader.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/model_runner.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/model_runner.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/parallel_state.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/parallel_state.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/spmd_gpu_executor.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/spmd_gpu_executor.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/tokenizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/tokenizer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/worker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_5_4/worker.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/arg_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/arg_utils.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/config.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/dtensor_weight_loaders.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/dtensor_weight_loaders.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/hf_weight_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/hf_weight_loader.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/llm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/llm.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/llm_engine_sp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/llm_engine_sp.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/megatron_weight_loaders.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/megatron_weight_loaders.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/model_loader.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/model_loader.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/model_runner.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/model_runner.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/parallel_state.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/parallel_state.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/spmd_gpu_executor.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/spmd_gpu_executor.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/tokenizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/tokenizer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/worker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/third_party/vllm/vllm_v_0_6_3/worker.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/config/evaluation.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/config/evaluation.yaml


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/config/generation.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/config/generation.yaml


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/config/ppo_megatron_trainer.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/config/ppo_megatron_trainer.yaml


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/config/ppo_trainer.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/config/ppo_trainer.yaml


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/config/sft_trainer.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/config/sft_trainer.yaml


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/fsdp_sft_trainer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/fsdp_sft_trainer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/main_eval.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/main_eval.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/main_generation.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/main_generation.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/main_ppo.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/main_ppo.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/ppo/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/ppo/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/ppo/core_algos.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/ppo/core_algos.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/ppo/ray_trainer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/ppo/ray_trainer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/trainer/runtime_env.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/trainer/runtime_env.yaml


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/config.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/dataset/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/dataset/README.md


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/dataset/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/dataset/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/dataset/rl_dataset.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/dataset/rl_dataset.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/dataset/rm_dataset.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/dataset/rm_dataset.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/dataset/sft_dataset.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/dataset/sft_dataset.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/debug/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/debug/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/debug/performance.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/debug/performance.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/debug/trajectory_tracker.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/debug/trajectory_tracker.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/distributed.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/distributed.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/flops_counter.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/flops_counter.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/fs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/fs.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/fsdp_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/fsdp_utils.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/hdfs_io.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/hdfs_io.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/import_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/import_utils.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/logger/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/logger/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/logger/aggregate_logger.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/logger/aggregate_logger.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/logging_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/logging_utils.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/megatron/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/megatron/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/megatron/memory.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/megatron/memory.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/megatron/optimizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/megatron/optimizer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/megatron/optimizer_config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/megatron/optimizer_config.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/megatron/pipeline_parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/megatron/pipeline_parallel.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/megatron/sequence_parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/megatron/sequence_parallel.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/megatron/tensor_parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/megatron/tensor_parallel.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/megatron_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/megatron_utils.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/memory_buffer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/memory_buffer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/model.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/model.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/py_functional.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/py_functional.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/ray_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/ray_utils.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/rendezvous/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/rendezvous/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/rendezvous/ray_backend.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/rendezvous/ray_backend.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/reward_score/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/reward_score/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/reward_score/countdown.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/reward_score/countdown.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/reward_score/gsm8k.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/reward_score/gsm8k.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/reward_score/kk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/reward_score/kk.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/reward_score/math.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/reward_score/math.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/reward_score/multiply.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/reward_score/multiply.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/seqlen_balancing.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/seqlen_balancing.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/tokenizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/tokenizer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/torch_dtypes.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/torch_dtypes.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/torch_functional.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/torch_functional.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/tracking.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/tracking.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/utils/ulysses.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/utils/ulysses.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/version/version:
--------------------------------------------------------------------------------
1 | 0.1


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/actor/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/actor/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/actor/base.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/actor/base.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/actor/dp_actor.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/actor/dp_actor.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/actor/megatron_actor.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/actor/megatron_actor.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/critic/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/critic/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/critic/base.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/critic/base.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/critic/dp_critic.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/critic/dp_critic.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/critic/megatron_critic.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/critic/megatron_critic.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/fsdp_workers.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/fsdp_workers.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/megatron_workers.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/megatron_workers.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/reward_model/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/reward_model/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/reward_model/base.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/reward_model/base.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/reward_model/megatron/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/reward_model/megatron/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/reward_model/megatron/reward_model.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/reward_model/megatron/reward_model.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/rollout/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/rollout/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/rollout/base.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/rollout/base.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/rollout/hf_rollout.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/rollout/hf_rollout.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/rollout/naive/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/rollout/naive/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/rollout/naive/naive_rollout.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/rollout/naive/naive_rollout.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/rollout/tokenizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/rollout/tokenizer.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/rollout/vllm_rollout/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/rollout/vllm_rollout/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/rollout/vllm_rollout/vllm_rollout.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/rollout/vllm_rollout/vllm_rollout.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/sharding_manager/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/sharding_manager/__init__.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/sharding_manager/base.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/sharding_manager/base.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/sharding_manager/fsdp_ulysses.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/sharding_manager/fsdp_ulysses.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/sharding_manager/fsdp_vllm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/sharding_manager/fsdp_vllm.py


--------------------------------------------------------------------------------
/lab9/Logic-RL/verl/workers/sharding_manager/megatron_vllm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/Logic-RL/verl/workers/sharding_manager/megatron_vllm.py


--------------------------------------------------------------------------------
/lab9/task.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/xuw/llm_course_public/HEAD/lab9/task.ipynb


--------------------------------------------------------------------------------