├── .gitignore
├── LICENSE
├── README.md
├── app.py
├── audio_generation_trainer.py
├── bash_scripts
    ├── architecture
    │   ├── cross.sh
    │   ├── double.sh
    │   ├── dummy.sh
    │   └── hybrid.sh
    ├── eval_all.sh
    ├── eval_audio_sr.sh
    ├── fusion
    │   └── input.sh
    ├── infer_batch.sh
    ├── infer_multi_gpu_all.sh
    ├── infer_multi_task_samples.sh
    ├── infer_single.sh
    ├── model_size
    │   ├── base.sh
    │   ├── large.sh
    │   └── small.sh
    └── train_libritts.sh
├── configs
    ├── accelerate
    │   ├── ascend
    │   │   ├── 1npu.yaml
    │   │   └── 4npus.yaml
    │   └── nvidia
    │   │   ├── 1gpu.yaml
    │   │   ├── 2gpus.yaml
    │   │   ├── 3gpus.yaml
    │   │   ├── 4gpus.yaml
    │   │   └── 8gpus.yaml
    ├── basic.yaml
    ├── data
    │   ├── datasets
    │   │   ├── audiocaps.yaml
    │   │   └── libritts.yaml
    │   ├── default.yaml
    │   ├── t2a_audiocaps.yaml
    │   ├── task_sampling
    │   │   ├── original.yaml
    │   │   └── time_align_balanced.yaml
    │   ├── train_val.yaml
    │   └── tts_libritts.yaml
    ├── inference.yaml
    ├── loss
    │   ├── identity.yaml
    │   └── weighted_sum.yaml
    ├── model
    │   ├── autoencoder
    │   │   └── stable_vae.yaml
    │   ├── backbone
    │   │   ├── diffsinger_net.yaml
    │   │   ├── input_fusion_dit.yaml
    │   │   ├── layer_fusion_dit.yaml
    │   │   ├── mask_dit.yaml
    │   │   └── udit.yaml
    │   ├── content_adapter
    │   │   ├── cross_attn_adapter.yaml
    │   │   └── prefix_adapter.yaml
    │   ├── diffusion_base.yaml
    │   ├── flow_matching_large.yaml
    │   ├── flow_matching_medium.yaml
    │   └── flow_matching_small.yaml
    └── train.yaml
├── configs_aliyun
    ├── accelerate
    │   ├── ascend
    │   │   ├── 1npu.yaml
    │   │   └── 4npus.yaml
    │   └── nvidia
    │   │   ├── 1gpu.yaml
    │   │   ├── 2gpus.yaml
    │   │   ├── 3gpus.yaml
    │   │   ├── 4gpus.yaml
    │   │   └── 8gpus.yaml
    ├── basic.yaml
    ├── data
    │   ├── audio_sr.yaml
    │   ├── datasets
    │   │   ├── audiocaps.yaml
    │   │   ├── esc_audiosr.yaml
    │   │   ├── libritts.yaml
    │   │   ├── libritts_100+wham.yaml
    │   │   ├── libritts_360+wham.yaml
    │   │   ├── ljspeech+musan.yaml
    │   │   ├── m4singer.yaml
    │   │   ├── moises.yaml
    │   │   ├── msd.yaml
    │   │   ├── musdb.yaml
    │   │   ├── music_caps.yaml
    │   │   ├── opencpop.yaml
    │   │   ├── popcs.yaml
    │   │   ├── ttshq.yaml
    │   │   ├── vctk+wham.yaml
    │   │   ├── vctk_audiosr.yaml
    │   │   ├── vggsound_clip.yaml
    │   │   ├── visual_sound_clip.yaml
    │   │   └── voicebank+demand.yaml
    │   ├── default.yaml
    │   ├── sam_popcs.yaml
    │   ├── se.yaml
    │   ├── svs_m4singer.yaml
    │   ├── svs_opencpop.yaml
    │   ├── task_sampling
    │   │   ├── original.yaml
    │   │   └── time_align_balanced.yaml
    │   ├── train_val.yaml
    │   ├── tta_audiocaps.yaml
    │   ├── ttm_msd.yaml
    │   ├── ttm_music_caps.yaml
    │   ├── tts_libritts.yaml
    │   ├── v2a_vggsound.yaml
    │   └── v2a_visualsound.yaml
    ├── inference.yaml
    ├── loss
    │   ├── identity.yaml
    │   └── weighted_sum.yaml
    ├── model
    │   ├── autoencoder
    │   │   └── stable_vae.yaml
    │   ├── backbone
    │   │   ├── diffsinger_net.yaml
    │   │   ├── input_fusion_dit.yaml
    │   │   ├── layer_fusion_dit.yaml
    │   │   ├── mask_dit.yaml
    │   │   └── udit.yaml
    │   ├── content_adapter
    │   │   ├── cross_attn_adapter.yaml
    │   │   └── prefix_adapter.yaml
    │   ├── diffusion_base.yaml
    │   ├── flow_matching_large.yaml
    │   ├── flow_matching_medium.yaml
    │   └── flow_matching_small.yaml
    ├── train.yaml
    └── train_task_batched.yaml
├── constants.py
├── data
    ├── egs
    │   ├── se_noisy_sample.wav
    │   ├── sr_low_sr_sample.wav
    │   ├── tts_speaker_ref.wav
    │   └── v2a_video_sample.mp4
    └── instructions
    │   └── task_instruction.json
├── data_module
    ├── collate_function.py
    ├── dataset.py
    └── sampler.py
├── data_preprocess
    ├── audiocaps.py
    ├── audiocaps_v2.py
    ├── check_nan.py
    ├── clotho.py
    ├── extract_xvec_gpu.py
    ├── librispeech_pc.py
    ├── libritts_filter_duration.py
    ├── m4singer.py
    ├── macs.py
    ├── msd.py
    ├── musicaps.py
    ├── opencpop.py
    ├── popcs.py
    ├── se.py
    ├── sr_24k.py
    ├── vggsound
    │   ├── extract_wav.py
    │   ├── imagebind_vision_embeds.py
    │   ├── prepare_clip.py
    │   ├── prepare_clip.sh
    │   ├── prepare_content_audio.py
    │   ├── prepare_mapping.py
    │   ├── reencode_video.py
    │   └── split_filelist.py
    ├── vis_data.py
    ├── visual_sound.py
    ├── wavcaps_assl.py
    └── word2phone.py
├── docs
    ├── EVALUATION.md
    └── INFERENCE_CLI.md
├── evaluation
    ├── GMELab
    │   ├── configs
    │   │   └── evaluation_cfg.py
    │   ├── eval_utils
    │   │   ├── exceptions.py
    │   │   └── utils.py
    │   ├── metrics
    │   │   └── audio_video_metrics
    │   │   │   ├── avclip_score.py
    │   │   │   ├── imagebind_score.py
    │   │   │   └── sync.py
    │   └── submodules
    │   │   ├── ImageBind
    │   │       ├── imagebind
    │   │       │   ├── __init__.py
    │   │       │   ├── data.py
    │   │       │   └── models
    │   │       │   │   ├── __init__.py
    │   │       │   │   ├── helpers.py
    │   │       │   │   ├── imagebind_model.py
    │   │       │   │   ├── multimodal_preprocessors.py
    │   │       │   │   └── transformer.py
    │   │       └── setup.py
    │   │   └── Synchformer
    │   │       ├── configs
    │   │           ├── ft_synchability.yaml
    │   │           ├── segment_avclip.yaml
    │   │           └── sync.yaml
    │   │       ├── dataset
    │   │           ├── dataset_utils.py
    │   │           └── transforms.py
    │   │       ├── model
    │   │           ├── modules
    │   │           │   ├── bridges.py
    │   │           │   ├── feat_extractors
    │   │           │   │   ├── audio
    │   │           │   │   │   ├── ast.py
    │   │           │   │   │   ├── hf_src
    │   │           │   │   │   │   └── modeling_ast.py
    │   │           │   │   │   └── resnet.py
    │   │           │   │   └── visual
    │   │           │   │   │   ├── __init__.py
    │   │           │   │   │   ├── motionformer.py
    │   │           │   │   │   └── motionformer_src
    │   │           │   │   │       ├── divided_224_16x4.yaml
    │   │           │   │   │       ├── joint_224_16x4.yaml
    │   │           │   │   │       ├── motionformer_224_16x4.yaml
    │   │           │   │   │       ├── nystrom_helper.py
    │   │           │   │   │       ├── orthoformer_helper.py
    │   │           │   │   │       ├── performer_helper.py
    │   │           │   │   │       ├── video_model_builder.py
    │   │           │   │   │       └── vit_helper.py
    │   │           │   └── transformer.py
    │   │           └── sync_model.py
    │   │       ├── scripts
    │   │           └── train_utils.py
    │   │       └── utils
    │   │           ├── __init__.py
    │   │           └── utils.py
    ├── audioldm_eval
    │   ├── __init__.py
    │   ├── audio
    │   │   ├── __init__.py
    │   │   ├── audio_processing.py
    │   │   ├── stft.py
    │   │   └── tools.py
    │   ├── datasets
    │   │   ├── __init__.py
    │   │   ├── load_mel.py
    │   │   └── transforms.py
    │   ├── eval.py
    │   ├── eval_parallel.py
    │   ├── feature_extractors
    │   │   ├── __init__.py
    │   │   ├── inception3.py
    │   │   ├── melception.py
    │   │   ├── melception_audioset.py
    │   │   └── panns
    │   │   │   ├── __init__.py
    │   │   │   ├── config.py
    │   │   │   ├── evaluate.py
    │   │   │   ├── finetune_template.py
    │   │   │   ├── losses.py
    │   │   │   ├── main.py
    │   │   │   ├── models.py
    │   │   │   ├── pytorch_utils.py
    │   │   │   └── utilities.py
    │   └── metrics
    │   │   ├── __init__.py
    │   │   ├── fad.py
    │   │   ├── fid.py
    │   │   ├── gs
    │   │       ├── __init__.py
    │   │       ├── geom_score.py
    │   │       ├── top_utils.py
    │   │       └── utils.py
    │   │   ├── isc.py
    │   │   ├── kid.py
    │   │   ├── kl.py
    │   │   ├── ndb.py
    │   │   └── validate.py
    ├── ecapa_tdnn.py
    ├── se.py
    ├── sr.py
    ├── svs.py
    ├── t2a.py
    ├── tts.py
    └── v2a.py
├── generate_postprocess
    ├── make_audio_jsonl.py
    ├── make_video_jsonl.sh
    ├── merge_v2a_audio_video.py
    └── search_audio.py
├── inference.py
├── inference_cli.py
├── losses
    └── base.py
├── masked_generation_pretrainer.py
├── mnist_trainer.py
├── modeling_uniflow_audio.py
├── models
    ├── autoencoder
    │   ├── autoencoder_base.py
    │   └── waveform
    │   │   ├── dac.py
    │   │   └── stable_vae.py
    ├── common.py
    ├── content_adapter.py
    ├── content_encoder
    │   ├── content_encoder.py
    │   ├── midi_encoder.py
    │   ├── text_encoder.py
    │   └── vision_encoder.py
    ├── diffusion.py
    ├── dit
    │   ├── attention.py
    │   ├── audio_diffsingernet_dit.py
    │   ├── audio_dit.py
    │   ├── mask_dit.py
    │   ├── modules.py
    │   ├── rotary.py
    │   └── span_mask.py
    └── flow_matching.py
├── requirements.txt
├── requirements_eval.txt
├── train.py
├── trainer.py
└── utils
    ├── accelerate_utilities.py
    ├── audio.py
    ├── config.py
    ├── diffsinger_utilities.py
    ├── general.py
    ├── logging.py
    ├── lr_scheduler_utilities.py
    ├── petrel_oss.py
    ├── phonemize.py
    ├── tests
        └── test_logging.py
    ├── torch_utilities.py
    └── video.py


/.gitignore:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/.gitignore


--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/LICENSE


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/README.md


--------------------------------------------------------------------------------
/app.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/app.py


--------------------------------------------------------------------------------
/audio_generation_trainer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/audio_generation_trainer.py


--------------------------------------------------------------------------------
/bash_scripts/architecture/cross.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/architecture/cross.sh


--------------------------------------------------------------------------------
/bash_scripts/architecture/double.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/architecture/double.sh


--------------------------------------------------------------------------------
/bash_scripts/architecture/dummy.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/architecture/dummy.sh


--------------------------------------------------------------------------------
/bash_scripts/architecture/hybrid.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/architecture/hybrid.sh


--------------------------------------------------------------------------------
/bash_scripts/eval_all.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/eval_all.sh


--------------------------------------------------------------------------------
/bash_scripts/eval_audio_sr.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/eval_audio_sr.sh


--------------------------------------------------------------------------------
/bash_scripts/fusion/input.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/fusion/input.sh


--------------------------------------------------------------------------------
/bash_scripts/infer_batch.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/infer_batch.sh


--------------------------------------------------------------------------------
/bash_scripts/infer_multi_gpu_all.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/infer_multi_gpu_all.sh


--------------------------------------------------------------------------------
/bash_scripts/infer_multi_task_samples.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/infer_multi_task_samples.sh


--------------------------------------------------------------------------------
/bash_scripts/infer_single.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/infer_single.sh


--------------------------------------------------------------------------------
/bash_scripts/model_size/base.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/model_size/base.sh


--------------------------------------------------------------------------------
/bash_scripts/model_size/large.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/model_size/large.sh


--------------------------------------------------------------------------------
/bash_scripts/model_size/small.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/model_size/small.sh


--------------------------------------------------------------------------------
/bash_scripts/train_libritts.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/bash_scripts/train_libritts.sh


--------------------------------------------------------------------------------
/configs/accelerate/ascend/1npu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/accelerate/ascend/1npu.yaml


--------------------------------------------------------------------------------
/configs/accelerate/ascend/4npus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/accelerate/ascend/4npus.yaml


--------------------------------------------------------------------------------
/configs/accelerate/nvidia/1gpu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/accelerate/nvidia/1gpu.yaml


--------------------------------------------------------------------------------
/configs/accelerate/nvidia/2gpus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/accelerate/nvidia/2gpus.yaml


--------------------------------------------------------------------------------
/configs/accelerate/nvidia/3gpus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/accelerate/nvidia/3gpus.yaml


--------------------------------------------------------------------------------
/configs/accelerate/nvidia/4gpus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/accelerate/nvidia/4gpus.yaml


--------------------------------------------------------------------------------
/configs/accelerate/nvidia/8gpus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/accelerate/nvidia/8gpus.yaml


--------------------------------------------------------------------------------
/configs/basic.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/basic.yaml


--------------------------------------------------------------------------------
/configs/data/datasets/audiocaps.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/data/datasets/audiocaps.yaml


--------------------------------------------------------------------------------
/configs/data/datasets/libritts.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/data/datasets/libritts.yaml


--------------------------------------------------------------------------------
/configs/data/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/data/default.yaml


--------------------------------------------------------------------------------
/configs/data/t2a_audiocaps.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/data/t2a_audiocaps.yaml


--------------------------------------------------------------------------------
/configs/data/task_sampling/original.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/data/task_sampling/original.yaml


--------------------------------------------------------------------------------
/configs/data/task_sampling/time_align_balanced.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/data/task_sampling/time_align_balanced.yaml


--------------------------------------------------------------------------------
/configs/data/train_val.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/data/train_val.yaml


--------------------------------------------------------------------------------
/configs/data/tts_libritts.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/data/tts_libritts.yaml


--------------------------------------------------------------------------------
/configs/inference.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/inference.yaml


--------------------------------------------------------------------------------
/configs/loss/identity.yaml:
--------------------------------------------------------------------------------
1 | _target_: losses.base.IndentityWrapper


--------------------------------------------------------------------------------
/configs/loss/weighted_sum.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/loss/weighted_sum.yaml


--------------------------------------------------------------------------------
/configs/model/autoencoder/stable_vae.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/autoencoder/stable_vae.yaml


--------------------------------------------------------------------------------
/configs/model/backbone/diffsinger_net.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/backbone/diffsinger_net.yaml


--------------------------------------------------------------------------------
/configs/model/backbone/input_fusion_dit.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/backbone/input_fusion_dit.yaml


--------------------------------------------------------------------------------
/configs/model/backbone/layer_fusion_dit.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/backbone/layer_fusion_dit.yaml


--------------------------------------------------------------------------------
/configs/model/backbone/mask_dit.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/backbone/mask_dit.yaml


--------------------------------------------------------------------------------
/configs/model/backbone/udit.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/backbone/udit.yaml


--------------------------------------------------------------------------------
/configs/model/content_adapter/cross_attn_adapter.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/content_adapter/cross_attn_adapter.yaml


--------------------------------------------------------------------------------
/configs/model/content_adapter/prefix_adapter.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/content_adapter/prefix_adapter.yaml


--------------------------------------------------------------------------------
/configs/model/diffusion_base.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/diffusion_base.yaml


--------------------------------------------------------------------------------
/configs/model/flow_matching_large.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/flow_matching_large.yaml


--------------------------------------------------------------------------------
/configs/model/flow_matching_medium.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/flow_matching_medium.yaml


--------------------------------------------------------------------------------
/configs/model/flow_matching_small.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/model/flow_matching_small.yaml


--------------------------------------------------------------------------------
/configs/train.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs/train.yaml


--------------------------------------------------------------------------------
/configs_aliyun/accelerate/ascend/1npu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/accelerate/ascend/1npu.yaml


--------------------------------------------------------------------------------
/configs_aliyun/accelerate/ascend/4npus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/accelerate/ascend/4npus.yaml


--------------------------------------------------------------------------------
/configs_aliyun/accelerate/nvidia/1gpu.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/accelerate/nvidia/1gpu.yaml


--------------------------------------------------------------------------------
/configs_aliyun/accelerate/nvidia/2gpus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/accelerate/nvidia/2gpus.yaml


--------------------------------------------------------------------------------
/configs_aliyun/accelerate/nvidia/3gpus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/accelerate/nvidia/3gpus.yaml


--------------------------------------------------------------------------------
/configs_aliyun/accelerate/nvidia/4gpus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/accelerate/nvidia/4gpus.yaml


--------------------------------------------------------------------------------
/configs_aliyun/accelerate/nvidia/8gpus.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/accelerate/nvidia/8gpus.yaml


--------------------------------------------------------------------------------
/configs_aliyun/basic.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/basic.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/audio_sr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/audio_sr.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/audiocaps.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/audiocaps.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/esc_audiosr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/esc_audiosr.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/libritts.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/libritts.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/libritts_100+wham.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/libritts_100+wham.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/libritts_360+wham.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/libritts_360+wham.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/ljspeech+musan.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/ljspeech+musan.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/m4singer.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/m4singer.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/moises.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/moises.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/msd.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/msd.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/musdb.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/musdb.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/music_caps.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/music_caps.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/opencpop.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/opencpop.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/popcs.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/popcs.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/ttshq.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/ttshq.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/vctk+wham.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/vctk+wham.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/vctk_audiosr.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/vctk_audiosr.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/vggsound_clip.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/vggsound_clip.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/visual_sound_clip.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/visual_sound_clip.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/datasets/voicebank+demand.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/datasets/voicebank+demand.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/default.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/default.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/sam_popcs.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/sam_popcs.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/se.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/se.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/svs_m4singer.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/svs_m4singer.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/svs_opencpop.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/svs_opencpop.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/task_sampling/original.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/task_sampling/original.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/task_sampling/time_align_balanced.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/task_sampling/time_align_balanced.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/train_val.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/train_val.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/tta_audiocaps.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/tta_audiocaps.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/ttm_msd.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/ttm_msd.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/ttm_music_caps.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/ttm_music_caps.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/tts_libritts.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/tts_libritts.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/v2a_vggsound.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/v2a_vggsound.yaml


--------------------------------------------------------------------------------
/configs_aliyun/data/v2a_visualsound.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/data/v2a_visualsound.yaml


--------------------------------------------------------------------------------
/configs_aliyun/inference.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/inference.yaml


--------------------------------------------------------------------------------
/configs_aliyun/loss/identity.yaml:
--------------------------------------------------------------------------------
1 | _target_: losses.base.IndentityWrapper


--------------------------------------------------------------------------------
/configs_aliyun/loss/weighted_sum.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/loss/weighted_sum.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/autoencoder/stable_vae.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/autoencoder/stable_vae.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/backbone/diffsinger_net.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/backbone/diffsinger_net.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/backbone/input_fusion_dit.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/backbone/input_fusion_dit.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/backbone/layer_fusion_dit.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/backbone/layer_fusion_dit.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/backbone/mask_dit.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/backbone/mask_dit.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/backbone/udit.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/backbone/udit.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/content_adapter/cross_attn_adapter.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/content_adapter/cross_attn_adapter.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/content_adapter/prefix_adapter.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/content_adapter/prefix_adapter.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/diffusion_base.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/diffusion_base.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/flow_matching_large.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/flow_matching_large.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/flow_matching_medium.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/flow_matching_medium.yaml


--------------------------------------------------------------------------------
/configs_aliyun/model/flow_matching_small.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/model/flow_matching_small.yaml


--------------------------------------------------------------------------------
/configs_aliyun/train.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/train.yaml


--------------------------------------------------------------------------------
/configs_aliyun/train_task_batched.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/configs_aliyun/train_task_batched.yaml


--------------------------------------------------------------------------------
/constants.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/constants.py


--------------------------------------------------------------------------------
/data/egs/se_noisy_sample.wav:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data/egs/se_noisy_sample.wav


--------------------------------------------------------------------------------
/data/egs/sr_low_sr_sample.wav:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data/egs/sr_low_sr_sample.wav


--------------------------------------------------------------------------------
/data/egs/tts_speaker_ref.wav:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data/egs/tts_speaker_ref.wav


--------------------------------------------------------------------------------
/data/egs/v2a_video_sample.mp4:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data/egs/v2a_video_sample.mp4


--------------------------------------------------------------------------------
/data/instructions/task_instruction.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data/instructions/task_instruction.json


--------------------------------------------------------------------------------
/data_module/collate_function.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_module/collate_function.py


--------------------------------------------------------------------------------
/data_module/dataset.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_module/dataset.py


--------------------------------------------------------------------------------
/data_module/sampler.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_module/sampler.py


--------------------------------------------------------------------------------
/data_preprocess/audiocaps.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/audiocaps.py


--------------------------------------------------------------------------------
/data_preprocess/audiocaps_v2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/audiocaps_v2.py


--------------------------------------------------------------------------------
/data_preprocess/check_nan.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/check_nan.py


--------------------------------------------------------------------------------
/data_preprocess/clotho.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/clotho.py


--------------------------------------------------------------------------------
/data_preprocess/extract_xvec_gpu.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/extract_xvec_gpu.py


--------------------------------------------------------------------------------
/data_preprocess/librispeech_pc.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/librispeech_pc.py


--------------------------------------------------------------------------------
/data_preprocess/libritts_filter_duration.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/libritts_filter_duration.py


--------------------------------------------------------------------------------
/data_preprocess/m4singer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/m4singer.py


--------------------------------------------------------------------------------
/data_preprocess/macs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/macs.py


--------------------------------------------------------------------------------
/data_preprocess/msd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/msd.py


--------------------------------------------------------------------------------
/data_preprocess/musicaps.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/musicaps.py


--------------------------------------------------------------------------------
/data_preprocess/opencpop.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/opencpop.py


--------------------------------------------------------------------------------
/data_preprocess/popcs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/popcs.py


--------------------------------------------------------------------------------
/data_preprocess/se.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/se.py


--------------------------------------------------------------------------------
/data_preprocess/sr_24k.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/sr_24k.py


--------------------------------------------------------------------------------
/data_preprocess/vggsound/extract_wav.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/vggsound/extract_wav.py


--------------------------------------------------------------------------------
/data_preprocess/vggsound/imagebind_vision_embeds.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/vggsound/imagebind_vision_embeds.py


--------------------------------------------------------------------------------
/data_preprocess/vggsound/prepare_clip.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/vggsound/prepare_clip.py


--------------------------------------------------------------------------------
/data_preprocess/vggsound/prepare_clip.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/vggsound/prepare_clip.sh


--------------------------------------------------------------------------------
/data_preprocess/vggsound/prepare_content_audio.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/vggsound/prepare_content_audio.py


--------------------------------------------------------------------------------
/data_preprocess/vggsound/prepare_mapping.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/vggsound/prepare_mapping.py


--------------------------------------------------------------------------------
/data_preprocess/vggsound/reencode_video.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/vggsound/reencode_video.py


--------------------------------------------------------------------------------
/data_preprocess/vggsound/split_filelist.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/vggsound/split_filelist.py


--------------------------------------------------------------------------------
/data_preprocess/vis_data.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/vis_data.py


--------------------------------------------------------------------------------
/data_preprocess/visual_sound.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/visual_sound.py


--------------------------------------------------------------------------------
/data_preprocess/wavcaps_assl.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/wavcaps_assl.py


--------------------------------------------------------------------------------
/data_preprocess/word2phone.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/data_preprocess/word2phone.py


--------------------------------------------------------------------------------
/docs/EVALUATION.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/docs/EVALUATION.md


--------------------------------------------------------------------------------
/docs/INFERENCE_CLI.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/docs/INFERENCE_CLI.md


--------------------------------------------------------------------------------
/evaluation/GMELab/configs/evaluation_cfg.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/configs/evaluation_cfg.py


--------------------------------------------------------------------------------
/evaluation/GMELab/eval_utils/exceptions.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/eval_utils/exceptions.py


--------------------------------------------------------------------------------
/evaluation/GMELab/eval_utils/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/eval_utils/utils.py


--------------------------------------------------------------------------------
/evaluation/GMELab/metrics/audio_video_metrics/avclip_score.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/metrics/audio_video_metrics/avclip_score.py


--------------------------------------------------------------------------------
/evaluation/GMELab/metrics/audio_video_metrics/imagebind_score.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/metrics/audio_video_metrics/imagebind_score.py


--------------------------------------------------------------------------------
/evaluation/GMELab/metrics/audio_video_metrics/sync.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/metrics/audio_video_metrics/sync.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/ImageBind/imagebind/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/ImageBind/imagebind/__init__.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/ImageBind/imagebind/data.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/ImageBind/imagebind/data.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/ImageBind/imagebind/models/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/ImageBind/imagebind/models/helpers.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/ImageBind/imagebind/models/helpers.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/ImageBind/imagebind/models/imagebind_model.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/ImageBind/imagebind/models/imagebind_model.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/ImageBind/imagebind/models/multimodal_preprocessors.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/ImageBind/imagebind/models/multimodal_preprocessors.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/ImageBind/imagebind/models/transformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/ImageBind/imagebind/models/transformer.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/ImageBind/setup.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/ImageBind/setup.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/configs/ft_synchability.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/configs/ft_synchability.yaml


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/configs/segment_avclip.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/configs/segment_avclip.yaml


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/configs/sync.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/configs/sync.yaml


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/dataset/dataset_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/dataset/dataset_utils.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/dataset/transforms.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/dataset/transforms.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/bridges.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/bridges.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/audio/ast.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/audio/ast.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/audio/hf_src/modeling_ast.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/audio/hf_src/modeling_ast.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/audio/resnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/audio/resnet.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/__init__.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/divided_224_16x4.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/divided_224_16x4.yaml


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/joint_224_16x4.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/joint_224_16x4.yaml


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/motionformer_224_16x4.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/motionformer_224_16x4.yaml


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/nystrom_helper.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/nystrom_helper.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/orthoformer_helper.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/orthoformer_helper.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/performer_helper.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/performer_helper.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/video_model_builder.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/video_model_builder.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/vit_helper.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/feat_extractors/visual/motionformer_src/vit_helper.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/modules/transformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/modules/transformer.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/model/sync_model.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/model/sync_model.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/scripts/train_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/scripts/train_utils.py


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/utils/__init__.py:
--------------------------------------------------------------------------------
1 | from .utils import *
2 | 


--------------------------------------------------------------------------------
/evaluation/GMELab/submodules/Synchformer/utils/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/GMELab/submodules/Synchformer/utils/utils.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/__init__.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/audio/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/audio/__init__.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/audio/audio_processing.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/audio/audio_processing.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/audio/stft.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/audio/stft.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/audio/tools.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/audio/tools.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/datasets/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/datasets/load_mel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/datasets/load_mel.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/datasets/transforms.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/datasets/transforms.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/eval.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/eval.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/eval_parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/eval_parallel.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/inception3.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/inception3.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/melception.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/melception.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/melception_audioset.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/melception_audioset.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/panns/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/panns/__init__.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/panns/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/panns/config.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/panns/evaluate.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/panns/evaluate.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/panns/finetune_template.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/panns/finetune_template.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/panns/losses.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/panns/losses.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/panns/main.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/panns/main.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/panns/models.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/panns/models.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/panns/pytorch_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/panns/pytorch_utils.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/feature_extractors/panns/utilities.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/feature_extractors/panns/utilities.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/fad.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/fad.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/fid.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/fid.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/gs/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/gs/__init__.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/gs/geom_score.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/gs/geom_score.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/gs/top_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/gs/top_utils.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/gs/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/gs/utils.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/isc.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/isc.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/kid.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/kid.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/kl.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/kl.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/ndb.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/ndb.py


--------------------------------------------------------------------------------
/evaluation/audioldm_eval/metrics/validate.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/audioldm_eval/metrics/validate.py


--------------------------------------------------------------------------------
/evaluation/ecapa_tdnn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/ecapa_tdnn.py


--------------------------------------------------------------------------------
/evaluation/se.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/se.py


--------------------------------------------------------------------------------
/evaluation/sr.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/sr.py


--------------------------------------------------------------------------------
/evaluation/svs.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/svs.py


--------------------------------------------------------------------------------
/evaluation/t2a.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/t2a.py


--------------------------------------------------------------------------------
/evaluation/tts.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/tts.py


--------------------------------------------------------------------------------
/evaluation/v2a.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/evaluation/v2a.py


--------------------------------------------------------------------------------
/generate_postprocess/make_audio_jsonl.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/generate_postprocess/make_audio_jsonl.py


--------------------------------------------------------------------------------
/generate_postprocess/make_video_jsonl.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/generate_postprocess/make_video_jsonl.sh


--------------------------------------------------------------------------------
/generate_postprocess/merge_v2a_audio_video.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/generate_postprocess/merge_v2a_audio_video.py


--------------------------------------------------------------------------------
/generate_postprocess/search_audio.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/generate_postprocess/search_audio.py


--------------------------------------------------------------------------------
/inference.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/inference.py


--------------------------------------------------------------------------------
/inference_cli.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/inference_cli.py


--------------------------------------------------------------------------------
/losses/base.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/losses/base.py


--------------------------------------------------------------------------------
/masked_generation_pretrainer.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/mnist_trainer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/mnist_trainer.py


--------------------------------------------------------------------------------
/modeling_uniflow_audio.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/modeling_uniflow_audio.py


--------------------------------------------------------------------------------
/models/autoencoder/autoencoder_base.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/autoencoder/autoencoder_base.py


--------------------------------------------------------------------------------
/models/autoencoder/waveform/dac.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/models/autoencoder/waveform/stable_vae.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/autoencoder/waveform/stable_vae.py


--------------------------------------------------------------------------------
/models/common.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/common.py


--------------------------------------------------------------------------------
/models/content_adapter.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/content_adapter.py


--------------------------------------------------------------------------------
/models/content_encoder/content_encoder.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/content_encoder/content_encoder.py


--------------------------------------------------------------------------------
/models/content_encoder/midi_encoder.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/content_encoder/midi_encoder.py


--------------------------------------------------------------------------------
/models/content_encoder/text_encoder.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/content_encoder/text_encoder.py


--------------------------------------------------------------------------------
/models/content_encoder/vision_encoder.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/content_encoder/vision_encoder.py


--------------------------------------------------------------------------------
/models/diffusion.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/diffusion.py


--------------------------------------------------------------------------------
/models/dit/attention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/dit/attention.py


--------------------------------------------------------------------------------
/models/dit/audio_diffsingernet_dit.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/dit/audio_diffsingernet_dit.py


--------------------------------------------------------------------------------
/models/dit/audio_dit.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/dit/audio_dit.py


--------------------------------------------------------------------------------
/models/dit/mask_dit.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/dit/mask_dit.py


--------------------------------------------------------------------------------
/models/dit/modules.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/dit/modules.py


--------------------------------------------------------------------------------
/models/dit/rotary.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/dit/rotary.py


--------------------------------------------------------------------------------
/models/dit/span_mask.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/dit/span_mask.py


--------------------------------------------------------------------------------
/models/flow_matching.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/models/flow_matching.py


--------------------------------------------------------------------------------
/requirements.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/requirements.txt


--------------------------------------------------------------------------------
/requirements_eval.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/requirements_eval.txt


--------------------------------------------------------------------------------
/train.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/train.py


--------------------------------------------------------------------------------
/trainer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/trainer.py


--------------------------------------------------------------------------------
/utils/accelerate_utilities.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/accelerate_utilities.py


--------------------------------------------------------------------------------
/utils/audio.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/audio.py


--------------------------------------------------------------------------------
/utils/config.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/config.py


--------------------------------------------------------------------------------
/utils/diffsinger_utilities.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/diffsinger_utilities.py


--------------------------------------------------------------------------------
/utils/general.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/general.py


--------------------------------------------------------------------------------
/utils/logging.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/logging.py


--------------------------------------------------------------------------------
/utils/lr_scheduler_utilities.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/lr_scheduler_utilities.py


--------------------------------------------------------------------------------
/utils/petrel_oss.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/petrel_oss.py


--------------------------------------------------------------------------------
/utils/phonemize.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/phonemize.py


--------------------------------------------------------------------------------
/utils/tests/test_logging.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/tests/test_logging.py


--------------------------------------------------------------------------------
/utils/torch_utilities.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/torch_utilities.py


--------------------------------------------------------------------------------
/utils/video.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/wsntxxn/UniFlow-Audio/HEAD/utils/video.py


--------------------------------------------------------------------------------