├── .flake8
├── .github
    ├── ISSUE_TEMPLATE
    │   ├── bug.yml
    │   ├── config.yml
    │   ├── feature-request.yml
    │   └── rfc.yml
    └── workflows
    │   ├── intel-b580.yml
    │   ├── issue.yml
    │   ├── lint.yaml
    │   ├── nvidia-4090.yml
    │   ├── nvidia-a100.yml
    │   ├── nvidia-h100.yml
    │   ├── pytorch-ci.yml
    │   ├── release.yml
    │   ├── reusable-build-triton.yml
    │   ├── reusable-ci-tests.yml
    │   ├── triton-builder.yml
    │   └── triton-nightly.yml
├── .gitignore
├── .pre-commit-config.yaml
├── CITATION.cff
├── ENVs.md
├── FAQs.md
├── LICENSE
├── README.md
├── benchmarks
    ├── benchmark_generation.py
    ├── benchmark_training_throughput.py
    ├── modules
    │   ├── benchmark_activations.py
    │   ├── benchmark_conv.py
    │   ├── benchmark_cross_entropy.py
    │   ├── benchmark_l2norm.py
    │   ├── benchmark_layernorm.py
    │   └── benchmark_tokenshift.py
    └── ops
    │   ├── benchmark.py
    │   ├── benchmark_abc.py
    │   ├── benchmark_based.py
    │   ├── benchmark_delta_rule.py
    │   ├── benchmark_fla.py
    │   ├── benchmark_gla.py
    │   ├── benchmark_gsa.py
    │   ├── benchmark_hgrn.py
    │   ├── benchmark_kda.py
    │   ├── benchmark_nsa.py
    │   ├── benchmark_retention.py
    │   ├── benchmark_rwkv.py
    │   ├── benchmark_rwkv7_fused_addcmul.py
    │   ├── benchmark_rwkv7_k_update.py
    │   ├── benchmark_simple_gla_vs_mamba2.py
    │   ├── benchmark_solv_tril.py
    │   ├── benchmark_titans.py
    │   └── benchmark_ttt.py
├── evals
    ├── harness.py
    └── ppl.py
├── examples
    └── training.md
├── fla
    ├── __init__.py
    ├── layers
    │   ├── __init__.py
    │   ├── abc.py
    │   ├── attn.py
    │   ├── based.py
    │   ├── bitattn.py
    │   ├── comba.py
    │   ├── delta_net.py
    │   ├── deltaformer.py
    │   ├── forgetting_attn.py
    │   ├── gated_deltanet.py
    │   ├── gated_deltaproduct.py
    │   ├── gla.py
    │   ├── gsa.py
    │   ├── hgrn.py
    │   ├── hgrn2.py
    │   ├── kda.py
    │   ├── lightnet.py
    │   ├── linear_attn.py
    │   ├── log_linear_mamba2.py
    │   ├── mamba.py
    │   ├── mamba2.py
    │   ├── mesa_net.py
    │   ├── mla.py
    │   ├── mom.py
    │   ├── multiscale_retention.py
    │   ├── nsa.py
    │   ├── path_attn.py
    │   ├── rebased.py
    │   ├── rodimus.py
    │   ├── rwkv6.py
    │   ├── rwkv7.py
    │   ├── simple_gla.py
    │   └── utils.py
    ├── models
    │   ├── __init__.py
    │   ├── abc
    │   │   ├── __init__.py
    │   │   ├── configuration_abc.py
    │   │   └── modeling_abc.py
    │   ├── bitnet
    │   │   ├── __init__.py
    │   │   ├── configuration_bitnet.py
    │   │   └── modeling_bitnet.py
    │   ├── comba
    │   │   ├── __init__.py
    │   │   ├── configuration_comba.py
    │   │   └── modeling_comba.py
    │   ├── delta_net
    │   │   ├── __init__.py
    │   │   ├── configuration_delta_net.py
    │   │   └── modeling_delta_net.py
    │   ├── deltaformer
    │   │   ├── __init__.py
    │   │   ├── configuration_deltaformer.py
    │   │   └── modeling_deltaformer.py
    │   ├── forgetting_transformer
    │   │   ├── __init__.py
    │   │   ├── configuration_forgetting_transformer.py
    │   │   └── modeling_forgetting_transformer.py
    │   ├── gated_deltanet
    │   │   ├── __init__.py
    │   │   ├── configuration_gated_deltanet.py
    │   │   └── modeling_gated_deltanet.py
    │   ├── gated_deltaproduct
    │   │   ├── __init__.py
    │   │   ├── configuration_gated_deltaproduct.py
    │   │   └── modeling_gated_deltaproduct.py
    │   ├── gla
    │   │   ├── __init__.py
    │   │   ├── configuration_gla.py
    │   │   └── modeling_gla.py
    │   ├── gsa
    │   │   ├── __init__.py
    │   │   ├── configuration_gsa.py
    │   │   └── modeling_gsa.py
    │   ├── hgrn
    │   │   ├── __init__.py
    │   │   ├── configuration_hgrn.py
    │   │   └── modeling_hgrn.py
    │   ├── hgrn2
    │   │   ├── __init__.py
    │   │   ├── configuration_hgrn2.py
    │   │   └── modeling_hgrn2.py
    │   ├── kda
    │   │   ├── __init__.py
    │   │   ├── configuration_kda.py
    │   │   └── modeling_kda.py
    │   ├── lightnet
    │   │   ├── __init__.py
    │   │   ├── configuration_lightnet.py
    │   │   └── modeling_lightnet.py
    │   ├── linear_attn
    │   │   ├── __init__.py
    │   │   ├── configuration_linear_attn.py
    │   │   └── modeling_linear_attn.py
    │   ├── log_linear_mamba2
    │   │   ├── __init__.py
    │   │   ├── configuration_log_linear_mamba2.py
    │   │   └── modeling_log_linear_mamba2.py
    │   ├── mamba
    │   │   ├── __init__.py
    │   │   ├── configuration_mamba.py
    │   │   └── modeling_mamba.py
    │   ├── mamba2
    │   │   ├── __init__.py
    │   │   ├── configuration_mamba2.py
    │   │   └── modeling_mamba2.py
    │   ├── mesa_net
    │   │   ├── __init__.py
    │   │   ├── configuration_mesa_net.py
    │   │   └── modeling_mesa_net.py
    │   ├── mla
    │   │   ├── __init__.py
    │   │   ├── configuration_mla.py
    │   │   └── modeling_mla.py
    │   ├── modeling_layers.py
    │   ├── mom
    │   │   ├── __init__.py
    │   │   ├── configuration_mom.py
    │   │   └── modeling_mom.py
    │   ├── nsa
    │   │   ├── __init__.py
    │   │   ├── configuration_nsa.py
    │   │   └── modeling_nsa.py
    │   ├── path_attn
    │   │   ├── __init__.py
    │   │   ├── configuration_path_attention.py
    │   │   └── modeling_path_attention.py
    │   ├── retnet
    │   │   ├── __init__.py
    │   │   ├── configuration_retnet.py
    │   │   └── modeling_retnet.py
    │   ├── rodimus
    │   │   ├── __init__.py
    │   │   ├── configuration_rodimus.py
    │   │   └── modeling_rodimus.py
    │   ├── rwkv6
    │   │   ├── __init__.py
    │   │   ├── configuration_rwkv6.py
    │   │   └── modeling_rwkv6.py
    │   ├── rwkv7
    │   │   ├── __init__.py
    │   │   ├── configuration_rwkv7.py
    │   │   └── modeling_rwkv7.py
    │   ├── samba
    │   │   ├── __init__.py
    │   │   ├── configuration_samba.py
    │   │   └── modeling_samba.py
    │   ├── transformer
    │   │   ├── __init__.py
    │   │   ├── configuration_transformer.py
    │   │   └── modeling_transformer.py
    │   └── utils.py
    ├── modules
    │   ├── __init__.py
    │   ├── activations.py
    │   ├── convolution.py
    │   ├── feature_map.py
    │   ├── fused_bitlinear.py
    │   ├── fused_cross_entropy.py
    │   ├── fused_kl_div.py
    │   ├── fused_linear_cross_entropy.py
    │   ├── fused_norm_gate.py
    │   ├── grpo.py
    │   ├── l2norm.py
    │   ├── l2warp.py
    │   ├── layernorm.py
    │   ├── layernorm_gated.py
    │   ├── mlp.py
    │   ├── parallel.py
    │   ├── rotary.py
    │   └── token_shift.py
    ├── ops
    │   ├── __init__.py
    │   ├── abc
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   └── naive.py
    │   ├── attn
    │   │   ├── __init__.py
    │   │   ├── decoding.py
    │   │   └── parallel.py
    │   ├── based
    │   │   ├── __init__.py
    │   │   ├── fused_chunk.py
    │   │   ├── naive.py
    │   │   └── parallel.py
    │   ├── comba
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_recurrent.py
    │   │   ├── utils.py
    │   │   └── wy_fast.py
    │   ├── common
    │   │   ├── __init__.py
    │   │   ├── chunk_delta_h.py
    │   │   ├── chunk_h.py
    │   │   ├── chunk_h_parallel.py
    │   │   ├── chunk_h_split.py
    │   │   ├── chunk_o.py
    │   │   ├── chunk_scaled_dot_kkt.py
    │   │   ├── fused_chunk.py
    │   │   └── fused_recurrent.py
    │   ├── delta_rule
    │   │   ├── README.md
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_chunk.py
    │   │   ├── fused_recurrent.py
    │   │   ├── naive.py
    │   │   ├── parallel.py
    │   │   └── wy_fast.py
    │   ├── deltaformer
    │   │   ├── __init__.py
    │   │   ├── invcum.py
    │   │   ├── naive.py
    │   │   └── parallel.py
    │   ├── forgetting_attn
    │   │   ├── __init__.py
    │   │   └── parallel.py
    │   ├── gated_delta_product
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── chunk_deltaproduct_h.py
    │   │   ├── chunk_deltaproduct_o.py
    │   │   ├── chunk_ref.py
    │   │   └── naive.py
    │   ├── gated_delta_rule
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_recurrent.py
    │   │   └── wy_fast.py
    │   ├── generalized_delta_rule
    │   │   ├── README.md
    │   │   ├── __init__.py
    │   │   ├── dplr
    │   │   │   ├── __init__.py
    │   │   │   ├── chunk.py
    │   │   │   ├── chunk_A_bwd.py
    │   │   │   ├── chunk_A_fwd.py
    │   │   │   ├── chunk_h_bwd.py
    │   │   │   ├── chunk_h_fwd.py
    │   │   │   ├── chunk_o_bwd.py
    │   │   │   ├── chunk_o_fwd.py
    │   │   │   ├── fused_recurrent.py
    │   │   │   ├── naive.py
    │   │   │   ├── wy_fast_bwd.py
    │   │   │   └── wy_fast_fwd.py
    │   │   └── iplr
    │   │   │   ├── __init__.py
    │   │   │   ├── chunk.py
    │   │   │   ├── fused_recurrent.py
    │   │   │   ├── naive.py
    │   │   │   └── wy_fast.py
    │   ├── gla
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_chunk.py
    │   │   ├── fused_recurrent.py
    │   │   └── naive.py
    │   ├── gsa
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_recurrent.py
    │   │   └── naive.py
    │   ├── hgrn
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_recurrent.py
    │   │   └── naive.py
    │   ├── kda
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── chunk_inter.py
    │   │   ├── chunk_intra.py
    │   │   ├── chunk_intra_token_parallel.py
    │   │   ├── fused_recurrent.py
    │   │   ├── gate.py
    │   │   ├── naive.py
    │   │   └── wy_fast.py
    │   ├── lightning_attn
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   └── fused_recurrent.py
    │   ├── linear_attn
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_chunk.py
    │   │   ├── fused_recurrent.py
    │   │   ├── naive.py
    │   │   └── utils.py
    │   ├── log_linear_attn
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   └── naive.py
    │   ├── mesa_net
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── chunk_cg_solver_bwd.py
    │   │   ├── chunk_cg_solver_fwd.py
    │   │   ├── chunk_h_fwd.py
    │   │   ├── chunk_h_kk_intra_bwd.py
    │   │   ├── chunk_h_kv_intra_bwd.py
    │   │   ├── chunk_h_kv_intra_bwd_separate.py
    │   │   ├── decoding_one_step.py
    │   │   └── naive.py
    │   ├── nsa
    │   │   ├── __init__.py
    │   │   ├── compression.py
    │   │   ├── naive.py
    │   │   ├── parallel.py
    │   │   └── utils.py
    │   ├── path_attn
    │   │   ├── __init__.py
    │   │   ├── cumprod_householder_bwd.py
    │   │   ├── cumprod_householder_fwd.py
    │   │   ├── intra_chunk_preprocess_bwd.py
    │   │   ├── intra_chunk_preprocess_bwd_prepare.py
    │   │   ├── intra_chunk_preprocess_fwd.py
    │   │   ├── parallel.py
    │   │   ├── parallel_path_bwd_inter_dkv.py
    │   │   ├── parallel_path_bwd_inter_dqh.py
    │   │   ├── parallel_path_bwd_intra.py
    │   │   ├── parallel_path_fwd.py
    │   │   ├── prepare_k_cache.py
    │   │   └── transform_q.py
    │   ├── rebased
    │   │   ├── __init__.py
    │   │   ├── naive.py
    │   │   └── parallel.py
    │   ├── retention
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_chunk.py
    │   │   ├── fused_recurrent.py
    │   │   ├── naive.py
    │   │   └── parallel.py
    │   ├── rwkv4
    │   │   ├── __init__.py
    │   │   └── fused_recurrent.py
    │   ├── rwkv6
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── chunk_naive.py
    │   │   ├── fused_recurrent.py
    │   │   └── recurrent_naive.py
    │   ├── rwkv7
    │   │   ├── RWKV7(Goose).md
    │   │   ├── __init__.py
    │   │   ├── channel_mixing.py
    │   │   ├── chunk.py
    │   │   ├── fused_addcmul.py
    │   │   ├── fused_k_update.py
    │   │   ├── fused_recurrent.py
    │   │   └── gate_output_correction.py
    │   ├── simple_gla
    │   │   ├── README.md
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_chunk.py
    │   │   ├── fused_recurrent.py
    │   │   ├── naive.py
    │   │   └── parallel.py
    │   ├── titans
    │   │   ├── __init__.py
    │   │   ├── log_impl.py
    │   │   └── naive.py
    │   ├── ttt
    │   │   ├── __init__.py
    │   │   ├── chunk.py
    │   │   ├── fused_chunk.py
    │   │   └── naive.py
    │   └── utils
    │   │   ├── __init__.py
    │   │   ├── constant.py
    │   │   ├── cumsum.py
    │   │   ├── index.py
    │   │   ├── logcumsumexp.py
    │   │   ├── logsumexp.py
    │   │   ├── matmul.py
    │   │   ├── op.py
    │   │   ├── pack.py
    │   │   ├── pooling.py
    │   │   ├── softmax.py
    │   │   ├── softplus.py
    │   │   └── solve_tril.py
    └── utils.py
├── legacy
    └── training
    │   ├── README.md
    │   ├── configs
    │       ├── gla_1B.json
    │       ├── gla_340M.json
    │       ├── gla_7B.json
    │       └── transformer_340M.json
    │   ├── flame
    │       ├── __init__.py
    │       ├── data.py
    │       ├── logging.py
    │       └── parser.py
    │   ├── preprocess.py
    │   ├── run.py
    │   └── train.sh
├── pyproject.toml
├── scripts
    ├── build_packages.py
    ├── check_gpu.py
    └── find_dependent_tests.py
├── setup.py
├── tests
    ├── models
    │   ├── __init__.py
    │   ├── test_modeling_abc.py
    │   ├── test_modeling_base.py
    │   ├── test_modeling_bitnet.py
    │   ├── test_modeling_comba.py
    │   ├── test_modeling_deltaformer.py
    │   ├── test_modeling_deltanet.py
    │   ├── test_modeling_forgetting_transformer.py
    │   ├── test_modeling_gated_deltanet.py
    │   ├── test_modeling_gated_deltaproduct.py
    │   ├── test_modeling_gla.py
    │   ├── test_modeling_gsa.py
    │   ├── test_modeling_hgrn.py
    │   ├── test_modeling_hgrn2.py
    │   ├── test_modeling_kda.py
    │   ├── test_modeling_lightnet.py
    │   ├── test_modeling_linear_attn.py
    │   ├── test_modeling_log_linear_mamba2.py
    │   ├── test_modeling_mamba.py
    │   ├── test_modeling_mamba2.py
    │   ├── test_modeling_mesanet.py
    │   ├── test_modeling_mla.py
    │   ├── test_modeling_mom.py
    │   ├── test_modeling_nsa.py
    │   ├── test_modeling_path_attn.py
    │   ├── test_modeling_retnet.py
    │   ├── test_modeling_rodimus.py
    │   ├── test_modeling_rwkv6.py
    │   ├── test_modeling_rwkv7.py
    │   ├── test_modeling_samba.py
    │   ├── test_modeling_transformer.py
    │   └── test_modeling_utils.py
    ├── modules
    │   ├── test_activation.py
    │   ├── test_conv.py
    │   ├── test_cross_entropy.py
    │   ├── test_grpo.py
    │   ├── test_kl_div.py
    │   ├── test_l2norm.py
    │   ├── test_l2warp.py
    │   ├── test_layernorm.py
    │   ├── test_layernorm_gated.py
    │   ├── test_rotary.py
    │   └── test_token_shift.py
    └── ops
    │   ├── test_attn.py
    │   ├── test_based.py
    │   ├── test_comba.py
    │   ├── test_delta.py
    │   ├── test_delta_product.py
    │   ├── test_deltaformer.py
    │   ├── test_dplr_delta.py
    │   ├── test_forgetting_attn.py
    │   ├── test_gated_delta.py
    │   ├── test_gated_delta_product.py
    │   ├── test_gla.py
    │   ├── test_gsa.py
    │   ├── test_hgrn.py
    │   ├── test_iplr_delta.py
    │   ├── test_kda.py
    │   ├── test_linear_attn.py
    │   ├── test_log_linear_attn.py
    │   ├── test_mesa.py
    │   ├── test_nsa.py
    │   ├── test_path_attn.py
    │   ├── test_retention.py
    │   ├── test_rwkv6.py
    │   ├── test_rwkv7.py
    │   ├── test_simple_gla.py
    │   ├── test_solve_tril.py
    │   ├── test_titans.py
    │   ├── test_ttt.py
    │   └── test_utils.py
└── utils
    ├── convert_from_llama.py
    ├── convert_from_rwkv6.py
    └── convert_from_rwkv7.py


/.flake8:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.flake8


--------------------------------------------------------------------------------
/.github/ISSUE_TEMPLATE/bug.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/ISSUE_TEMPLATE/bug.yml


--------------------------------------------------------------------------------
/.github/ISSUE_TEMPLATE/config.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/ISSUE_TEMPLATE/config.yml


--------------------------------------------------------------------------------
/.github/ISSUE_TEMPLATE/feature-request.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/ISSUE_TEMPLATE/feature-request.yml


--------------------------------------------------------------------------------
/.github/ISSUE_TEMPLATE/rfc.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/ISSUE_TEMPLATE/rfc.yml


--------------------------------------------------------------------------------
/.github/workflows/intel-b580.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/intel-b580.yml


--------------------------------------------------------------------------------
/.github/workflows/issue.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/issue.yml


--------------------------------------------------------------------------------
/.github/workflows/lint.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/lint.yaml


--------------------------------------------------------------------------------
/.github/workflows/nvidia-4090.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/nvidia-4090.yml


--------------------------------------------------------------------------------
/.github/workflows/nvidia-a100.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/nvidia-a100.yml


--------------------------------------------------------------------------------
/.github/workflows/nvidia-h100.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/nvidia-h100.yml


--------------------------------------------------------------------------------
/.github/workflows/pytorch-ci.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/pytorch-ci.yml


--------------------------------------------------------------------------------
/.github/workflows/release.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/release.yml


--------------------------------------------------------------------------------
/.github/workflows/reusable-build-triton.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/reusable-build-triton.yml


--------------------------------------------------------------------------------
/.github/workflows/reusable-ci-tests.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/reusable-ci-tests.yml


--------------------------------------------------------------------------------
/.github/workflows/triton-builder.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/triton-builder.yml


--------------------------------------------------------------------------------
/.github/workflows/triton-nightly.yml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.github/workflows/triton-nightly.yml


--------------------------------------------------------------------------------
/.gitignore:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.gitignore


--------------------------------------------------------------------------------
/.pre-commit-config.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/.pre-commit-config.yaml


--------------------------------------------------------------------------------
/CITATION.cff:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/CITATION.cff


--------------------------------------------------------------------------------
/ENVs.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/ENVs.md


--------------------------------------------------------------------------------
/FAQs.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/FAQs.md


--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/LICENSE


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/README.md


--------------------------------------------------------------------------------
/benchmarks/benchmark_generation.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/benchmark_generation.py


--------------------------------------------------------------------------------
/benchmarks/benchmark_training_throughput.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/benchmark_training_throughput.py


--------------------------------------------------------------------------------
/benchmarks/modules/benchmark_activations.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/modules/benchmark_activations.py


--------------------------------------------------------------------------------
/benchmarks/modules/benchmark_conv.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/modules/benchmark_conv.py


--------------------------------------------------------------------------------
/benchmarks/modules/benchmark_cross_entropy.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/modules/benchmark_cross_entropy.py


--------------------------------------------------------------------------------
/benchmarks/modules/benchmark_l2norm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/modules/benchmark_l2norm.py


--------------------------------------------------------------------------------
/benchmarks/modules/benchmark_layernorm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/modules/benchmark_layernorm.py


--------------------------------------------------------------------------------
/benchmarks/modules/benchmark_tokenshift.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/modules/benchmark_tokenshift.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_abc.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_abc.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_based.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_based.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_delta_rule.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_delta_rule.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_fla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_fla.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_gla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_gla.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_gsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_gsa.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_hgrn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_hgrn.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_kda.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_kda.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_nsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_nsa.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_retention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_retention.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_rwkv.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_rwkv.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_rwkv7_fused_addcmul.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_rwkv7_fused_addcmul.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_rwkv7_k_update.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_rwkv7_k_update.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_simple_gla_vs_mamba2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_simple_gla_vs_mamba2.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_solv_tril.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_solv_tril.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_titans.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_titans.py


--------------------------------------------------------------------------------
/benchmarks/ops/benchmark_ttt.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/benchmarks/ops/benchmark_ttt.py


--------------------------------------------------------------------------------
/evals/harness.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/evals/harness.py


--------------------------------------------------------------------------------
/evals/ppl.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/evals/ppl.py


--------------------------------------------------------------------------------
/examples/training.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/examples/training.md


--------------------------------------------------------------------------------
/fla/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/__init__.py


--------------------------------------------------------------------------------
/fla/layers/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/__init__.py


--------------------------------------------------------------------------------
/fla/layers/abc.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/abc.py


--------------------------------------------------------------------------------
/fla/layers/attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/attn.py


--------------------------------------------------------------------------------
/fla/layers/based.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/based.py


--------------------------------------------------------------------------------
/fla/layers/bitattn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/bitattn.py


--------------------------------------------------------------------------------
/fla/layers/comba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/comba.py


--------------------------------------------------------------------------------
/fla/layers/delta_net.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/delta_net.py


--------------------------------------------------------------------------------
/fla/layers/deltaformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/deltaformer.py


--------------------------------------------------------------------------------
/fla/layers/forgetting_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/forgetting_attn.py


--------------------------------------------------------------------------------
/fla/layers/gated_deltanet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/gated_deltanet.py


--------------------------------------------------------------------------------
/fla/layers/gated_deltaproduct.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/gated_deltaproduct.py


--------------------------------------------------------------------------------
/fla/layers/gla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/gla.py


--------------------------------------------------------------------------------
/fla/layers/gsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/gsa.py


--------------------------------------------------------------------------------
/fla/layers/hgrn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/hgrn.py


--------------------------------------------------------------------------------
/fla/layers/hgrn2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/hgrn2.py


--------------------------------------------------------------------------------
/fla/layers/kda.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/kda.py


--------------------------------------------------------------------------------
/fla/layers/lightnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/lightnet.py


--------------------------------------------------------------------------------
/fla/layers/linear_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/linear_attn.py


--------------------------------------------------------------------------------
/fla/layers/log_linear_mamba2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/log_linear_mamba2.py


--------------------------------------------------------------------------------
/fla/layers/mamba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/mamba.py


--------------------------------------------------------------------------------
/fla/layers/mamba2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/mamba2.py


--------------------------------------------------------------------------------
/fla/layers/mesa_net.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/mesa_net.py


--------------------------------------------------------------------------------
/fla/layers/mla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/mla.py


--------------------------------------------------------------------------------
/fla/layers/mom.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/mom.py


--------------------------------------------------------------------------------
/fla/layers/multiscale_retention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/multiscale_retention.py


--------------------------------------------------------------------------------
/fla/layers/nsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/nsa.py


--------------------------------------------------------------------------------
/fla/layers/path_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/path_attn.py


--------------------------------------------------------------------------------
/fla/layers/rebased.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/rebased.py


--------------------------------------------------------------------------------
/fla/layers/rodimus.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/rodimus.py


--------------------------------------------------------------------------------
/fla/layers/rwkv6.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/rwkv6.py


--------------------------------------------------------------------------------
/fla/layers/rwkv7.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/rwkv7.py


--------------------------------------------------------------------------------
/fla/layers/simple_gla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/simple_gla.py


--------------------------------------------------------------------------------
/fla/layers/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/layers/utils.py


--------------------------------------------------------------------------------
/fla/models/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/__init__.py


--------------------------------------------------------------------------------
/fla/models/abc/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/abc/__init__.py


--------------------------------------------------------------------------------
/fla/models/abc/configuration_abc.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/abc/configuration_abc.py


--------------------------------------------------------------------------------
/fla/models/abc/modeling_abc.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/abc/modeling_abc.py


--------------------------------------------------------------------------------
/fla/models/bitnet/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/bitnet/__init__.py


--------------------------------------------------------------------------------
/fla/models/bitnet/configuration_bitnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/bitnet/configuration_bitnet.py


--------------------------------------------------------------------------------
/fla/models/bitnet/modeling_bitnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/bitnet/modeling_bitnet.py


--------------------------------------------------------------------------------
/fla/models/comba/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/comba/__init__.py


--------------------------------------------------------------------------------
/fla/models/comba/configuration_comba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/comba/configuration_comba.py


--------------------------------------------------------------------------------
/fla/models/comba/modeling_comba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/comba/modeling_comba.py


--------------------------------------------------------------------------------
/fla/models/delta_net/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/delta_net/__init__.py


--------------------------------------------------------------------------------
/fla/models/delta_net/configuration_delta_net.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/delta_net/configuration_delta_net.py


--------------------------------------------------------------------------------
/fla/models/delta_net/modeling_delta_net.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/delta_net/modeling_delta_net.py


--------------------------------------------------------------------------------
/fla/models/deltaformer/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/deltaformer/__init__.py


--------------------------------------------------------------------------------
/fla/models/deltaformer/configuration_deltaformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/deltaformer/configuration_deltaformer.py


--------------------------------------------------------------------------------
/fla/models/deltaformer/modeling_deltaformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/deltaformer/modeling_deltaformer.py


--------------------------------------------------------------------------------
/fla/models/forgetting_transformer/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/forgetting_transformer/__init__.py


--------------------------------------------------------------------------------
/fla/models/forgetting_transformer/configuration_forgetting_transformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/forgetting_transformer/configuration_forgetting_transformer.py


--------------------------------------------------------------------------------
/fla/models/forgetting_transformer/modeling_forgetting_transformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/forgetting_transformer/modeling_forgetting_transformer.py


--------------------------------------------------------------------------------
/fla/models/gated_deltanet/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gated_deltanet/__init__.py


--------------------------------------------------------------------------------
/fla/models/gated_deltanet/configuration_gated_deltanet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gated_deltanet/configuration_gated_deltanet.py


--------------------------------------------------------------------------------
/fla/models/gated_deltanet/modeling_gated_deltanet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gated_deltanet/modeling_gated_deltanet.py


--------------------------------------------------------------------------------
/fla/models/gated_deltaproduct/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gated_deltaproduct/__init__.py


--------------------------------------------------------------------------------
/fla/models/gated_deltaproduct/configuration_gated_deltaproduct.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gated_deltaproduct/configuration_gated_deltaproduct.py


--------------------------------------------------------------------------------
/fla/models/gated_deltaproduct/modeling_gated_deltaproduct.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gated_deltaproduct/modeling_gated_deltaproduct.py


--------------------------------------------------------------------------------
/fla/models/gla/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gla/__init__.py


--------------------------------------------------------------------------------
/fla/models/gla/configuration_gla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gla/configuration_gla.py


--------------------------------------------------------------------------------
/fla/models/gla/modeling_gla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gla/modeling_gla.py


--------------------------------------------------------------------------------
/fla/models/gsa/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gsa/__init__.py


--------------------------------------------------------------------------------
/fla/models/gsa/configuration_gsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gsa/configuration_gsa.py


--------------------------------------------------------------------------------
/fla/models/gsa/modeling_gsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/gsa/modeling_gsa.py


--------------------------------------------------------------------------------
/fla/models/hgrn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/hgrn/__init__.py


--------------------------------------------------------------------------------
/fla/models/hgrn/configuration_hgrn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/hgrn/configuration_hgrn.py


--------------------------------------------------------------------------------
/fla/models/hgrn/modeling_hgrn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/hgrn/modeling_hgrn.py


--------------------------------------------------------------------------------
/fla/models/hgrn2/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/hgrn2/__init__.py


--------------------------------------------------------------------------------
/fla/models/hgrn2/configuration_hgrn2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/hgrn2/configuration_hgrn2.py


--------------------------------------------------------------------------------
/fla/models/hgrn2/modeling_hgrn2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/hgrn2/modeling_hgrn2.py


--------------------------------------------------------------------------------
/fla/models/kda/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/kda/__init__.py


--------------------------------------------------------------------------------
/fla/models/kda/configuration_kda.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/kda/configuration_kda.py


--------------------------------------------------------------------------------
/fla/models/kda/modeling_kda.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/kda/modeling_kda.py


--------------------------------------------------------------------------------
/fla/models/lightnet/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/lightnet/__init__.py


--------------------------------------------------------------------------------
/fla/models/lightnet/configuration_lightnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/lightnet/configuration_lightnet.py


--------------------------------------------------------------------------------
/fla/models/lightnet/modeling_lightnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/lightnet/modeling_lightnet.py


--------------------------------------------------------------------------------
/fla/models/linear_attn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/linear_attn/__init__.py


--------------------------------------------------------------------------------
/fla/models/linear_attn/configuration_linear_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/linear_attn/configuration_linear_attn.py


--------------------------------------------------------------------------------
/fla/models/linear_attn/modeling_linear_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/linear_attn/modeling_linear_attn.py


--------------------------------------------------------------------------------
/fla/models/log_linear_mamba2/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/log_linear_mamba2/__init__.py


--------------------------------------------------------------------------------
/fla/models/log_linear_mamba2/configuration_log_linear_mamba2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/log_linear_mamba2/configuration_log_linear_mamba2.py


--------------------------------------------------------------------------------
/fla/models/log_linear_mamba2/modeling_log_linear_mamba2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/log_linear_mamba2/modeling_log_linear_mamba2.py


--------------------------------------------------------------------------------
/fla/models/mamba/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mamba/__init__.py


--------------------------------------------------------------------------------
/fla/models/mamba/configuration_mamba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mamba/configuration_mamba.py


--------------------------------------------------------------------------------
/fla/models/mamba/modeling_mamba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mamba/modeling_mamba.py


--------------------------------------------------------------------------------
/fla/models/mamba2/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mamba2/__init__.py


--------------------------------------------------------------------------------
/fla/models/mamba2/configuration_mamba2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mamba2/configuration_mamba2.py


--------------------------------------------------------------------------------
/fla/models/mamba2/modeling_mamba2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mamba2/modeling_mamba2.py


--------------------------------------------------------------------------------
/fla/models/mesa_net/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mesa_net/__init__.py


--------------------------------------------------------------------------------
/fla/models/mesa_net/configuration_mesa_net.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mesa_net/configuration_mesa_net.py


--------------------------------------------------------------------------------
/fla/models/mesa_net/modeling_mesa_net.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mesa_net/modeling_mesa_net.py


--------------------------------------------------------------------------------
/fla/models/mla/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mla/__init__.py


--------------------------------------------------------------------------------
/fla/models/mla/configuration_mla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mla/configuration_mla.py


--------------------------------------------------------------------------------
/fla/models/mla/modeling_mla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mla/modeling_mla.py


--------------------------------------------------------------------------------
/fla/models/modeling_layers.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/modeling_layers.py


--------------------------------------------------------------------------------
/fla/models/mom/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mom/__init__.py


--------------------------------------------------------------------------------
/fla/models/mom/configuration_mom.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mom/configuration_mom.py


--------------------------------------------------------------------------------
/fla/models/mom/modeling_mom.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/mom/modeling_mom.py


--------------------------------------------------------------------------------
/fla/models/nsa/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/nsa/__init__.py


--------------------------------------------------------------------------------
/fla/models/nsa/configuration_nsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/nsa/configuration_nsa.py


--------------------------------------------------------------------------------
/fla/models/nsa/modeling_nsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/nsa/modeling_nsa.py


--------------------------------------------------------------------------------
/fla/models/path_attn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/path_attn/__init__.py


--------------------------------------------------------------------------------
/fla/models/path_attn/configuration_path_attention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/path_attn/configuration_path_attention.py


--------------------------------------------------------------------------------
/fla/models/path_attn/modeling_path_attention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/path_attn/modeling_path_attention.py


--------------------------------------------------------------------------------
/fla/models/retnet/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/retnet/__init__.py


--------------------------------------------------------------------------------
/fla/models/retnet/configuration_retnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/retnet/configuration_retnet.py


--------------------------------------------------------------------------------
/fla/models/retnet/modeling_retnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/retnet/modeling_retnet.py


--------------------------------------------------------------------------------
/fla/models/rodimus/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/rodimus/__init__.py


--------------------------------------------------------------------------------
/fla/models/rodimus/configuration_rodimus.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/rodimus/configuration_rodimus.py


--------------------------------------------------------------------------------
/fla/models/rodimus/modeling_rodimus.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/rodimus/modeling_rodimus.py


--------------------------------------------------------------------------------
/fla/models/rwkv6/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/rwkv6/__init__.py


--------------------------------------------------------------------------------
/fla/models/rwkv6/configuration_rwkv6.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/rwkv6/configuration_rwkv6.py


--------------------------------------------------------------------------------
/fla/models/rwkv6/modeling_rwkv6.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/rwkv6/modeling_rwkv6.py


--------------------------------------------------------------------------------
/fla/models/rwkv7/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/rwkv7/__init__.py


--------------------------------------------------------------------------------
/fla/models/rwkv7/configuration_rwkv7.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/rwkv7/configuration_rwkv7.py


--------------------------------------------------------------------------------
/fla/models/rwkv7/modeling_rwkv7.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/rwkv7/modeling_rwkv7.py


--------------------------------------------------------------------------------
/fla/models/samba/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/samba/__init__.py


--------------------------------------------------------------------------------
/fla/models/samba/configuration_samba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/samba/configuration_samba.py


--------------------------------------------------------------------------------
/fla/models/samba/modeling_samba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/samba/modeling_samba.py


--------------------------------------------------------------------------------
/fla/models/transformer/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/transformer/__init__.py


--------------------------------------------------------------------------------
/fla/models/transformer/configuration_transformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/transformer/configuration_transformer.py


--------------------------------------------------------------------------------
/fla/models/transformer/modeling_transformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/transformer/modeling_transformer.py


--------------------------------------------------------------------------------
/fla/models/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/models/utils.py


--------------------------------------------------------------------------------
/fla/modules/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/__init__.py


--------------------------------------------------------------------------------
/fla/modules/activations.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/activations.py


--------------------------------------------------------------------------------
/fla/modules/convolution.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/convolution.py


--------------------------------------------------------------------------------
/fla/modules/feature_map.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/feature_map.py


--------------------------------------------------------------------------------
/fla/modules/fused_bitlinear.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/fused_bitlinear.py


--------------------------------------------------------------------------------
/fla/modules/fused_cross_entropy.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/fused_cross_entropy.py


--------------------------------------------------------------------------------
/fla/modules/fused_kl_div.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/fused_kl_div.py


--------------------------------------------------------------------------------
/fla/modules/fused_linear_cross_entropy.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/fused_linear_cross_entropy.py


--------------------------------------------------------------------------------
/fla/modules/fused_norm_gate.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/fused_norm_gate.py


--------------------------------------------------------------------------------
/fla/modules/grpo.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/grpo.py


--------------------------------------------------------------------------------
/fla/modules/l2norm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/l2norm.py


--------------------------------------------------------------------------------
/fla/modules/l2warp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/l2warp.py


--------------------------------------------------------------------------------
/fla/modules/layernorm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/layernorm.py


--------------------------------------------------------------------------------
/fla/modules/layernorm_gated.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/layernorm_gated.py


--------------------------------------------------------------------------------
/fla/modules/mlp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/mlp.py


--------------------------------------------------------------------------------
/fla/modules/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/parallel.py


--------------------------------------------------------------------------------
/fla/modules/rotary.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/rotary.py


--------------------------------------------------------------------------------
/fla/modules/token_shift.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/modules/token_shift.py


--------------------------------------------------------------------------------
/fla/ops/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/__init__.py


--------------------------------------------------------------------------------
/fla/ops/abc/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/abc/__init__.py


--------------------------------------------------------------------------------
/fla/ops/abc/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/abc/chunk.py


--------------------------------------------------------------------------------
/fla/ops/abc/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/abc/naive.py


--------------------------------------------------------------------------------
/fla/ops/attn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/attn/__init__.py


--------------------------------------------------------------------------------
/fla/ops/attn/decoding.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/attn/decoding.py


--------------------------------------------------------------------------------
/fla/ops/attn/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/attn/parallel.py


--------------------------------------------------------------------------------
/fla/ops/based/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/based/__init__.py


--------------------------------------------------------------------------------
/fla/ops/based/fused_chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/based/fused_chunk.py


--------------------------------------------------------------------------------
/fla/ops/based/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/based/naive.py


--------------------------------------------------------------------------------
/fla/ops/based/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/based/parallel.py


--------------------------------------------------------------------------------
/fla/ops/comba/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/comba/__init__.py


--------------------------------------------------------------------------------
/fla/ops/comba/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/comba/chunk.py


--------------------------------------------------------------------------------
/fla/ops/comba/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/comba/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/comba/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/comba/utils.py


--------------------------------------------------------------------------------
/fla/ops/comba/wy_fast.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/comba/wy_fast.py


--------------------------------------------------------------------------------
/fla/ops/common/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/fla/ops/common/chunk_delta_h.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/common/chunk_delta_h.py


--------------------------------------------------------------------------------
/fla/ops/common/chunk_h.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/common/chunk_h.py


--------------------------------------------------------------------------------
/fla/ops/common/chunk_h_parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/common/chunk_h_parallel.py


--------------------------------------------------------------------------------
/fla/ops/common/chunk_h_split.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/common/chunk_h_split.py


--------------------------------------------------------------------------------
/fla/ops/common/chunk_o.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/common/chunk_o.py


--------------------------------------------------------------------------------
/fla/ops/common/chunk_scaled_dot_kkt.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/common/chunk_scaled_dot_kkt.py


--------------------------------------------------------------------------------
/fla/ops/common/fused_chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/common/fused_chunk.py


--------------------------------------------------------------------------------
/fla/ops/common/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/common/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/delta_rule/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/delta_rule/README.md


--------------------------------------------------------------------------------
/fla/ops/delta_rule/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/delta_rule/__init__.py


--------------------------------------------------------------------------------
/fla/ops/delta_rule/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/delta_rule/chunk.py


--------------------------------------------------------------------------------
/fla/ops/delta_rule/fused_chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/delta_rule/fused_chunk.py


--------------------------------------------------------------------------------
/fla/ops/delta_rule/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/delta_rule/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/delta_rule/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/delta_rule/naive.py


--------------------------------------------------------------------------------
/fla/ops/delta_rule/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/delta_rule/parallel.py


--------------------------------------------------------------------------------
/fla/ops/delta_rule/wy_fast.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/delta_rule/wy_fast.py


--------------------------------------------------------------------------------
/fla/ops/deltaformer/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/deltaformer/__init__.py


--------------------------------------------------------------------------------
/fla/ops/deltaformer/invcum.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/deltaformer/invcum.py


--------------------------------------------------------------------------------
/fla/ops/deltaformer/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/deltaformer/naive.py


--------------------------------------------------------------------------------
/fla/ops/deltaformer/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/deltaformer/parallel.py


--------------------------------------------------------------------------------
/fla/ops/forgetting_attn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/forgetting_attn/__init__.py


--------------------------------------------------------------------------------
/fla/ops/forgetting_attn/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/forgetting_attn/parallel.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_product/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_product/__init__.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_product/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_product/chunk.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_product/chunk_deltaproduct_h.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_product/chunk_deltaproduct_h.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_product/chunk_deltaproduct_o.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_product/chunk_deltaproduct_o.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_product/chunk_ref.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_product/chunk_ref.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_product/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_product/naive.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_rule/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_rule/__init__.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_rule/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_rule/chunk.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_rule/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_rule/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/gated_delta_rule/wy_fast.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gated_delta_rule/wy_fast.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/README.md


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/__init__.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/__init__.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/chunk.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/chunk_A_bwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/chunk_A_bwd.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/chunk_A_fwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/chunk_A_fwd.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/chunk_h_bwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/chunk_h_bwd.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/chunk_h_fwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/chunk_h_fwd.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/chunk_o_bwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/chunk_o_bwd.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/chunk_o_fwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/chunk_o_fwd.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/naive.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/wy_fast_bwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/wy_fast_bwd.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/dplr/wy_fast_fwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/dplr/wy_fast_fwd.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/iplr/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/iplr/__init__.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/iplr/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/iplr/chunk.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/iplr/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/iplr/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/iplr/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/iplr/naive.py


--------------------------------------------------------------------------------
/fla/ops/generalized_delta_rule/iplr/wy_fast.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/generalized_delta_rule/iplr/wy_fast.py


--------------------------------------------------------------------------------
/fla/ops/gla/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gla/__init__.py


--------------------------------------------------------------------------------
/fla/ops/gla/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gla/chunk.py


--------------------------------------------------------------------------------
/fla/ops/gla/fused_chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gla/fused_chunk.py


--------------------------------------------------------------------------------
/fla/ops/gla/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gla/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/gla/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gla/naive.py


--------------------------------------------------------------------------------
/fla/ops/gsa/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gsa/__init__.py


--------------------------------------------------------------------------------
/fla/ops/gsa/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gsa/chunk.py


--------------------------------------------------------------------------------
/fla/ops/gsa/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gsa/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/gsa/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/gsa/naive.py


--------------------------------------------------------------------------------
/fla/ops/hgrn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/hgrn/__init__.py


--------------------------------------------------------------------------------
/fla/ops/hgrn/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/hgrn/chunk.py


--------------------------------------------------------------------------------
/fla/ops/hgrn/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/hgrn/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/hgrn/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/hgrn/naive.py


--------------------------------------------------------------------------------
/fla/ops/kda/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/kda/__init__.py


--------------------------------------------------------------------------------
/fla/ops/kda/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/kda/chunk.py


--------------------------------------------------------------------------------
/fla/ops/kda/chunk_inter.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/kda/chunk_inter.py


--------------------------------------------------------------------------------
/fla/ops/kda/chunk_intra.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/kda/chunk_intra.py


--------------------------------------------------------------------------------
/fla/ops/kda/chunk_intra_token_parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/kda/chunk_intra_token_parallel.py


--------------------------------------------------------------------------------
/fla/ops/kda/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/kda/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/kda/gate.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/kda/gate.py


--------------------------------------------------------------------------------
/fla/ops/kda/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/kda/naive.py


--------------------------------------------------------------------------------
/fla/ops/kda/wy_fast.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/kda/wy_fast.py


--------------------------------------------------------------------------------
/fla/ops/lightning_attn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/lightning_attn/__init__.py


--------------------------------------------------------------------------------
/fla/ops/lightning_attn/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/lightning_attn/chunk.py


--------------------------------------------------------------------------------
/fla/ops/lightning_attn/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/lightning_attn/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/linear_attn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/linear_attn/__init__.py


--------------------------------------------------------------------------------
/fla/ops/linear_attn/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/linear_attn/chunk.py


--------------------------------------------------------------------------------
/fla/ops/linear_attn/fused_chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/linear_attn/fused_chunk.py


--------------------------------------------------------------------------------
/fla/ops/linear_attn/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/linear_attn/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/linear_attn/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/linear_attn/naive.py


--------------------------------------------------------------------------------
/fla/ops/linear_attn/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/linear_attn/utils.py


--------------------------------------------------------------------------------
/fla/ops/log_linear_attn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/log_linear_attn/__init__.py


--------------------------------------------------------------------------------
/fla/ops/log_linear_attn/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/log_linear_attn/chunk.py


--------------------------------------------------------------------------------
/fla/ops/log_linear_attn/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/log_linear_attn/naive.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/__init__.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/chunk.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/chunk_cg_solver_bwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/chunk_cg_solver_bwd.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/chunk_cg_solver_fwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/chunk_cg_solver_fwd.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/chunk_h_fwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/chunk_h_fwd.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/chunk_h_kk_intra_bwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/chunk_h_kk_intra_bwd.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/chunk_h_kv_intra_bwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/chunk_h_kv_intra_bwd.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/chunk_h_kv_intra_bwd_separate.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/chunk_h_kv_intra_bwd_separate.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/decoding_one_step.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/decoding_one_step.py


--------------------------------------------------------------------------------
/fla/ops/mesa_net/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/mesa_net/naive.py


--------------------------------------------------------------------------------
/fla/ops/nsa/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/nsa/__init__.py


--------------------------------------------------------------------------------
/fla/ops/nsa/compression.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/nsa/compression.py


--------------------------------------------------------------------------------
/fla/ops/nsa/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/nsa/naive.py


--------------------------------------------------------------------------------
/fla/ops/nsa/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/nsa/parallel.py


--------------------------------------------------------------------------------
/fla/ops/nsa/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/nsa/utils.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/__init__.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/cumprod_householder_bwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/cumprod_householder_bwd.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/cumprod_householder_fwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/cumprod_householder_fwd.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/intra_chunk_preprocess_bwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/intra_chunk_preprocess_bwd.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/intra_chunk_preprocess_bwd_prepare.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/intra_chunk_preprocess_bwd_prepare.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/intra_chunk_preprocess_fwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/intra_chunk_preprocess_fwd.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/parallel.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/parallel_path_bwd_inter_dkv.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/parallel_path_bwd_inter_dkv.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/parallel_path_bwd_inter_dqh.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/parallel_path_bwd_inter_dqh.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/parallel_path_bwd_intra.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/parallel_path_bwd_intra.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/parallel_path_fwd.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/parallel_path_fwd.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/prepare_k_cache.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/prepare_k_cache.py


--------------------------------------------------------------------------------
/fla/ops/path_attn/transform_q.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/path_attn/transform_q.py


--------------------------------------------------------------------------------
/fla/ops/rebased/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rebased/__init__.py


--------------------------------------------------------------------------------
/fla/ops/rebased/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rebased/naive.py


--------------------------------------------------------------------------------
/fla/ops/rebased/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rebased/parallel.py


--------------------------------------------------------------------------------
/fla/ops/retention/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/retention/__init__.py


--------------------------------------------------------------------------------
/fla/ops/retention/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/retention/chunk.py


--------------------------------------------------------------------------------
/fla/ops/retention/fused_chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/retention/fused_chunk.py


--------------------------------------------------------------------------------
/fla/ops/retention/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/retention/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/retention/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/retention/naive.py


--------------------------------------------------------------------------------
/fla/ops/retention/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/retention/parallel.py


--------------------------------------------------------------------------------
/fla/ops/rwkv4/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv4/__init__.py


--------------------------------------------------------------------------------
/fla/ops/rwkv4/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv4/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/rwkv6/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv6/__init__.py


--------------------------------------------------------------------------------
/fla/ops/rwkv6/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv6/chunk.py


--------------------------------------------------------------------------------
/fla/ops/rwkv6/chunk_naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv6/chunk_naive.py


--------------------------------------------------------------------------------
/fla/ops/rwkv6/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv6/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/rwkv6/recurrent_naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv6/recurrent_naive.py


--------------------------------------------------------------------------------
/fla/ops/rwkv7/RWKV7(Goose).md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv7/RWKV7(Goose).md


--------------------------------------------------------------------------------
/fla/ops/rwkv7/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv7/__init__.py


--------------------------------------------------------------------------------
/fla/ops/rwkv7/channel_mixing.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv7/channel_mixing.py


--------------------------------------------------------------------------------
/fla/ops/rwkv7/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv7/chunk.py


--------------------------------------------------------------------------------
/fla/ops/rwkv7/fused_addcmul.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv7/fused_addcmul.py


--------------------------------------------------------------------------------
/fla/ops/rwkv7/fused_k_update.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv7/fused_k_update.py


--------------------------------------------------------------------------------
/fla/ops/rwkv7/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv7/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/rwkv7/gate_output_correction.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/rwkv7/gate_output_correction.py


--------------------------------------------------------------------------------
/fla/ops/simple_gla/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/simple_gla/README.md


--------------------------------------------------------------------------------
/fla/ops/simple_gla/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/simple_gla/__init__.py


--------------------------------------------------------------------------------
/fla/ops/simple_gla/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/simple_gla/chunk.py


--------------------------------------------------------------------------------
/fla/ops/simple_gla/fused_chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/simple_gla/fused_chunk.py


--------------------------------------------------------------------------------
/fla/ops/simple_gla/fused_recurrent.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/simple_gla/fused_recurrent.py


--------------------------------------------------------------------------------
/fla/ops/simple_gla/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/simple_gla/naive.py


--------------------------------------------------------------------------------
/fla/ops/simple_gla/parallel.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/simple_gla/parallel.py


--------------------------------------------------------------------------------
/fla/ops/titans/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/titans/__init__.py


--------------------------------------------------------------------------------
/fla/ops/titans/log_impl.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/titans/log_impl.py


--------------------------------------------------------------------------------
/fla/ops/titans/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/titans/naive.py


--------------------------------------------------------------------------------
/fla/ops/ttt/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/ttt/__init__.py


--------------------------------------------------------------------------------
/fla/ops/ttt/chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/ttt/chunk.py


--------------------------------------------------------------------------------
/fla/ops/ttt/fused_chunk.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/ttt/fused_chunk.py


--------------------------------------------------------------------------------
/fla/ops/ttt/naive.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/ttt/naive.py


--------------------------------------------------------------------------------
/fla/ops/utils/__init__.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/__init__.py


--------------------------------------------------------------------------------
/fla/ops/utils/constant.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/constant.py


--------------------------------------------------------------------------------
/fla/ops/utils/cumsum.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/cumsum.py


--------------------------------------------------------------------------------
/fla/ops/utils/index.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/index.py


--------------------------------------------------------------------------------
/fla/ops/utils/logcumsumexp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/logcumsumexp.py


--------------------------------------------------------------------------------
/fla/ops/utils/logsumexp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/logsumexp.py


--------------------------------------------------------------------------------
/fla/ops/utils/matmul.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/matmul.py


--------------------------------------------------------------------------------
/fla/ops/utils/op.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/op.py


--------------------------------------------------------------------------------
/fla/ops/utils/pack.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/pack.py


--------------------------------------------------------------------------------
/fla/ops/utils/pooling.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/pooling.py


--------------------------------------------------------------------------------
/fla/ops/utils/softmax.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/softmax.py


--------------------------------------------------------------------------------
/fla/ops/utils/softplus.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/softplus.py


--------------------------------------------------------------------------------
/fla/ops/utils/solve_tril.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/ops/utils/solve_tril.py


--------------------------------------------------------------------------------
/fla/utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/fla/utils.py


--------------------------------------------------------------------------------
/legacy/training/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/README.md


--------------------------------------------------------------------------------
/legacy/training/configs/gla_1B.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/configs/gla_1B.json


--------------------------------------------------------------------------------
/legacy/training/configs/gla_340M.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/configs/gla_340M.json


--------------------------------------------------------------------------------
/legacy/training/configs/gla_7B.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/configs/gla_7B.json


--------------------------------------------------------------------------------
/legacy/training/configs/transformer_340M.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/configs/transformer_340M.json


--------------------------------------------------------------------------------
/legacy/training/flame/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/legacy/training/flame/data.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/flame/data.py


--------------------------------------------------------------------------------
/legacy/training/flame/logging.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/flame/logging.py


--------------------------------------------------------------------------------
/legacy/training/flame/parser.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/flame/parser.py


--------------------------------------------------------------------------------
/legacy/training/preprocess.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/preprocess.py


--------------------------------------------------------------------------------
/legacy/training/run.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/run.py


--------------------------------------------------------------------------------
/legacy/training/train.sh:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/legacy/training/train.sh


--------------------------------------------------------------------------------
/pyproject.toml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/pyproject.toml


--------------------------------------------------------------------------------
/scripts/build_packages.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/scripts/build_packages.py


--------------------------------------------------------------------------------
/scripts/check_gpu.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/scripts/check_gpu.py


--------------------------------------------------------------------------------
/scripts/find_dependent_tests.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/scripts/find_dependent_tests.py


--------------------------------------------------------------------------------
/setup.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/setup.py


--------------------------------------------------------------------------------
/tests/models/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/tests/models/test_modeling_abc.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_abc.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_base.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_base.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_bitnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_bitnet.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_comba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_comba.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_deltaformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_deltaformer.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_deltanet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_deltanet.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_forgetting_transformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_forgetting_transformer.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_gated_deltanet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_gated_deltanet.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_gated_deltaproduct.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_gated_deltaproduct.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_gla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_gla.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_gsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_gsa.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_hgrn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_hgrn.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_hgrn2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_hgrn2.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_kda.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_kda.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_lightnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_lightnet.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_linear_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_linear_attn.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_log_linear_mamba2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_log_linear_mamba2.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_mamba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_mamba.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_mamba2.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_mamba2.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_mesanet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_mesanet.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_mla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_mla.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_mom.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_mom.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_nsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_nsa.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_path_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_path_attn.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_retnet.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_retnet.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_rodimus.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_rodimus.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_rwkv6.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_rwkv6.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_rwkv7.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_rwkv7.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_samba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_samba.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_transformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_transformer.py


--------------------------------------------------------------------------------
/tests/models/test_modeling_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/models/test_modeling_utils.py


--------------------------------------------------------------------------------
/tests/modules/test_activation.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_activation.py


--------------------------------------------------------------------------------
/tests/modules/test_conv.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_conv.py


--------------------------------------------------------------------------------
/tests/modules/test_cross_entropy.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_cross_entropy.py


--------------------------------------------------------------------------------
/tests/modules/test_grpo.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_grpo.py


--------------------------------------------------------------------------------
/tests/modules/test_kl_div.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_kl_div.py


--------------------------------------------------------------------------------
/tests/modules/test_l2norm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_l2norm.py


--------------------------------------------------------------------------------
/tests/modules/test_l2warp.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_l2warp.py


--------------------------------------------------------------------------------
/tests/modules/test_layernorm.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_layernorm.py


--------------------------------------------------------------------------------
/tests/modules/test_layernorm_gated.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_layernorm_gated.py


--------------------------------------------------------------------------------
/tests/modules/test_rotary.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_rotary.py


--------------------------------------------------------------------------------
/tests/modules/test_token_shift.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/modules/test_token_shift.py


--------------------------------------------------------------------------------
/tests/ops/test_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_attn.py


--------------------------------------------------------------------------------
/tests/ops/test_based.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_based.py


--------------------------------------------------------------------------------
/tests/ops/test_comba.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_comba.py


--------------------------------------------------------------------------------
/tests/ops/test_delta.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_delta.py


--------------------------------------------------------------------------------
/tests/ops/test_delta_product.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_delta_product.py


--------------------------------------------------------------------------------
/tests/ops/test_deltaformer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_deltaformer.py


--------------------------------------------------------------------------------
/tests/ops/test_dplr_delta.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_dplr_delta.py


--------------------------------------------------------------------------------
/tests/ops/test_forgetting_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_forgetting_attn.py


--------------------------------------------------------------------------------
/tests/ops/test_gated_delta.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_gated_delta.py


--------------------------------------------------------------------------------
/tests/ops/test_gated_delta_product.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_gated_delta_product.py


--------------------------------------------------------------------------------
/tests/ops/test_gla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_gla.py


--------------------------------------------------------------------------------
/tests/ops/test_gsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_gsa.py


--------------------------------------------------------------------------------
/tests/ops/test_hgrn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_hgrn.py


--------------------------------------------------------------------------------
/tests/ops/test_iplr_delta.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_iplr_delta.py


--------------------------------------------------------------------------------
/tests/ops/test_kda.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_kda.py


--------------------------------------------------------------------------------
/tests/ops/test_linear_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_linear_attn.py


--------------------------------------------------------------------------------
/tests/ops/test_log_linear_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_log_linear_attn.py


--------------------------------------------------------------------------------
/tests/ops/test_mesa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_mesa.py


--------------------------------------------------------------------------------
/tests/ops/test_nsa.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_nsa.py


--------------------------------------------------------------------------------
/tests/ops/test_path_attn.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_path_attn.py


--------------------------------------------------------------------------------
/tests/ops/test_retention.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_retention.py


--------------------------------------------------------------------------------
/tests/ops/test_rwkv6.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_rwkv6.py


--------------------------------------------------------------------------------
/tests/ops/test_rwkv7.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_rwkv7.py


--------------------------------------------------------------------------------
/tests/ops/test_simple_gla.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_simple_gla.py


--------------------------------------------------------------------------------
/tests/ops/test_solve_tril.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_solve_tril.py


--------------------------------------------------------------------------------
/tests/ops/test_titans.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_titans.py


--------------------------------------------------------------------------------
/tests/ops/test_ttt.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_ttt.py


--------------------------------------------------------------------------------
/tests/ops/test_utils.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/tests/ops/test_utils.py


--------------------------------------------------------------------------------
/utils/convert_from_llama.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/utils/convert_from_llama.py


--------------------------------------------------------------------------------
/utils/convert_from_rwkv6.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/utils/convert_from_rwkv6.py


--------------------------------------------------------------------------------
/utils/convert_from_rwkv7.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/fla-org/flash-linear-attention/HEAD/utils/convert_from_rwkv7.py


--------------------------------------------------------------------------------