├── _config.yml ├── contributing.md ├── LICENSE └── docs ├── huggingface.zh-hans.md └── huggingface.zh-hant.md /_config.yml: -------------------------------------------------------------------------------- 1 | theme: jekyll-theme-cayman -------------------------------------------------------------------------------- /contributing.md: -------------------------------------------------------------------------------- 1 | # Contributing 2 | 3 | Your contributions are always welcome! 4 | 5 | ## Guidelines 6 | 7 | You can contribute to this repository in two ways. 8 | 9 | ### 1. Make a pull request 10 | 11 | First, please check the [content](https://github.com/taishi-i/awesome-japanese-nlp-resources#contents) you want to add. If there is no matching content, please add it to [others](https://github.com/taishi-i/awesome-japanese-nlp-resources#Others). 12 | 13 | * Add the link: `* [project-name](http://example.com/) - A short description ends with a period.` 14 | * Keep descriptions concise and **short**. You only need to add it to **[README.md](https://github.com/taishi-i/awesome-japanese-nlp-resources/blob/main/README.md)**. The maintainer will automatically apply it to each language. 15 | 16 | * Add project stats to the table: Add the following table content. 17 | 18 | |Name|downloads/week|total downloads|stars| 19 | -|-|-|- 20 | |project name|downloads/week in PePy|total downloads in PePy|stars in GitHub| 21 | 22 | If the project has download information in [PePy](https://pepy.tech/), please add the download information. Also, add a github star in [Shields.io - GitHub Repo stars](https://shields.io/). This will help users find the good projects. 23 | ``` 24 | |[SudachiPy](https://github.com/WorksApplications/SudachiPy)|[![Downloads](https://pepy.tech/badge/sudachipy/week)](https://pepy.tech/project/sudachipy)|[![Downloads](https://pepy.tech/badge/sudachipy)](https://pepy.tech/project/sudachipy)|![GitHub Repo stars](https://img.shields.io/github/stars/WorksApplications/SudachiPy?style=social)| 25 | ``` 26 | 27 | If the project doesn't have download information in [PePy](https://pepy.tech/), please create a line like this. 28 | ``` 29 | |[bertknp](https://github.com/ku-nlp/bertknp)|-|-|![GitHub Repo stars](https://img.shields.io/github/stars/ku-nlp/bertknp?style=social)| 30 | ``` 31 | 32 | Submit the [pull request](https://help.github.com/articles/using-pull-requests/)! 33 | 34 | 35 | ### 2. Open issues 36 | 37 | If you have a favorite project, let us know by opening an issue. It can be in English or Japanese. Please refer to the following issue. 38 | [いくつかのリソースの紹介 #1](https://github.com/taishi-i/awesome-japanese-nlp-resources/issues/1) 39 | 40 | 41 | ## Credits 42 | 43 | These contributing guidelines are taken from 44 | - [awesome](https://github.com/sindresorhus/awesome/blob/main/contributing.md) 45 | - [awesome-python](https://github.com/vinta/awesome-python/blob/master/CONTRIBUTING.md) 46 | - [awesome-nlp](https://github.com/keon/awesome-nlp/blob/master/contributing.md) 47 | -------------------------------------------------------------------------------- /LICENSE: -------------------------------------------------------------------------------- 1 | Creative Commons Legal Code 2 | 3 | CC0 1.0 Universal 4 | 5 | CREATIVE COMMONS CORPORATION IS NOT A LAW FIRM AND DOES NOT PROVIDE 6 | LEGAL SERVICES. DISTRIBUTION OF THIS DOCUMENT DOES NOT CREATE AN 7 | ATTORNEY-CLIENT RELATIONSHIP. CREATIVE COMMONS PROVIDES THIS 8 | INFORMATION ON AN "AS-IS" BASIS. CREATIVE COMMONS MAKES NO WARRANTIES 9 | REGARDING THE USE OF THIS DOCUMENT OR THE INFORMATION OR WORKS 10 | PROVIDED HEREUNDER, AND DISCLAIMS LIABILITY FOR DAMAGES RESULTING FROM 11 | THE USE OF THIS DOCUMENT OR THE INFORMATION OR WORKS PROVIDED 12 | HEREUNDER. 13 | 14 | Statement of Purpose 15 | 16 | The laws of most jurisdictions throughout the world automatically confer 17 | exclusive Copyright and Related Rights (defined below) upon the creator 18 | and subsequent owner(s) (each and all, an "owner") of an original work of 19 | authorship and/or a database (each, a "Work"). 20 | 21 | Certain owners wish to permanently relinquish those rights to a Work for 22 | the purpose of contributing to a commons of creative, cultural and 23 | scientific works ("Commons") that the public can reliably and without fear 24 | of later claims of infringement build upon, modify, incorporate in other 25 | works, reuse and redistribute as freely as possible in any form whatsoever 26 | and for any purposes, including without limitation commercial purposes. 27 | These owners may contribute to the Commons to promote the ideal of a free 28 | culture and the further production of creative, cultural and scientific 29 | works, or to gain reputation or greater distribution for their Work in 30 | part through the use and efforts of others. 31 | 32 | For these and/or other purposes and motivations, and without any 33 | expectation of additional consideration or compensation, the person 34 | associating CC0 with a Work (the "Affirmer"), to the extent that he or she 35 | is an owner of Copyright and Related Rights in the Work, voluntarily 36 | elects to apply CC0 to the Work and publicly distribute the Work under its 37 | terms, with knowledge of his or her Copyright and Related Rights in the 38 | Work and the meaning and intended legal effect of CC0 on those rights. 39 | 40 | 1. Copyright and Related Rights. A Work made available under CC0 may be 41 | protected by copyright and related or neighboring rights ("Copyright and 42 | Related Rights"). Copyright and Related Rights include, but are not 43 | limited to, the following: 44 | 45 | i. the right to reproduce, adapt, distribute, perform, display, 46 | communicate, and translate a Work; 47 | ii. moral rights retained by the original author(s) and/or performer(s); 48 | iii. publicity and privacy rights pertaining to a person's image or 49 | likeness depicted in a Work; 50 | iv. rights protecting against unfair competition in regards to a Work, 51 | subject to the limitations in paragraph 4(a), below; 52 | v. rights protecting the extraction, dissemination, use and reuse of data 53 | in a Work; 54 | vi. database rights (such as those arising under Directive 96/9/EC of the 55 | European Parliament and of the Council of 11 March 1996 on the legal 56 | protection of databases, and under any national implementation 57 | thereof, including any amended or successor version of such 58 | directive); and 59 | vii. other similar, equivalent or corresponding rights throughout the 60 | world based on applicable law or treaty, and any national 61 | implementations thereof. 62 | 63 | 2. Waiver. To the greatest extent permitted by, but not in contravention 64 | of, applicable law, Affirmer hereby overtly, fully, permanently, 65 | irrevocably and unconditionally waives, abandons, and surrenders all of 66 | Affirmer's Copyright and Related Rights and associated claims and causes 67 | of action, whether now known or unknown (including existing as well as 68 | future claims and causes of action), in the Work (i) in all territories 69 | worldwide, (ii) for the maximum duration provided by applicable law or 70 | treaty (including future time extensions), (iii) in any current or future 71 | medium and for any number of copies, and (iv) for any purpose whatsoever, 72 | including without limitation commercial, advertising or promotional 73 | purposes (the "Waiver"). Affirmer makes the Waiver for the benefit of each 74 | member of the public at large and to the detriment of Affirmer's heirs and 75 | successors, fully intending that such Waiver shall not be subject to 76 | revocation, rescission, cancellation, termination, or any other legal or 77 | equitable action to disrupt the quiet enjoyment of the Work by the public 78 | as contemplated by Affirmer's express Statement of Purpose. 79 | 80 | 3. Public License Fallback. Should any part of the Waiver for any reason 81 | be judged legally invalid or ineffective under applicable law, then the 82 | Waiver shall be preserved to the maximum extent permitted taking into 83 | account Affirmer's express Statement of Purpose. In addition, to the 84 | extent the Waiver is so judged Affirmer hereby grants to each affected 85 | person a royalty-free, non transferable, non sublicensable, non exclusive, 86 | irrevocable and unconditional license to exercise Affirmer's Copyright and 87 | Related Rights in the Work (i) in all territories worldwide, (ii) for the 88 | maximum duration provided by applicable law or treaty (including future 89 | time extensions), (iii) in any current or future medium and for any number 90 | of copies, and (iv) for any purpose whatsoever, including without 91 | limitation commercial, advertising or promotional purposes (the 92 | "License"). The License shall be deemed effective as of the date CC0 was 93 | applied by Affirmer to the Work. Should any part of the License for any 94 | reason be judged legally invalid or ineffective under applicable law, such 95 | partial invalidity or ineffectiveness shall not invalidate the remainder 96 | of the License, and in such case Affirmer hereby affirms that he or she 97 | will not (i) exercise any of his or her remaining Copyright and Related 98 | Rights in the Work or (ii) assert any associated claims and causes of 99 | action with respect to the Work, in either case contrary to Affirmer's 100 | express Statement of Purpose. 101 | 102 | 4. Limitations and Disclaimers. 103 | 104 | a. No trademark or patent rights held by Affirmer are waived, abandoned, 105 | surrendered, licensed or otherwise affected by this document. 106 | b. Affirmer offers the Work as-is and makes no representations or 107 | warranties of any kind concerning the Work, express, implied, 108 | statutory or otherwise, including without limitation warranties of 109 | title, merchantability, fitness for a particular purpose, non 110 | infringement, or the absence of latent or other defects, accuracy, or 111 | the present or absence of errors, whether or not discoverable, all to 112 | the greatest extent permissible under applicable law. 113 | c. Affirmer disclaims responsibility for clearing rights of other persons 114 | that may apply to the Work or any use thereof, including without 115 | limitation any person's Copyright and Related Rights in the Work. 116 | Further, Affirmer disclaims responsibility for obtaining any necessary 117 | consents, permissions or other rights required for any use of the 118 | Work. 119 | d. Affirmer understands and acknowledges that Creative Commons is not a 120 | party to this document and has no duty or obligation with respect to 121 | this CC0 or use of the Work. 122 | -------------------------------------------------------------------------------- /docs/huggingface.zh-hans.md: -------------------------------------------------------------------------------- 1 | # awesome-japanese-nlp-resources 2 | 3 | [![Awesome](https://cdn.rawgit.com/sindresorhus/awesome/d7305f38d29fed78fa85652e3a63e154dd8e8829/media/badge.svg)](https://github.com/taishi-i/awesome-japanese-nlp-resources) 4 | [![RRs](https://img.shields.io/badge/PRs-welcome-brightgreen)](https://github.com/taishi-i/awesome-japanese-nlp-resources/pulls) 5 | [![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https://huggingface.co/spaces/taishi-i/awesome-japanese-nlp-resources-search) 6 | [![License: CC0-1.0](https://img.shields.io/badge/License-CC0_1.0-lightgrey.svg)](http://creativecommons.org/publicdomain/zero/1.0/) 7 | [![CC0](http://i.creativecommons.org/p/zero/1.0/88x31.png)](http://creativecommons.org/publicdomain/zero/1.0/) 8 | 9 | 专门收录日语NLP相关的Python库、LLM、词典和语料库资源的精选列表。 10 | 本页面列出了Hugging Face上可用的日语NLP专用模型和数据集。目前包含219个模型和173个数据集。 11 | 12 | _更新于2025年12月23日_ 13 | 14 | [English](https://github.com/taishi-i/awesome-japanese-nlp-resources/blob/main/docs/huggingface.en.md) | [日本語 (Japanese) ](https://github.com/taishi-i/awesome-japanese-nlp-resources/blob/main/docs/huggingface.ja.md) | [繁體中文 (Chinese) ](https://github.com/taishi-i/awesome-japanese-nlp-resources/blob/main/docs/huggingface.zh-hant.md) | [简体中文 (Chinese) ](https://github.com/taishi-i/awesome-japanese-nlp-resources/blob/main/docs/huggingface.zh-hans.md) 15 | 16 | ## Contents 17 | * [Ranking](#Ranking) 18 | * [Models](#models-ranking) 19 | * [Datasets](#datasets-ranking) 20 | * [Models](#Models) 21 | * [text-generation](#text-generation) 22 | * [fill-mask](#fill-mask) 23 | * [sentence-similarity](#sentence-similarity) 24 | * [feature-extraction](#feature-extraction) 25 | * [translation](#translation) 26 | * [automatic-speech-recognition](#automatic-speech-recognition) 27 | * [text-classification](#text-classification) 28 | * [text-ranking](#text-ranking) 29 | * [image-to-text](#image-to-text) 30 | * [token-classification](#token-classification) 31 | * [text-to-speech](#text-to-speech) 32 | * [audio-to-audio](#audio-to-audio) 33 | * [image-text-to-text](#image-text-to-text) 34 | * [others](#others) 35 | * [Datasets](#Datasets) 36 | 37 | ## Ranking 38 | 39 | ### Models-ranking 40 | 41 | | # | 模型名称 | Downloads | Likes | 类别 | 42 | |---|-------|-----------|-------|----------| 43 | | 1 | [wav2vec2-large-xlsr-53-japanese](https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-japanese) | 📥 3M | ⭐ 44 | automatic-speech-recognition | 44 | | 2 | [JaColBERTv2.5](https://huggingface.co/answerdotai/JaColBERTv2.5) | 📥 600k | ⭐ 22 | sentence-similarity | 45 | | 3 | [japanese-cloob-vit-b-16](https://huggingface.co/rinna/japanese-cloob-vit-b-16) | 📥 593k | ⭐ 13 | feature-extraction | 46 | | 4 | [bert-base-japanese-whole-word-masking](https://huggingface.co/tohoku-nlp/bert-base-japanese-whole-word-masking) | 📥 364k | ⭐ 70 | fill-mask | 47 | | 5 | [cyberagent-open-calm-3b-gguf](https://huggingface.co/mmnga/cyberagent-open-calm-3b-gguf) | 📥 338k | ⭐ 1 | others | 48 | | 6 | [ruri-base](https://huggingface.co/cl-nagoya/ruri-base) | 📥 330k | ⭐ 11 | sentence-similarity | 49 | | 7 | [cyberagent-open-calm-7b-gguf](https://huggingface.co/mmnga/cyberagent-open-calm-7b-gguf) | 📥 262k | ⭐ 2 | others | 50 | | 8 | [vntl-llama3-8b-v2-gguf](https://huggingface.co/lmg-anon/vntl-llama3-8b-v2-gguf) | 📥 244k | ⭐ 8 | translation | 51 | | 9 | [manga-ocr-base](https://huggingface.co/kha-white/manga-ocr-base) | 📥 204k | ⭐ 162 | image-to-text | 52 | | 10 | [xlm-roberta-ner-japanese](https://huggingface.co/tsmatz/xlm-roberta-ner-japanese) | 📥 157k | ⭐ 25 | token-classification | 53 | | 11 | [ruri-v3-310m](https://huggingface.co/cl-nagoya/ruri-v3-310m) | 📥 154k | ⭐ 57 | sentence-similarity | 54 | | 12 | [japanese-gpt-neox-small](https://huggingface.co/rinna/japanese-gpt-neox-small) | 📥 147k | ⭐ 15 | text-generation | 55 | | 13 | [bert-base-japanese-char-v2](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v2) | 📥 128k | ⭐ 6 | fill-mask | 56 | | 14 | [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) | 📥 124k | ⭐ 80 | automatic-speech-recognition | 57 | | 15 | [bert-base-japanese-char-v3](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v3) | 📥 108k | ⭐ 10 | others | 58 | | 16 | [bert-base-japanese-char](https://huggingface.co/tohoku-nlp/bert-base-japanese-char) | 📥 107k | ⭐ 8 | fill-mask | 59 | | 17 | [stockmark-gpt-neox-japanese-1.4b-gguf](https://huggingface.co/mmnga/stockmark-gpt-neox-japanese-1.4b-gguf) | 📥 102k | ⭐ 1 | others | 60 | | 18 | [opus-mt-ja-en](https://huggingface.co/Helsinki-NLP/opus-mt-ja-en) | 📥 89k | ⭐ 66 | translation | 61 | | 19 | [bert-large-japanese-v2](https://huggingface.co/tohoku-nlp/bert-large-japanese-v2) | 📥 69k | ⭐ 13 | others | 62 | | 20 | [Llama-3-ELYZA-JP-8B](https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B) | 📥 67k | ⭐ 139 | text-generation | 63 | 64 | ### Datasets-ranking 65 | 66 | | # | 数据集名称 | Downloads | Likes | 67 | |---|---------|-----------|-------| 68 | | 1 | [KakologArchives](https://huggingface.co/datasets/KakologArchives/KakologArchives) | 📥 115k | ⭐ 17 | 69 | | 2 | [JMedBench](https://huggingface.co/datasets/Coldog2333/JMedBench) | 📥 11k | ⭐ 8 | 70 | | 3 | [Cauldron-JA](https://huggingface.co/datasets/turing-motors/Cauldron-JA) | 📥 7k | ⭐ 8 | 71 | | 4 | [reazon-speech-v2-clone](https://huggingface.co/datasets/litagin/reazon-speech-v2-clone) | 📥 6k | ⭐ 10 | 72 | | 5 | [fineweb-2-edu-japanese](https://huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese) | 📥 6k | ⭐ 22 | 73 | | 6 | [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) | 📥 6k | ⭐ 18 | 74 | | 7 | [AnswerCarefully](https://huggingface.co/datasets/llm-jp/AnswerCarefully) | 📥 6k | ⭐ 47 | 75 | | 8 | [japanese-anime-speech-v2](https://huggingface.co/datasets/joujiboi/japanese-anime-speech-v2) | 📥 4k | ⭐ 126 | 76 | | 9 | [ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) | 📥 4k | ⭐ 99 | 77 | | 10 | [MissingKeys](https://huggingface.co/datasets/RyokoExtra/MissingKeys) | 📥 4k | ⭐ 2 | 78 | | 11 | [voicevox-voice-corpus](https://huggingface.co/datasets/ayousanz/voicevox-voice-corpus) | 📥 4k | ⭐ 6 | 79 | | 12 | [Galgame-VisualNovel-Reupload](https://huggingface.co/datasets/joujiboi/Galgame-VisualNovel-Reupload) | 📥 4k | ⭐ 26 | 80 | | 13 | [Nemotron-Personas-Japan](https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan) | 📥 3k | ⭐ 94 | 81 | | 14 | [JGLUE](https://huggingface.co/datasets/shunk031/JGLUE) | 📥 3k | ⭐ 44 | 82 | | 15 | [emilia-yodas](https://huggingface.co/datasets/TTS-AGI/emilia-yodas) | 📥 3k | ⭐ 4 | 83 | | 16 | [mc4-ja](https://huggingface.co/datasets/izumi-lab/mc4-ja) | 📥 3k | ⭐ 6 | 84 | | 17 | [vntl-leaderboard](https://huggingface.co/datasets/lmg-anon/vntl-leaderboard) | 📥 3k | ⭐ 39 | 85 | | 18 | [mc4-ja-filter-ja-normal](https://huggingface.co/datasets/izumi-lab/mc4-ja-filter-ja-normal) | 📥 3k | ⭐ 5 | 86 | | 19 | [Voice-KusanagiNene](https://huggingface.co/datasets/MomoyamaSawa/Voice-KusanagiNene) | 📥 3k | ⭐ 16 | 87 | | 20 | [EliteVoiceProject](https://huggingface.co/datasets/Elite35P-Server/EliteVoiceProject) | 📥 2k | ⭐ 12 | 88 | 89 | ## Models 90 | ### text-generation 91 | * [japanese-gpt-neox-small](https://huggingface.co/rinna/japanese-gpt-neox-small) - 📥 147k / ⭐ 15 / 一个 12 层、768 隐藏层的日语 GPT‑NeoX 模型,训练数据为 CC‑100、C4 以及 Wikipedia,兼容 Huggingface,并配备可选的玩具前缀调优权重,能强制每个句子末尾以笑脸表情符号结束。 92 | * [Llama-3-ELYZA-JP-8B](https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B) - 📥 67k / ⭐ 139 / Llama‑3‑ELYZA‑JP‑8B 是由 ELYZA 开发的、经过日语增强的 80 亿参数 Llama 3 模型,在 Meta‑Llama‑3‑8B‑Instruct 上针对日语微调。 93 | * [llm-jp-3.1-1.8b](https://huggingface.co/llm-jp/llm-jp-3.1-1.8b) - 📥 48k / ⭐ 9 / llm-jp-3.1-1.8b 是来自 NII 的 Large Language Models R&D Center 的 1.8 b‑parameter 日本 LLM,以 Hugging Face checkpoint 的形式分发(torch ≥ 2.3, transformers ≥ 4.40, accelerate ≥ 0.29, flash‑attn ≥ 2.5),仓库中包含完整的 model specs、tokenizer 和 pre‑training details。 94 | * [llm-jp-3.1-1.8b-instruct4](https://huggingface.co/llm-jp/llm-jp-3.1-1.8b-instruct4) - 📥 38k / ⭐ 13 / 提供 1.8 B 参数 llm‑jp‑3.1‑1.8b‑instruct4 日本指令微调模型,来自 NII,兼容 Hugging Face Transformers 和 Torch ≥ 2.3.0,包括预训练和微调检查点以及使用示例. 95 | * [TinySwallow-1.5B](https://huggingface.co/SakanaAI/TinySwallow-1.5B) - 📥 37k / ⭐ 35 / TinySwallow‑1.5B 是 Sakana AI 与 Swallow Team 开发的紧凑型日语指令遵循语言模型,采用 Qwen2.5‑32B‑Instruct 的 TAID 蒸馏,并在日语文本上进一步预训练,且仅以 Apache 2.0 许可证供研究使用。 96 | * [Llama-3.1-Swallow-8B-Instruct-v0.5](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5) - 📥 31k / ⭐ 15 / Llama 3.1 Swallow 是一组 8‑B 和 70‑B 模型,它们继续对 Meta 的 Llama 3.1 进行预训练,以提升日语语言性能,然后在合成日语数据上进行指令微调,提供多种已发布的变体,其对话行为已改进,与 gemma‑3‑27b‑it 相当。 97 | * [llm-jp-3-1.8b](https://huggingface.co/llm-jp/llm-jp-3-1.8b) - 📥 21k / ⭐ 15 / 来自 NII 研发中心的日本大型语言模型集合(1.8 b 至 172 b beta1,含 instruct 版本),以 Hugging Face Transformers 格式打包,并在混合日语、英语与网络语料库(总计>1万亿个标记)上预训练。需要 torch ≥ 2.3、transformers ≥ 4.40、accelerate ≥ 0.29 以及 flash‑attn ≥ 2.5。 98 | * [japanese-gpt2-medium](https://huggingface.co/rinna/japanese-gpt2-medium) - 📥 15k / ⭐ 82 / Rinna 的 24 层、1024 隐藏单元的日语 GPT‑2‑medium 模型,基于 CC‑100 和维基百科训练,采用 SentencePiece 分词,已在 rinna/japanese‑pretrained‑models 仓库公开(MIT 许可证,2021 年 4 月 7 日发布,2021 年 8 月 25 日更新)。 99 | * [Llama-3-ELYZA-JP-8B-AWQ](https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ) - 📥 13k / ⭐ 4 / 日语优化的 80 亿参数 Llama‑3‑ELYZA‑JP‑8B,基于 Meta‑Llama‑3‑Instruct 构建,并进行额外预训练和指令调优,提供 GGUF 和 AWQ 量化格式,用于 vLLM 或 OpenAI 兼容推理。 100 | * [llm-jp-3-7.2b-instruct3](https://huggingface.co/llm-jp/llm-jp-3-7.2b-instruct3) - 📥 13k / ⭐ 4 / 托管 LLM‑jp‑3‑7.2b‑instruct3 7.2 B 参数的日语语言模型,来自信息学研究所,预训练于日语维基百科和 Common Crawl,并以 Hugging Face Transformers 格式提供,要求 torch ≥ 2.3、transformers ≥ 4.40、accelerate ≥ 0.29 以及 flash‑attn ≥ 2.5。 101 | * [Llama-3.1-Swallow-8B-Instruct-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2) - 📥 12k / ⭐ 15 / Llama 3.1 Swallow 提供 8 B 和 70 B 的日语增强语言模型,基于持续预训练和指令微调 Meta’s Llama 3.1 构建,同时保留原始的英语功能。 102 | * [Llama-3-Swallow-8B-Instruct-v0.1](https://huggingface.co/tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1) - 📥 9k / ⭐ 20 / Llama3 Swallow 是 Meta Llama 3 系列的日语增强版本,于 2024 年 7 月 1 日发布,提供 8B 与 70B 版本的 Instruct 与 chat 模式,已在 Megatron‑LM 上使用 SFT 与 Chat Vector 进行微调,并在关键的日语 NLP 任务上进行了基准测试。 103 | * [Llama-3-70B-japanese-suzume-vector-v0.1](https://huggingface.co/mmnga/Llama-3-70B-japanese-suzume-vector-v0.1) - 📥 9k / ⭐ 4 / 实验性日语模型通过使用聊天向量方法提取 lightblue/suzume‑llama‑3‑8B‑japanese 与 Meta‑Llama‑3‑8B‑Instruct 之间的差异创建,然后上采样并应用于 Meta‑Llama‑3‑70B‑Instruct,显示出变化不大,并计划未来扩大规模。 104 | * [japanese-gpt2-small](https://huggingface.co/rinna/japanese-gpt2-small) - 📥 7k / ⭐ 25 / rinna 的日语 GPT‑2 small 是一个 12 层、768 维隐藏层的 Transformer,训练于日语 CC‑100 和 Wikipedia,使用 SentencePiece 进行分词,发布于 2021 年 8 月 25 日,遵循 MIT 协议(Hugging Face: rinna/japanese‑gpt2‑small,参见 https://arxiv.org/abs/2404.01657)。 105 | * [open-calm-1b](https://huggingface.co/cyberagent/open-calm-1b) - 📥 5k / ⭐ 17 / OpenCALM 是 CyberAgent 出品的一套日本解码器模型,参数范围为 160 M 至 6.8 B,基于 GPT‑NeoX 构建,采用 CC BY‑SA 4.0 许可发布。 106 | * [gpt-neox-japanese-2.7b](https://huggingface.co/abeja/gpt-neox-japanese-2.7b) - 📥 5k / ⭐ 58 / 一款由 ABEJA Inc. 使用日语 CC‑100 和 OSCAR 训练的 2.7B 参数日语 GPT‑NeoX 模型,可通过 Hugging Face Transformers 管道或 PyTorch 使用,按 MIT 许可证发布。 107 | * [ELYZA-japanese-Llama-2-7b-instruct](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b-instruct) - 📥 5k / ⭐ 74 / ELYZA‑japanese‑Llama‑2‑7b 是 Meta 的 Llama‑2 模型的 6.27 B 参数扩展版,已在包含 instruct 和 fast 变体的日语数据上预训练,可通过 Hugging Face Transformers 使用。 108 | * [sarashina2.2-3b-instruct-v0.1](https://huggingface.co/sbintuitions/sarashina2.2-3b-instruct-v0.1) - 📥 5k / ⭐ 33 / 提供了一款来自 SB Intuitions 的自回归式日语语言模型 (sarashina2.2‑3B‑instruct‑v0.1),已与其他模型进行基准测试,并附示例使用脚本,且安全训练有限。 109 | * [TinySwallow-1.5B-Instruct](https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct) - 📥 4k / ⭐ 56 / TinySwallow‑1.5B‑Instruct 是一个 1.5 B 的日语指令调优自回归语言模型,使用 TAID 从 Qwen2.5‑32B‑Instruct 进行蒸馏,供研究用途。 110 | * [shisa-gamma-7b-v1](https://huggingface.co/augmxnt/shisa-gamma-7b-v1) - 📥 4k / ⭐ 18 / 使用 Shisa 7B 数据,微调了日语 Stable LM Base Gamma 7B,在 JA MT‑Bench 上取得了强劲的表现。 111 | * [Llama-3-ELYZA-JP-8B-Heretic-GGUF](https://huggingface.co/ChiKoi7/Llama-3-ELYZA-JP-8B-Heretic-GGUF) - 📥 4k / ⭐ 1 / Heretic‑v1.1.0 对日本增强版 Llama‑3‑ELYZA‑JP‑8B 模型的抹除化,生成了一个去审查的版本,该版本在日语提示下表现良好,但在英语提示下具有很高的拒绝率。 112 | * [llm-jp-3.1-13b-instruct4](https://huggingface.co/llm-jp/llm-jp-3.1-13b-instruct4) - 📥 3k / ⭐ 15 / LLM‑jp‑3.1‑13b‑instruct4 是一个 13‑B 的、基于指令预训练的日语语言模型,由 NII 的研发中心开发,并以 Hugging‑Face Transformers 检查点的形式发布,使用 UNIGRAM‑byte‑fallback 分词器。 113 | * [Llama-3.1-Swallow-8B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3) - 📥 3k / ⭐ 22 / Llama 3.1 Swallow 是一系列日语增强的 8B/70B Llama 3.1 模型,通过持续预训练和日语特定指令微调训练,最新的 8B‑Instruct‑v0.3 在日语 MT‑Bench 上取得了最先进的结果。 114 | * [open-calm-small](https://huggingface.co/cyberagent/open-calm-small) - 📥 3k / ⭐ 19 / OpenCALM 是 CyberAgent 开发的日本解码器(decoder‑only)Transformers 语言模型系列(160 M–6.8 B 参数),基于日本维基百科和 Common Crawl 训练,并以 CC BY‑SA 4.0 许可证发布。 115 | * [Swallow-7b-instruct-hf](https://huggingface.co/tokyotech-llm/Swallow-7b-instruct-hf) - 📥 3k / ⭐ 43 / TokyoTech‑LLM 提供 Swallow Llama 2 系列——日语增强、超级监督微调和无词表扩展变体,适用于 7 B、13 B 和 70 B 模型,近期发布包括 Swallow‑7b‑instruct‑v0.1 和 Swallow‑70b‑NVE‑hf。 116 | * [ABEJA-Qwen2.5-32b-Japanese-v1.0](https://huggingface.co/abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0) - 📥 3k / ⭐ 5 / ABEJA‑Qwen2.5‑32b‑Japanese‑v1.0,基于 Qwen2.5‑32B‑Instruct 开发,加入日语为中心的预训练,随后进行 SFT 和 DPO 微调(详细信息见 ABEJA 的技术博客)。 117 | * [llm-jp-3-13b](https://huggingface.co/llm-jp/llm-jp-3-13b) - 📥 3k / ⭐ 13 / 该仓库托管了来自国立信息学研究所的 Hugging Face 检查点,用于日本 LLMs(1.8 B、3.7 B、13 B、17.2 B),需要 PyTorch 2.3+、Transformers 4.40+,并包含示例推理代码、一个 2.1 T‑token 基于词素的分词器,以及在混合日英语料库上的预训练。 118 | * [Gemma-2-Llama-Swallow-27b-it-v0.1](https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1) - 📥 2k / ⭐ 2 / Gemma‑2‑Llama‑Swallow 是 Gemma‑2 系列模型(2b、9b、27b)的一个家族,持续在合成日语数据上进行预训练和指令调优,提升日语表现的同时保持英文能力,并已在 Hugging Face 上发布。 119 | * [Gemma-2-Llama-Swallow-9b-pt-v0.1](https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-9b-pt-v0.1) - 📥 2k / ⭐ 1 / 日本增强、指令调优的 Gemma‑2 模型,基于 Llama(2b/9b/27b 预训练和指令版本),于 2025 年 5 月 19 日发布,可通过 HuggingFace 和 Swallow 团队网站获取。 120 | * [youri-7b](https://huggingface.co/rinna/youri-7b) - 📥 2k / ⭐ 21 / youri‑7b 是一个32层、4096隐藏单元的 transformer,基于 Llama2‑7b 构建,持续在约 40 B 个日语 token(CC‑100、C4、OSCAR、Pile、Wikipedia)上进行预训练,并于 2023 年 10 月 31 日发布,在 AI2 Reasoning Challenge、HellaSwag、MMLU、TruthfulQA 和 Winogrande 上取得了竞争性的分数。 121 | * [japanese-stablelm-instruct-gamma-7B-GGUF](https://huggingface.co/TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF) - 📥 2k / ⭐ 10 / 仓库提供 GGUF 格式、量化的模型文件,适用于 Stability AI 的日本版 StableLM Instruct Gamma 7B,由 Massed Compute 硬件创建,并且是 TheBloke 的 a16z‑资助 LLM 工作的一部分。 122 | * [ELYZA-japanese-Llama-2-7b-fast-instruct](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b-fast-instruct) - 📥 2k / ⭐ 81 / 来自 ELYZA 的日语增强版 Llama‑2‑7B,已预训练以提供扩展的日语语言能力,提供标准、指导和快速版本,附有详细使用示例、开发者署名,并遵循 Meta’s Llama‑2 Community License 许可。 123 | * [open-calm-7b](https://huggingface.co/cyberagent/open-calm-7b) - 📥 2k / ⭐ 205 / OpenCALM 是 CyberAgent, Inc. 开发的日语仅解码器 Transformer 语言模型套件,包含 160 M 至 6.8 B 参数的版本,预训练于 Wikipedia 和 Common Crawl, 可通过 Transformers 库以 CC BY‑SA 4.0 许可证获取。 124 | * [japanese-large-lm-3.6b](https://huggingface.co/line-corporation/japanese-large-lm-3.6b) - 📥 2k / ⭐ 75 / 一个 3.6 billion 参数的日语 GPT‑NeoX 模型,训练于约 650 GB 的日语文本(C4、CC‑100、Oscar、网络爬虫),在内部 C4 验证集上达成 7.50 的困惑度,并以 Apache 2.0 许可证发布。 125 | * [sarashina2.2-0.5b-instruct-v0.1](https://huggingface.co/sbintuitions/sarashina2.2-0.5b-instruct-v0.1) - 📥 2k / ⭐ 13 / SB Intuitions的 Sarashina2.2‑0.5B instruct v0.1 是一个拥有5亿参数的日语自回归模型,在日语和英语 MT 基准上表现良好,并已准备好通过 torch‑transformers 加载。 126 | * [Swallow-7b-hf](https://huggingface.co/tokyotech-llm/Swallow-7b-hf) - 📥 2k / ⭐ 17 / TokyoTech‑LLM 仓库提供了经过日本数据增强的 Swallow Llama‑2 系列 LLaMA‑2 模型,涵盖 7B、13B 和 70B 变体,其中包括 instruction‑tuned、NVE‑tuned 以及自 2023 年 12 月以来发布的 7B Plus 版本。 127 | * [sarashina2.2-1b-instruct-v0.1](https://huggingface.co/sbintuitions/sarashina2.2-1b-instruct-v0.1) - 📥 2k / ⭐ 12 / 本仓库托管了 SB Intuitions 的 1 B‑parameter 自回归日语指令模型 sarashina2.2‑1b‑instruct‑v0.1,已在日语和英语 MT 与指令任务上与其他 Japanese‑BERTs 进行基准测试,附带 torch-transformer 使用代码片段和有限安全训练的警告。 128 | * [ELYZA-japanese-Llama-2-7b-fast](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b-fast) - 📥 2k / ⭐ 23 / ELYZA‑japanese‑Llama‑2‑7b 是 Meta 的 Llama‑2‑7B 的 6.27‑B‑parameter Japanese extension,进一步预训练以适用于日语语言任务,并提供 base、instruct、fast 和 fast‑instruct 变体,由 ELYZA team 在 Llama 2 Community License 下维护。 129 | * [ELYZA-japanese-Llama-2-7b](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b) - 📥 2k / ⭐ 96 / ELYZA‑japanese‑Llama‑2‑7b 是 Meta 的 Llama‑2 7 B 的日语优化扩展,提供 instruct 和 fast 变体,参数为 6.27–6.37 B,可通过 Hugging‑Face Transformers 库访问。 130 | * [karasu-1.1B](https://huggingface.co/lightblue/karasu-1.1B) - 📥 2k / ⭐ 7 / 预训练的 TinyLlama 在日语(≈50 k 步),基于约3 B OSCAR/mC4 tokens,可通过 HuggingFace Transformers 或 VLLM 使用,由 Peter Devine、Sho Higuchi、Yuuki Yamanaka、Atom Sonoda、Shunichi Taniguchi、Tomioka Wataru 和 Renju Aoki 创建。 131 | * [llm-jp-1.3b-v1.0](https://huggingface.co/llm-jp/llm-jp-1.3b-v1.0) - 📥 2k / ⭐ 15 / LLM‑jp提供13 B和1.3 B变压器语言模型,包括多种指令调优变体,采用Megatron‑DeepSpeed和Hugging Face Transformers生态系统构建。 132 | * [llm-jp-13b-v1.0](https://huggingface.co/llm-jp/llm-jp-13b-v1.0) - 📥 1k / ⭐ 41 / 来自 LLM‑jp 的大规模语言模型 — 13B 和 1.3B 日英双语 transformer,拥有多种指令和 LoRA 变体,使用 Megatron‑DeepSpeed 预训练,并以 Hugging Face 格式(torch ≥ 2.0,transformers ≥ 4.34)发布。 133 | * [Llama-3.1-Swallow-8B-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-v0.2) - 📥 1k / ⭐ 4 / Llama 3.1 Swallow 提供 8B 和 70B 的日语增强语言模型,这些模型通过持续预训练和指令微调的合成日语数据创建,并已公开发布 v0.1–v0.3 版本,在 JCom、JEMHopQA、NIILC、JSQuAD 等基准测试上表现出色。 134 | * [japanese-stablelm-instruct-gamma-7b](https://huggingface.co/stabilityai/japanese-stablelm-instruct-gamma-7b) - 📥 1k / ⭐ 53 / Japanese Stable LM Instruct Gamma 7B 是一个 7‑B 参数的仅解码器日语语言模型,经过指令数据集微调,基于 Base Gamma 7B 构建,需要 Transformers 4.34+,采用 Apache 2.0 许可证,由 Stability AI 开发。 135 | * [ABEJA-Qwen2.5-7b-Japanese-v0.1](https://huggingface.co/abeja/ABEJA-Qwen2.5-7b-Japanese-v0.1) - 📥 1k / ⭐ 10 / ABEJA-Qwen2.5-7b-Japanese-v0.1 是一个日语微调的 Qwen 2.5 7B 模型,来自 32B 日语变体的蒸馏,使用 ChatVector 进行指令跟随的优化,可通过 PyTorch 和 Hugging Face Transformers 获得。 136 | * [llama-3-youko-8b](https://huggingface.co/rinna/llama-3-youko-8b) - 📥 1k / ⭐ 62 / Meta‑Llama‑3‑8B的面向日语的变体,称为 Llama 3 Youko 8B,已在约22亿词元的日语语料库(CC‑100、C4、OSCAR、The Pile、Wikipedia)上持续预训练和指令微调,并于2024年5月1日发布。 137 | * [ELYZA-japanese-Llama-2-13b-instruct](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-13b-instruct) - 📥 1k / ⭐ 42 / ELYZA‑japanese‑Llama‑2‑13b 扩展了 Meta’s Llama 2,额外对日语进行预训练,提供 13 B 参数模型(包括 instruct 和 fast 变体),可在 Llama 2 Community License 下使用 PyTorch 和 🤗 Transformers 加载。 138 | * [Gemma-2-Llama-Swallow-9b-it-v0.1](https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1) - 📥 1k / ⭐ 4 / Gemma‑2‑Llama‑Swallow 是 Gemma 2 的面向日语的扩展,提供 2B、9B 和 27B 模型,这些模型通过持续学习预训练,并通过 SFT 在合成日语数据上进行指令微调,并已在 HuggingFace 和 Swallow 团队网站上分发。 139 | * [Sakura-13B-Galgame-GGUF](https://huggingface.co/QuantFactory/Sakura-13B-Galgame-GGUF) - 📥 1k / ⭐ 2 / 一款获得 CC BY‑NC‑SA 4.0 授权的离线量化日英 Galgame/轻小说翻译模型(Sakura‑13B‑Galgame),采用 llama.cpp 构建,交付接近 GPT‑3.5 的性能,提供多种尺寸,并兼容 OpenAI‑API 的后端。 140 | * [llm-jp-3-3.7b](https://huggingface.co/llm-jp/llm-jp-3-3.7b) - 📥 1k / ⭐ 10 / Hugging Face 兼容的日语 transformer LLMs(1.8b、3.7b、13b 及其 instruct/beta 变体),构建于 torch ≥ 2.3、transformers ≥ 4.40.1、accelerate、flash‑attn,并在混合日英语语料库(如 Wikipedia、Common Crawl 和 Dolma)上预训练。 141 | * [Swallow-70b-instruct-hf](https://huggingface.co/tokyotech-llm/Swallow-70b-instruct-hf) - 📥 1k / ⭐ 37 / 提供 Swallow Llama‑2 系列的日英 LLM——包括 7B、13B、70B 三种模型,分别提供 instruct、NVE 和 preview 变体——通过监督微调进行调优,可通过 Megatron‑LM 及其 tokenizer 使用,并在核心日语任务上进行基准测试。 142 | * [Llama-3.1-Future-Code-Ja-8B](https://huggingface.co/future-architect/Llama-3.1-Future-Code-Ja-8B) - 📥 1k / ⭐ 6 / Llama 3.1 Future Code Ja 是一个基于 Meta 的 Llama 3.1 构建的 8 B 参数模型,训练于日语代码与自然语言数据(Stack V2、LLM‑jp Corpus),通过 SFT/DPO 进行微调,支持因果推断和 Fill‑in‑the‑Middle 推断,并在日语和英语代码补全任务中优于原生 Llama 3.1 与 Qwen 系列。 143 | * [weblab-10b-instruction-sft-GPTQ](https://huggingface.co/dahara1/weblab-10b-instruction-sft-GPTQ) - 📥 1k / ⭐ 13 / 一个 autoGPTQ‑量化的 10‑B‑参数日语中心多语言 GPT‑NeoX 模型(weblab‑10b‑instruction‑sft‑GPTQ),将原始 21.42 GB 缩减为更快、需要 GPU 的版本,提供 6.03 GB gguf 替代版可通过 llama.cpp 在 CPU 上使用,并可在本地使用 text‑generation‑webui(RTX 3060 上约 16 tokens/s)运行或在 Colab 交互式运行。 144 | * [japanese-stablelm-base-beta-70b](https://huggingface.co/stabilityai/japanese-stablelm-base-beta-70b) - 📥 1k / ⭐ 17 / Japanese‑StableLM‑Base‑Beta‑70B 是一个 70 B 参数、衍生自 Llama‑2 的仅解码器语言模型,经过在多样化日语数据上的微调,提供更小的 7 B 版本、可遵循指令的变体以及更快推理的版本,全部均采用 Llama2 Community License。 145 | * [llm-jp-13b-instruct-full-dolly-oasst-v1.0](https://huggingface.co/llm-jp/llm-jp-13b-instruct-full-dolly-oasst-v1.0) - 📥 1k / ⭐ 4 / LLM‑jp 提供指令式以及预训练的 13B/1.3B Transformer 模型,格式为 Hugging Face 和 DeepSpeed,训练基于 50k+ 混合日语/英语/源代码数据,并要求 torch ≥ 2.0、transformers ≥ 4.34 以及 accelerate 0.23。 146 | * [llm-jp-13b-instruct-full-jaster-v1.0](https://huggingface.co/llm-jp/llm-jp-13b-instruct-full-jaster-v1.0) - 📥 1k / ⭐ 15 / 13‑B 与 1.3‑B 参数的 LLM‑jp 指令微调模型(包含 LoRA 变体)的代码仓库,以 Hugging Face Transformers 格式打包,并要求 torch ≥ 2.0、transformers ≥ 4.34 与 accelerate 0.23,已在约 50k 个日语/英语/代码混合示例上使用 Megatron‑DeepSpeed 与 PEFT 训练。 147 | * [japanese-stablelm-instruct-beta-70b](https://huggingface.co/stabilityai/japanese-stablelm-instruct-beta-70b) - 📥 1k / ⭐ 26 / Japanese‑StableLM‑Instruct‑Beta‑70B 是一个 70‑十亿参数的仅解码端 Llama2‑基础日语语言模型,在 Dolly‑15k、Anthropic HH 以及其他公开数据上微调,可提供 7‑十亿参数版本,并在 Llama2 Community License 下发布。 148 | * [llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0](https://huggingface.co/llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0) - 📥 1k / ⭐ 8 / 托管LLM‑jp的13 B和1.3 B日英指令和预训练模型,在多个变体检查点中提供,需使用Hugging Face Transformers(torch ≥ 2.0、transformers ≥ 4.34、accelerate 0.23)以及DeepSpeed支持。 149 | * [japanese-stablelm-base-gamma-7b](https://huggingface.co/stabilityai/japanese-stablelm-base-gamma-7b) - 📥 1k / ⭐ 25 / 一个基于 Mistral‑7B‑v0.1 的 7‑B‑parameter 自回归仅解码器日语模型,由 Stability AI 在 Apache 2.0 授权下发布,适用于高性能日语语言及下游任务,并需要 Transformers 4.34.0+。 150 | * [open-calm-large](https://huggingface.co/cyberagent/open-calm-large) - 📥 1k / ⭐ 11 / OpenCALM 是来自 CyberAgent 的一个仅解码器的日语 Transformer 系列(参数量 160 M – 6.8 B,范围从 open‑calm‑small 到 open‑calm‑7b),训练数据为日语 Wikipedia 和 Common‑Crawl,采用 CC BY‑SA 4.0 许可证,可通过 Hugging Face transformers 使用。 151 | * [ELYZA-japanese-Llama-2-7b-fast-instruct-GPTQ](https://huggingface.co/dahara1/ELYZA-japanese-Llama-2-7b-fast-instruct-GPTQ) - 📥 1k / ⭐ 3 / 提供一个 4‑bit、4.11 GB 的量化版本的 Meta Llama‑2 7B(ELYZA‑japanese‑Llama‑2‑7b‑fast‑instruct),减少内存使用但会降低指令遵循效果,需 GPU 和 autoGPTQ,并包含对替代 AWQ、llama.cpp 和 gguf 量化及基准结果的引用。 152 | * [Llama-3.1-Swallow-8B-Instruct-v0.1](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.1) - 📥 1k / ⭐ 17 / Llama 3.1 Swallow 是由 Meta 的 Llama 3.1 通过持续预训练和指令调优精调得到的 8B 和 70B 日语增强语言模型集合,于 2024 年 10 月发布,并托管在 swallow‑llm.github.io。 153 | * [japanese-gpt-1b](https://huggingface.co/rinna/japanese-gpt-1b) - 📥 1k / ⭐ 106 / 一款 1.3‑B‑parameter、24‑layer transformer GPT‑1B,使用 Japanese C4、CC‑100 和 Wikipedia 进行训练,于 2022 年 1 月 26 日由 rinna Co. 发布,并在 MIT license 下公开。 154 | * [llm-jp-3-1.8b-instruct](https://huggingface.co/llm-jp/llm-jp-3-1.8b-instruct) - 📥 1k / ⭐ 25 / 与 Hugging Face 兼容的日语中心 transformer 模型(llm‑jp‑3‑1.8b、1.8b‑instruct、3.7b、3.7b‑instruct、13b、13b‑instruct、17.2b‑beta1、17.2b‑beta1‑instruct)来自国立信息学研究所,在包含 Wikipedia、Common Crawl、WARP、Kaken、Dolma 在内的多种日语和英语语料库上预训练,并要求 torch ≥ 2.3、transformers ≥ 4.40、accelerate 与 flash‑attn。 155 | * [shisa-base-7b-v1](https://huggingface.co/augmxnt/shisa-base-7b-v1) - 📥 1k / ⭐ 16 / shisa‑base‑7b‑v1 在 Mistral 7B 的基础上增加了来自 MADLAD‑400 的 8 B 日语标记,训练耗时 2,400 个 A100‑40 GPU‑小时,并实现了领先的日语基准性能,超越了可比的 7‑B 日语调优模型,如 Japanese Stable LM、ELYZA 和 Youri。 156 | * [shisa-7b-v1](https://huggingface.co/augmxnt/shisa-7b-v1) - 📥 1k / ⭐ 30 / Shisa 7B 是一款聚焦日语的语言模型,基于 Mistral 7B 构建,使用精心策划的 airoboros、ultrafeedback 和合成 EN‑JA 数据进行训练,并包含预处理、翻译、微调和评估的代码,及未来研究文档。 157 | * [ALMA-7B-Ja-V2](https://huggingface.co/webbigdata/ALMA-7B-Ja-V2) - 📥 1k / ⭐ 20 / C3TR‑Adapter应用了4‑bit QLoRA到gemma‑7b,使得在免费Colab上仅需8.1 GB GPU使用量,而ALMA‑7B‑Ja‑V2提供日英翻译(并支持德语、中文、冰岛语、捷克语),其效果通过BLEU和chrF++指标评估。 158 | * [Llama-3.1-Swallow-70B-v0.1](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-70B-v0.1) - 📥 1k / ⭐ 4 / Llama 3.1 Swallow 提供 8‑B 和 70‑B Japanese‑enhanced Llama 3.1 模型,持续在 Meta Llama 3.1 上预训练,并使用 synthetic Japanese data 进行 instruction‑tuned,Swallow team 在 Megatron‑LM 下发布,并配备 web portal、model index 和 benchmark results。 159 | 160 | ### fill-mask 161 | * [bert-base-japanese-whole-word-masking](https://huggingface.co/tohoku-nlp/bert-base-japanese-whole-word-masking) - 📥 364k / ⭐ 70 / Japanese BERT‑base 在 2019 年日本维基百科上预训练,使用 IPA‑dictionary 与全词掩码,12 层 768 维,32,000 词表,512 标记序列,1 M 步骤,可在 cl‑tohoku/bert‑japanese 获取,遵循 CC‑BY‑SA 许可。 162 | * [bert-base-japanese-char-v2](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v2) - 📥 128k / ⭐ 6 / 一个 BERT‑base 日语模型(12 层,768-维隐藏状态,12 头),在 3000 万条维基百科句子(约 4 GB)上训练,使用 Unidic 2.1.2 词级分词,随后进行字符级分词和全词掩码,使用 512 令牌序列,256 批次,以及 1 M 训练步骤。 163 | * [bert-base-japanese-char](https://huggingface.co/tohoku-nlp/bert-base-japanese-char) - 📥 107k / ⭐ 8 / 一个 BERT‑base 日语模型(12 层,768 维隐藏,12 头),使用 MeCab IPA 词级分词后再进行字符级分词生成 4000 词的词表,在约 1700 万句来自日语维基百科(2.6 GB)的句子上预训练,训练代码位于 cl‑tohoku/bert‑japanese,采用 CC BY‑SA 3.0 许可证发布。 164 | * [bert-base-japanese](https://huggingface.co/tohoku-nlp/bert-base-japanese) - 📥 66k / ⭐ 38 / 一个预训练于约 17 M 条日语维基百科句子(2.6 GB)的 BERT base 模型,使用 IPA 字典和 WordPiece 进行分词,拥有 12 层 / 768‑维隐藏状态 / 12 头,32 000‑token 词汇表,已在 Cloud TPUs 上训练了 1 M 步,并以 CC‑BY‑SA 3.0 许可发布。 165 | * [modernbert-ja-310m](https://huggingface.co/sbintuitions/modernbert-ja-310m) - 📥 37k / ⭐ 18 / ModernBERT‑Ja‑310M 是一种日语 BERT 变体,融合了局部-全局注意力和 RoPE,训练于 4.09 T 日语/英语文本,支持 102 400 词汇量、8 192 令牌序列,并针对 Flash Attention 2 进行了优化。 166 | * [jmedroberta-base-sentencepiece](https://huggingface.co/alabnii/jmedroberta-base-sentencepiece) - 📥 37k / ⭐ 3 / 日本 RoBERTa‑base 模型,预训练于约1000万条日本医学摘要和140万条来自 JST 的正文文本,采用 30 k‑token SentencePiece 进行分词,采用 CC BY‑4.0 许可证发布,可通过 Hugging Face pipelines 使用。 167 | * [line-distilbert-base-japanese](https://huggingface.co/line-corporation/line-distilbert-base-japanese) - 📥 35k / ⭐ 48 / LINE DistilBERT Japanese 是一个 6600 万参数的 DistilBERT 模型,已在 131 GB 的日语网页文本上使用内部 BERT‑base 教师进行预训练,评估基准为 JGLUE,采用 MeCab Unidic 与 SentencePiece 进行分词,并以 Apache 2.0 许可证发布。 168 | * [deberta-v2-base-japanese](https://huggingface.co/ku-nlp/deberta-v2-base-japanese) - 📥 16k / ⭐ 30 / Japanese DeBERTa V2 基础模型已在 171 GB 的日语维基百科、CC‑100 和 OSCAR 数据上预训练,使用 Juman++ 分词和 SentencePiece 标记化,经过三周在八块 NVIDIA A100 GPU 上训练,现已准备好用于微调。 169 | * [bert-base-japanese-v2](https://huggingface.co/tohoku-nlp/bert-base-japanese-v2) - 📥 13k / ⭐ 27 / Japanese BERT‑base(12 层,768 隐藏,12 头)在 4 GB 的日语维基百科(≈30 M 句)上预训练,使用 Unidic 2.1.2 词级分词、WordPiece 子词分词和全词遮蔽。 170 | * [deberta-v2-large-japanese-char-wwm](https://huggingface.co/ku-nlp/deberta-v2-large-japanese-char-wwm) - 📥 10k / ⭐ 8 / 日语 DeBERTa V2 大型模型,已在 171 GB 的日语 Wikipedia、CC‑100 与 OSCAR 上训练,使用字符级 SentencePiece 分词和全词掩码,已准备好通过 Hugging Face Transformers 进行下游微调。 171 | * [japanese-roberta-base](https://huggingface.co/rinna/japanese-roberta-base) - 📥 9k / ⭐ 39 / Japanese‑Roberta‑Base 是来自 rinna Co., Ltd. 的预训练掩码语言模型,提供了正确加载、token 预处理、position‑id 处理的准则,以及强调需要前置 [CLS] token 和一致 tokenization 的使用示例。 172 | * [modernbert-ja-130m](https://huggingface.co/sbintuitions/modernbert-ja-130m) - 📥 8k / ⭐ 45 / 这是一款 1.32 亿参数的日语 ModernBERT 模型,融合了 local‑global 与 RoPE 注意力机制,训练于 4.39 T 词条(日语/英语),词表大小 102k,最大序列长度 8,192,针对 Flash Attention 2 做了优化。 173 | * [deberta-v2-tiny-japanese](https://huggingface.co/ku-nlp/deberta-v2-tiny-japanese) - 📥 7k / ⭐ 2 / Japanese DeBERTa V2 tiny,在约171 GB的日本维基百科、CC‑100 与 OSCAR 语料库上预训练,需使用 Juman++ 词分割,训练耗时 33 小时,使用8块 NVIDIA A100 GPU,并可用于下游任务的微调。 174 | * [modernbert-ja-30m](https://huggingface.co/sbintuitions/modernbert-ja-30m) - 📥 7k / ⭐ 5 / ModernBERT‑Ja‑30M 是一种日语 BERT 变体,融合了本地和全局注意力与 RoPE,训练于 4.39 TB 日英文本,支持 8,192 令牌序列,参数规模从 30 M 到 130 M,最佳搭配 Flash Attention 2。 175 | * [splade-japanese-v3](https://huggingface.co/aken12/splade-japanese-v3) - 📥 6k / ⭐ 10 / 对MIRACL 和 hotchpotch/JQaRA 数据集进行零样本评估,显示日语 SPLADE 变体与其他检索模型中,SPLADE‑v3 达到了 NDCG@10 = 0.604,SPLADE‑v2‑doc 不需要查询编码器,并提供了用于检查词级扩展的示例代码。 176 | * [modernbert-ja-70m](https://huggingface.co/sbintuitions/modernbert-ja-70m) - 📥 3k / ⭐ 6 / ModernBERT‑Ja‑70M 是一种轻量级的日语 BERT 变体,结合本地和全局注意力与 RoPE,在 4.39 T 的混合语言词元(词表 102 400,最大 8 192 个词元)上训练,支持 Flash Attention 2,并提供 30 M 到 310 M 参数的多种尺寸。 177 | * [llm-jp-modernbert-base](https://huggingface.co/llm-jp/llm-jp-modernbert-base) - 📥 3k / ⭐ 10 / 一个 ModernBERT-base 模型在 3.4 TB 日语 llm‑jp‑corpus v4 上训练,经过两阶段微调(max_seq_len 1024 → 8192),达到了 0.92 JSTS、0.91 JNLI 和 0.88 JCoLA。 178 | * [deberta-v2-large-japanese](https://huggingface.co/ku-nlp/deberta-v2-large-japanese) - 📥 2k / ⭐ 9 / Japanese DeBERTa V2 large 在 171 GB 的日本维基百科、CC‑100 与 OSCAR 上预训练(使用 Juman++ 分词和 SentencePiece 分词),并在 8 台 NVIDIA A100 GPU 上通过 Hugging Face Transformers 训练了 36 天。 179 | * [deberta-v2-base-japanese](https://huggingface.co/izumi-lab/deberta-v2-base-japanese) - 📥 2k / ⭐ 4 / DeBERTaV2 base 在日本语语料库(CC‑100、mC4、OSCAR2301、Wikipedia、Wikinews)上训练,并使用 FP‑16 微调进行 NLU 任务(JSTS、JNLI、JCommonsenseQA),以 CC BY‑SA 4.0 许可发布,并由日本研究资助。 180 | * [roberta-base-japanese-with-auto-jumanpp](https://huggingface.co/nlp-waseda/roberta-base-japanese-with-auto-jumanpp) - 📥 2k / ⭐ 8 / Japanese RoBERTa‑base 模型在日语维基百科和 CC‑100 上预训练,使用基于 Juman++ 的 SentencePiece 分词,支持 Hugging Face 微调,经过 8 台 A100 GPU 的混合精度训练,累计训练 700k 步。 181 | * [bert-large-japanese](https://huggingface.co/tohoku-nlp/bert-large-japanese) - 📥 2k / ⭐ 9 / Japanese BERT‑large (24 layers, 1024‑hidden size, 16 heads, 32 K vocab) 预训练在 3000 万条日语维基百科句子上,使用 Unidic‑2.1.2 单词级别分词、WordPiece 子词以及整体词掩码,训练 100 万步。 182 | * [roberta-large-japanese-seq512](https://huggingface.co/nlp-waseda/roberta-large-japanese-seq512) - 📥 1k / ⭐ 3 / 一款512‑token的日语 RoBERTa‑large,预训练于日语 Wikipedia 和 CC‑100,使用 Juman++ + SentencePiece 分词,已在八台 A100 GPU 上训练 670 k 步,学习率为 6×10⁻⁵。 183 | 184 | ### sentence-similarity 185 | * [JaColBERTv2.5](https://huggingface.co/answerdotai/JaColBERTv2.5) - 📥 600k / ⭐ 22 / 用于最终 JaColBERTv2.5 检查点的权重,仅在 JaColBERTv2 数据的 40% 及新配方下训练,已在所有数据集上优于之前所有模型——包括 JaColBERTV2 多语言变体,如 BGE‑M3。 186 | * [ruri-base](https://huggingface.co/cl-nagoya/ruri-base) - 📥 330k / ⭐ 11 / 日语通用文本嵌入模型(Ruri‑v3,30‑310 M 参数,8192‑token 最大,JMTEB 分数高)与 Sentence‑Transformers 使用示例以及与其他日语嵌入模型的基准对比一起提供。 187 | * [ruri-v3-310m](https://huggingface.co/cl-nagoya/ruri-v3-310m) - 📥 154k / ⭐ 57 / Ruri v3 是基于 ModernBERT‑Ja 的先进日语文本嵌入模型,支持多达 8,192 词元输入,100K 词元词汇表,FlashAttention 加速推理,并提供多种尺寸变体,便于快速使用 sentence‑transformer。 188 | * [ruri-v3-30m](https://huggingface.co/cl-nagoya/ruri-v3-30m) - 📥 40k / ⭐ 3 / Ruri v3是一个最先进的日语文本嵌入模型,基于ModernBERT‑Ja构建,支持最多8,192个标记,拥有100 k词汇量,支持FlashAttention加速,并提供多种规模,从37 M到315 M参数。 189 | * [GLuCoSE-base-ja](https://huggingface.co/pkshatech/GLuCoSE-base-ja) - 📥 40k / ⭐ 34 / GLuCoSE 是一个基于 LUKE 的日语句子嵌入模型,输出 768 维均值池化向量(最多 512 个标记),在 Web 和 NLI/搜索数据上训练,在相似性基准测试中达到了 0.864 的 Spearman 相关系数和 0.818 的 Pearson 相关系数。 190 | * [sbert-base-ja](https://huggingface.co/colorfulscoop/sbert-base-ja) - 📥 23k / ⭐ 13 / Japanese Sentence‑BERT base model 在 Japanese SNLI 数据集(523 k 训练、10 k 验证、3.9 k 测试)上微调,使用 colorfulscoop/bert‑base‑ja 背骨,达到 85.3 % 的测试准确率,并在安装依赖后可通过 sentence‑transformers 的 encode 部署。 191 | * [JaColBERTv2](https://huggingface.co/bclavie/JaColBERTv2) - 📥 15k / ⭐ 16 / JaColBERTv2 是一个仅适用于日语的基于 ColBERT 的检索模型,在 MMarco 上通过知识蒸馏训练(每个正例 31 个负例,250k 次,batch 32)。目前它优于 multilingual‑e5‑large、BGE‑M3 和 JaColBERT,完整评估正在进行中。 192 | * [ruri-v3-130m](https://huggingface.co/cl-nagoya/ruri-v3-130m) - 📥 13k / ⭐ 2 / Ruri v3 是基于 ModernBERT‑Ja 的前沿日语文本嵌入模型,支持最多 8192 token 序列、100K token 词汇量、FlashAttention,并以 30 M 至 310 M 参数规模发布,供 sentence‑transformers 使用。 193 | * [sbert-jsnli-luke-japanese-base-lite](https://huggingface.co/oshizo/sbert-jsnli-luke-japanese-base-lite) - 📥 9k / ⭐ 36 / sbert-jsnli‑luke‑japanese‑base‑lite 是一个 768 维的句子变换器,基于 studio‑ousia/luke‑japanese‑base‑lite 构建,训练了一个 epoch 的 shunk031/jsnli,并包含用于聚类、语义搜索以及同时兼容 Sentence‑Transformers 和 HuggingFace 的示例。 194 | * [GLuCoSE-base-ja-v2](https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2) - 📥 8k / ⭐ 21 / GLuCoSE v2 是一款 CPU 友好的日语文本嵌入模型,通过蒸馏和多阶段对比学习进行微调,提供卓越的语义相似性和检索性能——在 MIRACL 及相关基准上优于同等规模的模型。 195 | * [plamo-embedding-1b](https://huggingface.co/pfnet/plamo-embedding-1b) - 📥 6k / ⭐ 44 / PLaMo‑Embedding‑1B 是 Preferred Networks 的一款日语文本嵌入模型,它将日语文本转换为向量,用于信息检索、分类和聚类,在 JMTEB 基准上表现出强大性能,并且在 Apache v2.0 许可证下可免费使用。 196 | * [ruri-v3-70m](https://huggingface.co/cl-nagoya/ruri-v3-70m) - 📥 6k / ⭐ 1 / Ruri v3 提供高性能的日语文本嵌入,支持至 8192 个 token,拥有 100k 个 token 的词汇表,支持 FlashAttention,并提供多种模型规模(30 m–310 m),以实现高效推理和通过 sentence‑transformers 进行微调。 197 | * [ruri-large](https://huggingface.co/cl-nagoya/ruri-large) - 📥 4k / ⭐ 44 / 一组已准备好发布的 Ruri v3 日语文本嵌入模型(30m–310m),完整附带 SentenceTransformer 使用技巧、查询/段落前缀,以及 JMTEB 基准结果,展示它们与其他日语和多语言嵌入模型的比较。 198 | * [sarashina-embedding-v1-1b](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b) - 📥 2k / ⭐ 38 / Sarashina‑Embedding‑v1‑1B 是一个 1.2 B 参数的日语文本嵌入模型,构建于 Sarashina2.1‑1B 上,使用多阶段对比学习训练,以在 JMTEB 上达到最先进的分数,同时在非商业许可下生成 1,792 维的稠密向量,用于语义相似度、搜索和分类。 199 | * [RoSEtta-base-ja](https://huggingface.co/pkshatech/RoSEtta-base-ja) - 📥 1k / ⭐ 8 / RoSEtta 是一款基于 RoFormer 并使用 RoPE 的日语句子嵌入模型,先通过 MLM 预训练,然后进行弱监督、蒸馏和对比学习,以在检索任务中处理最多 1024 个 token 的能力表现出色,需使用 “query:” 或 “passage:” 前缀,并可通过 Sentence Transformers 或 Hugging Face Transformers 使用。 200 | * [simcse-ja-bert-base-clcmlp](https://huggingface.co/pkshatech/simcse-ja-bert-base-clcmlp) - 📥 1k / ⭐ 15 / Japanese SimCSE 基于 BERT‑base‑japanese‑v2,在 JSNLI 数据集上微调用于句子嵌入,兼容 Sentence‑Transformers,并使用 cosine‑similarity loss 训练,以最大化 Spearman correlation。 201 | 202 | ### feature-extraction 203 | * [japanese-cloob-vit-b-16](https://huggingface.co/rinna/japanese-cloob-vit-b-16) - 📥 593k / ⭐ 13 / Japanese CLOOB‑VIT-B-16 是基于 vit‑base‑patch16‑224 的视觉-语言模型,在翻译后的 CC12M 标题上训练,并于 2022 年 5 月 12 日由 rinna Co., Ltd. 以 Apache 2.0 许可发布。 204 | * [sentence-bert-base-ja-mean-tokens-v2](https://huggingface.co/sonoisa/sentence-bert-base-ja-mean-tokens-v2) - 📥 56k / ⭐ 51 / 一款在 cl‑tohoku/bert‑base‑japanese‑whole‑word‑masking 上使用 MultipleNegativesRankingLoss 细调的 Japanese Sentence‑BERT v2,较 v1 提升了约 1.5–2 %的准确率,并以 sonoisa/sentence‑bert‑base‑ja‑mean‑tokens‑v2 发布。 205 | * [japanese-clip-vit-b-16](https://huggingface.co/rinna/japanese-clip-vit-b-16) - 📥 30k / ⭐ 22 / rinna/japanese-clip‑vit‑b‑16 是一个 Apache‑2.0 许可的日语 CLIP 模型,基于 ViT‑B/16,训练于 CC12M captions 翻译成日语,并于 2022 年 5 月 12 日发布。 206 | * [sentence-bert-base-ja-mean-tokens](https://huggingface.co/sonoisa/sentence-bert-base-ja-mean-tokens) - 📥 24k / ⭐ 11 / 用于生成句子嵌入的 Japanese Sentence‑BERT (v1) 模型,已提供改进版 v2,并通过 Hugging Face Transformers 以及自定义的 `SentenceBertJapanese` 类进行示例使用。 207 | * [clip-japanese-base](https://huggingface.co/line-corporation/clip-japanese-base) - 📥 21k / ⭐ 29 / LY Corporation的clip‑japanese‑base 是一个日语 CLIP 模型,在约10亿对图像‑文本对上训练,使用 Eva02‑B transformer 图像编码器和 12 层 BERT 文本编码器,在 STAIR 上实现 R@1 0.30,在 Recruit 上得到 0.89 的准确率,在 ImageNet‑1K 上得到 0.58 的准确率,并支持 zero‑shot 图像分类和检索。 208 | * [transformers-ud-japanese-electra-base-ginza-510](https://huggingface.co/megagonlabs/transformers-ud-japanese-electra-base-ginza-510) - 📥 11k / ⭐ 2 / ja_ginza_electra 是一个 spaCy v3 Python 包,提供一个在 mC4 和 UD_Japanese_BCCWJ r2.8(基于 megagonlabs/transformers‑ud‑japanese‑electra‑base‑discrimininator)上微调的日语 ELECTRA 模型,并配有自定义 bunsetu‑phrase 检测功能,按 MIT license 分发。 209 | * [t5-base-japanese](https://huggingface.co/sonoisa/t5-base-japanese) - 📥 3k / ⭐ 53 / 一个Japanese‑language T5 model,在约100 GB的Wikipedia和OSCAR数据上使用SentencePiece tokenization进行预训练,超越了Google’s multilingual T5在news‑classification benchmark上的表现,但需要fine‑tuning,并可能产生biased outputs. 210 | * [sentence-luke-japanese-base-lite](https://huggingface.co/sonoisa/sentence-luke-japanese-base-lite) - 📥 3k / ⭐ 14 / Japanese Sentence‑LUKE 模型在与 Sentence‑BERT 同一数据集上训练,表现超过或匹配其性能,基于 studio‑ousia/luke‑japanese‑base‑lite 构建,并通过 Hugging Face Transformers 的 MLukeTokenizer 与 LukeModel 进行使用。 211 | * [sup-simcse-ja-large](https://huggingface.co/cl-nagoya/sup-simcse-ja-large) - 📥 2k / ⭐ 14 / Sup‑simcse‑ja‑large 提供了一个经过监督训练的 SimCSE 微调的日文 BERT‑large (cl‑tohoku/bert‑large‑japanese‑v2) 模型,采用 CLS‑plus‑MLP 池化,在约 1 M 的 JSNLI 句子上训练(lr 5e‑5, batch 512, temp 0.05, max 64),并可直接与 Sentence‑Transformers 或 Hugging Face Transformers 一起使用。 212 | * [sarashina-embedding-v2-1b](https://huggingface.co/sbintuitions/sarashina-embedding-v2-1b) - 📥 2k / ⭐ 17 / Sarashina‑Embedding‑v2‑1B 是一个 1,792 维的日语句子变换器,使用多阶段对比学习训练,获得了前沿的 JMTEB 分数,可通过 Sentence‑Transformers 并搭配可选指令前缀,用于语义相似度、搜索、改写挖掘、分类和聚类。 213 | * [sup-simcse-ja-base](https://huggingface.co/cl-nagoya/sup-simcse-ja-base) - 📥 1k / ⭐ 2 / 一个日语 BERT‑base 模型,在 JSNLI 上使用有监督 SimCSE 进行微调,通过 Sentence‑Transformers 或 HuggingFace 提供,采用 CLS 池化。在 1M 个样本上训练,批量大小为 512,学习率为 5×10⁻⁵,温度为 5×10⁻⁵,64 令牌限制,采用 BFloat16 精度。 214 | 215 | ### translation 216 | * [vntl-llama3-8b-v2-gguf](https://huggingface.co/lmg-anon/vntl-llama3-8b-v2-gguf) - 📥 244k / ⭐ 8 / 一个基于新 VNTL 数据集构建的 LLaMA 3 Youko qlora 微调模型,优化用于准确、逐字翻译日本视觉小说为英文,不使用聊天模式,采用默认 LLaMA 3 提示,并推荐中性采样(温度 0,无重复惩罚)。 217 | * [opus-mt-ja-en](https://huggingface.co/Helsinki-NLP/opus-mt-ja-en) - 📥 89k / ⭐ 66 / 来自 Opus 语料库的日语‑英语 Transformer‑Align 机器翻译模型,使用归一化和 SentencePiece 预处理,在 Tatoeba 测试集上达到了 41.7 BLEU 和 0.589 chr‑F。 218 | * [opus-tatoeba-en-ja](https://huggingface.co/Helsinki-NLP/opus-tatoeba-en-ja) - 📥 11k / ⭐ 14 / 英文到日语 transformer‑align MT 模型,BLEU 15.2,构建于 opus+bt‑2021‑04‑10,使用 normalization+SentencePiece,托管于 Tatoeba Challenge。 219 | * [LFM2-350M-ENJP-MT](https://huggingface.co/LiquidAI/LFM2-350M-ENJP-MT) - 📥 5k / ⭐ 79 / LFM2‑350M‑ENJP‑MT 是一个精细调优的 LFM2‑350M 检查点,能够在近实时的双向日英翻译中处理短至中等长度的输入,其质量可与大十倍模型相媲美,已在日常、技术、商业和新闻等领域得到演示,并强调协同人机使用。 220 | * [LFM2-350M-ENJP-MT-GGUF](https://huggingface.co/LiquidAI/LFM2-350M-ENJP-MT-GGUF) - 📥 5k / ⭐ 27 / 已微调、GGUF-量化的 LFM2-350M checkpoint,用于近实时双向日英短至中等文本翻译,可通过 llama.cpp 使用。 221 | * [opus-mt-ja-ru](https://huggingface.co/Helsinki-NLP/opus-mt-ja-ru) - 📥 3k / ⭐ 3 / Japanese- to Russian transformer‑align MT 模型在 Opus 2020‑06‑17 上通过归一化和 SentencePiece 训练,属于 Helsinki‑NLP 的 Tatoeba Challenge,在 Tatoeba 测试集上获得 BLEU 23.2 与 chrF2 0.441 的得分。 222 | * [plamo-2-translate](https://huggingface.co/pfnet/plamo-2-translate) - 📥 2k / ⭐ 106 / PLaMo Translation Model 是由 Preferred Networks 创建的大规模语言模型,专用于翻译任务,提供基础版、后训练版和评估版,在 PLaMo community license 下发布,并未针对聊天或其他下游用途进行 instruction‑tuned。 223 | * [Sugoi-14B-Ultra-GGUF](https://huggingface.co/sugoitoolkit/Sugoi-14B-Ultra-GGUF) - 📥 2k / ⭐ 8 / Sugoi LLM 14B Ultra (GGUF) 是一个日语到英语的翻译模型,BLEU 分数为 21.38,几乎是其之前的 13.67 的两倍,在 RPG‑Maker 括号文本、提示遵循强度以及为交互式聊天 UI 的 JSON 输出方面表现出色。 224 | * [elan-mt-bt-ja-en](https://huggingface.co/Mitsua/elan-mt-bt-ja-en) - 📥 2k / ⭐ 9 / ElanMT‑BT‑ja‑en 是一个 Marian MT 日语到英语模型,仅使用开放授权并反转翻译的维基百科数据进行微调,性能与其他公开模型相当,并明显避免使用网页爬取或机器翻译语料,且以 CC‑BY‑SA‑4.0 许可发布。 225 | * [fugumt-en-ja](https://huggingface.co/staka/fugumt-en-ja) - 📥 1k / ⭐ 54 / FuguMT 是一个基于 Marian‑NMT 的英日翻译模型,使用 Hugging Face Transformers 和 SentencePiece 构建,并在 Tatoeba 上获得了 32.7 的 BLEU 分数。 226 | * [fugumt-ja-en](https://huggingface.co/staka/fugumt-ja-en) - 📥 1k / ⭐ 32 / FuguMT 是一个从日语到英语的 Marian‑NMT 翻译模型,使用 transformers 和 SentencePiece 构建,在 Tatoeba 上得分 39.1 BLEU。 227 | 228 | ### automatic-speech-recognition 229 | * [wav2vec2-large-xlsr-53-japanese](https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-japanese) - 📥 3M / ⭐ 44 / Japanese wav2vec‑2 XLSR‑53 在 Common Voice 6.1、CSS10 与 JSUT 上微调,需 16 kHz 音频,并可通过 HuggingSound 或 HuggingFace 管道使用。 230 | * [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) - 📥 124k / ⭐ 80 / Kotoba‑Whisper v2.0 是从 OpenAI Whisper large‑v3 蒸馏出的日语 ASR 模型,训练于 720 万个 ReazonSpeech 剪辑,推理速度快 6.3 倍,同时在同域测试中匹配教师模型的 CER/WER,并提供 stable‑ts/标点支持以及完整的训练代码在 GitHub 上。 231 | * [wav2vec2-base-japanese-asr](https://huggingface.co/TKU410410103/wav2vec2-base-japanese-asr) - 📥 66k / ⭐ 4 / Fine-tuned wav2vec2‑base 日语 ASR 模型,训练于 Common Voice 11.0,预测仅平假名,以 rinna/japanese‑wav2vec2‑base 为基础模型,在 lr 1e‑4、20 轮(epochs)下细调。 232 | * [kotoba-whisper-v2.1](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.1) - 📥 18k / ⭐ 19 / Kotoba‑Whisper‑v2.1 是一种日语 ASR 模型,扩展了 kotoba‑whisper‑v2.0,集成了标点后处理管道,保持可比的 CER 性能,同时实现无缝、标点感知的转录。 233 | * [kotoba-whisper-v2.2](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.2) - 📥 17k / ⭐ 83 / Kotoba‑Whisper‑v2.2 是一个日语 ASR 模型,扩展了 kotoba‑whisper‑v2.0,集成了说话人划分和自动标点功能,通过 HuggingFace‑Transformers pipeline,并与 Asahi Ushio 与 Kotoba Technologies 合作开发。 234 | * [anime-whisper](https://huggingface.co/litagin/anime-whisper) - 📥 10k / ⭐ 114 / Anime Whisper 是一款轻量级的日语 ASR 模型,在约 5,300 小时的动漫风格对话上进行微调,能够提供低幻觉、节奏对齐标点,以及准确转录非言语声音和 NSFW 内容,并且需要在没有初始提示的情况下运行。 235 | * [reazonspeech-nemo-v2](https://huggingface.co/reazon-research/reazonspeech-nemo-v2) - 📥 7k / ⭐ 35 / reazonspeech-nemo-v2 是一个 619‑M‑参数的日语长文本 ASR 模型,基于改进版 Fast‑Conformer 及 Linearly Scalable Attention,在 ReazonSpeech v2.0 语料库上训练,支持通过 subword RNN‑T decoder(3000‑token SentencePiece)进行多小时推理,并以 Apache 2.0 许可分发。 236 | * [parakeet-tdt_ctc-0.6b-ja](https://huggingface.co/nvidia/parakeet-tdt_ctc-0.6b-ja) - 📥 3k / ⭐ 38 / NVIDIA NeMo 的 0.6 B 参数 Hybrid FastConformer‑TDT‑CTC ASR 模型可转写带标点的日语语音,并可在 NeMo 框架内用于推理或微调。 237 | * [kotoba-whisper-bilingual-v1.0](https://huggingface.co/kotoba-tech/kotoba-whisper-bilingual-v1.0) - 📥 2k / ⭐ 17 / Kotoba‑Whisper‑Bilingual v1.0 提供了快 6.3 倍的蒸馏 Whisper 模型,用于日语和英语 ASR,并实现双向语音转文本翻译,这些模型是基于 OpenAI 的 Whisper large‑v3 通过知识蒸馏、交叉熵和 KL‑divergence 损失构建。 238 | 239 | ### text-classification 240 | * [bert-base-japanese-emotion-lily](https://huggingface.co/alter-wang/bert-base-japanese-emotion-lily) - 📥 44k / ⭐ 3 / 日语BERT Base模型在一个10标签情感博客文章数据集(约1,000句话)上微调,数据集源自tohoku‑nlp/bert-base-japanese,用于精准情感检测与分类。 241 | * [luke-japanese-large-sentiment-analysis-wrime](https://huggingface.co/Mizuiro-sakura/luke-japanese-large-sentiment-analysis-wrime) - 📥 13k / ⭐ 43 / 一个在WRIME数据集上微调的日本LUKE模型,用于分类句子中表达的八种情绪——喜悦、悲伤、期待、惊讶、愤怒、恐惧、厌恶、信任。 242 | * [japanese-sentiment-analysis](https://huggingface.co/jarvisx17/japanese-sentiment-analysis) - 📥 12k / ⭐ 14 / 训练于 chABSA 数据集的日语情感分析模型,获得 loss 0.0001、accuracy 1.0、F1 1.0,由 Transformers 4.24.0 和 PyTorch 1.12.1+cu113 构建,使用 Adam(learning rate 2e‑05、10 epochs、batch size 16)优化,并通过 `model(**inputs)` 进行评估。 243 | * [bert-base-japanese-v3-jsts](https://huggingface.co/llm-book/bert-base-japanese-v3-jsts) - 📥 6k / ⭐ 2 / 一个基于 Japanese BERT‑based model 的模型,已在 JGLUE JSTS 数据集上 fine‑tuned,用于语义相似性评分——在《Large Language Model Introduction》第5章中介绍——配有 Colab notebooks、transformers‑pipeline 用法以及 Apache 2.0 许可证。 244 | * [bert-finetuned-japanese-sentiment](https://huggingface.co/christian-phu/bert-finetuned-japanese-sentiment) - 📥 2k / ⭐ 14 / 在亚马逊产品评论上对日语 BERT (cl‑tohoku/bert‑base‑japanese‑v2) 进行微调,用于情感分类,经过6个周期,学习率为2 × 10⁻⁵,达到约81 %准确率和0.73 F1。 245 | * [bert-base-japanese-v2-wrime-fine-tune](https://huggingface.co/patrickramos/bert-base-japanese-v2-wrime-fine-tune) - 📥 1k / ⭐ 6 / 一款在 WRIME 数据集上微调的日语 BERT BASE 可为作家和读者预测八种情绪(喜悦、悲伤、期待、惊讶、愤怒、恐惧、厌恶、信任)的 0‑4 强度得分,代码已公开,在 K80 上训练耗时 3 小时,作家的均方误差约为 0.6,读者约为 0.2。 246 | 247 | ### text-ranking 248 | * [japanese-reranker-xsmall-v2](https://huggingface.co/hotchpotch/japanese-reranker-xsmall-v2) - 📥 13k / ⭐ 5 / 快、轻量级的日语 Reranker v2 模型(tiny、xsmall、small、base),带有基准测试分数和 GPU 速度,可通过 sentence_transformers CrossEncoder 与 transformers ≥ v4.48 使用(可选闪存加速 flash‑attn),并且在 ONNX/量化形式下可用于 CPU/ARM。 249 | * [japanese-reranker-cross-encoder-large-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-large-v1) - 📥 11k / ⭐ 16 / 日语 CrossEncoder 重排序模型——从xsmall到large——在日语文本上训练,通过sentence_transformers公开,评估在JQaRA、JaCWIR、MIRACL和JSQuAD上。 250 | * [japanese-reranker-cross-encoder-small-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-small-v1) - 📥 10k / ⭐ 4 / 日本训练的 CrossEncoder 重新排序器,尺寸从 xsmall(384)到 large(1024),以及 BGE‑v2‑m3‑v1 模型,提供微调、推理和 JQaRA、JaCWIR、MIRACL、JSQuAD 上的基准分数示例代码。 251 | * [ruri-v3-reranker-310m](https://huggingface.co/cl-nagoya/ruri-v3-reranker-310m) - 📥 7k / ⭐ 12 / Ruri‑v3 Reranker 是一个基于 ModernBERT‑Ja 构建的稳健日语文本重排器,支持最高 8,192‑token 序列、100k‑token 词汇表、FlashAttention 以及 SentencePiece 分词器,并可通过 sentence‑transformers 使用。 252 | * [japanese-bge-reranker-v2-m3-v1](https://huggingface.co/hotchpotch/japanese-bge-reranker-v2-m3-v1) - 📥 7k / ⭐ 15 / 一个日语 CrossEncoder 重新排序器套件——包括 xsmall、small、base、large 和 japanese‑bge‑reranker‑v2‑m3‑v1——配合示例用法、在多个基准上的评估指标和支持文档。 253 | * [japanese-reranker-cross-encoder-xsmall-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-xsmall-v1) - 📥 6k / ⭐ 7 / 日语 CrossEncoder 再排序模型,覆盖 xsmall 到 large(含 BGE),在 JQaRA、JaCWIR、MIRACL 与 JSQuAD 上进行评估,并为 sentence_transformers 与 HuggingFace 提供即用的集成示例。 254 | 255 | ### image-to-text 256 | * [manga-ocr-base](https://huggingface.co/kha-white/manga-ocr-base) - 📥 204k / ⭐ 162 / Manga OCR 是一款 Vision Encoder‑Decoder OCR 工具,可读取纵向和横向的日语漫画文本,包括 furigana,适用于多种字体和低质量图像,并且源代码可免费获取。 257 | * [meiki.text.detect.v0](https://huggingface.co/rtr46/meiki.text.detect.v0) - 📥 31k / ⭐ 3 / meikiocr 提供一个基于 D‑FINE、开源权重的视频游戏文本检测模型(v0.1,使用 MobileNet‑v4 骨干网络,提供两种分辨率变体和 64‑box 限制),以及实验性的低延迟 tiny 与 small 变体,训练材料来自日本视频游戏和漫画。 258 | * [meiki.txt.recognition.v0](https://huggingface.co/rtr46/meiki.txt.recognition.v0) - 📥 30k / ⭐ 3 / Meikiocr的 `meiki.text.recognition.v0`——基于 D‑FINE 的 MobileNetV4 模型,在日本视频游戏文本上微调——为水平文本提供最先进的准确率和延迟,能够从 960×32 的输入中检测多达 48 个字符,并输出每个字符的边界框和置信度分数。 259 | * [sarashina2.2-vision-3b](https://huggingface.co/sbintuitions/sarashina2.2-vision-3b) - 📥 3k / ⭐ 13 / Sarashina2.2‑Vision‑3B 是一个 3B 参数的日本大型视觉语言模型,基于 Sarashina2.2‑3B‑Instruct 和 SigLIP 图像编码器,在日本 VQA 基准测试上表现出强劲的性能。 260 | * [sarashina2-vision-8b](https://huggingface.co/sbintuitions/sarashina2-vision-8b) - 📥 1k / ⭐ 10 / Sarashina2‑Vision‑8B 是一款基于 Sarashina2‑7B 和 Qwen2‑VL‑7B 图像编码器构建的日本大型视觉‑语言模型,截至 2025 年 3 月已在四项基准测试中名列前茅,并附带开源推理脚本和训练细节。 261 | 262 | ### token-classification 263 | * [xlm-roberta-ner-japanese](https://huggingface.co/tsmatz/xlm-roberta-ner-japanese) - 📥 157k / ⭐ 25 / 在日语 NER 语料库上对 XLM‑RoBERTa‑base 进行微调(标签 PER, ORG, LOC, INS, PRD, EVT),使用 5‑epoch Adam(lr 5e‑5,batch 12),达到 0.0173 的验证损失,已发布在 Transformers 4.23.1 和 PyTorch 1.12.1。 264 | * [MedNERN-CR-JA](https://huggingface.co/sociocom/MedNERN-CR-JA) - 📥 27k / ⭐ 4 / 一个兼容 Hugging‑Face 的 NER 模型,在 MedTxt‑CR‑JA 日文医学数据集上训练,附带一个预测脚本用于标准化实体输出、生成 XML 标记文本,并使用外部的 `id_to_tags.pkl` 将标签 ID 映射为真实标签。 265 | * [bert-base-japanese-v3-ner-wikipedia-dataset](https://huggingface.co/llm-book/bert-base-japanese-v3-ner-wikipedia-dataset) - 📥 9k / ⭐ 10 / Fine‑tuned Japanese BERT‑Base适用于在维基百科数据集上的命名实体识别,该模型在《*Large Language Model Introduction*》一书第六章中呈现,并可通过Hugging Face transformers pipeline进行部署(Apache 2.0 许可)。 266 | * [bert-ner-japanese](https://huggingface.co/jurabi/bert-ner-japanese) - 📥 9k / ⭐ 11 / 使用 cl‑tohoku/bert‑base‑japanese‑v2 的日语 NER,能够提取八种实体类型(公司、政治/其他组织、设施、产品、事件),通过 `BertForTokenClassification` 实现,训练数据来自 Stockmark Wikipedia dataset,并可通过安装 `transformers`、`unidic_lite` 和 `fugashi` 使用,遵循 CC BY‑SA 3.0 许可。 267 | 268 | ### text-to-speech 269 | * [Anime-Llasa-3B](https://huggingface.co/NandemoGHS/Anime-Llasa-3B) - 📥 3k / ⭐ 23 / Anime‑Llasa‑3B 是一款日本TTS模型,基于 HKUSTAudio/Llasa‑3B,增强了更多训练数据以提升表达力和稳定性,并采用 CC‑BY‑NC‑4.0 许可证。 270 | * [Anime-Llasa-3B-Captions](https://huggingface.co/NandemoGHS/Anime-Llasa-3B-Captions) - 📥 2k / ⭐ 13 / Anime‑Llasa‑3B‑Captions 是一个基于 Anime‑Llasa‑3B 的日语文本到语音模型,并使用 Gemini 2.5 Pro 生成的音频元数据进行微调,能够通过提示标签和文本内标记实现可控语音合成,但它并不能始终完美地反映所指定的属性。 271 | 272 | ### audio-to-audio 273 | * [Anime-XCodec2-44.1kHz-v2](https://huggingface.co/NandemoGHS/Anime-XCodec2-44.1kHz-v2) - 📥 6k / ⭐ 11 / Anime-XCodec2-44.1kHz-v2 将 16 kHz 的日语语音上采样至 44.1 kHz 的高保真音频,采用仅解码器的 RMS‑loss 微调,保持编码器/码本冻结并保留相同的语音令牌。 274 | 275 | ### image-text-to-text 276 | * [PaddleOCR-VL-For-Manga](https://huggingface.co/jzhang533/PaddleOCR-VL-For-Manga) - 📥 2k / ⭐ 114 / 从 PaddleOCR‑VL 微调得到的 PaddleOCR‑VL‑For‑Manga 在 Manga109 的对话框裁剪图像上实现了70%完整句子准确率—是27%基线的三倍以上—并使用多语言数据集,包含训练代码和开发者指南。 277 | 278 | ### others 279 | * [cyberagent-open-calm-3b-gguf](https://huggingface.co/mmnga/cyberagent-open-calm-3b-gguf) - 📥 338k / ⭐ 1 / 一个 gguf 格式的 cyberagent 的 open-calm-3b 模型版本,位于 mmnga-dev 分支,准备好用于 llama.cpp 测试,包含使用示例,并提示一旦 gptneox 集成后可能无法工作。 280 | * [cyberagent-open-calm-7b-gguf](https://huggingface.co/mmnga/cyberagent-open-calm-7b-gguf) - 📥 262k / ⭐ 2 / 一个临时测试分支,提供了 CyberAgent 的 open‑calm‑7b 模型的 gguf 格式版本,适用于 llama.cpp,包含克隆 dev 分支、构建并运行模型的说明(注意还有其他类似的 gguf 发行版)。 281 | * [bert-base-japanese-char-v3](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v3) - 📥 108k / ⭐ 10 / 日本语言 BERT‑Base(12 层,768 维,12 头)使用 Unidic 基于词级加字符级分词和全词掩码在 CC‑100 及 2023 Wikipedia 上进行预训练,产生 7,027 名词表。 282 | * [stockmark-gpt-neox-japanese-1.4b-gguf](https://huggingface.co/mmnga/stockmark-gpt-neox-japanese-1.4b-gguf) - 📥 102k / ⭐ 1 / 对 stockmark 的 gpt‑neox‑japanese‑1.4b 进行 test‑branch 转换为 gguf 格式,旨在与 llama.cpp 的 mmnga‑dev 分支一起使用,并展示了示例推理命令和 GPU 支持。 283 | * [bert-large-japanese-v2](https://huggingface.co/tohoku-nlp/bert-large-japanese-v2) - 📥 69k / ⭐ 13 / Japanese‑BERT‑Large 在 CC‑100 和 Wikipedia 上训练,使用 Unidic‑lite 单词级标记化配合 WordPiece 子词和全词掩码(24 层,1024 维隐藏层,16 头,32k 词表),预训练代码在 cl‑tohoku/bert‑japanese。 284 | * [bert-base-japanese-v3](https://huggingface.co/tohoku-nlp/bert-base-japanese-v3) - 📥 37k / ⭐ 57 / Japanese BERT‑base(12层,768维隐藏层,12头,32 k词汇表)在 CC‑100 和 2023‑Jan Wikipedia 上使用全词遮蔽预训练,采用 Unidic 2.1.2 词级分词加 WordPiece,训练 200 万步。 285 | * [sarashina2.2-0.5b](https://huggingface.co/sbintuitions/sarashina2.2-0.5b) - 📥 37k / ⭐ 10 / Sarashina2.2 提供 0.5‑B、1‑B 和 3‑B 语言模型, 这些模型由 SB Intuitions 通过三阶段流水线和合成数据训练,达到了日本 QA、数学和编码的顶级成绩,同时提供的预训练权重未进行指令微调,可能产生偏见输出。 286 | * [deberta-v3-base-japanese](https://huggingface.co/ku-nlp/deberta-v3-base-japanese) - 📥 16k / ⭐ 17 / Japanese DeBERTa V3 base 在 LLM‑jp v1.0 的 540 B tokens 上预训练,使用经过修改的 DeBERTa V3 设置训练,采用 unigram byte‑fallback tokenizer(不使用形态学分析器),并针对 JGLUE NLU 任务进行微调。 287 | * [t5-base-japanese-v1.1](https://huggingface.co/sonoisa/t5-base-japanese-v1.1) - 📥 15k / ⭐ 10 / 一个预训练在≈100 GB的维基百科和 OS CC‑100 数据(SentencePiece 采用 10:1 混合且带 byte‑fallback)的日文 T5‑v1.1 模型,需要微调以适用于下游任务,包含迁移学习示例代码,指出输出中的潜在偏差,并遵循 CC‑BY‑SA 4.0 许可。 288 | * [Llama-3-ELYZA-JP-8B-Heretic-i1-GGUF](https://huggingface.co/mradermacher/Llama-3-ELYZA-JP-8B-Heretic-i1-GGUF) - 📥 8k / ⭐ 1 / 仓库提供了完整的 weighted/imatrix GGUF 量化模型,用于 Llama‑3‑ELYZA‑JP‑8B‑Heretic,涵盖不同质量和尺寸等级(例如:i1‑IQ1_S、i1‑IQ2_M、i1‑Q4_K_M),可从 Hugging Face 下载,并附带与 TheBloke’s READMEs 链接的使用指导。 289 | * [shisa-v2.1-qwen3-8b-UD-japanese-imatrix](https://huggingface.co/dahara1/shisa-v2.1-qwen3-8b-UD-japanese-imatrix) - 📥 8k / ⭐ 1 / 一个使用 Unsloth Dynamic 2.0 构建、已进行社区补丁以减少故障的 Qwen3 设置、提供更大 imatrix 以提升日语性能,并拥有 40K 最大上下文长度的 GGUF‑quantized shisa‑v2.1‑qwen3‑8b 模型。 290 | * [bart-base-japanese](https://huggingface.co/ku-nlp/bart-base-japanese) - 📥 6k / ⭐ 10 / 日语 BART‑Base,预训练于 1800 万条日语维基百科句子,使用 Juman++ 进行分词,以 SentencePiece 进行标记化,支持微调,在 4 台 Tesla V100 GPU 上训练 500k 步,采用 6‑层 encoder/decoder 与 768‑维隐藏大小。 291 | * [shisa-v2.1-unphi4-14b-i1-GGUF](https://huggingface.co/mradermacher/shisa-v2.1-unphi4-14b-i1-GGUF) - 📥 5k / ⭐ 1 / 在此托管的是 Shisa‑V2.1‑UNPhi4‑14B 的 weighted/imatrix 和 GGUF 量化版本(静态 GGUF 发行版托管在 Hugging Face 上),列出了下载链接、文件大小和质量说明,并附有链接至 TheBloke’s READMEs 的使用指导。 292 | * [Llama-3-ELYZA-JP-8B-GGUF](https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-GGUF) - 📥 5k / ⭐ 69 / Llama‑3‑ELYZA‑JP‑8B 是一款经过日本增强的 8‑B Llama 3 模型,采用 GGUF (Q4_K_M) 和 AWQ 量化,支持通过 llama.cpp、LM Studio 或 OpenAI‑compatible API 运行。 293 | * [gemma-2-2b-jpn-it-translate-gguf](https://huggingface.co/webbigdata/gemma-2-2b-jpn-it-translate-gguf) - 📥 5k / ⭐ 12 / Gemma‑2‑2b‑jpn‑it‑translate‑gguf 是一个 20 亿参数、约 2 GB 的小型语言模型,提供与 70 亿参数模型相当的日英翻译质量,最适合逐句输入,并包含 Colab 和 llama.cpp 的使用示例。 294 | * [Tema_Q-R3.1-i1-GGUF](https://huggingface.co/mradermacher/Tema_Q-R3.1-i1-GGUF) - 📥 4k / ⭐ 1 / 提供 Tema_Q‑R3.1 模型的加权/​imatrix GGUF 量化版本完整列表,详细说明文件大小、质量注释、下载链接、使用指南(包括 GGUF 文件处理)以及链接至模型页面、说明文档和 FAQ。 295 | * [cyberagent-DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf](https://huggingface.co/mmnga/cyberagent-DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf) - 📥 3k / ⭐ 55 / Cyberagent’s gguf‑converted DeepSeek‑R1‑Distill‑Qwen‑14B‑Japanese model(基于 TFMC imatrix 数据集构建)在 mmnga 下可用,并可使用 llama.cpp 进行 CUDA 支持的运行。 296 | * [Ninja-v1-NSFW-gguf](https://huggingface.co/mmnga/Ninja-v1-NSFW-gguf) - 📥 3k / ⭐ 5 / 一个 gguf 格式的 Ninja‑v1‑NSFW 模型,适用于日语 LLM,基于 imatrix 数据集构建,可与 llama.cpp 一起使用(克隆、编译、使用提供的提示运行)。 297 | * [c4ai-command-r-plus-gguf](https://huggingface.co/mmnga/c4ai-command-r-plus-gguf) - 📥 2k / ⭐ 4 / GGUF格式化版本的 CohereForAI 的 c4ai‑command‑r‑plus,使用来自 TFMC/imatrix 的日语 LLM 数据构建,并附带用于连接分割文件和通过 llama.cpp 运行模型以进行日语对话的说明。 298 | * [Ninja-v1-NSFW-128k-gguf](https://huggingface.co/mmnga/Ninja-v1-NSFW-128k-gguf) - 📥 2k / ⭐ 11 / 提供 GGUF‑format 转换的 Ninja‑v1‑NSFW‑128k 模型的存储库,该模型基于 TFMC/imatrix‑dataset‑for‑japanese‑LLM 构建,并附带在 llama.cpp 中运行以生成日本小说文本的使用说明。 299 | * [Llama-3.1-Swallow-8B-v0.5](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-v0.5) - 📥 2k / ⭐ 7 / Llama 3.1 Swallow v0.5 是一个拥有80亿参数的 LLM,通过在合成日语数据上持续预训练和指令微调,提升了 Meta 的 Llama 3.1 在日语语言与代码/数学推理上的表现,同时保持了英语流畅性。 300 | * [t5-small-short](https://huggingface.co/retrieva-jp/t5-small-short) - 📥 2k / ⭐ 2 / 一款使用日语维基百科和 mC4/ja 预训练的 T5 v1.1 模型,采用 GEGLU 激活函数,预训练期间不使用 dropout,未与嵌入层共享分类器,按 CC‑BY‑SA 4.0 许可证发布(商业用途须事先联系)。 301 | * [Vecteus-v1-gguf](https://huggingface.co/mmnga/Vecteus-v1-gguf) - 📥 2k / ⭐ 7 / 来自 Local‑Novel‑LLM 的 Vecteus‑v1 的 gguf‑格式转换,使用 imatrix 数据集构建,可通过 `Vecteus‑v1‑Q4_0.gguf` 在 llama.cpp 中运行,并列出其他相关模型。 302 | * [lightblue-suzume-llama-3-8B-japanese-gguf](https://huggingface.co/mmnga/lightblue-suzume-llama-3-8B-japanese-gguf) - 📥 2k / ⭐ 2 / Japanese 8‑B LLaMA 3 转换为 GGUF 格式,由 lightblue 制作,使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 构建。 303 | * [japanese-splade-v2](https://huggingface.co/hotchpotch/japanese-splade-v2) - 📥 2k / ⭐ 16 / 高性能的日本 SPLADE v2 通过 WebUI demo 实现稀疏向量转换和推理,使用 YAST 进行训练,提供 YASEM 嵌入,并报告 JMTEB benchmark 结果。 304 | * [r1-1776-distill-llama-70b-gguf](https://huggingface.co/mmnga/r1-1776-distill-llama-70b-gguf) - 📥 2k / ⭐ 2 / 一份 GGUF 格式转换的 perplexity‑AI r1‑1776‑distill‑llama‑70b,使用 TFMC/imatrix‑dataset‑for‑japanese‑LLM 的 imatrix 数据构建,已准备好在支持 CUDA 的 llama.cpp 上使用。 305 | * [haqishen-Llama-3-8B-Japanese-Instruct-gguf](https://huggingface.co/mmnga/haqishen-Llama-3-8B-Japanese-Instruct-gguf) - 📥 2k / ⭐ 4 / gguf 格式化转换 Llama‑3‑8B Japanese Instruct,基于 imatrix dataset 构建,已准备好使用 llama.cpp 进行推理。 306 | * [cyberagent-DeepSeek-R1-Distill-Qwen-32B-Japanese-gguf](https://huggingface.co/mmnga/cyberagent-DeepSeek-R1-Distill-Qwen-32B-Japanese-gguf) - 📥 2k / ⭐ 39 / GGUF 格式的 DeepSeek‑R1‑Distill‑Qwen 日语 32B 模型来自 cyberagent,使用 imatrix 数据集构建,已准备好在 llama.cpp 上运行。 307 | * [umiyuki-Umievo-itr012-Gleipnir-7B-gguf](https://huggingface.co/mmnga/umiyuki-Umievo-itr012-Gleipnir-7B-gguf) - 📥 2k / ⭐ 7 / Umievo‑itr012‑Gleipnir‑7B(已在 TFMC/imatrix‑dataset‑for‑japanese‑llm 上训练)的 gguf‑格式版本,已就绪可在 llama.cpp 上运行。 308 | * [Llama-3.1-Swallow-8B-Instruct-v0.5-gguf](https://huggingface.co/mmnga/Llama-3.1-Swallow-8B-Instruct-v0.5-gguf) - 📥 2k / ⭐ 2 / 由 tokyotech‑llm 完成的 Llama‑3.1‑Swallow‑8B‑Instruct‑v0.5 的 GGUF 转换,结合 TFMC/imatrix‑dataset‑for‑japanese‑LLM,附带用于 llama.cpp 的 Build/Run 指令。 309 | * [Ninja-v1-128k-gguf](https://huggingface.co/mmnga/Ninja-v1-128k-gguf) - 📥 2k / ⭐ 2 / 提供了来自 Local‑Novel‑LLM‑project 的 Ninja‑v1‑128k 模型的 gguf‑格式转换,使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 数据构建,并包含 llama.cpp 的使用说明。 310 | * [plamo-2-translate-gguf](https://huggingface.co/mmnga/plamo-2-translate-gguf) - 📥 2k / ⭐ 18 / 由 imatrix 数据构建的 pfnet 的 plamo‑2‑translate 的 GGUF‑格式发布,基于 TFMC/imatrix‑dataset‑for‑japanese‑LLM,附带通过 llama.cpp 在启用 CUDA 的硬件上编译和运行的说明。 311 | * [gemma-3-JP-EN-Translator-v1-4B-i1-GGUF](https://huggingface.co/mradermacher/gemma-3-JP-EN-Translator-v1-4B-i1-GGUF) - 📥 2k / ⭐ 1 / Gemma‑3 JP‑EN translator (v1‑4B) 的加权/矩阵量化版以多种 GGUF 和静态格式提供,并附有 Hugging Face 链接、文件大小/质量注释、质量与大小比较图表,以及针对与视觉模型兼容的 mmproj 文件的使用指南。 312 | * [rinna-llama-3-youko-8b-gguf](https://huggingface.co/mmnga/rinna-llama-3-youko-8b-gguf) - 📥 2k / ⭐ 6 / GGUF‑格式的 rinna 的 llama‑3‑youko‑8b 转换,使用 imatrix 数据集训练,包括使用说明和相关模型的链接。 313 | * [Moonlight-16B-A3B-Instruct-gguf](https://huggingface.co/mmnga/Moonlight-16B-A3B-Instruct-gguf) - 📥 2k / ⭐ 9 / 提供了 gguf 格式的 moonshotai 的 Moonlight‑16B‑A3B‑Instruct,已在 TFMC 的 imatrix 日语数据集上训练,准备好与 llama.cpp(CUDA‑enabled)一起使用,并通过执行 recipe‑request 提示来演示。 314 | * [ELYZA-japanese-Llama-2-7b-fast-instruct-gguf](https://huggingface.co/mmnga/ELYZA-japanese-Llama-2-7b-fast-instruct-gguf) - 📥 2k / ⭐ 44 / 已将 ELYZA 的 7b 日语 Llama‑2 指导模型转换为 GGUF,添加日语词汇以实现 1.8 倍加速,并可在 Llama 2 许可证下使用 llama.cpp 运行。 315 | * [aya-23-35B-gguf](https://huggingface.co/mmnga/aya-23-35B-gguf) - 📥 2k / ⭐ 1 / CohereForAI 的 aya-23-35B 模型的 gguf 格式转换,使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 的 imatrix 数据构建,可通过 llama.cpp 使用 `./main -m 'aya-23-35B-Q4_0.gguf'` 运行。 316 | * [Llama-3.1-70B-Japanese-Instruct-2407-gguf](https://huggingface.co/mmnga/Llama-3.1-70B-Japanese-Instruct-2407-gguf) - 📥 1k / ⭐ 7 / 一个使用 gguf 格式的 cyberagent 的 Llama‑3.1‑70B‑Japanese‑Instruct‑2407 版本,使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 数据构建,并通过 llama.cpp 的 CLI 运行。 317 | * [DataPilot-ArrowPro-7B-KUJIRA-gguf](https://huggingface.co/mmnga/DataPilot-ArrowPro-7B-KUJIRA-gguf) - 📥 1k / ⭐ 10 / DataPilot 的 ArrowPro‑7B‑KUJIRA 模型的 gguf 格式转换,使用 TFMC 的 imatrix 日语 LLM 数据集构建,并使用 llama.cpp 运行。 318 | * [rinna-llama-3-youko-70b-instruct-gguf](https://huggingface.co/mmnga/rinna-llama-3-youko-70b-instruct-gguf) - 📥 1k / ⭐ 1 / 一个使用 gguf 格式的 rinna Llama‑3‑Youko‑70B‑Instruct 模型副本,基于 imatrix 数据构建,已准备好使用 llama.cpp 进行推理。 319 | * [lightblue-DeepSeek-R1-Distill-Qwen-7B-Japanese-gguf](https://huggingface.co/mmnga/lightblue-DeepSeek-R1-Distill-Qwen-7B-Japanese-gguf) - 📥 1k / ⭐ 6 / 仓库托管了 lightblue 的 DeepSeek‑R1‑Distill‑Qwen‑7B‑Japanese 模型的 gguf 转换版本,该模型基于 TFMC/imatrix‑dataset‑for‑japanese‑llm 构建,并已准备好在 llama.cpp 上进行推理。 320 | * [QwQ-32B-Preview-gguf](https://huggingface.co/mmnga/QwQ-32B-Preview-gguf) - 📥 1k / ⭐ 3 / 一个基于 TFMC/imatrix‑dataset‑for‑japanese‑LLM 中 imatrix 数据构建的 Qwen QwQ‑32B‑Preview 模型的 gguf‑格式转换,并包含通过 llama.cpp 运行的说明。 321 | * [tokyotech-llm-Swallow-13b-instruct-v0.1-gguf](https://huggingface.co/mmnga/tokyotech-llm-Swallow-13b-instruct-v0.1-gguf) - 📥 1k / ⭐ 1 / 一个 gguf 格式的 TokyoTech‑LLM Swallow‑13b‑instruct‑v0.1 模型,使用 imatrix 日语数据集构建,已准备好可按展示使用 llama.cpp。 322 | * [karakuri-lm-8x7b-chat-v0.1-gguf](https://huggingface.co/mmnga/karakuri-lm-8x7b-chat-v0.1-gguf) - 📥 1k / ⭐ 4 / 一个 gguf 格式发布 karakuri‑lm‑8x7b‑chat‑v0.1,在 TFMC/imatrix 日本 LLM 数据集上训练,并可在 llama.cpp 上使用 Q4_0 量化模型运行。 323 | * [umiyuki-Japanese-Chat-Umievo-itr001-7b-gguf](https://huggingface.co/mmnga/umiyuki-Japanese-Chat-Umievo-itr001-7b-gguf) - 📥 1k / ⭐ 3 / GGUF 格式化的日语聊天模型 “umiyuki‑Japanese‑Chat‑Umievo‑itr001‑7b” 基于 imatrix 数据集构建,可通过 llama.cpp 运行。 324 | * [aya-23-8B-gguf](https://huggingface.co/mmnga/aya-23-8B-gguf) - 📥 1k / ⭐ 1 / CohereForAI 的 aya‑23‑8B 模型采用 gguf 格式,基于 TFMC/imatrix‑dataset‑for‑japanese‑llm 构建,包含一个 llama.cpp 使用示例。 325 | * [gemma-2-2b-it-gguf](https://huggingface.co/mmnga/gemma-2-2b-it-gguf) - 📥 1k / ⭐ 1 / 使用TFMC/imatrix‑dataset‑for‑japanese‑llm中的imatrix数据,对Google的gemma‑2‑2b‑it模型进行GGUF格式转换,并包含llama.cpp使用说明。 326 | * [c4ai-command-r7b-12-2024-gguf](https://huggingface.co/mmnga/c4ai-command-r7b-12-2024-gguf) - 📥 1k / ⭐ 2 / 提供了 CohereForAI 的 c4ai-command-r7b-12-2024 模型的 gguf‑format 转换,该模型基于 TFMC/imatrix‑dataset‑for‑japanese‑LLM 构建,并附带通过 llama.cpp 使用 CUDA 编译和运行的说明。 327 | * [pfnet-nekomata-14b-pfn-qfin-gguf](https://huggingface.co/mmnga/pfnet-nekomata-14b-pfn-qfin-gguf) - 📥 1k / ⭐ 1 / 对pfnet的nekomata‑14b‑pfn‑qfin日语大语言模型进行GGUF格式转换,基于TFMC/imatrix‑dataset构建,采用Tongyi‑Qianwen授权,已准备好可与llama.cpp一起使用。 328 | * [Llama-3-ELYZA-JP-8B-gguf](https://huggingface.co/mmnga/Llama-3-ELYZA-JP-8B-gguf) - 📥 1k / ⭐ 4 / 由 elyza 制作的 GGUF 转换版 Llama‑3‑ELYZA‑JP‑8B,使用 TFMC/imatrix‑dataset‑for‑japanese‑LLM 构建,已准备好与 llama.cpp 一起使用。 329 | * [llm-jp-3-7.2b-instruct3-gguf](https://huggingface.co/mmnga/llm-jp-3-7.2b-instruct3-gguf) - 📥 1k / ⭐ 5 / llm‑jp‑3‑7.2b‑instruct3 的 GGUF 转换,基于 TFMC/imatrix 数据集构建,可与 llama.cpp(无需自定义聊天模板)一起使用,并涵盖多种 mmnga‑llm‑jp 模型变体。 330 | * [ArrowPro-7B-KillerWhale-gguf](https://huggingface.co/mmnga/ArrowPro-7B-KillerWhale-gguf) - 📥 1k / ⭐ 1 / GGUF‑converted ArrowPro‑7B‑KillerWhale,built with TFMC/imatrix‑dataset‑for‑japanese‑LLM and released by DataPilot,ready for inference with llama.cpp using main ‑m “ArrowPro‑7B‑KillerWhale‑Q4_0.gguf”。 331 | * [Llama-3-Swallow-8B-Instruct-v0.1-gguf](https://huggingface.co/mmnga/Llama-3-Swallow-8B-Instruct-v0.1-gguf) - 📥 1k / ⭐ 3 / GGUF‑converted Llama‑3‑Swallow‑8B‑Instruct‑v0.1 来自 tokyotech‑llm,使用 TFMC/imatrix 日本 LLM 数据集构建,已准备好通过 llama.cpp 的推理工具运行。 332 | * [ELYZA-Thinking-1.0-Qwen-32B-gguf](https://huggingface.co/mmnga/ELYZA-Thinking-1.0-Qwen-32B-gguf) - 📥 1k / ⭐ 1 / ELYZA 的 Thinking‑1.0 Qwen‑32B 模型的 gguf 格式转换(基于 TFMC/imatrix‑dataset‑for‑japanese‑llm 构建),附有使用 CUDA 通过 llama.cpp 编译和运行的说明。 333 | * [Llama-3-ELYZA-JP-8B-Heretic-GGUF](https://huggingface.co/mradermacher/Llama-3-ELYZA-JP-8B-Heretic-GGUF) - 📥 1k / ⭐ 1 / 提供一组 GGUF‑quantized 静态模型和 weighted/imatrix 变体,适用于 Llama‑3‑ELYZA‑JP‑8B‑Heretic,容量从 Q2_K(3.3 GB)到 Q8_0(8.6 GB),并推荐快速选项,同时附有使用说明和模型请求链接。 334 | * [tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.2-gguf](https://huggingface.co/mmnga/tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.2-gguf) - 📥 1k / ⭐ 2 / GGUF 格式的 Llama‑3.1‑Swallow‑8B‑Instruct‑v0.2 来自 tokyotech‑llm,使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 构建,并附带 llama.cpp 使用说明。 335 | * [WabiSabi-V1-i1-GGUF](https://huggingface.co/mradermacher/WabiSabi-V1-i1-GGUF) - 📥 1k / ⭐ 1 / WabiSabi‑V1 模型的 Weighted/imatrix 量化—以不同尺寸和质量的 GGUF 文件形式提供,并在 Hugging Face 上提供静态量化—包含使用指南、对比图和 FAQ/模型请求中心。 336 | 337 | ## Datasets 338 | * [KakologArchives](https://huggingface.co/datasets/KakologArchives/KakologArchives) - 📥 115k / ⭐ 17 / 聚合了2009年至2024年NicoNico Live的评论日志,总计超过150 GB,包括转移前、转移后以及实时NX‑Jikkyo捕获,提供了一个API,便于检索历史电视广播讨论。 339 | * [JMedBench](https://huggingface.co/datasets/Coldog2333/JMedBench) - 📥 11k / ⭐ 8 / JMedBench 是一个日语生物医学 LLM 基准,涵盖 20 个数据集,覆盖五个任务(MCQA、NER、STS 等),来源于 MedMCQA、PubMedQA、MMLU 等,每个都有自己的许可,并包含一条说明:翻译可能包含偏差,需要人工审核。 340 | * [Cauldron-JA](https://huggingface.co/datasets/turing-motors/Cauldron-JA) - 📥 7k / ⭐ 8 / Cauldron‑JA 是一个日语视觉‑语言数据集,包含 44 个子数据集,使用 DeepL API 从 The Cauldron 翻译而来,可通过 HuggingFace’s datasets library 获取,并与原始数据集使用相同的许可证,prompts 在 CC‑BY‑4.0 下发布。 341 | * [reazon-speech-v2-clone](https://huggingface.co/datasets/litagin/reazon-speech-v2-clone) - 📥 6k / ⭐ 10 / Reazon Speech v2 dataset 在 🤗 的镜像,授权 CDLA‑Sharing‑1.0,并受限于 Japanese Copyright Act Article 30‑4,包含 16 kHz FLAC 音频及其元数据。 342 | * [fineweb-2-edu-japanese](https://huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese) - 📥 6k / ⭐ 22 / FineWeb2 Edu Japanese 提供约120 million高质量教育日语文本(≈89.3 billion tokens)来自 FineWeb2,经过 DeepSeek‑API classifier(score ≥ 2.5)过滤,通过 ModernBERT‑Ja‑130M tokenized,并包含一个小-token子集(≤512 tokens)。 343 | * [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) - 📥 6k / ⭐ 18 / JMTEB 是一个日本文本嵌入基准,包含 5 个任务(聚类、分类、STS、检索、再排序)和 28 个数据集,提供一行评估脚本,并邀请社区贡献。 344 | * [AnswerCarefully](https://huggingface.co/datasets/llm-jp/AnswerCarefully) - 📥 6k / ⭐ 47 / AnswerCarefully Dataset提供日语和多语种数据,用于商业或非商业LLM安全增强,禁止任何其他用途——包括安全规避——允许带署名的衍生作品,并声明不承担因伤害或服务变更导致的责任。 345 | * [japanese-anime-speech-v2](https://huggingface.co/datasets/joujiboi/japanese-anime-speech-v2) - 📥 4k / ⭐ 126 / Japanese Anime Speech Dataset V2 提供 292,637 条已清洗的音频-文本对——约 397.5 小时的 SFW 内容和 52.4 小时的 NSFW 内容——以 128‑kbps MP3 文件形式按安全级别划分,专为训练自动语音识别模型而设计。 346 | * [ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) - 📥 4k / ⭐ 99 / 一个包含100个样本的日语指令微调评估数据集,包含已注释的任务——从摘要校正、数学推理到翻译、创意生成和用户意图理解——旨在对微调模型进行手动或自动的5分制评分。 347 | * [MissingKeys](https://huggingface.co/datasets/RyokoExtra/MissingKeys) - 📥 4k / ⭐ 2 / MissingKeys 是一个原始的以日语为主的数据集,来源于 misskey.io 网络,存储在按日期压缩的 JSONL 文件(每个文件约 100,000 条笔记,内部为 .7z 档案)中,主要用于无监督文本生成训练。 348 | * [voicevox-voice-corpus](https://huggingface.co/datasets/ayousanz/voicevox-voice-corpus) - 📥 4k / ⭐ 6 / 使用 VOICEVOX 从 ITA、Tsukuyomi‑chan 以及 ROHAN 语料库创建的人工声数据集,包含 445,793 条 WAV 文件,总计 577 小时 51 分钟 23 秒。 349 | * [Galgame-VisualNovel-Reupload](https://huggingface.co/datasets/joujiboi/Galgame-VisualNovel-Reupload) - 📥 4k / ⭐ 26 / 为高效加载 Hugging Face datasets,重新结构化并重新上传 Galgame VisualNovel 数据集(OOPPEENN/5669737465666C656E63655F44617461337072657330),保留所有原始 audio/text,并提供带多种 game-subset 选项的 extraction script。 350 | * [Nemotron-Personas-Japan](https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan) - 📥 3k / ⭐ 94 / Nemotron‑Personas‑Japan 是一个开放源代码、CC BY 4.0 许可证的高质量、合成生成的日本人物资料数据集—包含姓名、性别、年龄、背景、婚姻状况、教育、职业和地点—基于真实世界的人口统计、地理和人格分布,并采用概率图模型和 GPT‑OSS‑120B 进行工程设计,以提升多样性、降低偏见、防止模型崩溃、支持主权 AI 发展,并支持商业使用。 351 | * [JGLUE](https://huggingface.co/datasets/shunk031/JGLUE) - 📥 3k / ⭐ 44 / 更新了 JGLUE 数据集卡与加载脚本,适用于由 Yahoo Japan 与早稻田大学创建的日语 NLP 基准,涵盖文本分类(MARC‑ja、JCoLA)、句对分类(JNLI)以及问答(JSQuAD、JCommonsenseQA),发行链接保存在 GitHub 与 Hugging Face 上。 352 | * [emilia-yodas](https://huggingface.co/datasets/TTS-AGI/emilia-yodas) - 📥 3k / ⭐ 4 / 来自 Fate/Stay Night 的角色 “Emilia” 的对话和背景故事数据集,格式化用于训练和评估会话语言模型。 353 | * [mc4-ja](https://huggingface.co/datasets/izumi-lab/mc4-ja) - 📥 3k / ⭐ 6 / 日本 MC4 数据集卡 (mc4-ja) 354 | * [vntl-leaderboard](https://huggingface.co/datasets/lmg-anon/vntl-leaderboard) - 📥 3k / ⭐ 39 / VNTL 排行榜通过在256个样本上平均余弦相似度分数,评估大型语言模型将日语视觉小说翻译成英语的能力,随后对初步结果进行排名,并与 Sugoi Translator、Google Translate 和 Naver Papago 等工具进行基准比较。 355 | * [mc4-ja-filter-ja-normal](https://huggingface.co/datasets/izumi-lab/mc4-ja-filter-ja-normal) - 📥 3k / ⭐ 5 / '​mc4-ja-filter-ja-normal' 数据集的 Dataset 卡,附加信息待定。 356 | * [Voice-KusanagiNene](https://huggingface.co/datasets/MomoyamaSawa/Voice-KusanagiNene) - 📥 3k / ⭐ 16 / 草薙寧々(Project Sekai)的部分语音录音与标签数据集,开放供完成和社区贡献。 357 | * [EliteVoiceProject](https://huggingface.co/datasets/Elite35P-Server/EliteVoiceProject) - 📥 2k / ⭐ 12 / Elite Voice Project 将 Hololive VTuber Sakura Miko 在 Twitch、Twitter 和 YouTube 上的音频收集成用于语音识别研究的训练/测试组织数据集,采用 Git‑LFS,遵循 Hololive 的粉丝内容规则,并欢迎社区贡献。 358 | * [wikipedia-passages-jawiki-embeddings](https://huggingface.co/datasets/hotchpotch/wikipedia-passages-jawiki-embeddings) - 📥 2k / ⭐ 3 / 日语维基百科句子被转换为各种嵌入和 FAISS 索引,提供 Hugging Face Space 演示、转换脚本,以及对搜索、问答和 OpenAI text-embedding-3-small 在 RAG 中的评估;嵌入模型为 OpenAI‑licensed,其他为 CC‑BY‑SA‑4.0。 359 | * [oscar_2023_filtered](https://huggingface.co/datasets/if001/oscar_2023_filtered) - 📥 2k / ⭐ 3 / 312,396 行过滤的 OSCAR‑2301 数据集的子集(Hugging Face `if001/oscar_2023_filtered`),实现细节可在 HojiChar_OSCAR_sample GitHub 仓库中获取。 360 | * [AnimuSubtitle-JP](https://huggingface.co/datasets/KaraKaraWitch/AnimuSubtitle-JP) - 📥 2k / ⭐ 3 / AnimuSubtitle‑JP托管日本 ASS/SSA 字幕数据集(data_ass, data_TS),可使用 Python’s ass library 解析或在 Aegisub 编辑,并以 ODC‑By license 发布。 361 | * [ogiri-bokete](https://huggingface.co/datasets/YANS-official/ogiri-bokete) - 📥 2k / ⭐ 3 / 日本 Bokete‑site 幽默帖子数据集(来自 CLoT‑Oogiri‑Go CVPR 2024),涵盖三种任务——文本到文本、图像到文本,以及文本图像到文本,大约包含 600 个例子,使用 GPT‑4o OCR 和 HojiChar 过滤处理。 362 | * [japanese-anime-speech](https://huggingface.co/datasets/joujiboi/japanese-anime-speech) - 📥 2k / ⭐ 136 / 日本动漫语音数据集提供73,004对音频-文本(总计110小时,已从V1升级至V5),用于提升ASR模型,例如OpenAI的Whisper,按开放许可证提供给所有使用,欢迎署名。 363 | * [aozorabunko-clean](https://huggingface.co/datasets/globis-university/aozorabunko-clean) - 📥 2k / ⭐ 36 / 一个用户友好、去重的 CSV 数据集,包含 Aozora Bunko 的公有域日语文本,使用 globis‑org/aozorabunko‑extractor 处理,并已清理以适用于现代日语机器学习。 364 | * [qg_jaquad](https://huggingface.co/datasets/lmqg/qg_jaquad) - 📥 2k / ⭐ 5 / Japanese JaQuAD,QG‑Bench 的一个子集,提供句子级和段落级的数据,包含高亮的答案词元,用于训练日语问句生成模型,并通过 BLEU4、METEOR、ROUGE‑L、BERTScore 和 MoverScore 进行评估。 365 | * [MOMIJI](https://huggingface.co/datasets/turing-motors/MOMIJI) - 📥 2k / ⭐ 20 / 一套来自日本网络的5600万份文档、110 B字符与2.49亿张图片,用于训练大型视觉语言模型——提供momiji_generator用于数据填充,OBELICS‑style可视化,以及示例模型(Heron‑NVILA‑Lite)。 366 | * [sayoko-tts-corpus](https://huggingface.co/datasets/bandad/sayoko-tts-corpus) - 📥 2k / ⭐ 5 / 81岁的日本女性的“Fusic Sa‑yo‑ji”语音语料库,可从Google Drive下载为zip文件,提供原始噪声和已清理的.wav文件,附带音素和假名标签以及韵律符号。该语料库在注明出处的前提下,免费用于非专门商业使用;禁止直接音频链接,并要求在任何再发布时必须一并分发README。 367 | * [japanese2010](https://huggingface.co/datasets/hatakeyama-llm-team/japanese2010) - 📥 2k / ⭐ 3 / Japanese Web Corpus 2010 数据,自动标点并附形态学分析,已上传至 Hugging Face,仅供研究使用,依据 2009 年版权修订,并包含转换脚本。 368 | * [Japanese-Eroge-Voice](https://huggingface.co/datasets/NandemoGHS/Japanese-Eroge-Voice) - 📥 1k / ⭐ 30 / 一个时长为409小时的日本 eroge 语音数据集,使用 2-pass loudnorm(‑23 LUFS,‑1 dB 峰值,11 LRA)处理,已由 litagin/anime-whisper 转录、匿名化,存储为 WebDataset(FLAC、JSON、TXT),主要包含女性声音,可能存在 AI 转录错误,并采用 MIT 许可证用于学术研究。 369 | * [japanese-photos](https://huggingface.co/datasets/ThePioneer/japanese-photos) - 📥 1k / ⭐ 32 / 一套包含11,810张图像、28.9 GB的数据集,约4k张JPEG图像呈现日本的城市、自然、历史、艺术与日常场景,每张图像均配有BLIP字幕和元数据,已按CC0 1.0公开用于AI训练。 370 | * [wiki40b_ja](https://huggingface.co/datasets/fujiki/wiki40b_ja) - 📥 1k / ⭐ 4 / 由 Mandy Guo、Zihang Dai 和 Denny Vrandečić 重新格式化的 Wiki40B 数据集的日语子集。 371 | * [JCommonsenseQA](https://huggingface.co/datasets/sbintuitions/JCommonsenseQA) - 📥 1k / ⭐ 2 / JCommonsenseQA 是从 CommonsenseQA 改编的日语多项选择数据集,每题提供5个答案选项,标记正确答案的索引,并以 Creative Commons BY‑SA 4.0 许可发布。 372 | * [databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja) - 📥 1k / ⭐ 87 / 一个自动翻译的日语版本的databricks‑dolly‑15k数据集,许可为CC‑BY‑SA‑3.0,最后更新于2023‑05‑11。 373 | * [rakuda-questions](https://huggingface.co/datasets/yuzuai/rakuda-questions) - 📥 1k / ⭐ 8 / Rakuda 提供 40 道日语问题——开放式的历史、社会与政府问题,以及针对地理的特定问题——用于对日本 AI 助手进行基准测试,类似于 vicuna‑eval,并且可以使用 `datasets.load_dataset` 加载。 374 | * [ABEJA-CC-JA](https://huggingface.co/datasets/kajuma/ABEJA-CC-JA) - 📥 1k / ⭐ 2 / 来自 AWS Open Data 的 ABEJA CC‑JA 数据集的 Hugging Face 镜像,详细信息已发布在 ABEJA 的技术博客上。 375 | * [Galgame_Speech_ASR_16kHz](https://huggingface.co/datasets/litagin/Galgame_Speech_ASR_16kHz) - 📥 1k / ⭐ 37 / Galgame_Speech_ASR_16kHz 是一个 16 kHz 的 ASR 数据集,包含 3.75 百万对(≈5,354 小时),源自 Galgame_Dataset,遵循 GPL v3.0,禁止商业使用,并要求任何训练的模型必须开源(可选引证)。 376 | * [defamation-japanese-twitter](https://huggingface.co/datasets/kubota/defamation-japanese-twitter) - 📥 978 / ⭐ 2 / 一个包含5,000条推文的日语 Twitter 诽谤检测数据集,由三名众包工人标注了目标(A1–A3)和内容(B1–B4),收集时间为 2022 年 2 月至 6 月,需要通过 API 访问来检索原始推文。 377 | * [llm-japanese-dataset](https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset) - 📥 975 / ⭐ 139 / 用于微调 LLMs(如 LoRA)的日语指令聊天数据集,包含 9 M+ 样本,最近已更新,删除授权的 Alpaca 数据,并清理了 Wikipedia 和 ALT 输出,采用 CC‑BY‑SA 4.0 许可证发布。 378 | * [Hachi-Alpaca](https://huggingface.co/datasets/HachiML/Hachi-Alpaca) - 📥 970 / ⭐ 15 / Hachi‑Alpaca 提供基于 Stanford Alpaca 的日语合成数据,经过 mistralai/Mixtral‑8x22B‑Instruct‑v0.1 细化和验证,并通过 Deepinfra 使用,同时提供已通过模型质量检查的 “_cleaned” 版本。 379 | * [JaQuAD](https://huggingface.co/datasets/SkelterLabsInc/JaQuAD) - 📥 961 / ⭐ 11 / JaQuAD 是 2022 年的日语 QA 数据集,包含 39,696 对 SQuAD‑style 的抽取式问题‑答案对,取自 Wikipedia,文件总大小 73.2 MB。使用 BERT‑Japanese 微调时,获得 78.92 % F1(63.38 % EM)。 380 | * [STAIR-Captions](https://huggingface.co/datasets/shunk031/STAIR-Captions) - 📥 961 / ⭐ 5 / STAIR-Captions 是一个大规模(820,310)的日语标题数据集,用于标题生成、多模态检索和图像生成等任务,按 CC BY 4.0 公开。 381 | * [kaken-trans-ja-en](https://huggingface.co/datasets/hpprc/kaken-trans-ja-en) - 📥 960 / ⭐ 9 / 一份将 llm‑jp‑corpus‑v3 的 kaken 子集译为日英的日英平行语料库,使用 Qwen/Qwen2.5‑32B‑Instruct,包含自定义翻译列,并在 CC‑BY‑4.0 许可下授权。 382 | * [KokushiMD-10](https://huggingface.co/datasets/humanalysis-square/KokushiMD-10) - 📥 905 / ⭐ 5 / KokushiMD‑10 提供了一个多模态的日本国家健康照护执照考试题库——覆盖十个专业,提供日语、英语和混合语言版本,并配有专家推理链注释以用于大语言模型评估。 383 | * [JMMMU](https://huggingface.co/datasets/JMMMU/JMMMU) - 📥 844 / ⭐ 19 / JMMMU 是一个日语多模态基准,已扩大十倍至 1,320 个具有文化多样性的问题(720 个与文化无关,600 个与文化相关),由母语专家翻译,现在设有公开排行榜。 384 | * [wikipedia-ja-20230720](https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720) - 📥 786 / ⭐ 13 / 2023‑07‑20 版 Japanese Wikipedia dataset 的 Dataset card 385 | * [reranker-scores](https://huggingface.co/datasets/hpprc/reranker-scores) - 📥 721 / ⭐ 4 / 提供了一个日语搜索/问答数据集,其中包含按查询计算的分数,这些分数是由五个多语言/日语重排序器(例如 BAAI/bge‑reranker‑v2‑m3、Alibaba‑NLP/gte‑multilingual‑reranker‑base)计算的,数据集包括每个查询约200个正例和负例文档的平均分数。 386 | * [Lux-Japanese-Speech-Corpus](https://huggingface.co/datasets/Lami/Lux-Japanese-Speech-Corpus) - 📥 714 / ⭐ 3 / Lux 日文语音语料库:由角色 Lux 制作的 96 kHz 16‑bit WAV 格式日语 TTS 录音数据集,包含原始和已清理的音频、metadata.csv 中的转录文本、dataset_infos.json 中的数据集元信息,并以 CC BY 4.0 许可证发布。 387 | * [cc100-ja](https://huggingface.co/datasets/range3/cc100-ja) - 📥 680 / ⭐ 21 / cc100-ja 是 cc100 数据集日语部分的集合,提供为分片的 Parquet 文件。 388 | * [jaCappella](https://huggingface.co/datasets/jaCappella/jaCappella) - 📥 643 / ⭐ 5 / JaCappella 提供六声部(lead、soprano、alto、tenor、bass、vocal percussion)乐谱和并行音频轨道,适用于多种流派的日本无伴奏合唱团,可从 Hugging Face 下载。 389 | * [paraphrase-qa](https://huggingface.co/datasets/hpprc/paraphrase-qa) - 📥 638 / ⭐ 3 / 日文维基百科文本改写所生成的LLM查询和答案数据集,未使用受许可限制的模型构建,且在CC‑BY‑SA 4.0下发布。 390 | * [JaMARD](https://huggingface.co/datasets/elyza/JaMARD) - 📥 632 / ⭐ 9 / 一个高质量的合成日语数学题数据集,具有经过验证的思考链推理,采用 Qwen2‑7B‑Instruct 翻译 PRM800K 和 GSM8K 并进行正确性筛选后构建,可通过 Hugging Face 数据集库获取。 391 | * [JEMHopQA](https://huggingface.co/datasets/sbintuitions/JEMHopQA) - 📥 621 / ⭐ 3 / 包含问题、答案以及逐步推导链接至 Wikipedia 文章的日本 Explainable Multi-hop Question Answering 数据集,已更新推导格式并发布多个版本。 392 | * [reazonspeech](https://huggingface.co/datasets/reazon-research/reazonspeech) - 📥 612 / ⭐ 104 / ReazonSpeech 是一个免费、FLAC 编码的日语语音语料库,附带转录,提供五种规模,从 8.5 h 到 35,000 h,可通过 Hugging Face 下载,遵循 CDLA‑Sharing‑1.0 许可证,且使用受到《日本著作权法》第30‑4条的限制。 393 | * [pvc](https://huggingface.co/datasets/p1atdev/pvc) - 📥 597 / ⭐ 7 / PVC 角色产品数据集涵盖 goodsmile(947),goodsmile‑nendoroid(3,378),goodsmile‑scale(2,203),kotobukiya(864),myethos,spiritale,和 tokyofigures(394),并附带相应的来源 URLs。 394 | * [cc100-ja-documents](https://huggingface.co/datasets/hotchpotch/cc100-ja-documents) - 📥 558 / ⭐ 3 / 来自 HuggingFace 的 cc100‑ja 数据集的文档级拼接,遵循原 cc100 条款许可。 395 | * [xlsum_ja](https://huggingface.co/datasets/mkshing/xlsum_ja) - 📥 555 / ⭐ 6 / Japanese XL‑Sum subset 通过 PaLM‑2 15-gram 重叠过滤,包含 4,215 训练样本,758 验证样本和 766 测试样本。 396 | * [sentence_transformer_japanese](https://huggingface.co/datasets/hotchpotch/sentence_transformer_japanese) - 📥 555 / ⭐ 5 / 将日语数据集转换为适合 SentenceTransformers 的列,依据来自多个 HuggingFace 来源的 Rerank 分数(正样本 ≥0.7,负样本 ≤0.3)进行过滤,以支持对比学习,同时尊重原始许可证。 397 | * [JAQKET](https://huggingface.co/datasets/kumapo/JAQKET) - 📥 552 / ⭐ 5 / JAQKET 是一个基于维基百科的日语开放域问答数据集,提供 1.0 版包含多项选择测验题(13,061 条训练样本,271 条验证样本)以及 2.0 版仅包含需要提取答案的提问提示(2,154 条训练样本,1,164 条验证样本),旨在促进问答系统研究。 398 | * [JMMLU](https://huggingface.co/datasets/nlp-waseda/JMMLU) - 📥 548 / ⭐ 10 / JMMLU 是一个日语大型多任务语言理解基准(Benchmark),包括 7,536 道教师精心制作的问题,覆盖 56 个学科,包括专业医学、心理学、会计、哲学以及各种高中学科。 399 | * [auto-wiki-qa](https://huggingface.co/datasets/cl-nagoya/auto-wiki-qa) - 📥 542 / ⭐ 24 / AutoWikiQA 是日本最大的免费问答数据集(2,377,503 对),该数据集是从维基百科文本使用 Swallow‑MX 和 vLLM 生成的,提供多样化、无模板的问答,用于知识注入和检索增强生成。 400 | * [SyntheticText](https://huggingface.co/datasets/kanhatakeyama/SyntheticText) - 📥 530 / ⭐ 2 / 随机抽取自 Wikibooks、Wikipedia、Cosmopedia 和案例法的段落使用 φ‑3 重新生成,使用了数十GB 的 parquet 数据集(datasets 库只加载前几GB,因此需要 Git LFS),计算在东京技术大学的 TSUBAME4.0 超算上进行。 401 | * [CABankSakuraCHJP](https://huggingface.co/datasets/Fhrozen/CABankSakuraCHJP) - 📥 523 / ⭐ 2 / Japanese CallHome corpus 包含 200 条美国 30 分钟电话录音,来自 120 名说话者,包含 80 条训练、20 条开发和 100 条评估转录(DOI: 10.21415/T5H59V)。 402 | * [llm-japanese-dataset-vanilla](https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset-vanilla) - 📥 521 / ⭐ 32 / 剔除英文翻译数据的日本聊天机器人数据集,来源于 izumi‑lab/llm‑japanese‑dataset,提供 2.5 million+ 条条目(v1.0.0),用于在 CC‑BY‑SA 4.0 许可下对 Japanese LLMs 进行 instruction‑response tasks 的微调。 403 | * [jsick](https://huggingface.co/datasets/hpprc/jsick) - 📥 510 / ⭐ 8 / JSICK 是从 SICK 翻译成日语的 NLI/STS 数据集,提供了一套压力测试,利用多个转换过的 sentence-pair subsets 来探测 word‑order 和 case‑particle 的处理,以支持多语言组合推理的研究。 404 | * [anime-with-caption-cc0](https://huggingface.co/datasets/alfredplpl/anime-with-caption-cc0) - 📥 495 / ⭐ 21 / AI生成的动漫插图,使用英文提示,并基于Phi‑3 Vision的字幕(英文和日文),已发布到公共领域,供免费使用。 405 | * [jawiki](https://huggingface.co/datasets/hpprc/jawiki) - 📥 490 / ⭐ 18 / 来自 Wikipedia 2024 年 1 月 HTML 转储的结构化文本数据集,该数据集保持段落结构而不含标记,并为每篇文章提供元数据(摘要、日期、消歧/性/暴力标记、模板),并已准备好用于 NLP 实验。 406 | * [livedoor-news-corpus](https://huggingface.co/datasets/llm-book/livedoor-news-corpus) - 📥 473 / ⭐ 4 / 数据集卡片描述了 llm-book/ner-wikinews-dataset,这是一个在 CC BY‑ND 2.1 JP 许可下的 livedoor News 文章清理合集,供书籍 *Introduction to Large Language Models* 使用,并由 LONWIIT 提供。 407 | * [JMMMU-Pro](https://huggingface.co/datasets/JMMMU/JMMMU-Pro) - 📥 469 / ⭐ 6 / JMMMU‑Pro 是一种低成本、基于图像的日语多模态基准测试,利用 Nano Banana Pro 生成视觉问题并通过人工验证构建,展示了当前开源 LMMs 的困难,并为未来日语 VQA 研究提供指导。 408 | * [llm-jp-eval](https://huggingface.co/datasets/llm-book/llm-jp-eval) - 📥 457 / ⭐ 3 / 本数据集说明书用于本书《Introduction to Large‑Scale LLM II》中的 ja‑vicuna‑qa‑benchmark,并由 llm‑jp‑eval 创建,供跨数据集日语 LLM 评估使用(Apache 2.0)。 409 | * [japanese-corpus-categorized](https://huggingface.co/datasets/kanhatakeyama/japanese-corpus-categorized) - 📥 442 / ⭐ 3 / 如 mc4‑ja 等日语网络语料库已被无监督模型清洗并聚类为约 10,000 组,可用于合法分析;仅部分文件采用 parquet 格式,文件列表在 out 文件夹中,应使用 git‑lfs 下载。 410 | * [llava-instruct-ja](https://huggingface.co/datasets/llm-jp/llava-instruct-ja) - 📥 441 / ⭐ 5 / 日语 LLaVA‑Instruct 数据集(156K 样本),通过 Azure OpenAI 使用 GPT‑4o‑mini 生成,采用 CC BY 4.0 许可,并符合 OpenAI 条款。 411 | * [JGLUE](https://huggingface.co/datasets/llm-book/JGLUE) - 📥 426 / ⭐ 14 / 用于《大型语言模型简介》一书的 JGLUE 数据集数据卡,来源于原始仓库,代码采用 CC BY‑SA 4.0 许可证,数据按发行者的许可协议,引用 Kurihara & Kawahara(日本语),并基于 Shunsuke Kitada 的仓库构建。 412 | * [oscar2301-ja-filter-ja-normal](https://huggingface.co/datasets/izumi-lab/oscar2301-ja-filter-ja-normal) - 📥 422 / ⭐ 6 / 日语过滤 OSCAR 2301 子集的数据卡,“oscar2301‑ja‑filter‑ja‑normal。” 413 | * [mqa-ja](https://huggingface.co/datasets/hpprc/mqa-ja) - 📥 415 / ⭐ 6 / 已去重、NFKC‑标准化的 mQA query–passage pairs,pos_ids/neg_ids 映射到 collection 索引,用于通过 collection[pos_id] 直接检索,并按原始数据集的许可条款授权。 414 | * [JQaRA](https://huggingface.co/datasets/hotchpotch/JQaRA) - 📥 403 / ⭐ 19 / 一个用于评估 Retrieval‑Augmented Generation(RAG)的日语 QA 数据集,由 JAQKET 问题和 Wikipedia 段落以及金标准检索相关性标签构建,并在 HuggingFace 和 GitHub 上发布,主要依据 nDCG@10 评分。 415 | * [Japanese-Novels-23M](https://huggingface.co/datasets/OmniAICreator/Japanese-Novels-23M) - 📥 400 / ⭐ 6 / 23,212,809部日本网络小说(约80.8 亿字符)的数据集,个人收集,仅用于机器学习,需详细访问请求。 416 | * [relaion2B-en-research-safe-japanese-translation](https://huggingface.co/datasets/llm-jp/relaion2B-en-research-safe-japanese-translation) - 📥 396 / ⭐ 3 / 一个工具,使用 text2dataset 与 vLLM 以及开源权重 Gemma 2.9b‑it 快速进行英日翻译,生成 15 亿对日语图文数据集,用于支持基于 CLIP 的视觉-语言模型。 417 | * [gendec-dataset](https://huggingface.co/datasets/tarudesu/gendec-dataset) - 📥 390 / ⭐ 2 / 一份包含 64,139 条标注有生物性别的日语姓名的数据集,呈现为汉字、假名和平罗马字,其 44.9k 训练集、6.41k 验证集和 12.8k 测试集划分已在 ISDA’23 被接受。 418 | * [J-ResearchCorpus](https://huggingface.co/datasets/kunishou/J-ResearchCorpus) - 📥 390 / ⭐ 32 / 一个高质量的日语研究论文语料库(约3900万字符),在 CC‑BY‑* 许可下来自 ACL 2021‑2024 年会议论文集、*NLP* 期刊以及其他期刊,已发布用于 LLM 预训练和 RAG,并持续扩充。 419 | * [oscor-2301-ja-text-content](https://huggingface.co/datasets/ayousanz/oscor-2301-ja-text-content) - 📥 390 / ⭐ 2 / 将日本 OSCOR‑2301 数据集的 JSON 文件转换为纯文本,仅提取每条记录的 “content” 字段。 420 | * [OpenMathInstruct-1-1.8m-ja](https://huggingface.co/datasets/kunishou/OpenMathInstruct-1-1.8m-ja) - 📥 368 / ⭐ 14 / 1.8 百万个日语翻译的 OpenMathInstruct‑1 指令微调示例,由 GSM8K 和 MATH 评测问题生成,使用 Mixtral‑8x7B 衍生的合成解答,并已与原答案核实,现以 NVIDIA 许可证发布用于商业用途。该许可证要求在转发时继承该许可证,虽然模型学习许可证不需要继承该许可证。 421 | * [EDINET-Bench](https://huggingface.co/datasets/SakanaAI/EDINET-Bench) - 📥 359 / ⭐ 9 / EDINET‑Bench 是一个日本金融基准,用来评估 LLMs 在诸如会计欺诈检测、盈利预测和行业预测等任务,使用十年的 EDINET‑API 披露报告,提供构建和评估代码,并将数据集重新许可为 PDL 1.0。 422 | * [jhumaneval](https://huggingface.co/datasets/kogi-jwu/jhumaneval) - 📥 356 / ⭐ 7 / JHumanEval 是 HumanEval 基准的人工翻译日语版本,提供 164 个 Python 编程问题,配有并行的英文和日文注释,用于评估日语 LLM 的代码生成,同时保留原始英文错误。 423 | * [janli](https://huggingface.co/datasets/hpprc/janli) - 📥 354 / ⭐ 6 / JaNLI 是一个基于 HANS 的日语对抗性 NLI 数据集,由 13,680 条训练句子对和 720 条测试句子对组成,注释了蕴涵标签、结构启发式(如子序列、成分)、名词短语计数以及语义标签,用以探测日语语言现象和模型脆弱性。 424 | * [oasst1-89k-ja](https://huggingface.co/datasets/kunishou/oasst1-89k-ja) - 📥 350 / ⭐ 26 / 带有失败标记的日语翻译 OpenAssistant/oasst1 数据,约2,000个人工纠正的代码翻译错误,一个已发布的对话格式子集 (oasst1‑chat‑44k‑ja),以及一段用于将条目转换为指令‑输出对以进行微调的脚本。 425 | * [2ch.sc](https://huggingface.co/datasets/DSULT-Core/2ch.sc) - 📥 336 / ⭐ 2 / 包含匿名 2ch.sc/2ch.net 帖子的极大压缩 JSON‑Lines 数据集,包括帖子 IDs、标题、板块与地区信息、回复计数,以及完整帖子元数据(作者、邮件、日期、内容)。 426 | * [RAG-Evaluation-Dataset-JA](https://huggingface.co/datasets/allganize/RAG-Evaluation-Dataset-JA) - 📥 333 / ⭐ 33 / Allganize RAG Leaderboard 发布了跨五个行业领域——金融、电信、制造业、公共部门和零售业的日本 RAG 性能数据和自动端到端评估结果,帮助公司在没有完整日本基准的情况下基准化解析器、检索和生成组件。 427 | * [Umamusume-voice-transcription](https://huggingface.co/datasets/TLME/Umamusume-voice-transcription) - 📥 332 / ⭐ 8 / Umamusume 语音转录数据集列出77名角色及其总音频时长(例如 East Commerce 799 秒,East Imperial Emperor 1074 秒,…)。 428 | * [Swallow-Instruct-v0.1](https://huggingface.co/datasets/tokyotech-llm/Swallow-Instruct-v0.1) - 📥 326 / ⭐ 10 / Swallow Instruct v0.1 是 Swallow‑model 系列(例如 Llama‑3‑Swallow‑8B‑Instruct‑v0.1、Swallow‑13B‑Instruct‑v0.1)的微调数据集,包含 5 334 条英文和约 42 000 条日文 OpenAssistant 对话,构建自 OpenAssistant2,为 “beta” 子集添加了日文提示,并由东京工科大学 Okazaki/YOKOTA 实验室和 AIST 创建。 429 | * [japanese_alpaca_data](https://huggingface.co/datasets/fujiki/japanese_alpaca_data) - 📥 325 / ⭐ 16 / **japanese_alpaca_data**的数据集卡,基于 masa3141 的 Japanese‑Alpaca‑LoRA 工作,并在引用的仓库中提供了更多细节。 430 | * [ParallelFiction-Ja_En-100k](https://huggingface.co/datasets/NilanE/ParallelFiction-Ja_En-100k) - 📥 324 / ⭐ 76 / 第二版句子对齐的日本网络小说至英文翻译数据集(106k章节),已更新对齐,添加系列元数据,无质量筛选,依据公平使用和 Apache 2.0 发布,并附带 Hugging Face 下架程序。 431 | * [jsnli](https://huggingface.co/datasets/shunk031/jsnli) - 📥 322 / ⭐ 5 / JSNLI 是 KUROHASHI‑CHU‑MURAWAKI LAB 发布的 SNLI NLI 基准的日语翻译版本,提供 548 k 条训练对(3 916 条验证)以 TSV 格式呈现,其中前件和假设已使用 JUMAN++ 进行形态学分析,并且包含 533 k 条过滤子集,全部以 CC BY‑SA 4.0 许可证发布。 432 | * [Galgame_Speech_SER_16kHz](https://huggingface.co/datasets/litagin/Galgame_Speech_SER_16kHz) - 📥 321 / ⭐ 11 / 一份104 GB的数据集,共3,746,131条Galgame音频文件(5,353 小时),为现有16 kHz ASR集添加了LLM生成的情绪标签(可能不准确),并按GPL v3.0许可发布,禁止商业使用,且要求任何训练得到的模型必须开源。 433 | * [wrime-sentiment](https://huggingface.co/datasets/llm-book/wrime-sentiment) - 📥 320 / ⭐ 9 / 面向 llm‑book/wrime‑sentiment 的数据集卡,提供从 WRIME 派生的二元日语情感分析集,依据 Avg. Readers_Sentiment 标记为正向或负向(可选包含中性案例),用于《大型语言模型导论》一书的示例数据。 434 | * [JFWIR](https://huggingface.co/datasets/hotchpotch/JFWIR) - 📥 320 / ⭐ 4 / JFWIR 是一个由 fineweb‑2‑edu 网页内容构建的 6400 万对日语检索数据集,提供七种查询类型和困难负样本,可在 JQaRA、MIRACL(ja)、jsquad 和 JaCWIR 上提升基准分数。 435 | * [JA-VG-VQA-500](https://huggingface.co/datasets/SakanaAI/JA-VG-VQA-500) - 📥 316 / ⭐ 16 / JA‑VG‑VQA‑500 是日本 Visual Genome VQA 数据集的 500 份样本子集,采用 CC BY 4.0 许可,用于基准测试 EvoVLM‑JP‑v1‑7B。 436 | * [oasst2-135k-ja](https://huggingface.co/datasets/kunishou/oasst2-135k-ja) - 📥 313 / ⭐ 13 / 一份包含 68,000 条记录的日本聊天版 OpenAssistant/oasst2,已通过 DeepL 翻译,并连同可将其转换为可用于微调的 Instruction‑Output 格式的转换代码一起发布。 437 | * [bbh-ja](https://huggingface.co/datasets/pfnet/bbh-ja) - 📥 308 / ⭐ 2 / BBH‑ja提供了BIG‑Bench Hard数据集的日语翻译,提供JSON‑L(输入、正确目标)格式的评估问题以及使用PLaMo模型翻译的YAML(输入、目标)格式的Chain‑of‑Thought提示。 438 | * [callhome-ja-plus](https://huggingface.co/datasets/ayousanz/callhome-ja-plus) - 📥 291 / ⭐ 2 / 将日本 Callhome 语音文件转换为 WAV,并附带 JSON 格式的元数据数组和 RTMM 说话人标签文件以供评估。 439 | * [swallow-gemma-magpie-v0.1](https://huggingface.co/datasets/tokyotech-llm/swallow-gemma-magpie-v0.1) - 📥 287 / ⭐ 3 / Swallow‑Gemma‑Magpie‑v0.1 是一个由 Google Gemma‑2‑27b‑IT 生成的 148 k‑sample 合成日语 Q&A 数据集,旨在对 TokyoTech’s LLaMA‑3.1‑Swallow 70B/8B 模型进行跨学科的 instruction‑tuning。 440 | * [japanese_hh-rlhf-49k](https://huggingface.co/datasets/fujiki/japanese_hh-rlhf-49k) - 📥 286 / ⭐ 12 / 一个去除了 ng_translation 等于 1 条目的 kunishou/hh‑rlhf‑49k‑ja 数据集变体。 441 | * [swallow-magpie-ultra-v0.1](https://huggingface.co/datasets/tokyotech-llm/swallow-magpie-ultra-v0.1) - 📥 285 / ⭐ 5 / 来自 Swallow‑Magpie‑Ultra‑v0.1 的 42 k 日英指令调优对,标记为 “average‑good” 或 “excellent”,已被用于训练 Llama‑3.1‑Swallow 模型。 442 | * [RyokoAI_Syosetu711K](https://huggingface.co/datasets/botp/RyokoAI_Syosetu711K) - 📥 282 / ⭐ 28 / Syosetu711K 是一个约 711,700 本小说的日本数据集,采自 2023 年 3 月 26‑27 日从 小説家になろう 抓取,提供全文及元数据(标题、作者、NCode、简介等),用于无监督文本生成和分类任务。 443 | * [AKU-d_ms-0.5B-v0.1_dataset](https://huggingface.co/datasets/YukiTomita-CC/AKU-d_ms-0.5B-v0.1_dataset) - 📥 282 / ⭐ 4 / 从总计 1.56 B 个标记的众多开源语料库编译而成,该数据集用于预训练 AKU‑d_ms‑0.5B‑chat‑v0.1 模型,包含处理脚本,并将在后续公开原始数据。 444 | * [anim400k](https://huggingface.co/datasets/davidchan/anim400k) - 📥 269 / ⭐ 39 / 抱歉,但我无法查看或访问链接的 Google 文档,因此无法阅读仓库描述来创建摘要。 445 | * [jawiki-bullet-points](https://huggingface.co/datasets/hpprc/jawiki-bullet-points) - 📥 265 / ⭐ 4 / 由 rinna/deepseek‑r1‑distill‑qwen2.5‑bakeneko‑32b 模型生成的日文维基百科要点数据集,随机采样(允许重复),行分隔符格式在 Hugging Face 查看器中未完全显示,并已按照 CC‑BY‑SA 4.0 许可证发布。 446 | * [wikipedia-ja-20230101](https://huggingface.co/datasets/range3/wikipedia-ja-20230101) - 📥 264 / ⭐ 4 / Range3 的 wikipedia‑ja‑20230101 仓库提供只包含日语维基百科文本的 Parquet 文件,这些文件是从完整维基百科数据集中提取的,并使用 Python 代码生成。 447 | * [guanaco_ja](https://huggingface.co/datasets/fujiki/guanaco_ja) - 📥 256 / ⭐ 5 / Guanaco 数据集的日语子集,并参考类似的数据集,例如 inu‑ai/alpaca‑guanaco‑japanese‑gpt‑1b。 448 | * [Japanese-Heron-Bench](https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench) - 📥 251 / ⭐ 11 / Japanese‑Heron‑Bench 通过 21 张公共领域或 CC‑BY 图像评估日本 VLM,涵盖 7 个子类别,每个子类别与 Conversation、Detail、Complex 类别中的 1–2 个问题配对,总计 102 个问题。 449 | * [nekopara-speech](https://huggingface.co/datasets/grider-transwithai/nekopara-speech) - 📥 251 / ⭐ 15 / Nekopara Audio Dataset 提供 44.1 kHz 的音频片段,标有说话者姓名、音量、转录文本以及成人内容标识,但警告指出,文件名和成人标识单独使用不应被视为可靠的分类依据。 450 | * [pjsk-emu-dataset](https://huggingface.co/datasets/chitsanfei/pjsk-emu-dataset) - 📥 247 / ⭐ 10 / sovits‑emu‑dataset 提供 2,735 个 SEGA‑licensed Emu Otori WAV 文件,用于 so‑vits‑svc 4.0 研究,并按 CC‑BY‑NC 4.0 许可证发布(不包括 voice owners),要求标注出处、禁止商业使用,仅允许 email‑only 访问,可选提交 pull‑request 贡献。 451 | * [wrime](https://huggingface.co/datasets/shunk031/wrime) - 📥 241 / ⭐ 27 / WRIME 数据集是一个包含 42,200 条帖子的日本语集合,帖子已为作者、三位读者及其平均值标注了 Plutchik 的八种情感,结构为 40k 训练集、1.2k 验证集和 2k 测试集,用于情感分析任务。 452 | * [Japanese-RAG-Generator-Benchmark](https://huggingface.co/datasets/neoai-inc/Japanese-RAG-Generator-Benchmark) - 📥 236 / ⭐ 4 / Japanese RAG Generator Benchmark (J‑RAGBench) 提供了一个多分类 QA 数据集——涵盖 Integration、Reasoning、Logical、Table 和 Abstention——旨在评估日本 RAG 生成器,采用人工努力和 GPT‑4.1 构建,并在 CC BY‑SA 4.0 许可下发布。 453 | * [CoTangent](https://huggingface.co/datasets/sudy-super/CoTangent) - 📥 229 / ⭐ 21 / 手工挑选的高质量 100 样本日语链式思维(Chain‑of‑Thought)数据集,以两份 JSON 格式提供:一份将 CoT 与输出关联,另一份将它们分开保存。 454 | * [cv-corpus-17.0-ja-client_id-grouped](https://huggingface.co/datasets/masuidrive/cv-corpus-17.0-ja-client_id-grouped) - 📥 222 / ⭐ 2 / Common Voice 子集,包含 649 个说话人组(client IDs),每组 30–300 个样本,共 45,668 条录音,按 8:2 划分为训练/验证集,批量为 1,000‑样本的 Parquet 文件,CC0 许可。 455 | * [alpaca_jp_python](https://huggingface.co/datasets/HachiML/alpaca_jp_python) - 📥 215 / ⭐ 8 / alpaca_jp_python 是一个日本合成的 Alpaca 数据集,使用 mistralai/Mixtral‑8x22B‑Instruct‑v0.1 创建和清理,托管在 Deepinfra 上,并通过 datasets library 使用清洁标签 “_cleaned” 分割和基于提示的策划进行分发。 456 | * [livedoor-news-corpus](https://huggingface.co/datasets/shunk031/livedoor-news-corpus) - 📥 214 / ⭐ 6 / 来自 livedoor News 的在 CC BY‑ND 许可下的日语新闻文章已去除 HTML,按 80/10/10 的比例划分为训练、验证和测试集,共 6,567 条。 457 | * [ScreenTalk_JA2ZH-XS](https://huggingface.co/datasets/Itbanque/ScreenTalk_JA2ZH-XS) - 📥 212 / ⭐ 3 / ScreenTalk_JA2ZH‑XS 是一个包含10,000份样本、约30小时的日语音频/简体中文文本对应的数据集(Parquet,CC BY 4.0),用于语音转文本翻译、多语言ASR和多模态AI研究。 458 | * [liz-nojaloli-ja-ds](https://huggingface.co/datasets/ebisuke/liz-nojaloli-ja-ds) - 📥 210 / ⭐ 3 / MIT 许可证的手写数据集,用于训练 ebisuke/liz-nojaloli-ja,配有可能引用 Qiita 的 Python 代码,并用于 RLHF 数据准备。 459 | * [alpaca_jp_math](https://huggingface.co/datasets/HachiML/alpaca_jp_math) - 📥 210 / ⭐ 6 / alpaca_jp_math 是一个由 Stanford Alpaca 和 mistralai/Mixtral‑8x22B‑Instruct‑v0.1 制作的日本合成数学数据集,已清理并验证代码与文本输出之间的一致性,并以 Apache 2.0 许可证发布。 460 | * [msmarco-ja-hard-negatives](https://huggingface.co/datasets/hotchpotch/msmarco-ja-hard-negatives) - 📥 208 / ⭐ 3 / 针对日语 MS MARCO 翻译的硬负样本挖掘管线(包括归一化、高余弦相似性过滤、BAAI/BGE 重排序器基选择和随机采样)已创建,并通过卡方检验显示其正率在统计上高于 SPLADE 训练的 mMARCO 基线。 461 | * [JetCopper-10B](https://huggingface.co/datasets/sudy-super/JetCopper-10B) - 📥 207 / ⭐ 5 / JetCopper‑10B 是一个 4.7 B‑token 的日语数据集(加上 0.9 B 英语代码),由 CC‑100、OSCAR‑2301、HPLT v1.2 和 wiki40b‑ja 编译而成,用于为 LOCAL AI HACKATHON #000 calm2‑chat 预训练 Contrail‑200m‑64k,但尚未进行句子边界或困惑度过滤。 462 | * [databricks-dolly-15k-ja](https://huggingface.co/datasets/llm-jp/databricks-dolly-15k-ja) - 📥 205 / ⭐ 18 / 由日本 LLM‑jp 协作项目使用 DeepL 生成的 Databricks Dolly‑15k 指令微调数据集的日语翻译。 463 | * [lima-ja](https://huggingface.co/datasets/zan/lima-ja) - 📥 202 / ⭐ 3 / LIMA‑JA 是 Meta 的 LIMA dataset(≈100 条更改)的日语翻译版,由 ChatGPT 编辑,适用于语言模型,可通过 `load_dataset('zan/lima-ja', 'v1')` 访问,除非原始 LIMA 源码要求更严格的许可证,否则采用 CC BY‑NC‑SA 许可证。 464 | * [wiki40b-ja](https://huggingface.co/datasets/range3/wiki40b-ja) - 📥 201 / ⭐ 9 / 仅日文 Wiki40B 子集,打包为三个 Parquet 文件,并通过 Python/Beam 代码生成。 465 | * [HelpSteer-35k-ja](https://huggingface.co/datasets/kunishou/HelpSteer-35k-ja) - 📥 199 / ⭐ 3 / 日语自动翻译的 HelpSteer 数据集,用于 NVIDIA SteerLM 对齐试验,并附有 LLM 训练的参考 URL。 466 | * [ggml-japanese-gpt2](https://huggingface.co/datasets/inu-ai/ggml-japanese-gpt2) - 📥 198 / ⭐ 5 / 提供一个用于 Windows 的可执行文件,用于运行 **ggml‑japanese‑gpt2**,该可执行文件需要匹配的 **\*.bin** 和 **SentencePiece** 模型,并包含示例命令;同时注明 **xsmall** 模型格式目前损坏。 467 | * [chat-daily](https://huggingface.co/datasets/minnade/chat-daily) - 📥 196 / ⭐ 9 / MinnadeChat 是一个协作构建的指令式数据集,每日中午更新,可通过 HuggingFace datasets 获取,并带有基于日期的修订;该数据集采用 CC 0 1.0 Universal 许可发布。 468 | * [JaGovFaqs-22k](https://huggingface.co/datasets/matsuxr/JaGovFaqs-22k) - 📥 193 / ⭐ 29 / 一份采用 CC‑BY‑4.0 许可证、人工编制的日本政府 FAQ 问答对数据集,完整包含来源 URL,旨在用于大语言模型系统的指令微调和 RAG。 469 | * [shisa-pretrain-en-ja-v1](https://huggingface.co/datasets/augmxnt/shisa-pretrain-en-ja-v1) - 📥 192 / ⭐ 7 / shisa‑base‑7b‑v1 的预训练数据集,使用 DSIR‑sampled MADLAD‑400 tokens 构建,语言比例为 90% 日语 / 10% 英语。 470 | * [covid_tweets_japanese](https://huggingface.co/datasets/community-datasets/covid_tweets_japanese) - 📥 188 / ⭐ 2 / 日本推特 COVID‑19 推文数据集,存为 CSV,包含 tweet IDs 与 assessment‑option IDs (63‑68),用于文本分类任务,区分 COVID 相关性、事实性与个人内容、观点、不确定性以及无关帖子。 471 | * [wikipedia-qa-ja-100k](https://huggingface.co/datasets/alfredplpl/wikipedia-qa-ja-100k) - 📥 186 / ⭐ 3 / 数据集说明卡,针对日本 QA 集 “wikipedia‑qa‑ja‑100k”,来源于 hpprc/wikipedia‑20240101,提供 RAG‑style 提示指南,以用于 CALM 2‑7B Chat。 472 | * [AnimeSongsLyrics](https://huggingface.co/datasets/mohamed-khalil/AnimeSongsLyrics) - 📥 186 / ⭐ 4 / 一个 Apache‑2.0 许可的 Anime Songs Lyrics Dataset,采用 Parquet 格式,包含约23,000条条目,每条条目包含标题、艺术家、动漫、发布日期、播放量、歌词、网址、创作者署名和编排细节,完整文档化,源代码托管在作者的 GitHub 上。 473 | * [MGSM_ja](https://huggingface.co/datasets/sbintuitions/MGSM_ja) - 📥 180 / ⭐ 2 / 提供了 SB Intuitions 的可复现克隆以及 MGSM 多语言链式思考推理数据集的仅限日语子集,均遵循 CC BY‑SA 4.0 协议。 474 | * [zenz-v2.5-dataset](https://huggingface.co/datasets/Miwa-Keita/zenz-v2.5-dataset) - 📥 178 / ⭐ 12 / 一个1.9 亿对的 JSONL 数据集,用于假名到汉字转换,在 CC BY‑SA 4.0 授权下发布,用来训练 zenz‑v2.5 系列(medium、small、xsmall),并提供 AJIMEE‑Bench 评估基准。 475 | * [JDocQA](https://huggingface.co/datasets/shunk031/JDocQA) - 📥 173 / ⭐ 9 / JDocQA 是一个基于日文 PDF 的问答数据集,包含 5,504 篇文档和 11,600 对问答,使用视觉和文本信息测试是/否、事实性、数值、开放式和不可回答的理解。 476 | * [humaneval-ja-v0.6](https://huggingface.co/datasets/HachiML/humaneval-ja-v0.6) - 📥 171 / ⭐ 3 / humaneval-ja 数据集的 Dataset 卡片,更多细节待定。 477 | * [CC-news-2024-July-October-cleaned](https://huggingface.co/datasets/kajuma/CC-news-2024-July-October-cleaned) - 📥 169 / ⭐ 15 / CC‑news‑2024‑July‑October‑cleaned 包含来自 Common Crawl 新闻子集(2024年7月至10月)的日语新闻文章,使用 Uzushio 并采用 pipeline_03a.conf 配置进行处理和清理。 478 | * [extraction-wiki-ja](https://huggingface.co/datasets/llm-jp/extraction-wiki-ja) - 📥 169 / ⭐ 2 / 来自LLM‑jp的指令调优数据集——基于日语维基百科子集(lmm‑jp‑corpus‑v3),使用Qwen/Qwen2.5‑32B‑Instruct过滤,并提供两轮和四轮对话格式——由Hirokazu Kiyomaru 和 Takashi Kodama 创建。 479 | * [nagisa_stopwords](https://huggingface.co/datasets/taishi-i/nagisa_stopwords) - 📥 163 / ⭐ 2 / 一个 MIT 许可证的,100 词的日语停用词列表,源自 CC‑100 Wikipedia 转储,经过精心策划以匹配 nagisa 的分词规则,用于文本预处理、特征提取和建模。 480 | * [simple-zundamon](https://huggingface.co/datasets/alfredplpl/simple-zundamon) - 📥 154 / ⭐ 14 / 一个用于测试角色‑LLMs的简单 Zundamon 角色设定数据集——由线上来源和管理数据编制——以 zmnjp.jsonl 和 zmn.jsonl 格式提供,并在指定许可下发布。 481 | * [WAON](https://huggingface.co/datasets/llm-jp/WAON) - 📥 154 / ⭐ 7 / WAON 是一个大型、高质量的日语图文对数据集,专为视觉‑语言模型构建。它通过严格的图像尺寸和 SigLIP 分数过滤,并通过 URL、标题和 pHash 去重,提供丰富的元数据(标题、页面 URL、安全分数、图像哈希),并在 Apache 2.0 许可证下用于信息分析。 482 | * [snow_simplified_japanese_corpus](https://huggingface.co/datasets/SNOW-NLP/snow_simplified_japanese_corpus) - 📥 152 / ⭐ 21 / 一个 50 k‑sentence Japanese corpus,配有对齐的原始文本、简化 Japanese(core 2 k‑word vocabulary)和 English translations,另外还有一个 35 k‑sentence expansion set,旨在用于 text‑simplification 和 bidirectional Japanese–English translation tasks。 483 | * [r1-distill-qwen-pseudo-qa](https://huggingface.co/datasets/hpprc/r1-distill-qwen-pseudo-qa) - 📥 150 / ⭐ 5 / 来自日本维基百科的派生问题及其对应页面已被自动生成,使用 cyberagent/DeepSeek‑R1‑Distill‑Qwen‑32B‑Japanese 进行回答,并根据 CC‑BY‑SA 4.0 许可证发布。 484 | * [TinyStories-Japanese](https://huggingface.co/datasets/kai271/TinyStories-Japanese) - 📥 148 / ⭐ 4 / 一个约3000篇故事的日语儿童阅读数据集,完全由GPT‑4o‑mini仅使用简单词语合成生成,按照 https://arxiv.org/abs/2305.07759 中的方法创建。 485 | * [ogiri-keitai](https://huggingface.co/datasets/YANS-official/ogiri-keitai) - 📥 147 / ⭐ 2 / NHK“keitai oogiri”提示和答案的完整数据集,来自博客存档,包含剧集、得分、奖项、答题者所属省份和排名的元数据,并注明可能的解析错误和使用限制。 486 | * [SocialStigmaQA-JA](https://huggingface.co/datasets/ibm-research/SocialStigmaQA-JA) - 📥 141 / ⭐ 4 / 日本版SocialStigmaQA发布,包含93个污名和37个翻译后的问题模板,每个模板都有一个biased_answer字段和四种提示样式(original、positive、doubt等),用于探究大型语言模型中的社会偏见。 487 | * [amenokaku-code-instruct](https://huggingface.co/datasets/kunishou/amenokaku-code-instruct) - 📥 139 / ⭐ 17 / 添加了180个新的专业 Java 和 JaxTon 记录到一个 5.2‑K‑instruction 数据集,提供1,050个代码生成、150个行为检查和4,000个缺陷修复示例,这些示例来自经过翻译和人工校正的商业授权编程资料。 488 | * [JIC-VQA](https://huggingface.co/datasets/line-corporation/JIC-VQA) - 📥 136 / ⭐ 4 / JIC‑VQA 是一个日本视觉语言基准,它在一个日本图像分类数据集上添加了多项选择题,涵盖了 101 种食物、30 种花卉、20 种设施和 10 个地标,均采用 CC‑BY‑2.0、CC‑BY‑NC‑2.0 或公共领域许可证。 489 | * [ner-wikipedia-dataset](https://huggingface.co/datasets/llm-book/ner-wikipedia-dataset) - 📥 135 / ⭐ 2 / 由 Stockmark 创建的日语命名实体识别数据集(Version 2.0),在书籍 *Intro to Large Language Models* 中使用,源自 stockmarkteam/ner‑wikipedia‑dataset,并采用与日语 Wikipedia 相同的 CC‑BY‑SA 3.0 许可。 490 | * [aozorabunko-clean-sin](https://huggingface.co/datasets/if001/aozorabunko-clean-sin) - 📥 134 / ⭐ 4 / Hugging Face 数据集 **globis-university/aozorabunko-clean** 的 Fork,已过滤仅包含 `meta["文字遣い種別"]` 等于 `"新字新仮名"` 的行。 491 | * [llm-jp-instructions](https://huggingface.co/datasets/llm-jp/llm-jp-instructions) - 📥 133 / ⭐ 5 / llm‑jp‑instructions 是一个手工收集的日语指令数据集,为语言模型微调提供训练、开发和测试拆分。 492 | * [aozorabunko-chats](https://huggingface.co/datasets/globis-university/aozorabunko-chats) - 📥 132 / ⭐ 12 / 一个对话摘录数据集,按照启发式方式从Aozora Bunko公共领域的日语书籍中提取,按说话序列分组,并在CC‑BY‑4.0许可下发布。 493 | * [llmjp-kaken](https://huggingface.co/datasets/hpprc/llmjp-kaken) - 📥 128 / ⭐ 6 / 已将 llm‑jp‑corpus‑v3 的 kaken 子集转换为 Hugging Face 格式,尽可能为每个条目补充检索到的文章标题,并将数据授权为 CC‑BY‑4.0。 494 | * [japanese-image-classification-evaluation-dataset](https://huggingface.co/datasets/recruit-jp/japanese-image-classification-evaluation-dataset) - 📥 125 / ⭐ 7 / 由 Recruit Co., Ltd 在 CC‑BY‑4.0 协议下发布的日语图像分类数据集,包含四个任务——101类食品、30类花卉、20类设施、10类地标,用于评估 Japanese-CLIP 模型。 495 | * [orca_dpo_pairs_ja](https://huggingface.co/datasets/yongtae-jp/orca_dpo_pairs_ja) - 📥 125 / ⭐ 7 / Intel/orca_dpo_pairs 数据集的日文翻译,使用 Palm 2 (text‑bison‑32k@002) 生成,面向日本 LLM 开发者,保留原始非英语文本,同时确保日语自然、会话化。 496 | * [Tengentoppa-sft-v1.0](https://huggingface.co/datasets/DeL-TaiseiOzaki/Tengentoppa-sft-v1.0) - 📥 123 / ⭐ 20 / 由合并 16 个不同数据集(涵盖对话、推理和 RLHF 任务)以及 GitHub 发布的工具生成的 JSON 格式日语指令微调语料库。 497 | * [modern_haiku](https://huggingface.co/datasets/p1atdev/modern_haiku) - 📥 121 / ⭐ 3 / Modern Haiku Dataset 是一份精心策划的日语现代俳句集合,包含 37,158 首俳句,每首都标注有 ID、文本、作者、来源、评审者的评论、季节以及 kigo(季语)数据,并按季节子集组织,同时设置了一个单独的 kigo 集。 498 | * [Malum-230](https://huggingface.co/datasets/Manual-Dataset-Creation-Project/Malum-230) - 📥 115 / ⭐ 8 / Malum‑230 是一个由人工制作的日语数据集,包含多轮对话和用于逻辑推理的段落,旨在用于预训练和后训练,并已在日本 MT‑Bench 上用 Qwen2.5‑7B 进行评估。 499 | * [CAMERA](https://huggingface.co/datasets/creative-graphic-design/CAMERA) - 📥 113 / ⭐ 6 / CAMERA 是来自 CyberAgent 的日本广告文本生成数据集,提供 12,395 条训练、3,098 条验证和 872 条测试样本,以支持先进的多模态广告生成研究。 500 | * [JA-Multi-Image-VQA](https://huggingface.co/datasets/SakanaAI/JA-Multi-Image-VQA) - 📥 113 / ⭐ 10 / JA‑Multi‑Image‑VQA 提供 39 张图片和 55 条手工制作的日语问答对,用于多图像 VQA 评估,可通过 load_dataset 获得,采用 Apache 2.0 许可(不包括图片),并禁止用于商业销售或服务复制。 501 | * [ChouBun](https://huggingface.co/datasets/SakanaAI/ChouBun) - 📥 113 / ⭐ 10 / ChouBun 是一个用于 LLM 的日本长上下文基准,包含提取式 QA(wiki_qa,edinet_qa)和抽象式摘要(corp_sec_qa,corp_sec_sum)任务,格式与 THUDM/LongBench 完全相同。 502 | * [bluemoon-fandom-1-1-rp-jp-translated](https://huggingface.co/datasets/joujiboi/bluemoon-fandom-1-1-rp-jp-translated) - 📥 112 / ⭐ 3 / Bluemoon Fandom角色扮演数据集的日语翻译子集,使用OpenRouter的command‑R‑08‑2024构建,旨在快速、无审查翻译,包含467个对话和8,372条消息。 503 | * [LiquidAI-Hackathon-Tokyo-SFT-Data](https://huggingface.co/datasets/Aratako/LiquidAI-Hackathon-Tokyo-SFT-Data) - 📥 108 / ⭐ 2 / 用于在 Liquid AI Hackathon Tokyo 期间构建的模型进行监督微调的数据集。 504 | * [wikipedia-20240101](https://huggingface.co/datasets/hpprc/wikipedia-20240101) - 📥 105 / ⭐ 4 / 预处理过的维基百科数据集,使用 Apache Beam 和 mwparserfromhell 创建,包括元数据(language, date, beam_runner, trust_remote_code, max_shard_size),并分发使用,以替代慢速原始预处理,同时遵守维基百科的条款和许可。 505 | * [ja-rag-cot](https://huggingface.co/datasets/jaeyong2/ja-rag-cot) - 📥 105 / ⭐ 2 / 一个包含 209,496 条项目的日语维基百科数据集,使用 Qwen/Qwen2‑72B‑Instruct 并采用 chain‑of‑thought 生成,遵循 Qwen、CC‑BY‑SA‑3.0 和 GFDL 许可,并得到 TPU Research Cloud 支持。 506 | * [gsm8k-ja-slim](https://huggingface.co/datasets/p1atdev/gsm8k-ja-slim) - 📥 105 / ⭐ 2 / 一个基于 openai/gsm8k 和 nejumi/phi‑4‑GPTQ‑Int4‑calib‑ja‑1k 的精简日语版 GSM8K,包含一些无效数据和以姓氏为基础的文字谜题。 507 | * [WildGuardTestJP](https://huggingface.co/datasets/sbintuitions/WildGuardTestJP) - 📥 105 / ⭐ 3 / WildGuardTest 的日语翻译,包含 1,725 个用于评估 guardrail models 的样本,由 Seed‑X‑PPO‑7B 生成,并使用 GPT‑OSS‑120B、Qwen2.5‑72B‑Instruct、Gemma‑3‑27B‑it 进行细化,按 ODC‑BY 许可证发布。 508 | * [sakura_japanese_dataset](https://huggingface.co/datasets/saldra/sakura_japanese_dataset) - 📥 104 / ⭐ 19 / Sakura_dataset 是一个免费商业用途的超小型、高质量日语数据集,综合了常识问答、210k 条数学题集(Calc‑ape210k)以及自制的日语常识集合,均采用 DbCL v1.0 许可,并附带 Rinna 日语 GPT‑NeoX‑3.6 B 模型的 LoRA 微调示例代码。 509 | * [abc-multiple-choice](https://huggingface.co/datasets/tohoku-nlp/abc-multiple-choice) - 📥 104 / ⭐ 4 / abc‑multiple‑choice dataset—由 abc competition 中的四选一问题创建—提供了一个多选的日语 QA 资源,包含本仓库中的评估脚本,并且仅可用于学术研究,禁止商业利用。 510 | * [JaCWIR](https://huggingface.co/datasets/hotchpotch/JaCWIR) - 📥 102 / ⭐ 6 / JaCWIR 是一个包含5,000个查询的日本日常网络搜索评估数据集,基于约50 万条 Hatena‑Bookmark 的标题和描述,并使用 ChatGPT 3.5 生成查询,每个查询包含一个正例和99个困难负例,已在 HuggingFace 和 GitHub 上发布,供 IR 和 rerank 研究使用。 511 | -------------------------------------------------------------------------------- /docs/huggingface.zh-hant.md: -------------------------------------------------------------------------------- 1 | # awesome-japanese-nlp-resources 2 | 3 | [![Awesome](https://cdn.rawgit.com/sindresorhus/awesome/d7305f38d29fed78fa85652e3a63e154dd8e8829/media/badge.svg)](https://github.com/taishi-i/awesome-japanese-nlp-resources) 4 | [![RRs](https://img.shields.io/badge/PRs-welcome-brightgreen)](https://github.com/taishi-i/awesome-japanese-nlp-resources/pulls) 5 | [![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https://huggingface.co/spaces/taishi-i/awesome-japanese-nlp-resources-search) 6 | [![License: CC0-1.0](https://img.shields.io/badge/License-CC0_1.0-lightgrey.svg)](http://creativecommons.org/publicdomain/zero/1.0/) 7 | [![CC0](http://i.creativecommons.org/p/zero/1.0/88x31.png)](http://creativecommons.org/publicdomain/zero/1.0/) 8 | 9 | 專門收錄日語NLP相關的Python函式庫、LLM、詞典和語料庫資源的精選列表。 10 | 本頁面列出了Hugging Face上可用的日語NLP專用模型和資料集。目前包含219個模型和173個資料集。 11 | 12 | _更新於2025年12月23日_ 13 | 14 | [English](https://github.com/taishi-i/awesome-japanese-nlp-resources/blob/main/docs/huggingface.en.md) | [日本語 (Japanese) ](https://github.com/taishi-i/awesome-japanese-nlp-resources/blob/main/docs/huggingface.ja.md) | [繁體中文 (Chinese) ](https://github.com/taishi-i/awesome-japanese-nlp-resources/blob/main/docs/huggingface.zh-hant.md) | [简体中文 (Chinese) ](https://github.com/taishi-i/awesome-japanese-nlp-resources/blob/main/docs/huggingface.zh-hans.md) 15 | 16 | ## Contents 17 | * [Ranking](#Ranking) 18 | * [Models](#models-ranking) 19 | * [Datasets](#datasets-ranking) 20 | * [Models](#Models) 21 | * [text-generation](#text-generation) 22 | * [fill-mask](#fill-mask) 23 | * [sentence-similarity](#sentence-similarity) 24 | * [feature-extraction](#feature-extraction) 25 | * [translation](#translation) 26 | * [automatic-speech-recognition](#automatic-speech-recognition) 27 | * [text-classification](#text-classification) 28 | * [text-ranking](#text-ranking) 29 | * [image-to-text](#image-to-text) 30 | * [token-classification](#token-classification) 31 | * [text-to-speech](#text-to-speech) 32 | * [audio-to-audio](#audio-to-audio) 33 | * [image-text-to-text](#image-text-to-text) 34 | * [others](#others) 35 | * [Datasets](#Datasets) 36 | 37 | ## Ranking 38 | 39 | ### Models-ranking 40 | 41 | | # | 模型名稱 | Downloads | Likes | 類別 | 42 | |---|-------|-----------|-------|----------| 43 | | 1 | [wav2vec2-large-xlsr-53-japanese](https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-japanese) | 📥 3M | ⭐ 44 | automatic-speech-recognition | 44 | | 2 | [JaColBERTv2.5](https://huggingface.co/answerdotai/JaColBERTv2.5) | 📥 600k | ⭐ 22 | sentence-similarity | 45 | | 3 | [japanese-cloob-vit-b-16](https://huggingface.co/rinna/japanese-cloob-vit-b-16) | 📥 593k | ⭐ 13 | feature-extraction | 46 | | 4 | [bert-base-japanese-whole-word-masking](https://huggingface.co/tohoku-nlp/bert-base-japanese-whole-word-masking) | 📥 364k | ⭐ 70 | fill-mask | 47 | | 5 | [cyberagent-open-calm-3b-gguf](https://huggingface.co/mmnga/cyberagent-open-calm-3b-gguf) | 📥 338k | ⭐ 1 | others | 48 | | 6 | [ruri-base](https://huggingface.co/cl-nagoya/ruri-base) | 📥 330k | ⭐ 11 | sentence-similarity | 49 | | 7 | [cyberagent-open-calm-7b-gguf](https://huggingface.co/mmnga/cyberagent-open-calm-7b-gguf) | 📥 262k | ⭐ 2 | others | 50 | | 8 | [vntl-llama3-8b-v2-gguf](https://huggingface.co/lmg-anon/vntl-llama3-8b-v2-gguf) | 📥 244k | ⭐ 8 | translation | 51 | | 9 | [manga-ocr-base](https://huggingface.co/kha-white/manga-ocr-base) | 📥 204k | ⭐ 162 | image-to-text | 52 | | 10 | [xlm-roberta-ner-japanese](https://huggingface.co/tsmatz/xlm-roberta-ner-japanese) | 📥 157k | ⭐ 25 | token-classification | 53 | | 11 | [ruri-v3-310m](https://huggingface.co/cl-nagoya/ruri-v3-310m) | 📥 154k | ⭐ 57 | sentence-similarity | 54 | | 12 | [japanese-gpt-neox-small](https://huggingface.co/rinna/japanese-gpt-neox-small) | 📥 147k | ⭐ 15 | text-generation | 55 | | 13 | [bert-base-japanese-char-v2](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v2) | 📥 128k | ⭐ 6 | fill-mask | 56 | | 14 | [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) | 📥 124k | ⭐ 80 | automatic-speech-recognition | 57 | | 15 | [bert-base-japanese-char-v3](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v3) | 📥 108k | ⭐ 10 | others | 58 | | 16 | [bert-base-japanese-char](https://huggingface.co/tohoku-nlp/bert-base-japanese-char) | 📥 107k | ⭐ 8 | fill-mask | 59 | | 17 | [stockmark-gpt-neox-japanese-1.4b-gguf](https://huggingface.co/mmnga/stockmark-gpt-neox-japanese-1.4b-gguf) | 📥 102k | ⭐ 1 | others | 60 | | 18 | [opus-mt-ja-en](https://huggingface.co/Helsinki-NLP/opus-mt-ja-en) | 📥 89k | ⭐ 66 | translation | 61 | | 19 | [bert-large-japanese-v2](https://huggingface.co/tohoku-nlp/bert-large-japanese-v2) | 📥 69k | ⭐ 13 | others | 62 | | 20 | [Llama-3-ELYZA-JP-8B](https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B) | 📥 67k | ⭐ 139 | text-generation | 63 | 64 | ### Datasets-ranking 65 | 66 | | # | 資料集名稱 | Downloads | Likes | 67 | |---|---------|-----------|-------| 68 | | 1 | [KakologArchives](https://huggingface.co/datasets/KakologArchives/KakologArchives) | 📥 115k | ⭐ 17 | 69 | | 2 | [JMedBench](https://huggingface.co/datasets/Coldog2333/JMedBench) | 📥 11k | ⭐ 8 | 70 | | 3 | [Cauldron-JA](https://huggingface.co/datasets/turing-motors/Cauldron-JA) | 📥 7k | ⭐ 8 | 71 | | 4 | [reazon-speech-v2-clone](https://huggingface.co/datasets/litagin/reazon-speech-v2-clone) | 📥 6k | ⭐ 10 | 72 | | 5 | [fineweb-2-edu-japanese](https://huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese) | 📥 6k | ⭐ 22 | 73 | | 6 | [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) | 📥 6k | ⭐ 18 | 74 | | 7 | [AnswerCarefully](https://huggingface.co/datasets/llm-jp/AnswerCarefully) | 📥 6k | ⭐ 47 | 75 | | 8 | [japanese-anime-speech-v2](https://huggingface.co/datasets/joujiboi/japanese-anime-speech-v2) | 📥 4k | ⭐ 126 | 76 | | 9 | [ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) | 📥 4k | ⭐ 99 | 77 | | 10 | [MissingKeys](https://huggingface.co/datasets/RyokoExtra/MissingKeys) | 📥 4k | ⭐ 2 | 78 | | 11 | [voicevox-voice-corpus](https://huggingface.co/datasets/ayousanz/voicevox-voice-corpus) | 📥 4k | ⭐ 6 | 79 | | 12 | [Galgame-VisualNovel-Reupload](https://huggingface.co/datasets/joujiboi/Galgame-VisualNovel-Reupload) | 📥 4k | ⭐ 26 | 80 | | 13 | [Nemotron-Personas-Japan](https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan) | 📥 3k | ⭐ 94 | 81 | | 14 | [JGLUE](https://huggingface.co/datasets/shunk031/JGLUE) | 📥 3k | ⭐ 44 | 82 | | 15 | [emilia-yodas](https://huggingface.co/datasets/TTS-AGI/emilia-yodas) | 📥 3k | ⭐ 4 | 83 | | 16 | [mc4-ja](https://huggingface.co/datasets/izumi-lab/mc4-ja) | 📥 3k | ⭐ 6 | 84 | | 17 | [vntl-leaderboard](https://huggingface.co/datasets/lmg-anon/vntl-leaderboard) | 📥 3k | ⭐ 39 | 85 | | 18 | [mc4-ja-filter-ja-normal](https://huggingface.co/datasets/izumi-lab/mc4-ja-filter-ja-normal) | 📥 3k | ⭐ 5 | 86 | | 19 | [Voice-KusanagiNene](https://huggingface.co/datasets/MomoyamaSawa/Voice-KusanagiNene) | 📥 3k | ⭐ 16 | 87 | | 20 | [EliteVoiceProject](https://huggingface.co/datasets/Elite35P-Server/EliteVoiceProject) | 📥 2k | ⭐ 12 | 88 | 89 | ## Models 90 | ### text-generation 91 | * [japanese-gpt-neox-small](https://huggingface.co/rinna/japanese-gpt-neox-small) - 📥 147k / ⭐ 15 / 一個 12 層、768 隱藏層的日本 GPT‑NeoX 模型,訓練於 CC‑100、C4 和 Wikipedia,兼容 Huggingface,並可選擇使用一個玩具前綴調優權重,使每句結尾強制出現笑臉表情符號。 92 | * [Llama-3-ELYZA-JP-8B](https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B) - 📥 67k / ⭐ 139 / Llama‑3‑ELYZA‑JP‑8B 是 ELYZA 推出的日語改良版,8 億參數的 Llama 3 模型,已在 Meta‑Llama‑3‑8B‑Instruct 上為日語進行微調。 93 | * [llm-jp-3.1-1.8b](https://huggingface.co/llm-jp/llm-jp-3.1-1.8b) - 📥 48k / ⭐ 9 / llm‑jp‑3.1‑1.8b 是來自 NII 的大型語言模型研發中心的 1.8 億參數日語 LLM,作為 Hugging Face 檢查點發佈(torch ≥ 2.3、transformers ≥ 4.40、accelerate ≥ 0.29、flash‑attn ≥ 2.5),在倉庫中提供完整模型規格、分詞器和預訓練細節。 94 | * [llm-jp-3.1-1.8b-instruct4](https://huggingface.co/llm-jp/llm-jp-3.1-1.8b-instruct4) - 📥 38k / ⭐ 13 / 提供由 NII 出品的 1.8 B 參數 llm‑jp‑3.1‑1.8b‑instruct4 日語指令調校模型,兼容 Hugging Face Transformers 及 Torch ≥ 2.3.0,包含預訓練與微調檢查點及使用示例。 95 | * [TinySwallow-1.5B](https://huggingface.co/SakanaAI/TinySwallow-1.5B) - 📥 37k / ⭐ 35 / TinySwallow‑1.5B 是 Sakana AI 與 Swallow Team 所開發的一款緊湊型日語指令跟隨語言模型,採用 Qwen2.5‑32B‑Instruct 的 TAID 蒸餾,並進一步於日語文本上進行預訓練,僅以 Apache 2.0 授權釋出,僅供研究用途。 96 | * [Llama-3.1-Swallow-8B-Instruct-v0.5](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.5) - 📥 31k / ⭐ 15 / Llama 3.1 Swallow 是一組 8‑B 和 70‑B 模型,繼續對 Meta 的 Llama 3.1 進行預訓練以提升日語表現,然後在合成日語數據上進行 instruction‑fine‑tune,提供多個已發佈的變體,具有與 gemma‑3‑27b‑it 相當的對話行為改進。 97 | * [llm-jp-3-1.8b](https://huggingface.co/llm-jp/llm-jp-3-1.8b) - 📥 21k / ⭐ 15 / 一套日本大型語言模型(1.8 b 至 172 b beta1,含 instruct 變體)來自 NII 研究發展中心,以 Hugging Face Transformers 格式打包,並在混合的日文、英文以及網路語料上預訓練,總 token 數量超過 1 trillion,需至少 torch ≥ 2.3、transformers ≥ 4.40、accelerate ≥ 0.29、flash‑attn ≥ 2.5。 98 | * [japanese-gpt2-medium](https://huggingface.co/rinna/japanese-gpt2-medium) - 📥 15k / ⭐ 82 / Rinna 的 24 層、1024 隱藏單元的日本 GPT‑2‑medium 模型,使用 CC‑100 和 Wikipedia 進行訓練,採用 SentencePiece 分詞,已在 rinna/japanese‑pretrained‑models repo 中提供(MIT‑licensed,於 2021 年 4 月 7 日發布,於 2021 年 8 月 25 日更新)。 99 | * [Llama-3-ELYZA-JP-8B-AWQ](https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-AWQ) - 📥 13k / ⭐ 4 / 日語優化的8億參數 Llama‑3‑ELYZA‑JP‑8B,基於 Meta‑Llama‑3‑Instruct 並加上額外的預訓練和指令調優,提供 GGUF 與 AWQ 量化模型,適用於 vLLM 或 OpenAI‑compatible 推理。 100 | * [llm-jp-3-7.2b-instruct3](https://huggingface.co/llm-jp/llm-jp-3-7.2b-instruct3) - 📥 13k / ⭐ 4 / 承載 LLM‑jp‑3‑7.2b‑instruct3 7.2 B‑parameter 的日語語言模型,該模型來自信息學國立研究院,已在日語維基百科和 Common Crawl 上進行預訓練,採用 Hugging Face Transformers 格式,並且需要 torch ≥ 2.3、transformers ≥ 4.40、accelerate ≥ 0.29 以及 flash‑attn ≥ 2.5。 101 | * [Llama-3.1-Swallow-8B-Instruct-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.2) - 📥 12k / ⭐ 15 / Llama 3.1 Swallow 交付了 8 B 與 70 B 的日文增強語言模型,這些模型是透過持續預訓練及說明式微調在 Meta’s Llama 3.1 上建構,並且保留了原始的英語功能。 102 | * [Llama-3-Swallow-8B-Instruct-v0.1](https://huggingface.co/tokyotech-llm/Llama-3-Swallow-8B-Instruct-v0.1) - 📥 9k / ⭐ 20 / Llama3 Swallow 是一款日本增強版 Meta Llama 3 系列,於 2024 年 7 月 1 日發布,提供 8B 與 70B 兩種版本,包含 Instruct 與 chat 形式,並使用 SFT 與 Chat Vector 在 Megatron‑LM 上微調,並在關鍵的日本 NLP 任務上進行基準測試。 103 | * [Llama-3-70B-japanese-suzume-vector-v0.1](https://huggingface.co/mmnga/Llama-3-70B-japanese-suzume-vector-v0.1) - 📥 9k / ⭐ 4 / 實驗性日本模型,透過採用 chat‑vector 方法提取 lightblue/suzume‑llama‑3‑8B‑japanese 與 Meta‑Llama‑3‑8B‑Instruct 之間的差異,升樣後應用於 Meta‑Llama‑3‑70B‑Instruct,顯示變化不大,並計畫未來擴充。 104 | * [japanese-gpt2-small](https://huggingface.co/rinna/japanese-gpt2-small) - 📥 7k / ⭐ 25 / rinna 的日語 GPT‑2 small 為 12 層、768 隱藏單元的 transformer,訓練於日語 CC‑100 和 Wikipedia,使用 SentencePiece 進行分詞,於 2021 年 8 月 25 日以 MIT 版發布(Hugging Face:rinna/japanese‑gpt2‑small,詳見 https://arxiv.org/abs/2404.01657)。 105 | * [open-calm-1b](https://huggingface.co/cyberagent/open-calm-1b) - 📥 5k / ⭐ 17 / OpenCALM 是由 CyberAgent 出品的一套日語僅解碼器語言模型,參數規模從 160 M 到 6.8 B,基於 GPT‑NeoX,並以 CC BY‑SA 4.0 授權發佈。 106 | * [gpt-neox-japanese-2.7b](https://huggingface.co/abeja/gpt-neox-japanese-2.7b) - 📥 5k / ⭐ 58 / 一個 2.7‑B 參數的日語 GPT‑NeoX 模型,由 ABEJA Inc 在日語 CC‑100 與 OSCAR 上訓練,可透過 Hugging Face Transformers pipelines 或 PyTorch 使用,並以 MIT 授權釋出。 107 | * [ELYZA-japanese-Llama-2-7b-instruct](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b-instruct) - 📥 5k / ⭐ 74 / ELYZA‑japanese‑Llama‑2‑7b 是 Meta 的 Llama‑2 模型的 6.27‑B 參數擴充,已在包含 instruct 與 fast 變體的日文資料上進行預訓練,可透過 Hugging Face Transformers 使用。 108 | * [sarashina2.2-3b-instruct-v0.1](https://huggingface.co/sbintuitions/sarashina2.2-3b-instruct-v0.1) - 📥 5k / ⭐ 33 / 提供由 SB Intuitions 推出的自回歸日語語言模型 (sarashina2.2‑3B‑instruct‑v0.1),已與其他模型進行基準測試,且附帶示例使用腳本,並註明安全訓練有限。 109 | * [TinySwallow-1.5B-Instruct](https://huggingface.co/SakanaAI/TinySwallow-1.5B-Instruct) - 📥 4k / ⭐ 56 / TinySwallow‑1.5B‑Instruct 是一個 1.5 B 日語指令調校的自回歸語言模型,經由 TAID 從 Qwen2.5‑32B‑Instruct 蒸餾,僅供研究使用。 110 | * [shisa-gamma-7b-v1](https://huggingface.co/augmxnt/shisa-gamma-7b-v1) - 📥 4k / ⭐ 18 / 以 Shisa 7B 數據微調了 Japanese Stable LM Base Gamma 7B,並在 JA MT‑Bench 上取得優異成績。 111 | * [Llama-3-ELYZA-JP-8B-Heretic-GGUF](https://huggingface.co/ChiKoi7/Llama-3-ELYZA-JP-8B-Heretic-GGUF) - 📥 4k / ⭐ 1 / 一款 Heretic‑v1.1.0 abliteration 的日本增強版 Llama‑3‑ELYZA‑JP‑8B 模型,產生一個去審查版本,在日語提示上表現良好,但在英語上顯示高拒絕率。 112 | * [llm-jp-3.1-13b-instruct4](https://huggingface.co/llm-jp/llm-jp-3.1-13b-instruct4) - 📥 3k / ⭐ 15 / LLM‑jp‑3.1‑13b‑instruct4 是一個 13‑B 的、已經進行指令預訓練的日語語言模型,由 NII 的 R&D Center 開發,並以 Hugging‑Face Transformers 的 checkpoint 形式發布,使用 UNIGRAM‑byte‑fallback tokenizer。 113 | * [Llama-3.1-Swallow-8B-Instruct-v0.3](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3) - 📥 3k / ⭐ 22 / Llama 3.1 Swallow 是一系列經過日本優化的 8B/70B Llama 3.1 模型,透過持續預訓練和日本專用說明微調進行訓練,最新的 8B‑Instruct‑v0.3 在日本 MT‑Bench 上取得了最先進的成果。 114 | * [open-calm-small](https://huggingface.co/cyberagent/open-calm-small) - 📥 3k / ⭐ 19 / OpenCALM 是 CyberAgent 發布的一系列日語僅解碼器 Transformer 語言模型(參數 160 M–6.8 B),訓練於日語維基百科和 Common Crawl,並以 CC BY‑SA 4.0 授權發行。 115 | * [Swallow-7b-instruct-hf](https://huggingface.co/tokyotech-llm/Swallow-7b-instruct-hf) - 📥 3k / ⭐ 43 / TokyoTech‑LLM 提供 Swallow Llama 2 系列——日語加強、超監督微調與無詞彙擴展變體,適用於 7B、13B 與 70B 模型,最新發布包含 Swallow‑7b‑instruct‑v0.1 與 Swallow‑70b‑NVE‑hf。 116 | * [ABEJA-Qwen2.5-32b-Japanese-v1.0](https://huggingface.co/abeja/ABEJA-Qwen2.5-32b-Japanese-v1.0) - 📥 3k / ⭐ 5 / ABEJA‑Qwen2.5‑32b‑Japanese‑v1.0,建立於 Qwen2.5‑32B‑Instruct,加入日語為中心的預訓練,隨後進行 SFT 與 DPO 微調(詳情見 ABEJA 的技術部落格)。 117 | * [llm-jp-3-13b](https://huggingface.co/llm-jp/llm-jp-3-13b) - 📥 3k / ⭐ 13 / 存放於 Hugging Face 的倉儲中,提供來自國立情報學研究院的日本語 LLM 檢查點(1.8 B、3.7 B、13 B、17.2 B)。使用需求為 PyTorch 2.3+、Transformers 4.40+。該倉儲包含示例推理程式碼、一個 2.1 T‑token 的單字統計基礎 tokenizer,以及在混合日語與英語語料庫上的預訓練模型。 118 | * [Gemma-2-Llama-Swallow-27b-it-v0.1](https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1) - 📥 2k / ⭐ 2 / Gemma‑2‑Llama‑Swallow 是 Gemma‑2 模型系列(2b、9b、27b),透過在合成日文資料上持續預訓練與指示微調,提升日文表現,同時保持英語能力,並已於 Hugging Face 發佈。 119 | * [Gemma-2-Llama-Swallow-9b-pt-v0.1](https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-9b-pt-v0.1) - 📥 2k / ⭐ 1 / 日語增強、指令微調的 Gemma‑2 模型,建構於 Llama(2b/9b/27b pre‑train 和 instruction 版本),於 2025 年 5 月 19 日發布,並可於 HuggingFace 與 Swallow team 的網站上取得。 120 | * [youri-7b](https://huggingface.co/rinna/youri-7b) - 📥 2k / ⭐ 21 / youri‑7b 是一個 32 層、4096 隱藏層的 transformer,來源於 Llama2‑7b,持續預訓練於約 40 B 個日語 token(CC‑100、C4、OSCAR、Pile、Wikipedia)並於 2023‑10‑31 發布,並在 AI2 Reasoning Challenge、HellaSwag、MMLU、TruthfulQA 與 Winogrande 上取得競爭性分數。 121 | * [japanese-stablelm-instruct-gamma-7B-GGUF](https://huggingface.co/TheBloke/japanese-stablelm-instruct-gamma-7B-GGUF) - 📥 2k / ⭐ 10 / 此存儲庫提供 GGUF 格式、量化的模型檔,適用於 Stability AI 的日文 StableLM Instruct Gamma 7B,該模型由 Massed Compute 硬體製成,並屬於 TheBloke 的 a16z 資金支持的 LLM 專案的一部分。 122 | * [ELYZA-japanese-Llama-2-7b-fast-instruct](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b-fast-instruct) - 📥 2k / ⭐ 81 / 由 ELYZA 開發的日文增強版 Llama‑2‑7B,預訓練以擴展日語能力,包含標準、指導、快速三種變體,附帶詳細使用範例、開發者貢獻,並採用 Meta 的 Llama‑2 Community License 授權。 123 | * [open-calm-7b](https://huggingface.co/cyberagent/open-calm-7b) - 📥 2k / ⭐ 205 / OpenCALM 是 CyberAgent, Inc. 推出的日本式解碼器專用 Transformer 語言模型套件,參數量從 160 M 到 6.8 B 不等,已在 Wikipedia 和 Common Crawl 上進行預訓練,可透過 Transformers library 以 CC BY‑SA 4.0 授權取得。 124 | * [japanese-large-lm-3.6b](https://huggingface.co/line-corporation/japanese-large-lm-3.6b) - 📥 2k / ⭐ 75 / 一個擁有 3.6 億參數的日語 GPT‑NeoX 模型,使用約 650 GB 的日語文本(C4、CC‑100、Oscar、網絡爬取)進行訓練,於內部 C4 驗證集上取得 7.50 的困惑度,並以 Apache 2.0 授權發布。 125 | * [sarashina2.2-0.5b-instruct-v0.1](https://huggingface.co/sbintuitions/sarashina2.2-0.5b-instruct-v0.1) - 📥 2k / ⭐ 13 / SB Intuitions 的 Sarashina2.2‑0.5B instruct v0.1 是一個 5 億參數的日語自回歸模型,在日語和英語 MT 基準上表現優秀,並可透過 torch-transformers 載入。 126 | * [Swallow-7b-hf](https://huggingface.co/tokyotech-llm/Swallow-7b-hf) - 📥 2k / ⭐ 17 / TokyoTech‑LLM 倉庫提供了 Swallow Llama‑2 系列的 LLaMA‑2 模型,這些模型已加入日文資料,涵蓋 7B、13B 與 70B 變體,並包含 instruction‑tuned、NVE‑tuned 以及自 2023 年 12 月以來發佈的 7B Plus 版本。 127 | * [sarashina2.2-1b-instruct-v0.1](https://huggingface.co/sbintuitions/sarashina2.2-1b-instruct-v0.1) - 📥 2k / ⭐ 12 / 本倉庫托管 SB Intuitions 的 1 B‑參數自回歸式日本指令模型 sarashina2.2‑1b‑instruct‑v0.1,與其他日本‑BERT 進行日本與英語 MT 及指令任務的基準測試,提供一段 torch‑transformer 使用範例,並警告安全訓練有限。 128 | * [ELYZA-japanese-Llama-2-7b-fast](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b-fast) - 📥 2k / ⭐ 23 / ELYZA‑japanese‑Llama‑2‑7b 是 Meta 的 Llama‑2‑7B 的 6.27‑B‑parameter 日本語擴展版本,進一步針對日本語語言任務進行預訓練,並提供 base、instruct、fast 和 fast‑instruct 變體,由 ELYZA 團隊在 Llama 2 Community License 下維護。 129 | * [ELYZA-japanese-Llama-2-7b](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b) - 📥 2k / ⭐ 96 / ELYZA‑japanese‑Llama‑2‑7b 是 Meta 的 Llama‑2 7 B 的日語優化版本,提供 instruct 與 fast 兩種變體,具有 6.27–6.37 B 個參數,可通過 Hugging‑Face Transformers 庫進行存取。 130 | * [karasu-1.1B](https://huggingface.co/lightblue/karasu-1.1B) - 📥 2k / ⭐ 7 / 已預訓練的 TinyLlama,日語版本(≈50k 步),建立於約3B OSCAR/mC4 代幣上,可透過 HuggingFace Transformers 或 VLLM 使用,由 Peter Devine、Sho Higuchi、Yuuki Yamanaka、Atom Sonoda、Shunichi Taniguchi、Tomioka Wataru 與 Renju Aoki 製作。 131 | * [llm-jp-1.3b-v1.0](https://huggingface.co/llm-jp/llm-jp-1.3b-v1.0) - 📥 2k / ⭐ 15 / LLM‑jp 提供 13B 與 1.3B 的 transformer 語言模型,包括多個 instruction‑tuned 變體,使用 Megatron‑DeepSpeed 與 Hugging Face Transformers 生態系統構建。 132 | * [llm-jp-13b-v1.0](https://huggingface.co/llm-jp/llm-jp-13b-v1.0) - 📥 1k / ⭐ 41 / 來自 LLM‑jp 的大型語言模型 – 13B 和 1.3B Japanese‑English transformers,具備多種 instruction 和 LoRA 變體,使用 Megatron‑DeepSpeed 預訓練,並以 Hugging Face 格式發布(torch ≥ 2.0,transformers ≥ 4.34)。 133 | * [Llama-3.1-Swallow-8B-v0.2](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-v0.2) - 📥 1k / ⭐ 4 / Llama 3.1 Swallow 提供 8B 與 70B 的日文增強語言模型,透過持續預訓練與指令微調的合成日文資料創建,並公開發佈 v0.1–v0.3 版本,在 JCom、JEMHopQA、NIILC、JSQuAD 等基準測試上表現優異。 134 | * [japanese-stablelm-instruct-gamma-7b](https://huggingface.co/stabilityai/japanese-stablelm-instruct-gamma-7b) - 📥 1k / ⭐ 53 / Japanese Stable LM Instruct Gamma 7B 是一個 7B 參數、僅解碼器的日語語言模型,經過指令資料集微調,以 Base Gamma 7B 為基礎構建,需 Transformers 4.34+,採用 Apache 2.0 授權,由 Stability AI 開發。 135 | * [ABEJA-Qwen2.5-7b-Japanese-v0.1](https://huggingface.co/abeja/ABEJA-Qwen2.5-7b-Japanese-v0.1) - 📥 1k / ⭐ 10 / ABEJA‑Qwen2.5‑7b‑Japanese‑v0.1 是一款經日語微調的 Qwen 2.5 7B 模型,源自 32B 日語變體的蒸餾,並以 ChatVector 進行指令跟隨優化,可透過 PyTorch 與 Hugging Face Transformers 取得。 136 | * [llama-3-youko-8b](https://huggingface.co/rinna/llama-3-youko-8b) - 📥 1k / ⭐ 62 / 一個以日語為焦點的 Meta‑Llama‑3‑8B 變體,稱為 Llama 3 Youko 8B,持續進行預訓練和指令調優,使用來自日語語料庫(CC‑100、C4、OSCAR、The Pile、Wikipedia)的約 22 B 個 token,並於 2024 年 5 月 1 日發布。 137 | * [ELYZA-japanese-Llama-2-13b-instruct](https://huggingface.co/elyza/ELYZA-japanese-Llama-2-13b-instruct) - 📥 1k / ⭐ 42 / ELYZA‑japanese‑Llama‑2‑13b 延伸了 Meta 的 Llama 2,加入額外針對日文的預訓練,提供 13 B‑參數模型(包含 instruct 與 fast 變體),可在 PyTorch 與 🤗 Transformers 之下以 Llama 2 Community License 載入。 138 | * [Gemma-2-Llama-Swallow-9b-it-v0.1](https://huggingface.co/tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1) - 📥 1k / ⭐ 4 / Gemma‑2‑Llama‑Swallow 是 Gemma 2 的以日語為焦點的擴充版本,提供 2B、9B、27B 模型,採用持續學習預訓練,並透過在合成日語數據上進行 SFT 進行指令微調,並於 HuggingFace 以及 Swallow 團隊網站上發佈。 139 | * [Sakura-13B-Galgame-GGUF](https://huggingface.co/QuantFactory/Sakura-13B-Galgame-GGUF) - 📥 1k / ⭐ 2 / 一款授權為 CC BY‑NC‑SA 4.0、離線量化的日英美少女遊戲/輕小說翻譯模型(Sakura‑13B‑Galgame),使用 llama.cpp 建構,表現接近 GPT‑3.5,提供多種尺寸,並搭配 OpenAI‑API 相容的後端。 140 | * [llm-jp-3-3.7b](https://huggingface.co/llm-jp/llm-jp-3-3.7b) - 📥 1k / ⭐ 10 / 與 Hugging Face 兼容的日語 transformer LLM(1.8b、3.7b、13b 及其 instruct/beta 變體),使用 torch ≥ 2.3、transformers ≥ 4.40.1、accelerate、flash‑attn 構建,並已在混合日英語語料庫(如 Wikipedia、Common Crawl、Dolma)上預先訓練。 141 | * [Swallow-70b-instruct-hf](https://huggingface.co/tokyotech-llm/Swallow-70b-instruct-hf) - 📥 1k / ⭐ 37 / 提供 Swallow Llama‑2 系列的日英 LLM——7B、13B 與 70B 模型,具有 instruct、NVE 與 preview 變體——透過監督式微調進行調整,並透過 Megatron‑LM(含 tokenizer)提供,並已在核心日語任務上進行基準測試。 142 | * [Llama-3.1-Future-Code-Ja-8B](https://huggingface.co/future-architect/Llama-3.1-Future-Code-Ja-8B) - 📥 1k / ⭐ 6 / Llama 3.1 Future Code Ja 是一個基於 Meta 的 Llama 3.1 構建的 8‑B 參數模型,訓練於日語代碼與自然語言數據(Stack V2、LLM‑jp Corpus),並以 SFT/DPO 進行微調,支援因果推理與中間填充推理,且在日語及英語代碼完成任務上表現優於原始 Llama 3.1 與 Qwen 系列。 143 | * [weblab-10b-instruction-sft-GPTQ](https://huggingface.co/dahara1/weblab-10b-instruction-sft-GPTQ) - 📥 1k / ⭐ 13 / 一個 autoGPTQ‑量化的 10‑B‑參數主打日語的多語言 GPT‑NeoX 模型(weblab‑10b‑instruction‑sft‑GPTQ),將原始 21.42 GB 應縮為更快且要求 GPU 的版本,並提供通過 llama.cpp 在 CPU 上的 6.03 GB gguf 替代方案,可在本地使用 text‑generation‑webui(RTX 3060 上約 16 tokens/s)運行,或在 Colab 中交互使用。 144 | * [japanese-stablelm-base-beta-70b](https://huggingface.co/stabilityai/japanese-stablelm-base-beta-70b) - 📥 1k / ⭐ 17 / Japanese‑StableLM‑Base‑Beta‑70B 是一個 70‑B 參數的 Llama‑2 推導解碼器語言模型,經過在多樣化的日文資料上微調,提供 7 B 缩小版本、遵循指令的變體,以及更快推理發佈,全部皆遵循 Llama2 Community License。 145 | * [llm-jp-13b-instruct-full-dolly-oasst-v1.0](https://huggingface.co/llm-jp/llm-jp-13b-instruct-full-dolly-oasst-v1.0) - 📥 1k / ⭐ 4 / LLM‑jp 提供 instruction‑style 與 pretrained 13B/1.3B Transformer 模型,並以 Hugging Face 與 DeepSpeed 格式供應,已在 50 k+ 混合日本/英語/原始碼資料上進行訓練,需符合 torch ≥ 2.0、transformers ≥ 4.34 與 accelerate 0.23。 146 | * [llm-jp-13b-instruct-full-jaster-v1.0](https://huggingface.co/llm-jp/llm-jp-13b-instruct-full-jaster-v1.0) - 📥 1k / ⭐ 15 / 13‑B 與 1.3‑B 參數 LLM‑jp instruction‑fine‑tuned 模型(包括 LoRA 變體)的倉庫,已封裝為 Hugging Face Transformers 格式,並需要 torch ≥ 2.0、transformers ≥ 4.34 以及 accelerate 0.23,使用 Megatron‑DeepSpeed 與 PEFT 在約 5 萬個混合日英/程式碼範例上訓練。 147 | * [japanese-stablelm-instruct-beta-70b](https://huggingface.co/stabilityai/japanese-stablelm-instruct-beta-70b) - 📥 1k / ⭐ 26 / Japanese‑StableLM‑Instruct‑Beta‑70B 是一個 70 億參數的日本解碼僅 Llama2 為基礎的語言模型,經 Dolly‑15k、Anthropic HH 以及其他公共資料微調,亦提供 7 億參數的變體,並以 Llama2 Community License 釋出。 148 | * [llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0](https://huggingface.co/llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0) - 📥 1k / ⭐ 8 / 提供 LLM‑jp 的 13 B 與 1.3 B 日文-英文指令集與預訓練模型,提供多種變體檢查點,供 Hugging Face Transformers 使用,需搭配 torch ≥ 2.0、transformers ≥ 4.34、accelerate 0.23 且支援 DeepSpeed。 149 | * [japanese-stablelm-base-gamma-7b](https://huggingface.co/stabilityai/japanese-stablelm-base-gamma-7b) - 📥 1k / ⭐ 25 / 一款基於 Mistral‑7B‑v0.1 的 7‑B 參數、自回歸、僅解碼器的日語模型,由 Stability AI 以 Apache 2.0 授權發布,適用於高效日語語言和下游任務,並且要求 Transformers 4.34.0+。 150 | * [open-calm-large](https://huggingface.co/cyberagent/open-calm-large) - 📥 1k / ⭐ 11 / OpenCALM 是 CyberAgent 推出的僅解碼器日語 Transformer 家族 (參數量從 160 M 到 6.8 B,包含 open‑calm‑small 至 open‑calm‑7b),由日語 Wikipedia 與 Common‑Crawl 訓練,採用 CC BY‑SA 4.0 授權,並可透過 Hugging Face transformers 使用。 151 | * [ELYZA-japanese-Llama-2-7b-fast-instruct-GPTQ](https://huggingface.co/dahara1/ELYZA-japanese-Llama-2-7b-fast-instruct-GPTQ) - 📥 1k / ⭐ 3 / 提供 Meta 的 Llama‑2 7B(ELYZA‑japanese‑Llama‑2‑7b‑fast‑instruct)的 4‑bit、4.11 GB 量化版本,其可縮減記憶體但會降低指令跟隨,需 GPU 及 autoGPTQ,並包含對替代 AWQ、llama.cpp 及 gguf 量化方法與基準測試結果的參考。 152 | * [Llama-3.1-Swallow-8B-Instruct-v0.1](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.1) - 📥 1k / ⭐ 17 / Llama 3.1 Swallow 是一套 8B 與 70B 的日文增強語言模型,源自 Meta 的 Llama 3.1,透過持續預訓練與指令微調進行改良,於 2024 年 10 月發佈,託管於 swallow‑llm.github.io。 153 | * [japanese-gpt-1b](https://huggingface.co/rinna/japanese-gpt-1b) - 📥 1k / ⭐ 106 / 一個 1.3‑B‑parameter、24‑layer transformer GPT‑1B,在 Japanese C4、CC‑100 以及 Wikipedia 上訓練,於 2022 年 1 月 26 日由 rinna Co. 發布,並以 MIT license 供使用。 154 | * [llm-jp-3-1.8b-instruct](https://huggingface.co/llm-jp/llm-jp-3-1.8b-instruct) - 📥 1k / ⭐ 25 / 來自國立情報學研究所的 Hugging Face 兼容的以日語為中心的 transformer 模型(llm‑jp‑3‑1.8b、1.8b‑instruct、3.7b、3.7b‑instruct、13b、13b‑instruct、17.2b‑beta1、17.2b‑beta1‑instruct),已在多樣化的日語和英語語料庫(包括 Wikipedia、Common Crawl、WARP、Kaken、Dolma)上預訓練,並且需要 torch ≥ 2.3、transformers ≥ 4.40、accelerate 與 flash‑attn。 155 | * [shisa-base-7b-v1](https://huggingface.co/augmxnt/shisa-base-7b-v1) - 📥 1k / ⭐ 16 / shisa‑base‑7b‑v1 在 MADLAD‑400 的 8 B 日語 token 上增強 Mistral 7B,訓練耗時 2,400 A100‑40 GPU‑hours,並達到領先類別的日語基準效能,超越可比的 7‑B 日語微調模型,例如 Japanese Stable LM、ELYZA 與 Youri。 156 | * [shisa-7b-v1](https://huggingface.co/augmxnt/shisa-7b-v1) - 📥 1k / ⭐ 30 / Shisa 7B 是一個以日本為焦點的語言模型,基於 Mistral 7B 建立,使用精編的 airoboros、ultrafeedback 以及合成的 EN‑JA 數據進行訓練,並附帶預處理、翻譯、微調與評估的程式碼,以及未來研究文件。 157 | * [ALMA-7B-Ja-V2](https://huggingface.co/webbigdata/ALMA-7B-Ja-V2) - 📥 1k / ⭐ 20 / C3TR‑Adapter 將 4‑bit QLoRA 應用於 gemma‑7b,允許在免費 Colab 上使用 8.1 GB GPU,而 ALMA‑7B‑Ja‑V2 提供日英翻譯(亦支援德語、中文、冰島語、捷克語),使用 BLEU 與 chrF++ 指標評估。 158 | * [Llama-3.1-Swallow-70B-v0.1](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-70B-v0.1) - 📥 1k / ⭐ 4 / Llama 3.1 Swallow 提供 8‑B 及 70‑B 的日文增強型 Llama 3.1 模型,持續預訓練於 Meta Llama 3.1,並以合成日語資料進行指令調優,由 Swallow 團隊依照 Megatron‑LM 發布,包含網頁入口、模型索引與基準測試結果。 159 | 160 | ### fill-mask 161 | * [bert-base-japanese-whole-word-masking](https://huggingface.co/tohoku-nlp/bert-base-japanese-whole-word-masking) - 📥 364k / ⭐ 70 / Japanese BERT‑base 預訓練於 2019 年日本維基百科,使用 IPA 字典與整詞掩碼,12 層、768 維,32,000 詞表,512 令牌序列,1 百萬步;可於 cl‑tohoku/bert‑japanese 在 CC‑BY‑SA 條款下取得。 162 | * [bert-base-japanese-char-v2](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v2) - 📥 128k / ⭐ 6 / 一個 BERT‑base 日語模型(12 層,768 維隱藏狀態,12 頭)在 30 M 句子(約 4 GB)上訓練,使用 Unidic 2.1.2 詞級分詞,隨後進行字級分詞和整詞遮蔽,使用 512 令牌序列、256 批次及 1 M 訓練步驟。 163 | * [bert-base-japanese-char](https://huggingface.co/tohoku-nlp/bert-base-japanese-char) - 📥 107k / ⭐ 8 / 一個 BERT‑base 日語模型(12 層,768‑維隱藏,12 頭),在約 1700 萬句來自日語維基百科(2.6 GB)的資料上進行預訓練,使用 MeCab IPA 單詞級分詞,隨後進行字符級分詞,建立一個 4000 單詞詞彙表。訓練程式碼位於 cl‑tohoku/bert‑japanese,並以 CC BY‑SA 3.0 釋出。 164 | * [bert-base-japanese](https://huggingface.co/tohoku-nlp/bert-base-japanese) - 📥 66k / ⭐ 38 / 一個基於 BERT base 的模型,預訓練於約 17 M 日文 Wikipedia 句子(2.6 GB),採用 IPA dictionary 與 WordPiece 進行 tokenization,擁有 12 layers/768‑dim hidden states/12 heads,32 000‑token 詞彙表,於 Cloud TPUs 上訓練 1 M steps,並以 CC‑BY‑SA 3.0 發布。 165 | * [modernbert-ja-310m](https://huggingface.co/sbintuitions/modernbert-ja-310m) - 📥 37k / ⭐ 18 / ModernBERT‑Ja‑310M 是一款日語 BERT 變體,結合了 local‑global attention 與 RoPE,已在 4.09 T 個日語/英語文本 token 上訓練,支持 102 400 個詞彙、8 192 token 序列,並被優化以配合 Flash Attention 2。 166 | * [jmedroberta-base-sentencepiece](https://huggingface.co/alabnii/jmedroberta-base-sentencepiece) - 📥 37k / ⭐ 3 / 日文 RoBERTa‑base 模型,預訓練於約 10 M 篇日文醫學摘要與 1.4 M 篇來自 JST 的主體文本,使用 30 k‑token 的 SentencePiece 進行分詞,於 CC BY‑4.0 授權下釋出,可透過 Hugging Face pipelines 使用。 167 | * [line-distilbert-base-japanese](https://huggingface.co/line-corporation/line-distilbert-base-japanese) - 📥 35k / ⭐ 48 / LINE DistilBERT Japanese 是一個 66‑million‑parameter 的 DistilBERT 模型,使用內部 BERT‑base 教師在 131 GB 的日本網路文本上進行預訓練,並於 JGLUE 上評估,採用 MeCab Unidic 與 SentencePiece 進行分詞,於 Apache 2.0 授權下釋出。 168 | * [deberta-v2-base-japanese](https://huggingface.co/ku-nlp/deberta-v2-base-japanese) - 📥 16k / ⭐ 30 / 日文 DeBERTa V2 基礎模型,已在 171 GB 日文維基百科、CC‑100 與 OSCAR 資料上使用 Juman++ 斷詞與 SentencePiece Tokenization 進行預訓練,訓練時間三週,使用八台 NVIDIA A100 GPU,已準備好進行微調。 169 | * [bert-base-japanese-v2](https://huggingface.co/tohoku-nlp/bert-base-japanese-v2) - 📥 13k / ⭐ 27 / Japanese BERT‑base (12 層, 768 hidden, 12 heads) 以 4 GB 的日本 Wikipedia(約 30 M 句)為預訓練資料,使用 Unidic 2.1.2 文字級別分詞、WordPiece 子分詞,與整詞掩碼。 170 | * [deberta-v2-large-japanese-char-wwm](https://huggingface.co/ku-nlp/deberta-v2-large-japanese-char-wwm) - 📥 10k / ⭐ 8 / Japanese DeBERTa V2 大型模型已在 171 GB 的日語維基百科、CC‑100、與 OSCAR 上訓練,採用字符級 sentencepiece tokenization 與 whole‑word masking,已準備好通過 Hugging Face Transformers 進行下游微調。 171 | * [japanese-roberta-base](https://huggingface.co/rinna/japanese-roberta-base) - 📥 9k / ⭐ 39 / Japanese‑Roberta‑Base 是由 rinna Co., Ltd. 推出的預訓練遮罩語言模型,含正確載入、token 預處理、position‑id 處理的指引,以及強調需放置於首位的 `[CLS]` token 和一致 tokenization 的使用範例。 172 | * [modernbert-ja-130m](https://huggingface.co/sbintuitions/modernbert-ja-130m) - 📥 8k / ⭐ 45 / 一個 132 百萬參數的 Japanese ModernBERT 模型,結合 local‑global 與 RoPE attention,在 4.39 T tokens(日語/英語)上訓練,含有 102‑k‑size 的 vocab,最大 token 長度 8,192,並優化為 Flash Attention 2。 173 | * [deberta-v2-tiny-japanese](https://huggingface.co/ku-nlp/deberta-v2-tiny-japanese) - 📥 7k / ⭐ 2 / Japanese DeBERTa V2 tiny,預訓練於約 171 GB 的日語 Wikipedia、CC‑100 與 OSCAR 資料庫,需要 Juman++ 詞彙分割,已在 8 顆 NVIDIA A100 GPU 上訓練 33 小時,可進一步微調以應用於下游任務。 174 | * [modernbert-ja-30m](https://huggingface.co/sbintuitions/modernbert-ja-30m) - 📥 7k / ⭐ 5 / ModernBERT‑Ja‑30M 是一款日語 BERT 變體,它將局部與全局注意力與 RoPE 混合起來,並在 4.39 TB 的日英文本上訓練,支援 8,192‑token 序列,參數規模從 30 M 至 130 M,並在使用 Flash Attention 2 時表現最佳。 175 | * [splade-japanese-v3](https://huggingface.co/aken12/splade-japanese-v3) - 📥 6k / ⭐ 10 / 對 MIRACL 與 hotchpotch/JQaRA 資料集進行的日語 SPLADE 變體及其他檢索模型之零樣本評估顯示,SPLADE‑v3 的 NDCG@10 = 0.604,SPLADE‑v2‑doc 免除查詢編碼器,並附有範例程式碼以檢查 token‑level expansion。 176 | * [modernbert-ja-70m](https://huggingface.co/sbintuitions/modernbert-ja-70m) - 📥 3k / ⭐ 6 / ModernBERT‑Ja‑70M 是一款輕量級的日語 BERT 變體,結合局部與全局注意力與 RoPE,使用 4.39 T 混合語言令牌(詞彙表 102 400,最大 8 192 令牌)訓練,支援 Flash Attention 2,並提供 30 M 至 310 M 參數的多種規格。 177 | * [llm-jp-modernbert-base](https://huggingface.co/llm-jp/llm-jp-modernbert-base) - 📥 3k / ⭐ 10 / 一個 ModernBERT‑base 模型在 3.4 TB 的日本 llm‑jp‑corpus v4 上訓練,並在兩個階段進行微調(max_seq_len 1024 → 8192),獲得 0.92 JSTS、0.91 JNLI 與 0.88 JCoLA。 178 | * [deberta-v2-large-japanese](https://huggingface.co/ku-nlp/deberta-v2-large-japanese) - 📥 2k / ⭐ 9 / Japanese DeBERTa V2 large 於 171 GB 的日本 Wikipedia、CC‑100 與 OSCAR 上預訓練(使用 Juman++ 分詞與 SentencePiece 分詞),並於 8 台 NVIDIA A100 GPU 上以 Hugging Face Transformers 進行 36 天的訓練。 179 | * [deberta-v2-base-japanese](https://huggingface.co/izumi-lab/deberta-v2-base-japanese) - 📥 2k / ⭐ 4 / DeBERTaV2 基礎模型在日本語語料庫(CC‑100、mC4、OSCAR2301、Wikipedia、Wikinews)上進行訓練,並採用 FP‑16 微調以應對 NLU 任務(JSTS、JNLI、JCommonsenseQA)。本模型以 CC BY‑SA 4.0 授權發佈,並獲得日本研究撥款資助。 180 | * [roberta-base-japanese-with-auto-jumanpp](https://huggingface.co/nlp-waseda/roberta-base-japanese-with-auto-jumanpp) - 📥 2k / ⭐ 8 / 日語 RoBERTa‑base 模型,預訓練於日語維基百科與 CC‑100;使用基於 Juman++ 的 SentencePiece 分詞;能透過 Hugging Face 進行微調;在 8 個 A100 GPU 上以混合精度訓練超過 700k 步。 181 | * [bert-large-japanese](https://huggingface.co/tohoku-nlp/bert-large-japanese) - 📥 2k / ⭐ 9 / Japanese BERT‑large (24 層, 1024‑hidden size, 16 heads, 32 K vocab) 在 3,000 萬句日文維基百科句子上預訓練,使用 Unidic‑2.1.2 逐詞分詞、WordPiece 子詞以及whole‑word masking,訓練步數為 1 M 步。 182 | * [roberta-large-japanese-seq512](https://huggingface.co/nlp-waseda/roberta-large-japanese-seq512) - 📥 1k / ⭐ 3 / 預訓練於日文 Wikipedia 與 CC‑100 的 512‑token Japanese RoBERTa‑large,採用 Juman++ + SentencePiece tokenization,訓練 670k 步驟,使用八張 A100 GPU,學習率為 6×10⁻⁵。 183 | 184 | ### sentence-similarity 185 | * [JaColBERTv2.5](https://huggingface.co/answerdotai/JaColBERTv2.5) - 📥 600k / ⭐ 22 / 最終 JaColBERTv2.5 檢查點的權重,在新配方下僅使用 JaColBERTv2 數據的 40% 進行訓練,已超越所有先前模型——包括 JaColBERTV2 的多語言變體,例如 BGE‑M3——在所有資料集上的表現。 186 | * [ruri-base](https://huggingface.co/cl-nagoya/ruri-base) - 📥 330k / ⭐ 11 / 日文通用文本嵌入模型 (Ruri‑v3, 30‑310 M 參數, 8192‑token 上限, 高 JMTEB 分數) 以 Sentence‑Transformers 使用範例提供,並與其他日文嵌入進行基準比較。 187 | * [ruri-v3-310m](https://huggingface.co/cl-nagoya/ruri-v3-310m) - 📥 154k / ⭐ 57 / Ruri v3 是一個尖端的日本語文本嵌入模型,建立於 ModernBERT‑Ja,支援最多 8,192‑token 輸入、100K‑token 詞彙表、FlashAttention‑加速推論,以及多種尺寸變體,方便快速使用 sentence‑transformer。 188 | * [ruri-v3-30m](https://huggingface.co/cl-nagoya/ruri-v3-30m) - 📥 40k / ⭐ 3 / Ruri v3 是一款最先進的日文文本嵌入模型,構建於 ModernBERT‑Ja,支持高達 8,192 tokens、一個 100k‑token 詞彙表、FlashAttention 加速,並提供從 37 M 到 315 M 參數的多種規模。 189 | * [GLuCoSE-base-ja](https://huggingface.co/pkshatech/GLuCoSE-base-ja) - 📥 40k / ⭐ 34 / GLuCoSE 是一個基於 LUKE 的日語句子嵌入模型,輸出 768 維均值池化向量(最多 512 個 tokens),在網路及 NLI/搜尋資料上訓練,於相似度基準上達成 0.864 Spearman 與 0.818 Pearson。 190 | * [sbert-base-ja](https://huggingface.co/colorfulscoop/sbert-base-ja) - 📥 23k / ⭐ 13 / Japanese Sentence‑BERT 基礎模型經過在日本 SNLI 數據集(523k 訓練,10k 驗證,3.9k 測試)上微調,採用 colorfulscoop/bert‑base‑ja 核心,達成 85.3% 測試準確率,並可在安裝相依套件後,透過 sentence‑transformers 的 encode 部署。 191 | * [JaColBERTv2](https://huggingface.co/bclavie/JaColBERTv2) - 📥 15k / ⭐ 16 / JaColBERTv2 是一個僅限日文的 ColBERT 基於檢索模型,使用 MMarco(31 個負樣本對每個正樣本、250k 步驟、批次 32)進行知識蒸餾訓練,目前表現優於 multilingual‑e5‑large、BGE‑M3 以及 JaColBERT,完整評估仍待進行。 192 | * [ruri-v3-130m](https://huggingface.co/cl-nagoya/ruri-v3-130m) - 📥 13k / ⭐ 2 / Ruri v3 是一款最先進的日本語文本嵌入模型,基於 ModernBERT‑Ja 建構,支援長達 8192‑token 序列、10 萬詞彙、FlashAttention,並以 30 M 到 310 M 參數大小提供,以供 sentence‑transformers 使用。 193 | * [sbert-jsnli-luke-japanese-base-lite](https://huggingface.co/oshizo/sbert-jsnli-luke-japanese-base-lite) - 📥 9k / ⭐ 36 / sbert-jsnli‑luke‑japanese‑base‑lite 是一個 768 維的句子轉換器,建立於 studio‑ousia/luke‑japanese‑base‑lite 上,已在 shunk031/jsnli 培訓一個 epoch,並包含聚類、語意搜尋以及同時適用於 Sentence‑Transformers 與 HuggingFace 的範例。 194 | * [GLuCoSE-base-ja-v2](https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2) - 📥 8k / ⭐ 21 / GLuCoSE v2 是一款適合 CPU 的日語文本嵌入模型,透過蒸餾與多階段對比學習進行微調,提供優越的語義相似度與檢索性能—在 MIRACL 以及相關基準上超越同等規模模型。 195 | * [plamo-embedding-1b](https://huggingface.co/pfnet/plamo-embedding-1b) - 📥 6k / ⭐ 44 / PLaMo‑Embedding‑1B 是 Preferred Networks 開發的日本文本嵌入模型,能將日文文本轉換為向量,用於資訊檢索、分類與聚類,在 JMTEB 基準測試上表現優異,且以 Apache v2.0 license 免費提供。 196 | * [ruri-v3-70m](https://huggingface.co/cl-nagoya/ruri-v3-70m) - 📥 6k / ⭐ 1 / Ruri v3 提供高性能的日語文本嵌入,最多可達 8192 個 token,擁有 100k token 詞彙表,支援 FlashAttention,並提供多種模型尺寸 (30 m–310 m) 以供透過 sentence‑transformers 進行高效推理與微調。 197 | * [ruri-large](https://huggingface.co/cl-nagoya/ruri-large) - 📥 4k / ⭐ 44 / 一組可釋出的 Ruri v3 日文文本嵌入模型(30m–310m),包含 SentenceTransformer 使用技巧、查詢/段落前綴,以及 JMTEB 基準測試結果,展示它們與其他日文及多語言嵌入模型的比較。 198 | * [sarashina-embedding-v1-1b](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b) - 📥 2k / ⭐ 38 / Sarashina‑Embedding‑v1‑1B 是一個 1.2 B‑參數的日文文本嵌入模型,建立於 Sarashina2.1‑1B 上,採用多階段對比學習訓練,以在 JMTEB 上達成最先進的分數,同時產生 1,792 維的密集向量,用於語意相似度、搜尋與分類,並在非商業授權下使用。 199 | * [RoSEtta-base-ja](https://huggingface.co/pkshatech/RoSEtta-base-ja) - 📥 1k / ⭐ 8 / RoSEtta 是一個以 RoFormer + RoPE 建構的日語句子嵌入模型,通過 MLM 預訓練,隨後進行弱監督、蒸餾與對比學習,擅長於最大 1024 token 的檢索,需要使用 “query:” 或 “passage:” 前綴,可透過 Sentence Transformers 或 Hugging Face Transformers 使用。 200 | * [simcse-ja-bert-base-clcmlp](https://huggingface.co/pkshatech/simcse-ja-bert-base-clcmlp) - 📥 1k / ⭐ 15 / 基於 BERT‑base‑japanese‑v2 的 Japanese SimCSE,使用 JSNLI dataset 進行句子嵌入微調,與 Sentence‑Transformers 相容,並以 cosine‑similarity loss 進行訓練,最大化 Spearman correlation。 201 | 202 | ### feature-extraction 203 | * [japanese-cloob-vit-b-16](https://huggingface.co/rinna/japanese-cloob-vit-b-16) - 📥 593k / ⭐ 13 / Japanese CLOOB‑VIT-B-16,為基於 vit‑base‑patch16‑224 的 Vision‑Language 模型,已在翻譯後的 CC12M 說明書上進行訓練,並於 2022 年 5 月 12 日由 rinna Co., Ltd. 以 Apache 2.0 發布。 204 | * [sentence-bert-base-ja-mean-tokens-v2](https://huggingface.co/sonoisa/sentence-bert-base-ja-mean-tokens-v2) - 📥 56k / ⭐ 51 / 一個日本語的 Sentence‑BERT v2,經過在 cl‑tohoku/bert‑base‑japanese‑whole‑word‑masking 上微調,並採用 MultipleNegativesRankingLoss,與 v1 相比提升了約 1.5–2 % 的準確率,並以 sonoisa/sentence‑bert‑base‑ja‑mean‑tokens‑v2 形式釋出。 205 | * [japanese-clip-vit-b-16](https://huggingface.co/rinna/japanese-clip-vit-b-16) - 📥 30k / ⭐ 22 / rinna/japanese-clip‑vit‑b‑16 是一個授權為 Apache‑2.0 的日語 CLIP 模型,基於 ViT‑B/16,訓練於翻譯成日語的 CC12M 標題,並於 2022 年 5 月 12 日發布。 206 | * [sentence-bert-base-ja-mean-tokens](https://huggingface.co/sonoisa/sentence-bert-base-ja-mean-tokens) - 📥 24k / ⭐ 11 / Japanese Sentence‑BERT (v1) 模型,用於生成句子嵌入,並提供改進版 v2,並可透過 Hugging Face Transformers 與自訂的 `SentenceBertJapanese` 類別示範使用。 207 | * [clip-japanese-base](https://huggingface.co/line-corporation/clip-japanese-base) - 📥 21k / ⭐ 29 / LY Corporation 的 clip‑japanese‑base 是一個訓練於約 1 B 影像‑文字配對的日文 CLIP 模型,使用 Eva02‑B Transformer 影像編碼器並配備 12 層 BERT 文字編碼器,於 STAIR 的 R@1 成績為 0.30,於 Recruit 的準確度為 0.89,以及於 ImageNet‑1K 的準確度為 0.58,並支援零樣本影像分類與檢索。 208 | * [transformers-ud-japanese-electra-base-ginza-510](https://huggingface.co/megagonlabs/transformers-ud-japanese-electra-base-ginza-510) - 📥 11k / ⭐ 2 / ja_ginza_electra 是一個 spaCy v3 Python 套件,提供已在 mC4 和 UD_Japanese_BCCWJ r2.8 上微調的日語 ELECTRA 模型(基於 megagonlabs/transformers‑ud‑japanese‑electra‑base‑discrimininator),並具備自訂 bunsetu‑phrase detection,依照 MIT license 發佈。 209 | * [t5-base-japanese](https://huggingface.co/sonoisa/t5-base-japanese) - 📥 3k / ⭐ 53 / 一個日語 T5 模型,預訓練於約 100 GB 的 Wikipedia 與 OSCAR 數據,使用 SentencePiece 分詞,超越了 Google 的多語言 T5,在新聞分類基準上表現更佳,但仍需要微調,且可能產生偏見輸出。 210 | * [sentence-luke-japanese-base-lite](https://huggingface.co/sonoisa/sentence-luke-japanese-base-lite) - 📥 3k / ⭐ 14 / Japanese Sentence‑LUKE 模型在與 Sentence‑BERT 相同的資料集上進行訓練,表現優於或相當於 Sentence‑BERT,基於 studio‑ousia/luke‑japanese‑base‑lite 建立,並透過 Hugging Face Transformers 的 MLukeTokenizer 與 LukeModel 使用。 211 | * [sup-simcse-ja-large](https://huggingface.co/cl-nagoya/sup-simcse-ja-large) - 📥 2k / ⭐ 14 / Sup‑simcse‑ja‑large 提供一個已經用 Supervised SimCSE 微調的日本語 BERT‑large (cl‑tohoku/bert‑large‑japanese‑v2) 模型,採用 CLS‑plus‑MLP 池化,訓練於約1百萬個 JSNLI 句子(lr 5e‑5,batch 512,temp 0.05,max 64),並準備好與 Sentence‑Transformers 或 Hugging Face Transformers 一起使用。 212 | * [sarashina-embedding-v2-1b](https://huggingface.co/sbintuitions/sarashina-embedding-v2-1b) - 📥 2k / ⭐ 17 / Sarashina‑Embedding‑v2‑1B 是一個 1,792 維的日語句子變換器,透過多階段對比學習訓練,達到先進的 JMTEB 分數,可用於語義相似度、搜尋、同義句挖掘、分類和聚類,透過 Sentence‑Transformers 並可加上可選的指令前綴。 213 | * [sup-simcse-ja-base](https://huggingface.co/cl-nagoya/sup-simcse-ja-base) - 📥 1k / ⭐ 2 / 一款在 JSNLI 上使用監督式 SimCSE 微調的日語 BERT‑base 模型,透過 Sentence‑Transformers 或 HuggingFace 以 CLS pooling 方式公開,訓練於 1 M 範例,batch size 512,學習率 5 × 10⁻⁵,溫度 5 × 10⁻⁵,64‑token 限制,以及 BFloat16 精度。 214 | 215 | ### translation 216 | * [vntl-llama3-8b-v2-gguf](https://huggingface.co/lmg-anon/vntl-llama3-8b-v2-gguf) - 📥 244k / ⭐ 8 / 一個以新 VNTL 數據集為基礎的 LLaMA 3 Youko qlora 微調模型,優化為準確、逐字的日語視覺小說到英文翻譯,不使用聊天模式,使用預設的 LLaMA 3 提示,並建議採用中性取樣(temperature 0,無重複懲罰)。 217 | * [opus-mt-ja-en](https://huggingface.co/Helsinki-NLP/opus-mt-ja-en) - 📥 89k / ⭐ 66 / 來自 Opus corpus 的日文-英語 Transformer‑Align MT 模型,使用 normalization 與 SentencePiece 先行處理,在 Tatoeba 測試集上達到 41.7 BLEU 與 0.589 chr‑F。 218 | * [opus-tatoeba-en-ja](https://huggingface.co/Helsinki-NLP/opus-tatoeba-en-ja) - 📥 11k / ⭐ 14 / 英日 Transformer‑Align 機器翻譯模型,15.2 BLEU,基於 opus+bt‑2021‑04‑10 建立,使用 normalization + SentencePiece,托管於 Tatoeba Challenge。 219 | * [LFM2-350M-ENJP-MT](https://huggingface.co/LiquidAI/LFM2-350M-ENJP-MT) - 📥 5k / ⭐ 79 / LFM2‑350M‑ENJP‑MT 是一個經過微調的 LFM2‑350M checkpoint,能為短到中等長度輸入提供近乎即時、雙向日英翻譯,品質可與大十倍規模的模型媲美,示例涵蓋日常、技術、商業及新聞領域,並強調人工‑AI 協作使用。 220 | * [LFM2-350M-ENJP-MT-GGUF](https://huggingface.co/LiquidAI/LFM2-350M-ENJP-MT-GGUF) - 📥 5k / ⭐ 27 / 微調、GGUF‑量化後的 LFM2‑350M checkpoint,適用於近即時雙向日英短至中篇文本翻譯,可透過 llama.cpp 使用。 221 | * [opus-mt-ja-ru](https://huggingface.co/Helsinki-NLP/opus-mt-ja-ru) - 📥 3k / ⭐ 3 / Japanese‑to‑Russian transformer‑align MT model 使用 Opus 2020‑06‑17、正規化及 SentencePiece 進行訓練,屬於 Helsinki‑NLP’s Tatoeba Challenge,在 Tatoeba test set 上獲得 BLEU 23.2 與 chrF2 0.441 分數。 222 | * [plamo-2-translate](https://huggingface.co/pfnet/plamo-2-translate) - 📥 2k / ⭐ 106 / PLaMo Translation Model 是 Preferred Networks 為翻譯任務所創建的大規模語言模型,可供 base、post‑trained 以及 evaluation 版本使用,並以 PLaMo community license 釋出,未對聊天或其他下游用途進行 instruction‑tuned。 223 | * [Sugoi-14B-Ultra-GGUF](https://huggingface.co/sugoitoolkit/Sugoi-14B-Ultra-GGUF) - 📥 2k / ⭐ 8 / Sugoi LLM 14B Ultra (GGUF) 是一個日語轉英語的翻譯模型,BLEU 分數為 21.38——幾乎是其先前分數 13.67 的兩倍——在 RPG‑Maker 方括號文本上擅長,提示遵從性強,並為交互式聊天 UI 生成 JSON 輸出。 224 | * [elan-mt-bt-ja-en](https://huggingface.co/Mitsua/elan-mt-bt-ja-en) - 📥 2k / ⭐ 9 / ElanMT‑BT‑ja‑en 是一個 Marian MT 日文‑英文模型,僅在開放授權且經由反向翻譯的維基百科資料上微調,表現與其他公開模型相匹配,同時明確避免使用網路爬取或機器翻譯的語料,並以 CC‑BY‑SA‑4.0 許可證發佈。 225 | * [fugumt-en-ja](https://huggingface.co/staka/fugumt-en-ja) - 📥 1k / ⭐ 54 / FuguMT 是一個基於 Marian‑NMT 的英日翻譯模型,使用 Hugging Face Transformers 和 SentencePiece 構建,於 Tatoeba 上達成 32.7 的 BLEU 分數。 226 | * [fugumt-ja-en](https://huggingface.co/staka/fugumt-ja-en) - 📥 1k / ⭐ 32 / FuguMT 是一個由 transformers 與 SentencePiece 建構的日文對英語 Marian‑NMT 翻譯模型,在 Tatoeba 上取得 39.1 BLEU 分數。 227 | 228 | ### automatic-speech-recognition 229 | * [wav2vec2-large-xlsr-53-japanese](https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-japanese) - 📥 3M / ⭐ 44 / 日語 wav2vec‑2 XLSR‑53 在 Common Voice 6.1、CSS10 與 JSUT 上微調,需要 16 kHz 音訊,並可透過 HuggingSound 或 HuggingFace pipelines 使用。 230 | * [kotoba-whisper-v2.0](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0) - 📥 124k / ⭐ 80 / Kotoba‑Whisper v2.0 是一款從 OpenAI Whisper large‑v3 提煉的日語ASR模型,使用 7.2 million ReazonSpeech 片段訓練,速度比原版快 6.3×,同時在領域測試中匹配教師模型的 CER/WER,並包含 stable‑ts/punctuation 支援及完整訓練程式碼於 GitHub。 231 | * [wav2vec2-base-japanese-asr](https://huggingface.co/TKU410410103/wav2vec2-base-japanese-asr) - 📥 66k / ⭐ 4 / 使用 Common Voice 11.0 訓練、僅輸出平假名的精調 wav2vec2‑base 日語 ASR 模型,源自 rinna/japanese‑wav2vec2‑base,使用 20 個 epoch 與學習率 1e‑4。 232 | * [kotoba-whisper-v2.1](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.1) - 📥 18k / ⭐ 19 / Kotoba‑Whisper‑v2.1 是一款日語 ASR 模型,繼承了 kotoba‑whisper‑v2.0,並整合了標點符號後處理流程,能保持相當的 CER 性能,同時實現無縫、能感知標點符號的轉錄。 233 | * [kotoba-whisper-v2.2](https://huggingface.co/kotoba-tech/kotoba-whisper-v2.2) - 📥 17k / ⭐ 83 / Kotoba‑Whisper‑v2.2 是一款日語 ASR 模型,擴展了 kotoba‑whisper‑v2.0,整合了 integrated diarization 與 automatic punctuation,透過 HuggingFace‑Transformers pipeline 實現,並與 Asahi Ushio 和 Kotoba Technologies 合作開發。 234 | * [anime-whisper](https://huggingface.co/litagin/anime-whisper) - 📥 10k / ⭐ 114 / Anime Whisper 是一個輕量級的日語 ASR 模型,已在約 5,300 小時的動漫式對白上微調,提供低幻覺、節奏對齊的標點符號,並能準確轉錄非語音聲音和 NSFW 內容,必須在沒有初始提示的情況下運行。 235 | * [reazonspeech-nemo-v2](https://huggingface.co/reazon-research/reazonspeech-nemo-v2) - 📥 7k / ⭐ 35 / reazonspeech-nemo-v2 是一款擁有 619‑M參數的日語長文語音識別模型,基於改進版 Fast‑Conformer 與 Linearly Scalable Attention 架構構建,訓練於 ReazonSpeech v2.0 資料集,透過 subword RNN‑T decoder(3000‑token SentencePiece)提供多小時推理,並以 Apache 2.0 授權方式分發。 236 | * [parakeet-tdt_ctc-0.6b-ja](https://huggingface.co/nvidia/parakeet-tdt_ctc-0.6b-ja) - 📥 3k / ⭐ 38 / NVIDIA NeMo 的 0.6 B‑參數 Hybrid FastConformer‑TDT‑CTC ASR 模型能帶標點符號轉錄日語語音,並且可在 NeMo 框架內進行推論或微調。 237 | * [kotoba-whisper-bilingual-v1.0](https://huggingface.co/kotoba-tech/kotoba-whisper-bilingual-v1.0) - 📥 2k / ⭐ 17 / Kotoba‑Whisper‑Bilingual v1.0 提供 6.3 倍更快的蒸餾 Whisper 模型,支援日本語與英語的 ASR 以及雙向語音轉文字翻譯,這些模型由 OpenAI 的 Whisper large‑v3 透過 knowledge distillation 與 cross‑entropy 及 KL‑divergence loss 建構。 238 | 239 | ### text-classification 240 | * [bert-base-japanese-emotion-lily](https://huggingface.co/alter-wang/bert-base-japanese-emotion-lily) - 📥 44k / ⭐ 3 / 日本 BERT Base 模型,經過微調,使用約 1,000 個句子的 10 標籤情緒部落格資料集,該資料集衍生自 tohoku-nlp/bert-base-japanese,以實現精準的情緒偵測與分類。 241 | * [luke-japanese-large-sentiment-analysis-wrime](https://huggingface.co/Mizuiro-sakura/luke-japanese-large-sentiment-analysis-wrime) - 📥 13k / ⭐ 43 / 一個日語版本的 LUKE 模型,在 WRIME 數據集上微調,能夠分類一句話中表達的八種情緒——快樂、悲傷、期待、驚訝、憤怒、恐懼、厭惡、信任。 242 | * [japanese-sentiment-analysis](https://huggingface.co/jarvisx17/japanese-sentiment-analysis) - 📥 12k / ⭐ 14 / 在 chABSA 數據集上訓練的日文情感分析模型,達到 loss 0.0001、accuracy 1.0、以及 F1 1.0。使用 Transformers 4.24.0 和 PyTorch 1.12.1+cu113 構建,使用 Adam 進行優化(learning rate 2e‑05,10 epochs,batch size 16),並通過 `model(**inputs)` 評估。 243 | * [bert-base-japanese-v3-jsts](https://huggingface.co/llm-book/bert-base-japanese-v3-jsts) - 📥 6k / ⭐ 2 / 在《Large Language Model Introduction》第5章中介紹的日本 BERT‑based 模型,已於 JGLUE JSTS 資料集上進行微調,用於語義相似度評分。此模型包含 Colab notebooks、transformers‑pipeline 使用說明,以及 Apache 2.0 授權。 244 | * [bert-finetuned-japanese-sentiment](https://huggingface.co/christian-phu/bert-finetuned-japanese-sentiment) - 📥 2k / ⭐ 14 / 在 Amazon 商品評論上微調日本 BERT(cl‑tohoku/bert‑base‑japanese‑v2)以進行情感分類,達到約 81% 的準確率與 0.73 的 F1 分數,在 6 個 epoch 之後,學習率為 2 × 10⁻⁵。 245 | * [bert-base-japanese-v2-wrime-fine-tune](https://huggingface.co/patrickramos/bert-base-japanese-v2-wrime-fine-tune) - 📥 1k / ⭐ 6 / 一個針對 WRIME 數據集微調的日本 BERT BASE 模型,為作者和讀者預測八種情感(喜悅、悲傷、期待、驚訝、憤怒、恐懼、厭惡、信任)的 0‑4 強度分數;代碼可用,訓練耗時 3 小時於 K80 上,對作者達到約 0.6 MSE,對讀者達到約 0.2 MSE。 246 | 247 | ### text-ranking 248 | * [japanese-reranker-xsmall-v2](https://huggingface.co/hotchpotch/japanese-reranker-xsmall-v2) - 📥 13k / ⭐ 5 / 快速、輕量級的日語 Reranker v2 模型(tiny、xsmall、small、base)具有基準分數和 GPU 速度,可通過 sentence_transformers CrossEncoder 和 transformers ≥ v4.48 (可選使用 flash‑attn 加速)使用,並且亦提供 ONNX/量化版本以供 CPU/ARM 使用。 249 | * [japanese-reranker-cross-encoder-large-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-large-v1) - 📥 11k / ⭐ 16 / 由 xsmall 到 large 的日文 CrossEncoder 排序模型,使用日語文本訓練,透過 sentence_transformers 提供,並於 JQaRA、JaCWIR、MIRACL 與 JSQuAD 上進行評估。 250 | * [japanese-reranker-cross-encoder-small-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-small-v1) - 📥 10k / ⭐ 4 / 以日語訓練的 CrossEncoder 重新排序模型,規模從 xsmall(384)到 large(1024),並包含 BGE‑v2‑m3‑v1 模型,附有微調、推理的範例程式碼,以及在 JQaRA、JaCWIR、MIRACL 與 JSQuAD 上的基準分數。 251 | * [ruri-v3-reranker-310m](https://huggingface.co/cl-nagoya/ruri-v3-reranker-310m) - 📥 7k / ⭐ 12 / Ruri‑v3 Reranker 是一款以 ModernBERT‑Ja 為基礎的強大日語文本重排序器,支援多達 8,192 令牌序列、100k 令牌詞彙表、FlashAttention 以及 SentencePiece tokenizer,並可透過 sentence‑transformers 使用。 252 | * [japanese-bge-reranker-v2-m3-v1](https://huggingface.co/hotchpotch/japanese-bge-reranker-v2-m3-v1) - 📥 7k / ⭐ 15 / 一套日本 CrossEncoder 重複器(reranker)套件——包括 xsmall、small、base、large 以及 japanese‑bge‑reranker‑v2‑m3‑v1——搭配示例使用、在多個基準上的評估指標與輔助文件。 253 | * [japanese-reranker-cross-encoder-xsmall-v1](https://huggingface.co/hotchpotch/japanese-reranker-cross-encoder-xsmall-v1) - 📥 6k / ⭐ 7 / 日本 CrossEncoder 重排序模型 覆蓋 xsmall 到 large(含 BGE),已於 JQaRA、JaCWIR、MIRACL 與 JSQuAD 進行評估,並附上可直接使用的 sentence_transformers 與 HuggingFace 整合範例。 254 | 255 | ### image-to-text 256 | * [manga-ocr-base](https://huggingface.co/kha-white/manga-ocr-base) - 📥 204k / ⭐ 162 / Manga OCR 是一個 Vision Encoder‑Decoder OCR 工具,能閱讀垂直與水平的日語漫畫文字(包含振假名),適用於多種字體與低品質圖像,且源碼免費提供。 257 | * [meiki.text.detect.v0](https://huggingface.co/rtr46/meiki.text.detect.v0) - 📥 31k / ⭐ 3 / meikiocr 提供一款基於 D‑FINE 的開源權重文字偵測模型,適用於遊戲視訊(v0.1 版,採用 MobileNet‑v4 主幹,提供兩種解析度變體與 64 框限制),以及實驗性低延遲 tiny 與 small 變體,已在日本遊戲及漫畫上訓練。 258 | * [meiki.txt.recognition.v0](https://huggingface.co/rtr46/meiki.txt.recognition.v0) - 📥 30k / ⭐ 3 / Meikiocr的 `meiki.text.recognition.v0`——一個基於 D‑FINE 的 MobileNetV4 模型,在日語視訊遊戲文字上微調——為水平文字提供最先進的準確性和延遲,能從 960×32 的輸入中偵測多達 48 個字符,並輸出每個字符的外框與置信度分數。 259 | * [sarashina2.2-vision-3b](https://huggingface.co/sbintuitions/sarashina2.2-vision-3b) - 📥 3k / ⭐ 13 / Sarashina2.2‑Vision‑3B 是一個 3‑B 參數的日本大型視覺-語言模型,建立於 Sarashina2.2‑3B‑Instruct 和 SigLIP 圖像編碼器之上,並在日本 VQA 基準上達到強勁表現。 260 | * [sarashina2-vision-8b](https://huggingface.co/sbintuitions/sarashina2-vision-8b) - 📥 1k / ⭐ 10 / Sarashina2‑Vision‑8B 是一款日本的大型視覺語言模型,建立於 Sarashina2‑7B 和 Qwen2‑VL‑7B 圖像編碼器之上,於 2025 年 3 月時在四項基準測試中名列前茅,並附帶開源推理腳本與訓練細節。 261 | 262 | ### token-classification 263 | * [xlm-roberta-ner-japanese](https://huggingface.co/tsmatz/xlm-roberta-ner-japanese) - 📥 157k / ⭐ 25 / 使用 5 週期 Adam (lr 5e‑5, batch 12) 微調 XLM‑RoBERTa‑base,針對日語 NER 資料集(tags PER, ORG, LOC, INS, PRD, EVT)以達成 0.0173 的驗證損失,已於 Transformers 4.23.1 與 PyTorch 1.12.1 發佈。 264 | * [MedNERN-CR-JA](https://huggingface.co/sociocom/MedNERN-CR-JA) - 📥 27k / ⭐ 4 / 一個與 Hugging‑Face 兼容的 NER 模型,訓練於 MedTxt‑CR‑JA 日文醫學資料集,並附帶一個 predict 腳本,用於正常化實體輸出,產生 XML 標記文本,並使用外部 `id_to_tags.pkl` 將標籤 ID 映射到實際標籤。 265 | * [bert-base-japanese-v3-ner-wikipedia-dataset](https://huggingface.co/llm-book/bert-base-japanese-v3-ner-wikipedia-dataset) - 📥 9k / ⭐ 10 / Fine‑tuned Japanese BERT‑Base 用於在維基百科資料集上的命名實體識別,已在《Large Language Model Introduction》一書第六章展示,可透過 Hugging Face transformers pipeline 部署(Apache 2.0 授權)。 266 | * [bert-ner-japanese](https://huggingface.co/jurabi/bert-ner-japanese) - 📥 9k / ⭐ 11 / 使用 cl‑tohoku/bert‑base‑japanese‑v2 的日語 NER,可提取八種實體類型(公司、政治/其他組織、設施、產品、事件),透過 `BertForTokenClassification`,在 Stockmark Wikipedia 數據集上訓練,並可透過 `transformers`、`unidic_lite`、`fugashi` 安裝,採用 CC BY‑SA 3.0 許可證。 267 | 268 | ### text-to-speech 269 | * [Anime-Llasa-3B](https://huggingface.co/NandemoGHS/Anime-Llasa-3B) - 📥 3k / ⭐ 23 / Anime‑Llasa‑3B 是一款建立於 HKUSTAudio/Llasa‑3B 上的日語 TTS 模型,透過更多訓練資料進行增強,以提升其表達力與穩定性,並授權為 CC‑BY‑NC‑4.0。 270 | * [Anime-Llasa-3B-Captions](https://huggingface.co/NandemoGHS/Anime-Llasa-3B-Captions) - 📥 2k / ⭐ 13 / Anime‑Llasa‑3B‑Captions 是一個基於 Anime‑Llasa‑3B 的日語文字轉語音模型,並以 Gemini 2.5 Pro 生成的音訊元資料進行微調,允許透過提示標籤和文本標記來控制語音合成,但它並不能始終完全反映指定的屬性。 271 | 272 | ### audio-to-audio 273 | * [Anime-XCodec2-44.1kHz-v2](https://huggingface.co/NandemoGHS/Anime-XCodec2-44.1kHz-v2) - 📥 6k / ⭐ 11 / Anime‑XCodec2‑44.1kHz‑v2 將 16 kHz 的日語語音升頻至 44.1 kHz 高保真音訊,並使用僅解碼器的 RMS‑loss 微調,保持編碼器/代碼簿凍結並保留相同的語音標記。 274 | 275 | ### image-text-to-text 276 | * [PaddleOCR-VL-For-Manga](https://huggingface.co/jzhang533/PaddleOCR-VL-For-Manga) - 📥 2k / ⭐ 114 / PaddleOCR‑VL‑For‑Manga 由 PaddleOCR‑VL 微調,於 Manga109 的對話框裁切圖像上達成 70%完整句子準確率——高於 27%基準的三倍以上——使用多語系資料集,並提供訓練程式碼與開發人員指南。 277 | 278 | ### others 279 | * [cyberagent-open-calm-3b-gguf](https://huggingface.co/mmnga/cyberagent-open-calm-3b-gguf) - 📥 338k / ⭐ 1 / 一個以 gguf 格式編寫的 cyberagent 的 open‑calm‑3b 模型,位於 mmnga‑dev 分支,已準備好供 llama.cpp 測試,附帶使用範例,並註明當 gptneox 集成後可能不工作。 280 | * [cyberagent-open-calm-7b-gguf](https://huggingface.co/mmnga/cyberagent-open-calm-7b-gguf) - 📥 262k / ⭐ 2 / 此為臨時測試分支,提供 CyberAgent 的 open‑calm‑7b 模型的 gguf 格式版本,適用於 llama.cpp,並提供克隆 dev 分支、構建和運行模型的指示(請注意還有其他類似的 gguf 發行版)。 281 | * [bert-base-japanese-char-v3](https://huggingface.co/tohoku-nlp/bert-base-japanese-char-v3) - 📥 108k / ⭐ 10 / Japanese‑language BERT‑Base(12層,768‑次元,12頭)以 Unidic 為基礎的單詞層級加字符層級標記化以及整詞遮蔽,在 CC‑100 和 2023 Wikipedia 上進行預訓練,產生了 7,027‑token 詞彙。 282 | * [stockmark-gpt-neox-japanese-1.4b-gguf](https://huggingface.co/mmnga/stockmark-gpt-neox-japanese-1.4b-gguf) - 📥 102k / ⭐ 1 / 此為 stockmark 的 gpt‑neox‑japanese‑1.4b 在 test‑branch 下轉換為 gguf 格式,預期用於 llama.cpp 的 mmnga‑dev 分支,並示範了範例推斷指令與 GPU 支援。 283 | * [bert-large-japanese-v2](https://huggingface.co/tohoku-nlp/bert-large-japanese-v2) - 📥 69k / ⭐ 13 / Japanese‑BERT‑Large 在 CC‑100 和 Wikipedia 上訓練,使用 Unidic‑lite 詞級分詞,結合 WordPiece 子詞與全詞遮蔽,模型為 24 層、1024 維隱藏、16 頭、32k 詞表;預訓練程式碼位於 cl‑tohoku/bert‑japanese。 284 | * [bert-base-japanese-v3](https://huggingface.co/tohoku-nlp/bert-base-japanese-v3) - 📥 37k / ⭐ 57 / Japanese BERT‑base (12 層, 768‑維度隱藏, 12 頭, 32k 詞彙) 以完整詞遮蔽在 CC‑100 與 2023‑Jan Wikipedia 上預訓練,使用 Unidic 2.1.2 詞級分詞加 WordPiece,訓練 200 萬步。 285 | * [sarashina2.2-0.5b](https://huggingface.co/sbintuitions/sarashina2.2-0.5b) - 📥 37k / ⭐ 10 / Sarashina2.2 提供 0.5‑B、1‑B、和 3‑B 的語言模型,這些模型由 SB Intuitions 透過三階段流程及合成資料進行訓練,達成優異的日文 QA、數學及編碼分數,同時提供未經指令微調的預訓練權重,可能產生有偏差的輸出。 286 | * [deberta-v3-base-japanese](https://huggingface.co/ku-nlp/deberta-v3-base-japanese) - 📥 16k / ⭐ 17 / 日文 DeBERTa V3 基礎版本,預訓練於 LLM‑jp v1.0 的 540 B 個 token,使用已調整的 DeBERTa V3 設定,採用 unigram byte‑fallback tokenizer(無形態學分析器),並進行 fine‑tuned 於 JGLUE NLU 任務。 287 | * [t5-base-japanese-v1.1](https://huggingface.co/sonoisa/t5-base-japanese-v1.1) - 📥 15k / ⭐ 10 / 一個以約 100 GB 的 Wikipedia 與 OSCAR CC‑100 數據(混合 10:1、Byte‑fallback 的 SentencePiece)預訓練的日本 T5‑v1.1 模型,需對下游任務進行微調,包含遷移學習範例程式碼,提示輸出可能存在偏差,且採用 CC‑BY‑SA 4.0 授權。 288 | * [Llama-3-ELYZA-JP-8B-Heretic-i1-GGUF](https://huggingface.co/mradermacher/Llama-3-ELYZA-JP-8B-Heretic-i1-GGUF) - 📥 8k / ⭐ 1 / 存儲庫提供了針對 Llama‑3‑ELYZA‑JP‑8B‑Heretic 的完整 weighted/imatrix GGUF 定量化集合,涵蓋不同品質與大小等級(例如:i1‑IQ1_S、i1‑IQ2_M、i1‑Q4_K_M),可從 HuggingFace 下載,並附有指向 TheBloke 的 README 的使用說明。 289 | * [shisa-v2.1-qwen3-8b-UD-japanese-imatrix](https://huggingface.co/dahara1/shisa-v2.1-qwen3-8b-UD-japanese-imatrix) - 📥 8k / ⭐ 1 / 一個已經 GGUF‑量化的 shisa‑v2.1‑qwen3‑8b 模型,使用 Unsloth Dynamic 2.0 構建,社群修補了 Qwen3 設定以減少故障,採用更大的 imatrix 以提升日語表現,並具 40K 的最大上下文長度。 290 | * [bart-base-japanese](https://huggingface.co/ku-nlp/bart-base-japanese) - 📥 6k / ⭐ 10 / Japanese BART‑Base 以 18 M 種日文維基百科句子為預訓練資料,使用 Juman++ 斷詞,採用 SentencePiece 進行分詞,可微調,於 4 Tesla V100 GPUs 上訓練 500k 步,採用 6‑layer encoder/decoder,隱藏層尺寸為 768‑dim。 291 | * [shisa-v2.1-unphi4-14b-i1-GGUF](https://huggingface.co/mradermacher/shisa-v2.1-unphi4-14b-i1-GGUF) - 📥 5k / ⭐ 1 / 此處上傳的連結為 Shisa‑V2.1‑UNPhi4‑14B 的 weighted/imatrix 與 GGUF 量化版本(靜態 GGUF 發佈於 Hugging Face),列出下載連結、檔案大小與品質說明,並提供與 TheBloke’s READMEs 的使用指引。 292 | * [Llama-3-ELYZA-JP-8B-GGUF](https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-GGUF) - 📥 5k / ⭐ 69 / Llama‑3‑ELYZA‑JP‑8B 是一款日本優化的 8‑B Llama 3 模型,採用 GGUF (Q4_K_M) 與 AWQ 量化,能以 llama.cpp、LM Studio 或 OpenAI‑相容 API 執行。 293 | * [gemma-2-2b-jpn-it-translate-gguf](https://huggingface.co/webbigdata/gemma-2-2b-jpn-it-translate-gguf) - 📥 5k / ⭐ 12 / Gemma‑2‑2b‑jpn‑it‑translate‑gguf 是一個 20 億參數、約 2 GB 的小型語言模型,能提供與 70 億參數模型相當的日英翻譯質量,最適用於逐句輸入,並包含 Colab 及 llama.cpp 使用範例。 294 | * [Tema_Q-R3.1-i1-GGUF](https://huggingface.co/mradermacher/Tema_Q-R3.1-i1-GGUF) - 📥 4k / ⭐ 1 / 提供一份完整的 weighted/imatrix GGUF quant 版本清單,針對 Tema_Q‑R3.1 模型,詳細說明尺寸、品質備註、下載連結、使用指導(包括 GGUF 檔案處理)以及模型頁面、readme 與 FAQ 的連結。 295 | * [cyberagent-DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf](https://huggingface.co/mmnga/cyberagent-DeepSeek-R1-Distill-Qwen-14B-Japanese-gguf) - 📥 3k / ⭐ 55 / Cyberagent 的 gguf‑converted DeepSeek‑R1‑Distill‑Qwen‑14B‑Japanese 模型(基於 TFMC imatrix 數據集構建)已在 mmnga 可用,並且可使用 llama.cpp 在帶 CUDA 支持的環境中運行。 296 | * [Ninja-v1-NSFW-gguf](https://huggingface.co/mmnga/Ninja-v1-NSFW-gguf) - 📥 3k / ⭐ 5 / 一個 gguf‑格式的 Ninja‑v1‑NSFW 模型,為日語 LLM 建構,基於 imatrix 數據集,並可與 llama.cpp 一起使用(clone、compile、run with the provided prompt)。 297 | * [c4ai-command-r-plus-gguf](https://huggingface.co/mmnga/c4ai-command-r-plus-gguf) - 📥 2k / ⭐ 4 / GGUF 格式化版本的 CohereForAI 的 c4ai‑command‑r‑plus,使用來自 TFMC/imatrix 的日語 LLM 數據構建,並附有拼接分割檔案以及使用 llama.cpp 運行模型以實現日語對話的說明。 298 | * [Ninja-v1-NSFW-128k-gguf](https://huggingface.co/mmnga/Ninja-v1-NSFW-128k-gguf) - 📥 2k / ⭐ 11 / 一個倉庫提供 Ninja‑v1‑NSFW‑128k 模型的 GGUF 格式轉換,該模型由 TFMC/imatrix‑dataset‑for‑japanese‑LLM 構建,並附帶在 llama.cpp 中運行以生成日文小說文本的使用說明。 299 | * [Llama-3.1-Swallow-8B-v0.5](https://huggingface.co/tokyotech-llm/Llama-3.1-Swallow-8B-v0.5) - 📥 2k / ⭐ 7 / Llama 3.1 Swallow v0.5 是一個擁有 80 億參數的 LLM,透過持續預訓練以及在合成日語數據上進行指令調整微調,提升了 Meta 的 Llama 3.1 在日語語言以及程式碼/數學推理方面的表現,同時保持英語流暢度。 300 | * [t5-small-short](https://huggingface.co/retrieva-jp/t5-small-short) - 📥 2k / ⭐ 2 / 一個 T5 v1.1 模型,預訓練於日本 Wikipedia 以及 mC4/ja,採用 GEGLU 激活;預訓練期間不使用 dropout;不共享 embedding‑classifier;在 CC‑BY‑SA 4.0 協議下發佈(商業使用須事先聯繫)。 301 | * [Vecteus-v1-gguf](https://huggingface.co/mmnga/Vecteus-v1-gguf) - 📥 2k / ⭐ 7 / 一個以 gguf‑format 轉換的 Vecteus‑v1(自 Local‑Novel‑LLM),使用 imatrix dataset 構建,可透過 `Vecteus‑v1‑Q4_0.gguf` 在 llama.cpp 執行,並列出其他相關模型。 302 | * [lightblue-suzume-llama-3-8B-japanese-gguf](https://huggingface.co/mmnga/lightblue-suzume-llama-3-8B-japanese-gguf) - 📥 2k / ⭐ 2 / Japanese 8‑B LLaMA 3 由 lightblue 轉換為 GGUF 格式,使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 構建。 303 | * [japanese-splade-v2](https://huggingface.co/hotchpotch/japanese-splade-v2) - 📥 2k / ⭐ 16 / 高效能日文 SPLADE v2 透過 WebUI demo 可進行稀疏向量轉換與推理,使用 YAST 訓練,提供 YASEM 嵌入,並報告 JMTEB 基準結果。 304 | * [r1-1776-distill-llama-70b-gguf](https://huggingface.co/mmnga/r1-1776-distill-llama-70b-gguf) - 📥 2k / ⭐ 2 / 一個 GGUF‑format conversion of perplexity‑AI’s r1‑1776‑distill‑llama‑70b, built with imatrix data from TFMC/imatrix‑dataset‑for‑japanese‑LLM, ready for CUDA‑enabled use with llama.cpp. 305 | * [haqishen-Llama-3-8B-Japanese-Instruct-gguf](https://huggingface.co/mmnga/haqishen-Llama-3-8B-Japanese-Instruct-gguf) - 📥 2k / ⭐ 4 / gguf‑formatted 轉換的 Llama‑3‑8B 日語 Instruct,基於 imatrix 資料集構建,已準備好使用 llama.cpp 進行推理。 306 | * [cyberagent-DeepSeek-R1-Distill-Qwen-32B-Japanese-gguf](https://huggingface.co/mmnga/cyberagent-DeepSeek-R1-Distill-Qwen-32B-Japanese-gguf) - 📥 2k / ⭐ 39 / GGUF‑格式的 DeepSeek‑R1‑Distill‑Qwen 日語 32B 模型來自 cyberagent,使用 imatrix dataset 構建,並已準備好在 llama.cpp 上運行。 307 | * [umiyuki-Umievo-itr012-Gleipnir-7B-gguf](https://huggingface.co/mmnga/umiyuki-Umievo-itr012-Gleipnir-7B-gguf) - 📥 2k / ⭐ 7 / 一個以 gguf 格式的 Umievo‑itr012‑Gleipnir‑7B 版本(在 TFMC/imatrix‑dataset‑for‑japanese‑llm 上訓練),已準備好在 llama.cpp 執行。 308 | * [Llama-3.1-Swallow-8B-Instruct-v0.5-gguf](https://huggingface.co/mmnga/Llama-3.1-Swallow-8B-Instruct-v0.5-gguf) - 📥 2k / ⭐ 2 / GGUF 轉換 Llama‑3.1‑Swallow‑8B‑Instruct‑v0.5 由 tokyotech‑llm,結合 TFMC/imatrix‑dataset‑for‑japanese‑LLM,附帶 Build/Run 指令 for llama.cpp. 309 | * [Ninja-v1-128k-gguf](https://huggingface.co/mmnga/Ninja-v1-128k-gguf) - 📥 2k / ⭐ 2 / 提供了來自 Local‑Novel‑LLM‑project 的 Ninja‑v1‑128k 模型的 gguf‑format 轉換,該模型使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 數據構建,並包含 llama.cpp 使用說明。 310 | * [plamo-2-translate-gguf](https://huggingface.co/mmnga/plamo-2-translate-gguf) - 📥 2k / ⭐ 18 / 一個 GGUF‑格式的 pfnet 的 plamo‑2‑translate 發行版,基於 TFMC/imatrix‑dataset‑for‑japanese‑LLM 的 imatrix 數據構建,並附有使用 llama.cpp 在支援 CUDA 的硬體上編譯與執行的說明。 311 | * [gemma-3-JP-EN-Translator-v1-4B-i1-GGUF](https://huggingface.co/mradermacher/gemma-3-JP-EN-Translator-v1-4B-i1-GGUF) - 📥 2k / ⭐ 1 / Gemma‑3 JP‑EN 翻譯器(v1‑4B)的加權/矩陣量化模型以多種 GGUF 與靜態格式提供,並配有 Hugging Face 連結、檔案大小/品質說明、一份品質對比檔大小的圖表,以及針對視覺模型相容的 mmproj 檔案的使用指引。 312 | * [rinna-llama-3-youko-8b-gguf](https://huggingface.co/mmnga/rinna-llama-3-youko-8b-gguf) - 📥 2k / ⭐ 6 / GGUF 格式轉換 rinna 的 llama‑3‑youko‑8b,使用 imatrix 數據集訓練,包含使用說明與相關模型鏈接。 313 | * [Moonlight-16B-A3B-Instruct-gguf](https://huggingface.co/mmnga/Moonlight-16B-A3B-Instruct-gguf) - 📥 2k / ⭐ 9 / 一個 gguf 格式的 moonshotai 的 Moonlight‑16B‑A3B‑Instruct,已經在 TFMC 的 imatrix 日語資料集上訓練,準備好可與 llama.cpp (CUDA‑enabled) 一同使用,並可透過執行 recipe‑request 提示來展示。 314 | * [ELYZA-japanese-Llama-2-7b-fast-instruct-gguf](https://huggingface.co/mmnga/ELYZA-japanese-Llama-2-7b-fast-instruct-gguf) - 📥 2k / ⭐ 44 / 已將 ELYZA 的 7 b 日文 Llama‑2 instruct 模型轉成 GGUF,加入日文詞彙以提升 1.8× 速度,並可在 llama.cpp 上執行,符合 Llama 2 license。 315 | * [aya-23-35B-gguf](https://huggingface.co/mmnga/aya-23-35B-gguf) - 📥 2k / ⭐ 1 / CohereForAI 的 aya‑23‑35B 模型的 gguf 格式轉換,使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 中的 imatrix 資料構建,可透過 llama.cpp 執行:`./main -m 'aya-23-35B-Q4_0.gguf'`。 316 | * [Llama-3.1-70B-Japanese-Instruct-2407-gguf](https://huggingface.co/mmnga/Llama-3.1-70B-Japanese-Instruct-2407-gguf) - 📥 1k / ⭐ 7 / 一個 gguf‑格式的 cyberagent’s Llama‑3.1‑70B‑Japanese‑Instruct‑2407,使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 資料構建,並以 llama.cpp 的 CLI 執行。 317 | * [DataPilot-ArrowPro-7B-KUJIRA-gguf](https://huggingface.co/mmnga/DataPilot-ArrowPro-7B-KUJIRA-gguf) - 📥 1k / ⭐ 10 / DataPilot 的 ArrowPro‑7B‑KUJIRA 模型的 gguf 格式轉換,使用 TFMC 的 imatrix 日文 LLM 資料集構建,並以 llama.cpp 執行。 318 | * [rinna-llama-3-youko-70b-instruct-gguf](https://huggingface.co/mmnga/rinna-llama-3-youko-70b-instruct-gguf) - 📥 1k / ⭐ 1 / 一份 gguf 格式的 rinna 的 Llama‑3‑Youko‑70B‑Instruct 模型副本,基於 imatrix 數據構建,已準備好在 llama.cpp 進行推理。 319 | * [lightblue-DeepSeek-R1-Distill-Qwen-7B-Japanese-gguf](https://huggingface.co/mmnga/lightblue-DeepSeek-R1-Distill-Qwen-7B-Japanese-gguf) - 📥 1k / ⭐ 6 / 倉庫托管了由 gguf 轉換的 lightblue 的 DeepSeek‑R1‑Distill‑Qwen‑7B‑Japanese 模型版本,該模型基於 TFMC/imatrix‑dataset‑for‑japanese‑llm 構建,並可使用 llama.cpp 進行推理。 320 | * [QwQ-32B-Preview-gguf](https://huggingface.co/mmnga/QwQ-32B-Preview-gguf) - 📥 1k / ⭐ 3 / 一個以 gguf 格式轉換的 Qwen 的 QwQ‑32B‑Preview 模型,使用 TFMC/imatrix‑dataset‑for‑japanese‑LLM 的 imatrix 資料構建,並包含透過 llama.cpp 運行的說明。 321 | * [tokyotech-llm-Swallow-13b-instruct-v0.1-gguf](https://huggingface.co/mmnga/tokyotech-llm-Swallow-13b-instruct-v0.1-gguf) - 📥 1k / ⭐ 1 / 一個使用 gguf 格式的 TokyoTech‑LLM Swallow‑13b‑instruct‑v0.1 模型,使用 imatrix Japanese dataset 構建,已準備好可於 llama.cpp 中使用,並已示範。 322 | * [karakuri-lm-8x7b-chat-v0.1-gguf](https://huggingface.co/mmnga/karakuri-lm-8x7b-chat-v0.1-gguf) - 📥 1k / ⭐ 4 / 一個 gguf 格式的 karakuri‑lm‑8x7b‑chat‑v0.1 發行版,訓練於 TFMC/imatrix 日語 LLM 數據集,並可使用 llama.cpp 以 Q4_0 定量化模型運行。 323 | * [umiyuki-Japanese-Chat-Umievo-itr001-7b-gguf](https://huggingface.co/mmnga/umiyuki-Japanese-Chat-Umievo-itr001-7b-gguf) - 📥 1k / ⭐ 3 / GGUF 格式化的日文聊天模型「umiyuki‑Japanese‑Chat‑Umievo‑itr001‑7b」,基於 imatrix 資料集構建,可通過 llama.cpp 執行。 324 | * [aya-23-8B-gguf](https://huggingface.co/mmnga/aya-23-8B-gguf) - 📥 1k / ⭐ 1 / CohereForAI 的 aya‑23‑8B model 在 gguf format,建構自 TFMC/imatrix‑dataset‑for‑japanese‑llm,包含 llama.cpp 使用範例。 325 | * [gemma-2-2b-it-gguf](https://huggingface.co/mmnga/gemma-2-2b-it-gguf) - 📥 1k / ⭐ 1 / 使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 的 imatrix data 進行 Google 的 gemma‑2‑2b‑it 模型的 GGUF‑formatted conversion,附帶 llama.cpp usage instructions。 326 | * [c4ai-command-r7b-12-2024-gguf](https://huggingface.co/mmnga/c4ai-command-r7b-12-2024-gguf) - 📥 1k / ⭐ 2 / 提供 CohereForAI 的 c4ai‑command‑r7b‑12‑2024 模型的 gguf‑格式轉換,該模型基於 TFMC/imatrix‑dataset‑for‑japanese‑LLM 構建,並包含使用 CUDA 透過 llama.cpp 編譯與執行的說明。 327 | * [pfnet-nekomata-14b-pfn-qfin-gguf](https://huggingface.co/mmnga/pfnet-nekomata-14b-pfn-qfin-gguf) - 📥 1k / ⭐ 1 / 一個 GGUF‑format 的轉換,將 pfnet 的 nekomata‑14b‑pfn‑qfin 日本大型語言模型從 TFMC/imatrix‑dataset 構建,並授權於 Tongyi‑Qianwen,已準備好可與 llama.cpp 一同使用。 328 | * [Llama-3-ELYZA-JP-8B-gguf](https://huggingface.co/mmnga/Llama-3-ELYZA-JP-8B-gguf) - 📥 1k / ⭐ 4 / 由 elyza 提供的 GGUF‑converted Llama‑3‑ELYZA‑JP‑8B,使用 TFMC/imatrix‑dataset‑for‑japanese‑LLM 構建,已準備好供 llama.cpp 使用。 329 | * [llm-jp-3-7.2b-instruct3-gguf](https://huggingface.co/mmnga/llm-jp-3-7.2b-instruct3-gguf) - 📥 1k / ⭐ 5 / 基於 TFMC/imatrix 資料集構建的 llm‑jp‑3‑7.2b‑instruct3 的 GGUF 轉換,無需自訂聊天模板即可使用於 llama.cpp,並涵蓋多個 mmnga‑llm‑jp 模型變體。 330 | * [ArrowPro-7B-KillerWhale-gguf](https://huggingface.co/mmnga/ArrowPro-7B-KillerWhale-gguf) - 📥 1k / ⭐ 1 / GGUF‑轉換的 ArrowPro‑7B‑KillerWhale,使用 TFMC/imatrix‑dataset‑for‑japanese‑LLM 構建,並由 DataPilot 發佈,即已準備好使用 llama.cpp 進行推斷,使用 main ‑m “ArrowPro‑7B‑KillerWhale‑Q4_0.gguf”。 331 | * [Llama-3-Swallow-8B-Instruct-v0.1-gguf](https://huggingface.co/mmnga/Llama-3-Swallow-8B-Instruct-v0.1-gguf) - 📥 1k / ⭐ 3 / GGUF‑轉換的 Llama‑3‑Swallow‑8B‑Instruct‑v0.1(來自 tokyotech‑llm),使用 TFMC/imatrix 日本語 LLM 數據集構建,已準備好可通過 llama.cpp 的推理工具運行。 332 | * [ELYZA-Thinking-1.0-Qwen-32B-gguf](https://huggingface.co/mmnga/ELYZA-Thinking-1.0-Qwen-32B-gguf) - 📥 1k / ⭐ 1 / 一個 gguf‑格式轉換的 ELYZA’s Thinking‑1.0 Qwen‑32B 模型(由 TFMC/imatrix‑dataset‑for‑japanese‑llm 建構而成),附有使用 llama.cpp 與 CUDA 編譯與執行的說明。 333 | * [Llama-3-ELYZA-JP-8B-Heretic-GGUF](https://huggingface.co/mradermacher/Llama-3-ELYZA-JP-8B-Heretic-GGUF) - 📥 1k / ⭐ 1 / 提供一套 GGUF‑quantized 靜態模型及 weighted/imatrix 變體,適用於 Llama‑3‑ELYZA‑JP‑8B‑Heretic,模型大小介於 Q2_K (3.3 GB) 至 Q8_0 (8.6 GB),並建議使用快速選項,同時附上使用說明及模型請求連結。 334 | * [tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.2-gguf](https://huggingface.co/mmnga/tokyotech-llm-Llama-3.1-Swallow-8B-Instruct-v0.2-gguf) - 📥 1k / ⭐ 2 / GGUF‑formatted Llama‑3.1‑Swallow‑8B‑Instruct‑v0.2 來自 tokyotech‑llm,使用 TFMC/imatrix‑dataset‑for‑japanese‑llm 構建,並附帶 llama.cpp 使用說明。 335 | * [WabiSabi-V1-i1-GGUF](https://huggingface.co/mradermacher/WabiSabi-V1-i1-GGUF) - 📥 1k / ⭐ 1 / WabiSabi‑V1 模型的 Weighted / imatrix 量化—以多種尺寸與品質的 GGUF 檔案提供,並於 Hugging Face 發佈靜態量化—包含使用說明、比較圖與 FAQ/模型需求中心。 336 | 337 | ## Datasets 338 | * [KakologArchives](https://huggingface.co/datasets/KakologArchives/KakologArchives) - 📥 115k / ⭐ 17 / 聚合自 2009‑2024 年的 NicoNico Live 評論日誌超過 150 GB,包括轉換前、轉換後及實時 NX‑Jikkyo 捕獲,並提供 API 以方便檢索歷史 TV‑broadcast 討論。 339 | * [JMedBench](https://huggingface.co/datasets/Coldog2333/JMedBench) - 📥 11k / ⭐ 8 / JMedBench 是一個日本醫學領域 LLM 基準,包含 20 個資料集,涵蓋五個任務(MCQA、NER、STS 等),資料來源於 MedMCQA、PubMedQA、MMLU 及其他,每個資料集都有自己的授權,並附有註記指出翻譯可能存在偏差,需人工審核。 340 | * [Cauldron-JA](https://huggingface.co/datasets/turing-motors/Cauldron-JA) - 📥 7k / ⭐ 8 / Cauldron‑JA 是一套日本視覺‑語言資料集,包含 44 個子資料集,這些子資料集是使用 DeepL API 將 The Cauldron 翻譯而成,通過 HuggingFace’s datasets library 可取得,授權條件與原始資料集完全相同,提示(prompts)則以 CC‑BY‑4.0 授權釋出。 341 | * [reazon-speech-v2-clone](https://huggingface.co/datasets/litagin/reazon-speech-v2-clone) - 📥 6k / ⭐ 10 / Reazon Speech v2 資料集鏡像,於 🤗 上托管,授權為 CDLA‑Sharing‑1.0,受日本版權法第 30‑4 條限制,包含 16 kHz FLAC 音訊與相應元資料。 342 | * [fineweb-2-edu-japanese](https://huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese) - 📥 6k / ⭐ 22 / FineWeb2 Edu Japanese 交付約 120 million 高品質教育用日語文本(≈89.3 billion tokens)來自 FineWeb2,經 DeepSeek‑API classifier(score ≥ 2.5)過濾,使用 ModernBERT‑Ja‑130M 分詞,並包含小型 token 子集(≤512 tokens)。 343 | * [JMTEB](https://huggingface.co/datasets/sbintuitions/JMTEB) - 📥 6k / ⭐ 18 / JMTEB 是一套日語文本嵌入基準,包含 5 個任務(聚類、分類、STS、檢索、重排序)與 28 個資料集,提供一行式評估腳本並邀請社群貢獻。 344 | * [AnswerCarefully](https://huggingface.co/datasets/llm-jp/AnswerCarefully) - 📥 6k / ⭐ 47 / AnswerCarefully Dataset 提供日語及多語言資料,用於商業或非商業 LLM 安全增強;禁止任何其他用途——包括安全繞過;允許帶歸屬的衍生作品;並附帶創作者對損害或服務變更之非責任免責聲明。 345 | * [japanese-anime-speech-v2](https://huggingface.co/datasets/joujiboi/japanese-anime-speech-v2) - 📥 4k / ⭐ 126 / Japanese Anime Speech Dataset V2 提供 292,637 對乾淨的音頻-文本對,約 397.5 小時為 SFW,52.4 小時為 NSFW,存於 128‑kbps MP3 檔案中按安全性分割,專為訓練自動語音識別模型而設。 346 | * [ELYZA-tasks-100](https://huggingface.co/datasets/elyza/ELYZA-tasks-100) - 📥 4k / ⭐ 99 / 一個包含 100 筆樣本的日本語 instruction‑tuning 評估資料集,內含標註任務——從摘要校正、數學推理到翻譯、創意生成及使用者意圖理解——設計用於手動或自動 5‑point rating 的 fine‑tuned models 評估。 347 | * [MissingKeys](https://huggingface.co/datasets/RyokoExtra/MissingKeys) - 📥 4k / ⭐ 2 / MissingKeys 是來自 misskey.io 網路的一個原始日語為主的資料集,存於按日期壓縮的 JSONL 檔案(每個 .7z 壓縮檔約 100,000 筆筆記),並主要用於無監督文本生成訓練。 348 | * [voicevox-voice-corpus](https://huggingface.co/datasets/ayousanz/voicevox-voice-corpus) - 📥 4k / ⭐ 6 / 由 VOICEVOX 與 ITA、Tsukuyomi‑chan、ROHAN 資料庫所建立的人工語音資料集,包含 445,793 個 WAV 檔案,總計 577 小時 51 分鐘 23 秒。 349 | * [Galgame-VisualNovel-Reupload](https://huggingface.co/datasets/joujiboi/Galgame-VisualNovel-Reupload) - 📥 4k / ⭐ 26 / 重構後重新上傳 Galgame VisualNovel 資料集 (OOPPEENN/5669736E6F76656C5F44617461736574),為了提高 Hugging Face 資料集載入效率,保留所有原始音訊 / 文字,並提供一段提取腳本,支援多種遊戲子集選項。 350 | * [Nemotron-Personas-Japan](https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan) - 📥 3k / ⭐ 94 / Nemotron‑Personas‑Japan是一個開源、CC BY 4.0資料集,提供高品質的合成生成日本人格資料——包含姓名、性別、年齡、背景、婚姻狀況、教育、職業和地理位置——基於真實世界的人口、地理和個性分佈設計,使用概率圖形模型和GPT‑OSS‑120B進行優化,以提升多樣性、減少偏見、避免模型崩潰,協助主權AI發展並支持商業使用。 351 | * [JGLUE](https://huggingface.co/datasets/shunk031/JGLUE) - 📥 3k / ⭐ 44 / 更新了 JGLUE 數據集卡和載入腳本,適用於由 Yahoo Japan 和 Waseda University 創建的日本 NLP 基準,涵蓋文本分類(MARC‑ja、JCoLA)、句子對分類(JNLI)和 QA(JSQuAD、JCommonsenseQA),發布版本已在 GitHub 和 Hugging Face 上連結。 352 | * [emilia-yodas](https://huggingface.co/datasets/TTS-AGI/emilia-yodas) - 📥 3k / ⭐ 4 / 來自 Fate/Stay Night 角色「Emilia」的對話與傳說資料集,格式化用於訓練與評估對話語言模型。 353 | * [mc4-ja](https://huggingface.co/datasets/izumi-lab/mc4-ja) - 📥 3k / ⭐ 6 / 日文 MC4 資料集卡片 (mc4-ja) 354 | * [vntl-leaderboard](https://huggingface.co/datasets/lmg-anon/vntl-leaderboard) - 📥 3k / ⭐ 39 / VNTL 排行榜通過在 256 個樣本上平均余弦相似度分數,來評估大型語言模型在將日語視覺小說翻譯成英語方面的表現,並對初步結果進行排名,同時與 Sugoi Translator、Google Translate、Naver Papago 等工具進行基準比較。 355 | * [mc4-ja-filter-ja-normal](https://huggingface.co/datasets/izumi-lab/mc4-ja-filter-ja-normal) - 📥 3k / ⭐ 5 / 資料集卡片:`mc4‑ja‑filter‑ja‑normal` 資料集,附加資訊待補。 356 | * [Voice-KusanagiNene](https://huggingface.co/datasets/MomoyamaSawa/Voice-KusanagiNene) - 📥 3k / ⭐ 16 / 部分草薙寧々(Project Sekai)錄音與標籤資料集,開放完成與社群貢獻。 357 | * [EliteVoiceProject](https://huggingface.co/datasets/Elite35P-Server/EliteVoiceProject) - 📥 2k / ⭐ 12 / Elite Voice Project 將 Hololive VTuber Sakura Miko 的音頻收集自 Twitch、Twitter 與 YouTube,整理成訓練/測試組織的資料集,以供語音識別研究,使用 Git‑LFS,並按 Hololive 的 fan‑content 規則授權,歡迎社群貢獻。 358 | * [wikipedia-passages-jawiki-embeddings](https://huggingface.co/datasets/hotchpotch/wikipedia-passages-jawiki-embeddings) - 📥 2k / ⭐ 3 / 日文維基百科句子被轉換為各種嵌入,並建立 FAISS 索引,提供 Hugging Face Space 的演示、轉換腳本,以及對搜尋、問答和 OpenAI text‑embedding‑3‑small 在 RAG 中的評估;嵌入採用 OpenAI 授權,其他則採用 CC‑BY‑SA‑4.0。 359 | * [oscar_2023_filtered](https://huggingface.co/datasets/if001/oscar_2023_filtered) - 📥 2k / ⭐ 3 / 312,396 行的已過濾子集,屬於 OSCAR‑2301 dataset(Hugging Face `if001/oscar_2023_filtered`),實作細節可於 HojiChar_OSCAR_sample GitHub repository 查看。 360 | * [AnimuSubtitle-JP](https://huggingface.co/datasets/KaraKaraWitch/AnimuSubtitle-JP) - 📥 2k / ⭐ 3 / AnimuSubtitle‑JP 主機日本語 ASS/SSA 字幕資料集 (data_ass, data_TS),可使用 Python 的 ass library 解析或在 Aegisub 中編輯,並以 ODC‑By 授權發布。 361 | * [ogiri-bokete](https://huggingface.co/datasets/YANS-official/ogiri-bokete) - 📥 2k / ⭐ 3 / 日文 Bokete‑site 幽默貼文的資料集 (來自 CLoT‑Oogiri‑Go CVPR 2024),包含三項任務——文字至文字、圖片至文字、文字及圖片至文字,約 600 個範例,已透過 GPT‑4o OCR 與 HojiChar 過濾處理。 362 | * [japanese-anime-speech](https://huggingface.co/datasets/joujiboi/japanese-anime-speech) - 📥 2k / ⭐ 136 / Japanese Anime Speech Dataset 提供 73,004 對音頻-文字對(共 110 小時,從 V1 演進至 V5),用於提升 ASR 模型(如 OpenAI 的 Whisper),在開放授權下可供任何使用,若能標明來源將不勝感激。 363 | * [aozorabunko-clean](https://huggingface.co/datasets/globis-university/aozorabunko-clean) - 📥 2k / ⭐ 36 / 使用者友善、去重的 CSV 資料集,包含來自 Aozora Bunko 的公有領域日語文本,已使用 globis‑org/aozorabunko‑extractor 處理並為現代日語機器學習用途做過清理。 364 | * [qg_jaquad](https://huggingface.co/datasets/lmqg/qg_jaquad) - 📥 2k / ⭐ 5 / Japanese JaQuAD(QG‑Bench 的子集)提供句子級和段落級資料,並以高亮顯示答案 token,用於訓練日語提問生成模型,評估指標包括 BLEU4、METEOR、ROUGE‑L、BERTScore 與 MoverScore。 365 | * [MOMIJI](https://huggingface.co/datasets/turing-motors/MOMIJI) - 📥 2k / ⭐ 20 / 一個日本網路集合,包含56 million文件、110 B字元以及249 million圖像,這些資料被用於訓練大型視覺語言模型——提供momiji_generator進行資料填充、OBELICS‑style視覺化,以及一個範例模型(Heron‑NVILA‑Lite)。 366 | * [sayoko-tts-corpus](https://huggingface.co/datasets/bandad/sayoko-tts-corpus) - 📥 2k / ⭐ 5 / 一位81歲的日本女性的 “Fusic Sa‑yo‑ji” 語音語料庫,可從 Google Drive 下載為 zip 檔,提供原始噪音與已清理的 .wav 檔,同時包含音素與假名標記及韻律符號。該資料免費供非明示商業使用,需署名;禁止直接音訊鏈接;且必須在任何再發布時重新分發 README。 367 | * [japanese2010](https://huggingface.co/datasets/hatakeyama-llm-team/japanese2010) - 📥 2k / ⭐ 3 / Japanese Web Corpus 2010 data,使用形態素分析自動標點化,已上傳至 Hugging Face,僅供研究使用,依據 2009 copyright amendment,並包含轉換腳本。 368 | * [Japanese-Eroge-Voice](https://huggingface.co/datasets/NandemoGHS/Japanese-Eroge-Voice) - 📥 1k / ⭐ 30 / 一個 409 小時的日本 eroge 語音資料集,經 2-pass loudnorm 處理(‑23 LUFS、‑1 dB peak、11 LRA),由 litagin/anime-whisper 轉錄,已匿名化,存儲為 WebDataset(FLAC、JSON、TXT),主要包含女性聲音,可能存在 AI 轉錄錯誤,並以 MIT‑licensed 供學術研究。 369 | * [japanese-photos](https://huggingface.co/datasets/ThePioneer/japanese-photos) - 📥 1k / ⭐ 32 / 一個包含 11,810 張圖像、28.9 GB 的資料集,包含約 4,000 張 JPEG 檔,展示日本的城市、自然、歷史、藝術與日常場景,每張配備 BLIP 標題與元資料,並於 CC0 1.0 版權下釋出,用於 AI 訓練。 370 | * [wiki40b_ja](https://huggingface.co/datasets/fujiki/wiki40b_ja) - 📥 1k / ⭐ 4 / 由 Mandy Guo、Zihang Dai 與 Denny Vrandečić 編譯的 Wiki40B dataset 的日文子集已重新格式化。 371 | * [JCommonsenseQA](https://huggingface.co/datasets/sbintuitions/JCommonsenseQA) - 📥 1k / ⭐ 2 / JCommonsenseQA 是一個以 CommonsenseQA 為基礎改編的日本多選題資料集,每題提供 5 個答案選項,標記正確選項的索引,並以 Creative Commons BY‑SA 4.0 授權發布。 372 | * [databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja) - 📥 1k / ⭐ 87 / 一個自動翻譯的日語版 databricks‑dolly‑15k dataset,採用 CC‑BY‑SA‑3.0 授權,最後更新於 2023‑05‑11。 373 | * [rakuda-questions](https://huggingface.co/datasets/yuzuai/rakuda-questions) - 📥 1k / ⭐ 8 / Rakuda 提供 40 個日文問題—針對歷史、社會與政府的開放式題目,以及針對地理的專門題目—作為基準測試日本 AI 助手的資料,與 vicuna‑eval 相似,並可透過 `datasets.load_dataset` 載入。 374 | * [ABEJA-CC-JA](https://huggingface.co/datasets/kajuma/ABEJA-CC-JA) - 📥 1k / ⭐ 2 / Hugging Face鏡像的 ABEJA CC‑JA 資料集來自 AWS Open Data,詳細資訊已發佈於 ABEJA 的技術部落格。 375 | * [Galgame_Speech_ASR_16kHz](https://huggingface.co/datasets/litagin/Galgame_Speech_ASR_16kHz) - 📥 1k / ⭐ 37 / Galgame_Speech_ASR_16kHz 是一個 16 kHz ASR 資料集,包含 3.75 百萬對(≈5,354 h),由 Galgame_Dataset 派生,採 GPL v3.0 授權,禁止商業使用,且任何訓練出來的模型必須開源(引用可選)。 376 | * [defamation-japanese-twitter](https://huggingface.co/datasets/kubota/defamation-japanese-twitter) - 📥 978 / ⭐ 2 / 一份 5,000 推文的日本 Twitter 誹謗偵測資料集,已由三名眾包工作者針對目標(A1–A3)和內容(B1–B4)進行註解,於 2022 年 2‑6 月收集。需使用 API 存取以取得原始推文。 377 | * [llm-japanese-dataset](https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset) - 📥 975 / ⭐ 139 / 日語說明式對話資料集,用於微調 LLM(例如 LoRA),9M+ 範例,最近更新為去除授權的 Alpaca 數據,清理 Wikipedia 和 ALT 輸出,並以 CC‑BY‑SA 4.0 發佈。 378 | * [Hachi-Alpaca](https://huggingface.co/datasets/HachiML/Hachi-Alpaca) - 📥 970 / ⭐ 15 / Hachi-Alpaca 傳遞的日本語合成資料源自 Stanford Alpaca,經 mistralai/Mixtral‑8x22B‑Instruct‑v0.1 之精煉與驗證,並透過 Deepinfra 使用,附帶已通過 model‑based quality checks 的 “_cleaned” 版本。 379 | * [JaQuAD](https://huggingface.co/datasets/SkelterLabsInc/JaQuAD) - 📥 961 / ⭐ 11 / JaQuAD 是 2022 年的日本 QA 資料集,包含 39,696 對 SQuAD‑style 抽取式問答對,來源於 Wikipedia,總量 73.2 MB,當使用 BERT‑Japanese 微調時,F1 分數達 78.92 %(EM 63.38 %)。 380 | * [STAIR-Captions](https://huggingface.co/datasets/shunk031/STAIR-Captions) - 📥 961 / ⭐ 5 / STAIR‑Captions 是一個大型(820,310)日語標題資料集,適用於標題生成、多模搜尋與影像生成等任務,並以 CC BY 4.0 授權發行。 381 | * [kaken-trans-ja-en](https://huggingface.co/datasets/hpprc/kaken-trans-ja-en) - 📥 960 / ⭐ 9 / 一個日文對英文平行語料庫,將 llm‑jp‑corpus‑v3 的 kaken 子集翻譯成英文,使用 Qwen/Qwen2.5‑32B‑Instruct,特點為自訂翻譯欄位,並以 CC‑BY‑4.0 授權。 382 | * [KokushiMD-10](https://huggingface.co/datasets/humanalysis-square/KokushiMD-10) - 📥 905 / ⭐ 5 / KokushiMD‑10 提供一套多模態基準,內容為日本國家醫療執照考試問題——涵蓋十個專業,提供日文、英文及混合分割,並配備專家 chain‑of‑thought 標註,供 LLM 評估使用。 383 | * [JMMMU](https://huggingface.co/datasets/JMMMU/JMMMU) - 📥 844 / ⭐ 19 / JMMMU 是一個日語多模態基準,已擴充十倍至 1,320 個文化多樣化問題 (720 個文化中立,600 個文化特定),由母語專家翻譯,現在擁有公開排行榜。 384 | * [wikipedia-ja-20230720](https://huggingface.co/datasets/izumi-lab/wikipedia-ja-20230720) - 📥 786 / ⭐ 13 / 2023‑07‑20 版日本維基百科資料集的資料卡 385 | * [reranker-scores](https://huggingface.co/datasets/hpprc/reranker-scores) - 📥 721 / ⭐ 4 / 提供一個日文搜尋/問答資料集,包含每個查詢的分數,這些分數由五個多語言/日文再排序器計算(如 BAAI/bge‑reranker‑v2‑m3、Alibaba‑NLP/gte‑multilingual‑reranker‑base),並包括每個查詢大約 200 篇正面與負面範例文件的平均分數。 386 | * [Lux-Japanese-Speech-Corpus](https://huggingface.co/datasets/Lami/Lux-Japanese-Speech-Corpus) - 📥 714 / ⭐ 3 / Lux Japanese Speech Corpus: 由角色 Lux 錄製的日語 TTS 音訊資料集,採樣率 96 kHz、16‑bit WAV 格式,包含原始與清理過的音訊、metadata.csv 中的轉錄文件、dataset_infos.json 中的資料集元資料,並以 CC BY 4.0 授權發布。 387 | * [cc100-ja](https://huggingface.co/datasets/range3/cc100-ja) - 📥 680 / ⭐ 21 / cc100-ja 是 cc100 資料集的日本語部分,提供為分片 Parquet 檔案。 388 | * [jaCappella](https://huggingface.co/datasets/jaCappella/jaCappella) - 📥 643 / ⭐ 5 / JaCappella 提供六聲部(主唱、女高音、女中音、男高音、男低音、聲樂打擊)譜與對應音頻,適用於多種風格的日本無伴奏合唸團體,皆可從 Hugging Face 下載。 389 | * [paraphrase-qa](https://huggingface.co/datasets/hpprc/paraphrase-qa) - 📥 638 / ⭐ 3 / LLM 生成的查詢與答案資料集,採自日本維基百科文字的改寫,未使用授權受限模型構建,並以 CC‑BY‑SA 4.0 版本發布。 390 | * [JaMARD](https://huggingface.co/datasets/elyza/JaMARD) - 📥 632 / ⭐ 9 / 一個高品質的合成日語數學題目資料集,具有已驗證的鏈式思考推理,透過 Qwen2‑7B‑Instruct 將 PRM800K 和 GSM8K 進行翻譯並篩選正確性後構建,可透過 Hugging Face datasets library 獲取。 391 | * [JEMHopQA](https://huggingface.co/datasets/sbintuitions/JEMHopQA) - 📥 621 / ⭐ 3 / Japanese Explainable Multi‑hop Question Answering dataset 特色為問題、答案與逐步推導,連結 Wikipedia 文章,並更新推導格式及多個版本發布。 392 | * [reazonspeech](https://huggingface.co/datasets/reazon-research/reazonspeech) - 📥 612 / ⭐ 104 / ReazonSpeech 是一個免費的 FLAC‑encoded 日語語音語料庫,附帶文字稿,提供五種規模,從 8.5 小時到 35,000 小時,可透過 Hugging Face 下載,採用 CDLA‑Sharing‑1.0 授權,並受限於日本版權法第 30‑4 條使用。 393 | * [pvc](https://huggingface.co/datasets/p1atdev/pvc) - 📥 597 / ⭐ 7 / PVC 角色產品資料集涵蓋 goodsmile (947)、goodsmile‑nendoroid (3,378)、goodsmile‑scale (2,203)、kotobukiya (864)、myethos、spiritale 及 tokyofigures (394),並含對應的來源網址。 394 | * [cc100-ja-documents](https://huggingface.co/datasets/hotchpotch/cc100-ja-documents) - 📥 558 / ⭐ 3 / 以文件級拼接 HuggingFace 的 cc100‑ja 數據集,並按原始 cc100 條款授權。 395 | * [xlsum_ja](https://huggingface.co/datasets/mkshing/xlsum_ja) - 📥 555 / ⭐ 6 / Japanese XL‑Sum 子集經 PaLM‑2 15‑gram 重疊過濾,包含 4,215 個訓練、758 個驗證以及 766 個測試範例。 396 | * [sentence_transformer_japanese](https://huggingface.co/datasets/hotchpotch/sentence_transformer_japanese) - 📥 555 / ⭐ 5 / 將日文資料集轉換為 SentenceTransformers 友好的欄位,並根據 Rerank 分數(≥0.7 為正面,≤0.3 為負面)篩選範例,從多個 HuggingFace 來源擷取,以支援對比學習,同時遵守原始授權。 397 | * [JAQKET](https://huggingface.co/datasets/kumapo/JAQKET) - 📥 552 / ⭐ 5 / JAQKET 是一個來自 Wikipedia 的日語開放域問答資料集,提供版本 1.0,包含多選測驗題(13,061 個訓練例子,271 個驗證例子)以及版本 2.0,只包含需要抽取答案的提問提示(2,154 個訓練例子,1,164 個驗證例子),旨在促進問答系統研究。 398 | * [JMMLU](https://huggingface.co/datasets/nlp-waseda/JMMLU) - 📥 548 / ⭐ 10 / JMMLU 是一個日本大型多任務語言理解基準,包含 7,536 個由教師精心編寫的問題,涵蓋 56 個科目,包含專業醫學、心理學、會計、哲學,以及多種高中學科。 399 | * [auto-wiki-qa](https://huggingface.co/datasets/cl-nagoya/auto-wiki-qa) - 📥 542 / ⭐ 24 / AutoWikiQA 是日本最大的免費 QA 數據集(2,377,503 對),由 Wikipedia 文字使用 Swallow‑MX 與 vLLM 生成,提供多樣、無模板的問題與答案,用於知識注入及檢索增強生成。 400 | * [SyntheticText](https://huggingface.co/datasets/kanhatakeyama/SyntheticText) - 📥 530 / ⭐ 2 / 隨機抽取自 Wikibooks、Wikipedia、Cosmopedia 和案例法的段落,使用 φ‑3 重新生成,並利用數十 GB 的 parquet 資料集(datasets library 僅載入前幾 GB,故需 Git LFS)進行計算,計算工作在東京科技 TSUBAME4.0 超級電腦上完成。 401 | * [CABankSakuraCHJP](https://huggingface.co/datasets/Fhrozen/CABankSakuraCHJP) - 📥 523 / ⭐ 2 / Japanese CallHome corpus 包含 200 條 30 分鐘的美國電話音訊錄音,來自 120 位說話者,其中包含 80 條訓練、20 條開發和 100 條評估轉錄(DOI: 10.21415/T5H59V)。 402 | * [llm-japanese-dataset-vanilla](https://huggingface.co/datasets/izumi-lab/llm-japanese-dataset-vanilla) - 📥 521 / ⭐ 32 / 日本聊天機器人資料集,已去除 izumi‑lab/llm‑japanese‑dataset 中的英文翻譯資料,提供 250 萬以上條目(v1.0.0),適用於在 CC‑BY‑SA 4.0 協議下對日語 LLM 進行指令回覆任務的微調。 403 | * [jsick](https://huggingface.co/datasets/hpprc/jsick) - 📥 510 / ⭐ 8 / JSICK 是一個從 SICK 翻譯而成的日本 NLI/STS 數據集,提供了一項壓力測試,透過多個變換後的句子對子集探測 word‑order 與 case‑particle 處理,以支援多語言組合推理的研究。 404 | * [anime-with-caption-cc0](https://huggingface.co/datasets/alfredplpl/anime-with-caption-cc0) - 📥 495 / ⭐ 21 / 使用英文提示生成的 AI 動漫插圖,以及來自 Phi‑3 Vision 的字幕(英文與日文),已釋出至公共領域供免費使用。 405 | * [jawiki](https://huggingface.co/datasets/hpprc/jawiki) - 📥 490 / ⭐ 18 / 一個結構化文本資料集,來自 Wikipedia 的 2024 年 1 月 HTML Dump,保留段落結構且不含標記,為每篇文章提供元資料(摘要、日期、消歧義/性/暴力標記、範本),並已準備好進行 NLP 實驗。 406 | * [livedoor-news-corpus](https://huggingface.co/datasets/llm-book/livedoor-news-corpus) - 📥 473 / ⭐ 4 / Dataset card 說明了 llm-book/ner-wikinews-dataset,這是一個已清理的 livedoor News 文章集合,採用 CC BY‑ND 2.1 JP 授權,供《Introduction to Large Language Models》一書使用,並由 LONWIIT 提供。 407 | * [JMMMU-Pro](https://huggingface.co/datasets/JMMMU/JMMMU-Pro) - 📥 469 / ⭐ 6 / JMMMU‑Pro 是一個低成本、基於圖像的日本多模態基準,透過使用 Nano Banana Pro 生成視覺問題並經人工驗證構建,顯示目前開源 LMMs 存在困難,並為未來日本 VQA 研究提供指導。 408 | * [llm-jp-eval](https://huggingface.co/datasets/llm-book/llm-jp-eval) - 📥 457 / ⭐ 3 / 資料集卡為「Introduction to Large‑Scale LLM II」一書中使用的 ja‑vicuna‑qa‑benchmark,並由 llm‑jp‑eval 為跨資料集的日語 LLM 評估所創建(Apache 2.0)。 409 | * [japanese-corpus-categorized](https://huggingface.co/datasets/kanhatakeyama/japanese-corpus-categorized) - 📥 442 / ⭐ 3 / 像 mc4-ja 這樣的日本網路語料庫,被一個無監督模型清理並聚類成約 10,000 個群組,可供合法分析;僅有部分檔案為 parquet 格式,檔案清單位於 out 資料夾,必須使用 git‑lfs 下載。 410 | * [llava-instruct-ja](https://huggingface.co/datasets/llm-jp/llava-instruct-ja) - 📥 441 / ⭐ 5 / 由 GPT‑4o‑mini 結合 Azure OpenAI 生成的 156K 筆樣本的日文 LLaVA‑Instruct 數據集,授權為 CC BY 4.0 並符合 OpenAI 條款。 411 | * [JGLUE](https://huggingface.co/datasets/llm-book/JGLUE) - 📥 426 / ⭐ 14 / JGLUE 資料集卡片,使用於《Large Language Model Introduction》一書,來源自原始倉庫,程式碼採用 CC BY‑SA 4.0 許可,資料受發行者授權,引用 Kurihara & Kawahara(以日文)並建立於 Shunsuke Kitada 的倉庫。 412 | * [oscar2301-ja-filter-ja-normal](https://huggingface.co/datasets/izumi-lab/oscar2301-ja-filter-ja-normal) - 📥 422 / ⭐ 6 / 日語過濾的 OSCAR 2301 子集「oscar2301‑ja‑filter‑ja‑normal」之資料集卡片。 413 | * [mqa-ja](https://huggingface.co/datasets/hpprc/mqa-ja) - 📥 415 / ⭐ 6 / 已去重、NFKC‑正規化的 mQA 查詢–段落對,pos_ids/neg_ids 對應於集合索引,便於直接通過 collection[pos_id] 進行檢索,並遵循原始數據集的授權條款。 414 | * [JQaRA](https://huggingface.co/datasets/hotchpotch/JQaRA) - 📥 403 / ⭐ 19 / 一個日語 QA 數據集,用於評估 Retrieval‑Augmented Generation (RAG),由 JAQKET 題目與 Wikipedia 文章構建,帶有金鑰檢索相關性標簽,已於 HuggingFace 和 GitHub 發布,主要以 nDCG@10 作為評分指標。 415 | * [Japanese-Novels-23M](https://huggingface.co/datasets/OmniAICreator/Japanese-Novels-23M) - 📥 400 / ⭐ 6 / 由個人收集的23,212,809部日本網路小說(約80.8億個字符)資料集,僅供機器學習使用,並需進行詳細訪問申請。 416 | * [relaion2B-en-research-safe-japanese-translation](https://huggingface.co/datasets/llm-jp/relaion2B-en-research-safe-japanese-translation) - 📥 396 / ⭐ 3 / 一個使用 text2dataset、vLLM 與 open‑weight Gemma 2.9b‑it 的工具,進行快速英日翻譯,產生 15 億對日文圖像-文字資料集,以支援 CLIP‑based 視覺語言模型。 417 | * [gendec-dataset](https://huggingface.co/datasets/tarudesu/gendec-dataset) - 📥 390 / ⭐ 2 / 一個包含 64,139 項日文姓名的資料集,已按生物性別標記——採用漢字、平假名與羅馬拼音——其 44.9k 訓練集、6.41k 驗證集與 12.8k 測試集的分割方式獲得 ISDA’23 的接受。 418 | * [J-ResearchCorpus](https://huggingface.co/datasets/kunishou/J-ResearchCorpus) - 📥 390 / ⭐ 32 / 高品質日本研究論文語料庫(約 3900 萬字符),採用 CC‑BY‑* 版權,來源自 ACL 2021‑2024 稿件、NLP 期刊及其他期刊,已釋出供 LLM pre‑training 與 RAG 使用,且持續新增內容。 419 | * [oscor-2301-ja-text-content](https://huggingface.co/datasets/ayousanz/oscor-2301-ja-text-content) - 📥 390 / ⭐ 2 / 將日本 OSCOR‑2301 資料集的 JSON 檔案轉成純文字,僅提取每一項的「content」欄位。 420 | * [OpenMathInstruct-1-1.8m-ja](https://huggingface.co/datasets/kunishou/OpenMathInstruct-1-1.8m-ja) - 📥 368 / ⭐ 14 / 1.8 百萬條日文翻譯的 OpenMathInstruct‑1 語調調校範例,來源於 GSM8K 與 MATH 標準題目,結合 Mixtral‑8x7B 衍生的合成解答,並已與原始答案核對,已在 NVIDIA 授權下釋出供商業使用,該授權要求重新散佈時必須繼承該授權;但模型學習授權則不需繼承此授權。 421 | * [EDINET-Bench](https://huggingface.co/datasets/SakanaAI/EDINET-Bench) - 📥 359 / ⭐ 9 / EDINET‑Bench 是一個日本金融基準,評估 LLM 在會計欺詐檢測、盈餘預測以及產業預測等任務,使用十年的 EDINET‑API 公開報告。提供構建與評估代碼,資料集已重新授權為 PDL 1.0。 422 | * [jhumaneval](https://huggingface.co/datasets/kogi-jwu/jhumaneval) - 📥 356 / ⭐ 7 / JHumanEval 是手工翻譯的日本版 HumanEval benchmark,提供 164 個 Python 程式設計問題,並提供對應的英文與日文註解,旨在評估 Japanese-LLM 程式產生,同時保留原始英文錯誤。 423 | * [janli](https://huggingface.co/datasets/hpprc/janli) - 📥 354 / ⭐ 6 / JaNLI 是一個基於 HANS 的日本對抗性 NLI 數據集,包含 13,680 個訓練句對和 720 個測試句對,並以蕴含標籤、結構啟發式(例如子序列、成分)、名詞短語計數以及語義標籤進行註釋,用以探討日語語言現象與模型脆弱性。 424 | * [oasst1-89k-ja](https://huggingface.co/datasets/kunishou/oasst1-89k-ja) - 📥 350 / ⭐ 26 / 日本語翻譯的 OpenAssistant/oasst1 資料,含失敗旗標;約 2,000 個手動修正的程式碼翻譯錯誤;已發佈的聊天格式子集 (oasst1-chat-44k-ja);以及將條目轉換為指令-輸出對的腳本,用於微調。 425 | * [2ch.sc](https://huggingface.co/datasets/DSULT-Core/2ch.sc) - 📥 336 / ⭐ 2 / 大型壓縮的 JSON‑Lines 數據集,包含匿名 2ch.sc/2ch.net 論壇討論串,包含討論串 ID、標題、版面與區域資訊、回覆數量,以及完整的貼文元資料(作者、郵件、日期、內容)。 426 | * [RAG-Evaluation-Dataset-JA](https://huggingface.co/datasets/allganize/RAG-Evaluation-Dataset-JA) - 📥 333 / ⭐ 33 / Allganize RAG Leaderboard 發佈日本 RAG 性能資料以及涵蓋金融、電信、製造、公共部門與零售五個行業領域的自動端到端評估結果,協助企業在尚未出現全面日本基準的情況下,對解析器、檢索與生成組件進行基準測試。 427 | * [Umamusume-voice-transcription](https://huggingface.co/datasets/TLME/Umamusume-voice-transcription) - 📥 332 / ⭐ 8 / Umamusume 語音轉錄資料集列出 77 位角色及其總音訊時長(例如 East Commerce 799 秒,East Imperial Emperor 1074 秒,…) 428 | * [Swallow-Instruct-v0.1](https://huggingface.co/datasets/tokyotech-llm/Swallow-Instruct-v0.1) - 📥 326 / ⭐ 10 / Swallow Instruct v0.1 是 Swallow‑model 系列(例如 Llama‑3‑Swallow‑8B‑Instruct‑v0.1、Swallow‑13B‑Instruct‑v0.1)的微調資料集,包含 5 334 條英文與約 42 000 條日文 OpenAssistant 對話,來源於 OpenAssistant2,並為「beta」子集加入日文提示,由東京科技大學 Okazaki/YOKOTA 實驗室及 AIST 共同創建。 429 | * [japanese_alpaca_data](https://huggingface.co/datasets/fujiki/japanese_alpaca_data) - 📥 325 / ⭐ 16 / Dataset 卡片 **japanese_alpaca_data**,基於 masa3141 的 Japanese‑Alpaca‑LoRA 工作,並在參考倉庫中提供更多細節。 430 | * [ParallelFiction-Ja_En-100k](https://huggingface.co/datasets/NilanE/ParallelFiction-Ja_En-100k) - 📥 324 / ⭐ 76 / 版本 2 的句子對齊的日本網路小說至英語粉絲翻譯數據集(106k 章節),更新對齊,新增系列資料,無品質過濾,並以公平使用與 Apache 2.0 授權發佈,附 Hugging Face 下架程序。 431 | * [jsnli](https://huggingface.co/datasets/shunk031/jsnli) - 📥 322 / ⭐ 5 / JSNLI 是由 KUROHASHI‑CHU‑MURAWAKI LAB 發布的 SNLI NLI 基準的日語翻譯,提供 548k 筆訓練對 (3,916 筆驗證) 以 TSV 格式並以 JUMAN++ 形態化的前提與假設,另外還有 533k 筆被過濾的子集,全部依 CC BY‑SA 4.0 分發。 432 | * [Galgame_Speech_SER_16kHz](https://huggingface.co/datasets/litagin/Galgame_Speech_SER_16kHz) - 📥 321 / ⭐ 11 / 一個 104 GB 的資料集,包含 3,746,131 張 Galgame 音訊檔案(5,353 h),在既有的 16 kHz ASR 資料集中加入了 LLM‑generated emotion labels(可能不準確)。該資料集以 GPL v3.0 發佈,禁止商業使用,並且要求所有訓練好的模型必須 open‑source。 433 | * [wrime-sentiment](https://huggingface.co/datasets/llm-book/wrime-sentiment) - 📥 320 / ⭐ 9 / 此為 llm-book/wrime‑sentiment 的資料集卡,提供一個由 WRIME 衍生的二元日語情感分析集合,根據 Avg. Readers_Sentiment 標記為正向或負向(可選擇包含中性案例),並作為《Introduction to Large Language Models》一書的樣本資料。 434 | * [JFWIR](https://huggingface.co/datasets/hotchpotch/JFWIR) - 📥 320 / ⭐ 4 / JFWIR 是一個 64‑million‑pair 的日語 IR 資料集,建構於 fineweb‑2‑edu 網路內容,提供七種查詢類型與困難負樣本,並提升在 JQaRA、MIRACL(ja)、jsquad 與 JaCWIR 的基準分數。 435 | * [JA-VG-VQA-500](https://huggingface.co/datasets/SakanaAI/JA-VG-VQA-500) - 📥 316 / ⭐ 16 / JA‑VG‑VQA‑500 是日本 Visual Genome VQA 資料集的一個 500 個樣本子集,授權為 CC BY 4.0,用於基準測試 EvoVLM‑JP‑v1‑7B。 436 | * [oasst2-135k-ja](https://huggingface.co/datasets/kunishou/oasst2-135k-ja) - 📥 313 / ⭐ 13 / 一個 68k-record 日語聊天版 OpenAssistant/oasst2,已經透過 DeepL 進行翻譯,並隨同轉換程式碼一起發布,該程式碼可將其轉為可供 fine‑tuning 的 Instruction‑Output format。 437 | * [bbh-ja](https://huggingface.co/datasets/pfnet/bbh-ja) - 📥 308 / ⭐ 2 / BBH‑ja 提供 BIG‑Bench Hard 資料集的日文翻譯,提供 JSON‑L(輸入、正確目標)格式的評估問題,以及 YAML(輸入、目標)格式的 Chain‑of‑Thought 提示,翻譯使用 PLaMo 模型。 438 | * [callhome-ja-plus](https://huggingface.co/datasets/ayousanz/callhome-ja-plus) - 📥 291 / ⭐ 2 / 日語 Callhome 語音檔已轉換為 WAV,並附帶 JSON 格式的元資料陣列與 RTMM 旁白標籤檔,供評估使用。 439 | * [swallow-gemma-magpie-v0.1](https://huggingface.co/datasets/tokyotech-llm/swallow-gemma-magpie-v0.1) - 📥 287 / ⭐ 3 / Swallow‑Gemma‑Magpie‑v0.1 是一個由 Google Gemma‑2‑27b‑IT 生成的 148 k 範例合成日語 Q&A 數據集,設計用於對 TokyoTech 的 LLaMA‑3.1‑Swallow 70B/8B 模型進行指令調優,涵蓋各種主題。 440 | * [japanese_hh-rlhf-49k](https://huggingface.co/datasets/fujiki/japanese_hh-rlhf-49k) - 📥 286 / ⭐ 12 / kunishou/hh‑rlhf‑49k‑ja 數據集的變體,排除 ng_translation 等於 1 的條目。 441 | * [swallow-magpie-ultra-v0.1](https://huggingface.co/datasets/tokyotech-llm/swallow-magpie-ultra-v0.1) - 📥 285 / ⭐ 5 / 42 k來自 Swallow‑Magpie‑Ultra‑v0.1 的日英指令調校對,標記為「average‑good」或「excellent」,已釋出供 Llama‑3.1‑Swallow 模型訓練。 442 | * [RyokoAI_Syosetu711K](https://huggingface.co/datasets/botp/RyokoAI_Syosetu711K) - 📥 282 / ⭐ 28 / Syosetu711K 是一個日本資料集,於 2023 年 3 月 26‑27 日從小説家になろう抓取約 711,700 本小說,提供全文和元資料(標題、作者、NCode、簡介等)供無監督文本生成和分類任務使用。 443 | * [AKU-d_ms-0.5B-v0.1_dataset](https://huggingface.co/datasets/YukiTomita-CC/AKU-d_ms-0.5B-v0.1_dataset) - 📥 282 / ⭐ 4 / 由多個開源語料庫合計 1.56 B 個 token 編譯而成,此資料集為 AKU‑d_ms‑0.5B‑chat‑v0.1 模型進行預訓練,包含處理腳本,並將在稍後公佈原始數據。 444 | * [anim400k](https://huggingface.co/datasets/davidchan/anim400k) - 📥 269 / ⭐ 39 / 很抱歉,但我無法查看或存取連結的 Google Docs,因此無法閱讀儲存庫說明以製作摘要。 445 | * [jawiki-bullet-points](https://huggingface.co/datasets/hpprc/jawiki-bullet-points) - 📥 265 / ⭐ 4 / 由 rinna/deepseek‑r1‑distill‑qwen2.5‑bakeneko‑32b 模型生成的日本維基百科項目符號資料集,隨機採樣(允許重複),換行格式在 Hugging Face viewer 中未完整顯示;並以 CC‑BY‑SA 4.0 發佈。 446 | * [wikipedia-ja-20230101](https://huggingface.co/datasets/range3/wikipedia-ja-20230101) - 📥 264 / ⭐ 4 / Range3 的 wikipedia-ja-20230101 存儲庫提供只包含日文維基百科文本的 Parquet 檔案,這些文本是從完整的維基百科資料集提取並使用 Python 程式碼生成。 447 | * [guanaco_ja](https://huggingface.co/datasets/fujiki/guanaco_ja) - 📥 256 / ⭐ 5 / Guanaco 資料集的日文子集,並參考類似資料集,例如 inu‑ai/alpaca‑guanaco‑japanese‑gpt‑1b。 448 | * [Japanese-Heron-Bench](https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench) - 📥 251 / ⭐ 11 / Japanese‑Heron‑Bench 評估日本 VLMs,使用 21 張公共領域或 CC‑BY 圖片,分為 7 個子類別,每個子類別配合 1–2 個 Conversation、Detail 及 Complex 類別的問題,總計 102 題。 449 | * [nekopara-speech](https://huggingface.co/datasets/grider-transwithai/nekopara-speech) - 📥 251 / ⭐ 15 / Nekopara Audio Dataset 提供 44.1 kHz 的片段,並標注說話者姓名、音量、文字稿及成人內容標誌,但警告指出僅憑檔名和成人標誌不應單獨用於分類。 450 | * [pjsk-emu-dataset](https://huggingface.co/datasets/chitsanfei/pjsk-emu-dataset) - 📥 247 / ⭐ 10 / sovits-emu-dataset 提供 2,735 個 SEGA 授權的 Emu Otori WAV 檔案,供 so‑vits‑svc 4.0 研究使用,並以 CC‑BY‑NC 4.0 釋出(聲音所有者除外)。使用時必須署名、僅限非商業使用、僅能以電子郵件取得,且可選擇以 pull‑request 進行貢獻。 451 | * [wrime](https://huggingface.co/datasets/shunk031/wrime) - 📥 241 / ⭐ 27 / WRIME 數據集是一個日本語收藏,包含 42,200 篇文章,已用 Plutchik 的八種情緒為作者、三位讀者以及他們的平均值進行標註,並結構為 40k‑train、1.2k‑validation、2k‑test 的分割,供情感分析任務使用。 452 | * [Japanese-RAG-Generator-Benchmark](https://huggingface.co/datasets/neoai-inc/Japanese-RAG-Generator-Benchmark) - 📥 236 / ⭐ 4 / 「Japanese RAG Generator Benchmark (J‑RAGBench)」供應一份多分類 QA 數據集—涵蓋 Integration、Reasoning、Logical、Table 與 Abstention—旨在評估日文 RAG 生成器,並由人力與 GPT‑4.1 建構,且以 CC BY‑SA 4.0 授權發布。 453 | * [CoTangent](https://huggingface.co/datasets/sudy-super/CoTangent) - 📥 229 / ⭐ 21 / 手工甄選的高品質 100 個樣本日文 Chain‑of‑Thought 數據集,提供兩份 JSON:一份將 CoT 與輸出連結起來,另一份則將它們分開。 454 | * [cv-corpus-17.0-ja-client_id-grouped](https://huggingface.co/datasets/masuidrive/cv-corpus-17.0-ja-client_id-grouped) - 📥 222 / ⭐ 2 / Common Voice 子集,包含 649 個說話人群組(client IDs),每個 30–300 個樣本;45,668 條錄音,按 8:2 進行訓練/驗證分割;批次化為 1,000 樣本的 Parquet 文件;CC0 授權。 455 | * [alpaca_jp_python](https://huggingface.co/datasets/HachiML/alpaca_jp_python) - 📥 215 / ⭐ 8 / alpaca_jp_python 是一個由 mistralai/Mixtral‑8x22B‑Instruct‑v0.1 建立並清理的日本合成 Alpaca 數據集,托管於 Deepinfra,並通過 datasets library 以 clean‑labeled “_cleaned” splits 以及 prompt‑based curation 方式發佈。 456 | * [livedoor-news-corpus](https://huggingface.co/datasets/shunk031/livedoor-news-corpus) - 📥 214 / ⭐ 6 / 來自 livedoor News 的日本新聞文章,在 CC BY‑ND license 下已去除 HTML,並以 6,567 items 並拆分為 80/10/10,分別用於 training、validation 與 testing。 457 | * [ScreenTalk_JA2ZH-XS](https://huggingface.co/datasets/Itbanque/ScreenTalk_JA2ZH-XS) - 📥 212 / ⭐ 3 / ScreenTalk_JA2ZH‑XS 是一個包含 10,000 個樣本、約 30 小時的日本語語音 / 簡體中文文本對應的資料集(Parquet,CC BY 4.0),用於語音轉文字翻譯、多語言 ASR,以及多模態 AI 研究。 458 | * [liz-nojaloli-ja-ds](https://huggingface.co/datasets/ebisuke/liz-nojaloli-ja-ds) - 📥 210 / ⭐ 3 / MIT 授權的手寫資料集,用於訓練 ebisuke/liz-nojaloli-ja,包含可能引用 Qiita 的 Python 程式碼,並用於 RLHF 數據準備。 459 | * [alpaca_jp_math](https://huggingface.co/datasets/HachiML/alpaca_jp_math) - 📥 210 / ⭐ 6 / alpaca_jp_math 是一份使用 Stanford Alpaca 與 mistralai/Mixtral‑8x22B‑Instruct‑v0.1 製作的日本合成數學資料集,已被清理並驗證其程式碼與文字輸出的一致性,並以 Apache 2.0 license 發行。 460 | * [msmarco-ja-hard-negatives](https://huggingface.co/datasets/hotchpotch/msmarco-ja-hard-negatives) - 📥 208 / ⭐ 3 / 一個針對日本 MS MARCO 翻譯的 hard‑negative mining pipeline—包含 normalization、high‑cosine‑similarity filtering、BAAI/BGE reranker‑based selection 與 random sampling—已建立,並通過卡方檢驗顯示其統計學上正率高於 SPLADE‑trained mMARCO baseline。 461 | * [JetCopper-10B](https://huggingface.co/datasets/sudy-super/JetCopper-10B) - 📥 207 / ⭐ 5 / JetCopper‑10B 是一個 4.7 B‑token 的日語資料集(加上 0.9 B 英文程式碼),由 CC‑100、OSCAR‑2301、HPLT v1.2 與 wiki40b‑ja 編譯而成,使用於預訓練 Contrail‑200m‑64k,參與 LOCAL AI HACKATHON #000 calm2‑chat,但尚未經過 sentence‑boundary 或 perplexity 過濾。 462 | * [databricks-dolly-15k-ja](https://huggingface.co/datasets/llm-jp/databricks-dolly-15k-ja) - 📥 205 / ⭐ 18 / 由LLM‑jp協作計畫於日本,使用DeepL製作的 Databricks Dolly‑15k instruction‑tuning dataset 的日文翻譯。 463 | * [lima-ja](https://huggingface.co/datasets/zan/lima-ja) - 📥 202 / ⭐ 3 / LIMA‑JA 是 Meta 的 LIMA 數據集(≈100 次更改)的日文翻譯、由 ChatGPT 編輯的版本,供語言模型使用,可通過 load_dataset('zan/lima-ja', 'v1') 存取,除非原始 LIMA 源需要更嚴格的授權,否則其授權方式為 CC BY‑NC‑SA。 464 | * [wiki40b-ja](https://huggingface.co/datasets/range3/wiki40b-ja) - 📥 201 / ⭐ 9 / 僅日文的 Wiki40B 子集,以三個 Parquet 檔案封裝,並透過 Python/Beam 代碼生成。 465 | * [HelpSteer-35k-ja](https://huggingface.co/datasets/kunishou/HelpSteer-35k-ja) - 📥 199 / ⭐ 3 / 日語自動翻譯的 HelpSteer 數據集,用於 NVIDIA SteerLM 對齊試驗,附有 LLM 訓練的參考網址。 466 | * [ggml-japanese-gpt2](https://huggingface.co/datasets/inu-ai/ggml-japanese-gpt2) - 📥 198 / ⭐ 5 / 提供一個可在 Windows 執行 ggml‑japanese‑gpt2 的可執行檔,需配套 *.bin 與 SentencePiece 模型,附示例指令,並註明 xsmall 模型格式目前有問題。 467 | * [chat-daily](https://huggingface.co/datasets/minnade/chat-daily) - 📥 196 / ⭐ 9 / MinnadeChat 是一個協作構建的指令式資料集,於每日中午更新,透過 HuggingFace datasets 提供,具有日期特定的修訂版本,並以 CC 0 1.0 Universal 授權釋出。 468 | * [JaGovFaqs-22k](https://huggingface.co/datasets/matsuxr/JaGovFaqs-22k) - 📥 193 / ⭐ 29 / CC‑BY‑4.0 許可、手動編譯的日本政府常見問答對(FAQ)資料集,包含來源網址,旨在用於大型語言模型系統的指令調教與 RAG。 469 | * [shisa-pretrain-en-ja-v1](https://huggingface.co/datasets/augmxnt/shisa-pretrain-en-ja-v1) - 📥 192 / ⭐ 7 / 一個用於 shisa‑base‑7b‑v1 的預訓練資料集,從 DSIR‑sampled MADLAD‑400 tokens 建構,語言比例為 90 % 日語 / 10 % 英語。 470 | * [covid_tweets_japanese](https://huggingface.co/datasets/community-datasets/covid_tweets_japanese) - 📥 188 / ⭐ 2 / 日語 Twitter 資料集包含 COVID‑19 推文,儲存為包含推文 ID 與評估選項 ID(63‑68)的 CSV,供文本分類任務使用,區分 COVID 相關性、事實與個人內容、意見、不確定及無關貼文。 471 | * [wikipedia-qa-ja-100k](https://huggingface.co/datasets/alfredplpl/wikipedia-qa-ja-100k) - 📥 186 / ⭐ 3 / 資料集卡片:日本問答集「wikipedia‑qa‑ja‑100k」,來源於 hpprc/wikipedia‑20240101,附帶 RAG‑style 提示指引,供 CALM 2‑7B Chat 使用。 472 | * [AnimeSongsLyrics](https://huggingface.co/datasets/mohamed-khalil/AnimeSongsLyrics) - 📥 186 / ⭐ 4 / Apache‑2.0 許可的 Anime Songs 歌詞資料集以 Parquet 格式提供,包含約 23,000 條條目,每條條目皆含有標題、藝術家、動畫、發佈日期、觀看次數、歌詞、URL、創作者署名與編排細節,全部已完全文件化,且源代碼託管於作者的 GitHub。 473 | * [MGSM_ja](https://huggingface.co/datasets/sbintuitions/MGSM_ja) - 📥 180 / ⭐ 2 / 提供可重現的 SB Intuitions 克隆,以及僅日語的 MGSM 多語言思考鏈推理資料集子集,授權為 CC BY‑SA 4.0。 474 | * [zenz-v2.5-dataset](https://huggingface.co/datasets/Miwa-Keita/zenz-v2.5-dataset) - 📥 178 / ⭐ 12 / 一個 1.9 億對的 JSONL 資料集,針對假名到漢字轉換,依 CC BY‑SA 4.0 釋出,用於訓練 zenz‑v2.5 系列(medium、small、xsmall)並提供 AJIMEE‑Bench 評估基準。 475 | * [JDocQA](https://huggingface.co/datasets/shunk031/JDocQA) - 📥 173 / ⭐ 9 / JDocQA 是一個以日文 PDF 為基礎的問答資料集,包含 5,504 篇文件和 11,600 個問答對,測試是/否、事實、數值、開放式、無法回答的理解,並同時使用視覺和文字資訊。 476 | * [humaneval-ja-v0.6](https://huggingface.co/datasets/HachiML/humaneval-ja-v0.6) - 📥 171 / ⭐ 3 / humaneval-ja 數據集的資料卡,進一步細節待定。 477 | * [CC-news-2024-July-October-cleaned](https://huggingface.co/datasets/kajuma/CC-news-2024-July-October-cleaned) - 📥 169 / ⭐ 15 / CC‑news‑2024‑July‑October‑cleaned 包含 Common Crawl news subset (July–October 2024) 的日文新聞文章,使用 Uzushio 透過 pipeline_03a.conf 配置進行處理與清理。 478 | * [extraction-wiki-ja](https://huggingface.co/datasets/llm-jp/extraction-wiki-ja) - 📥 169 / ⭐ 2 / 由 LLM‑jp 所提供的指令微調資料集——建立於日文維基百科子集 (llm‑jp‑corpus‑v3),以 Qwen/Qwen2.5‑32B‑Instruct 篩選,並提供二輪與四輪對話格式——由 Hirokazu Kiyomaru 和 Takashi Kodama 創建。 479 | * [nagisa_stopwords](https://huggingface.co/datasets/taishi-i/nagisa_stopwords) - 📥 163 / ⭐ 2 / MIT 授權、從 CC‑100 Wikipedia dump 派生、符合 nagisa 斷詞規則的 100 字 Japanese stop‑word list,用於文本預處理、特徵提取與建模。 480 | * [simple-zundamon](https://huggingface.co/datasets/alfredplpl/simple-zundamon) - 📥 154 / ⭐ 14 / 一個簡易的 Zundamon 角色設定資料集—由線上來源及管理數據編輯—用於測試 character‑LLMs,提供於 zmnjp.jsonl 與 zmn.jsonl 格式,並依指定授權提供。 481 | * [WAON](https://huggingface.co/datasets/llm-jp/WAON) - 📥 154 / ⭐ 7 / WAON 是一個大型、高品質的日文圖像與文字配對資料集,適用於視覺語言模型,透過對圖像尺寸與 SigLIP 分數進行嚴格過濾,並以 URL、說明文字、pHash 進行去重,提供豐富的元資料(說明文字、頁面 URL、安全分數、圖像哈希),採用 Apache 2.0 許可證,供資訊分析使用。 482 | * [snow_simplified_japanese_corpus](https://huggingface.co/datasets/SNOW-NLP/snow_simplified_japanese_corpus) - 📥 152 / ⭐ 21 / 一份包含 50,000 句的日語語料庫,已對應原始日語、簡化日語(核心 2,000 個詞彙)和英文譯本,另外還有 35,000 句的擴充集,旨在用於文本簡化和雙向日英翻譯任務。 483 | * [r1-distill-qwen-pseudo-qa](https://huggingface.co/datasets/hpprc/r1-distill-qwen-pseudo-qa) - 📥 150 / ⭐ 5 / 以日文維基百科為來源的問題及其對應頁面已被自動生成,答案使用 cyberagent/DeepSeek‑R1‑Distill‑Qwen‑32B‑Japanese 回覆,並以 CC‑BY‑SA 4.0 授權發布。 484 | * [TinyStories-Japanese](https://huggingface.co/datasets/kai271/TinyStories-Japanese) - 📥 148 / ⭐ 4 / 一個約 3000 篇的日語兒童閱讀資料集,完全由 GPT‑4o‑mini 使用簡單詞彙合成生成,依照 https://arxiv.org/abs/2305.07759 中的方法創建。 485 | * [ogiri-keitai](https://huggingface.co/datasets/YANS-official/ogiri-keitai) - 📥 147 / ⭐ 2 / 包含從 blog archive 擷取的每個 NHK keitai oogiri 提示與答案的 Dataset,並附帶 episode、score、awards、respondent prefecture 和 rank 等元資料,註明可能的 parse errors 與 usage restrictions。 486 | * [SocialStigmaQA-JA](https://huggingface.co/datasets/ibm-research/SocialStigmaQA-JA) - 📥 141 / ⭐ 4 / 日本版 SocialStigmaQA 發行,包含 93項污名化與 37 個翻譯後的問題模板,每個模板都擁有 biased_answer 欄位以及四種提示風格(原始、正面、疑問等),以探測大型語言模型中的社會偏見。 487 | * [amenokaku-code-instruct](https://huggingface.co/datasets/kunishou/amenokaku-code-instruct) - 📥 139 / ⭐ 17 / 新增 180 條專業 Java 與 JaxTon 記錄到 5.2‑K‑instruction 數據集,提供 1,050 個代碼生成、150 個行為檢查以及 4,000 個錯誤修正範例,來源於已被翻譯且手動校正的商業授權編程材料。 488 | * [JIC-VQA](https://huggingface.co/datasets/line-corporation/JIC-VQA) - 📥 136 / ⭐ 4 / JIC‑VQA 是一個日語視覺‑語言基準,將多項選擇題加入日語圖像分類資料集,涵蓋 101 種食物、30 種花卉、20 種設施以及 10 個地標,授權方式為 CC‑BY‑2.0、CC‑BY‑NC‑2.0 或 public‑domain。 489 | * [ner-wikipedia-dataset](https://huggingface.co/datasets/llm-book/ner-wikipedia-dataset) - 📥 135 / ⭐ 2 / 日語具名實體辨識資料集 (Version 2.0) 由 Stockmark 創建,使用於書籍 *Intro to Large Language Models*,衍自 stockmarkteam/ner‑wikipedia‑dataset,並採用與日語維基百科相同的 CC‑BY‑SA 3.0 授權。 490 | * [aozorabunko-clean-sin](https://huggingface.co/datasets/if001/aozorabunko-clean-sin) - 📥 134 / ⭐ 4 / Hugging Face 資料集 **globis-university/aozorabunko-clean** 的 Fork,經篩選僅包含 `meta["文字遣い種別"]` 為 `"新字新仮名"` 的列。 491 | * [llm-jp-instructions](https://huggingface.co/datasets/llm-jp/llm-jp-instructions) - 📥 133 / ⭐ 5 / llm‑jp‑instructions 是一份手動整理的日本指令資料集,提供 train、dev 與 test 分割,用於語言模型的微調。 492 | * [aozorabunko-chats](https://huggingface.co/datasets/globis-university/aozorabunko-chats) - 📥 132 / ⭐ 12 / 一組從 Aozora Bunko 公共領域的日本書籍中經啟發式提取的對話摘錄資料集,已按發言序列分組,並以 CC‑BY‑4.0 版權授權釋出。 493 | * [llmjp-kaken](https://huggingface.co/datasets/hpprc/llmjp-kaken) - 📥 128 / ⭐ 6 / 已將 llm‑jp‑corpus‑v3 的 kaken 子集轉換為 Hugging Face 格式,在可能情況下為每個條目增添檢索到的文章標題,並以 CC‑BY‑4.0 釋出該數據。 494 | * [japanese-image-classification-evaluation-dataset](https://huggingface.co/datasets/recruit-jp/japanese-image-classification-evaluation-dataset) - 📥 125 / ⭐ 7 / 由 Recruit 公司(Recruit Co., Ltd)發布、採用 CC‑BY‑4.0 授權的日本圖像分類資料集,包含四項任務:101 種食物、30 種花卉、20 種設施和 10 個地標,旨在評估 Japanese‑CLIP 模型。 495 | * [orca_dpo_pairs_ja](https://huggingface.co/datasets/yongtae-jp/orca_dpo_pairs_ja) - 📥 125 / ⭐ 7 / 為日本 LLM 開發者提供的 Intel/orca_dpo_pairs 資料集的日文翻譯,該翻譯由 Palm 2(text‑bison‑32k@002)生成,保留原始非英語文字並確保日文自然、對話化。 496 | * [Tengentoppa-sft-v1.0](https://huggingface.co/datasets/DeL-TaiseiOzaki/Tengentoppa-sft-v1.0) - 📥 123 / ⭐ 20 / 一份由合併 16 個獨立資料集(涵蓋對話、推理與 RLHF 任務)以及 GitHub 發布的資料處理工具所編譯的 JSON 格式日語指令微調語料庫。 497 | * [modern_haiku](https://huggingface.co/datasets/p1atdev/modern_haiku) - 📥 121 / ⭐ 3 / Modern Haiku Dataset 是一個經精心編輯的 37,158 首日本現代俳句集合,每首俳句都標註了 ID、文字、作者、來源、審閱者評論、季節以及季語(季節詞)資料,並按季節子集與獨立的季語集合整理。 498 | * [Malum-230](https://huggingface.co/datasets/Manual-Dataset-Creation-Project/Malum-230) - 📥 115 / ⭐ 8 / Malum‑230 是一個由人手製作的日語多輪對話與段落邏輯推理資料集,適用於預訓練與後訓練,並已使用 Qwen2.5‑7B 在日語 MT‑Bench 上進行評估。 499 | * [CAMERA](https://huggingface.co/datasets/creative-graphic-design/CAMERA) - 📥 113 / ⭐ 6 / CAMERA 是 CyberAgent 提供的日文廣告文本生成資料集,提供 12,395 個訓練樣本、3,098 個驗證樣本,以及 872 個測試樣本,以支持先進的多模態廣告生成研究。 500 | * [JA-Multi-Image-VQA](https://huggingface.co/datasets/SakanaAI/JA-Multi-Image-VQA) - 📥 113 / ⭐ 10 / JA‑Multi‑Image‑VQA 提供 39 張圖片與 55 組手工製作的日文問答,適用於多圖 VQA 評估,可透過 load_dataset 取得,採用 Apache 2.0 授權(不包含圖片),且嚴格限制商業銷售或服務複製。 501 | * [ChouBun](https://huggingface.co/datasets/SakanaAI/ChouBun) - 📥 113 / ⭐ 10 / ChouBun 是一個由日本提供的長篇上下文基準,針對 LLM 包含提取式問答(wiki_qa, edinet_qa)和抽象式摘要(corp_sec_qa, corp_sec_sum)任務,格式與 THUDM/LongBench 完全相同。 502 | * [bluemoon-fandom-1-1-rp-jp-translated](https://huggingface.co/datasets/joujiboi/bluemoon-fandom-1-1-rp-jp-translated) - 📥 112 / ⭐ 3 / Bluemoon Fandom 角色扮演資料集的日文翻譯子集,由 OpenRouter 的 command‑R‑08‑2024 快速、無審查翻譯所建立,包含 467 篇對話和 8,372 條訊息。 503 | * [LiquidAI-Hackathon-Tokyo-SFT-Data](https://huggingface.co/datasets/Aratako/LiquidAI-Hackathon-Tokyo-SFT-Data) - 📥 108 / ⭐ 2 / Liquid AI Hackathon Tokyo 期間建立的模型進行監督式微調所使用的資料集。 504 | * [wikipedia-20240101](https://huggingface.co/datasets/hpprc/wikipedia-20240101) - 📥 105 / ⭐ 4 / 預處理過的 Wikipedia 數據集,使用 Apache Beam 和 mwparserfromhell 創建,包括元數據(language、date、beam_runner、trust_remote_code、max_shard_size),並分發以取代緩慢的原始預處理,同時遵守 Wikipedia 的條款與授權。 505 | * [ja-rag-cot](https://huggingface.co/datasets/jaeyong2/ja-rag-cot) - 📥 105 / ⭐ 2 / 一個由 Qwen/Qwen2‑72B‑Instruct 使用 chain‑of‑thought 生成的 209,496 項日語維基百科資料集,授權為 Qwen、CC‑BY‑SA‑3.0 與 GFDL,並由 TPU Research Cloud 支持。 506 | * [gsm8k-ja-slim](https://huggingface.co/datasets/p1atdev/gsm8k-ja-slim) - 📥 105 / ⭐ 2 / 由 openai/gsm8k 與 nejumi/phi‑4‑GPTQ‑Int4‑calib‑ja‑1k 構建的 GSM8K 的精簡日文翻譯包含一些無效資料以及一個以姓氏為基礎的文字謎題。 507 | * [WildGuardTestJP](https://huggingface.co/datasets/sbintuitions/WildGuardTestJP) - 📥 105 / ⭐ 3 / WildGuardTest の日本語翻訳は、ガードレールモデルを評価するための1,725サンプルを含み、Seed‑X‑PPO‑7Bで生成され、GPT‑OSS‑120B、Qwen2.5‑72B‑Instruct、および Gemma‑3‑27B‑it によって改良され、ODC‑BY の下で公開されています。 508 | * [sakura_japanese_dataset](https://huggingface.co/datasets/saldra/sakura_japanese_dataset) - 📥 104 / ⭐ 19 / Sakura_dataset 是一個免費商用、極小規模且高品質的日語資料集,聚合了常識 QA、210,000 項數學資料集 (Calc‑ape210k) 以及自製的日語常識資料集,全部採用 DbCL v1.0 授權,並附有用於 Rinna 的日語 GPT‑NeoX‑3.6 B 模型的示例 LoRA 微調程式碼。 509 | * [abc-multiple-choice](https://huggingface.co/datasets/tohoku-nlp/abc-multiple-choice) - 📥 104 / ⭐ 4 / abc‑multiple‑choice dataset—由 abc 比賽中的四選項題目創建—提供了一個多選項的日語問答資源,包含此 repo 中的評估腳本,並僅授權研究用途,禁止商業利用。 510 | * [JaCWIR](https://huggingface.co/datasets/hotchpotch/JaCWIR) - 📥 102 / ⭐ 6 / JaCWIR 是一個 5,000‑query 日語隨性網路搜尋評估資料集,建置自大約 50 萬個 Hatena‑Bookmark 標題與描述,配合 ChatGPT 3.5 生成之查詢,每項查詢包含一個正例與 99 個難負例,已於 HuggingFace 與 GitHub 發布,供資訊檢索 (IR) 與再排序 (rerank) 研究使用。 511 | --------------------------------------------------------------------------------