├── .gitignore
├── LICENSE
├── README.md
├── configs
    ├── data
    │   ├── cc-100.yaml
    │   └── wikipedia.yaml
    └── model
    │   ├── bert_base_character.yaml
    │   ├── bert_base_wordpiece.yaml
    │   ├── bert_large_character.yaml
    │   └── bert_large_wordpiece.yaml
├── convert_tf2_ckpt_for_all_frameworks.py
├── create_pretraining_data.py
├── hf_model_configs
    ├── bert_base_character
    │   ├── config.json
    │   └── tokenizer_config.json
    ├── bert_base_wordpiece
    │   ├── config.json
    │   └── tokenizer_config.json
    ├── bert_large_character
    │   ├── config.json
    │   └── tokenizer_config.json
    └── bert_large_wordpiece
    │   ├── config.json
    │   └── tokenizer_config.json
├── japanese_tokenizers
    ├── implementations.py
    └── pre_tokenizers.py
├── make_alphabet_from_unidic.py
├── make_corpus_wiki.py
├── masked_lm_example.ipynb
├── merge_split_corpora.py
├── model_configs
    ├── bert_base_character
    │   └── config.json
    ├── bert_base_wordpiece
    │   └── config.json
    ├── bert_large_character
    │   └── config.json
    └── bert_large_wordpiece
    │   └── config.json
├── requirements.txt
├── tokenization.py
└── train_tokenizer.py


/.gitignore:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/.gitignore


--------------------------------------------------------------------------------
/LICENSE:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/LICENSE


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/README.md


--------------------------------------------------------------------------------
/configs/data/cc-100.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/configs/data/cc-100.yaml


--------------------------------------------------------------------------------
/configs/data/wikipedia.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/configs/data/wikipedia.yaml


--------------------------------------------------------------------------------
/configs/model/bert_base_character.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/configs/model/bert_base_character.yaml


--------------------------------------------------------------------------------
/configs/model/bert_base_wordpiece.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/configs/model/bert_base_wordpiece.yaml


--------------------------------------------------------------------------------
/configs/model/bert_large_character.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/configs/model/bert_large_character.yaml


--------------------------------------------------------------------------------
/configs/model/bert_large_wordpiece.yaml:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/configs/model/bert_large_wordpiece.yaml


--------------------------------------------------------------------------------
/convert_tf2_ckpt_for_all_frameworks.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/convert_tf2_ckpt_for_all_frameworks.py


--------------------------------------------------------------------------------
/create_pretraining_data.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/create_pretraining_data.py


--------------------------------------------------------------------------------
/hf_model_configs/bert_base_character/config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/hf_model_configs/bert_base_character/config.json


--------------------------------------------------------------------------------
/hf_model_configs/bert_base_character/tokenizer_config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/hf_model_configs/bert_base_character/tokenizer_config.json


--------------------------------------------------------------------------------
/hf_model_configs/bert_base_wordpiece/config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/hf_model_configs/bert_base_wordpiece/config.json


--------------------------------------------------------------------------------
/hf_model_configs/bert_base_wordpiece/tokenizer_config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/hf_model_configs/bert_base_wordpiece/tokenizer_config.json


--------------------------------------------------------------------------------
/hf_model_configs/bert_large_character/config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/hf_model_configs/bert_large_character/config.json


--------------------------------------------------------------------------------
/hf_model_configs/bert_large_character/tokenizer_config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/hf_model_configs/bert_large_character/tokenizer_config.json


--------------------------------------------------------------------------------
/hf_model_configs/bert_large_wordpiece/config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/hf_model_configs/bert_large_wordpiece/config.json


--------------------------------------------------------------------------------
/hf_model_configs/bert_large_wordpiece/tokenizer_config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/hf_model_configs/bert_large_wordpiece/tokenizer_config.json


--------------------------------------------------------------------------------
/japanese_tokenizers/implementations.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/japanese_tokenizers/implementations.py


--------------------------------------------------------------------------------
/japanese_tokenizers/pre_tokenizers.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/japanese_tokenizers/pre_tokenizers.py


--------------------------------------------------------------------------------
/make_alphabet_from_unidic.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/make_alphabet_from_unidic.py


--------------------------------------------------------------------------------
/make_corpus_wiki.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/make_corpus_wiki.py


--------------------------------------------------------------------------------
/masked_lm_example.ipynb:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/masked_lm_example.ipynb


--------------------------------------------------------------------------------
/merge_split_corpora.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/merge_split_corpora.py


--------------------------------------------------------------------------------
/model_configs/bert_base_character/config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/model_configs/bert_base_character/config.json


--------------------------------------------------------------------------------
/model_configs/bert_base_wordpiece/config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/model_configs/bert_base_wordpiece/config.json


--------------------------------------------------------------------------------
/model_configs/bert_large_character/config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/model_configs/bert_large_character/config.json


--------------------------------------------------------------------------------
/model_configs/bert_large_wordpiece/config.json:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/model_configs/bert_large_wordpiece/config.json


--------------------------------------------------------------------------------
/requirements.txt:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/requirements.txt


--------------------------------------------------------------------------------
/tokenization.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/tokenization.py


--------------------------------------------------------------------------------
/train_tokenizer.py:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/cl-tohoku/bert-japanese/HEAD/train_tokenizer.py


--------------------------------------------------------------------------------