├── README.md ├── osaid-0-0-4-ja.md ├── osaid-0-0-3-ja.md ├── osaid-0-0-5-ja.md ├── osaid-0-0-9-ja.md ├── checklist-mof.md ├── osaid-0-0-6-ja.md ├── osaid-1-0-RC1.md ├── osaid-1-0-RC2.md ├── osaid-1-0.md ├── osaid-0-0-7-ja.md ├── osaid-0-0-8-ja.md └── osaid-faq.md /README.md: -------------------------------------------------------------------------------- 1 | ## オープンソースAIの定義 2 | 3 | 下記は、Open Source Initiativeが策定した「オープンソースAIの定義」([Open Source AI Definition](https://opensource.org/ai/open-source-ai-definition))の日本語参考訳である。これらの参考訳はAIシステムがオープンソースであるための要件に対する理解を深めるために提供される。 4 | 5 | ### 現在の有効な文書の参考訳 6 | 7 | - [バージョン1.0](osaid-1-0.md) 8 | - [評価チェックリスト](checklist-mof.md) *0.0.9以降、機械学習システムを評価するためのチェックリストが定義本体から分離されました。* 9 | - [よくある質問への回答](osaid-faq.md) 10 | 11 | 12 | 13 | 14 | ### 過去のドラフト版参考訳 15 | 16 | - [バージョン0.0.3](osaid-0-0-3-ja.md) 17 | - [バージョン0.0.4](osaid-0-0-4-ja.md) 18 | - [バージョン0.0.5](osaid-0-0-5-ja.md) 19 | - [バージョン0.0.6](osaid-0-0-6-ja.md) 20 | - [バージョン0.0.7.1](osaid-0-0-7-ja.md) 21 | - [バージョン0.0.8](osaid-0-0-8-ja.md) 22 | - [バージョン0.0.9](osaid-0-0-9-ja.md) 23 | - [バージョン1.0-RC1](osaid-1-0-RC1.md) 24 | - [バージョン1.0-RC2](osaid-1-0-RC2.md) 25 | -------------------------------------------------------------------------------- /osaid-0-0-4-ja.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | バージョン 0.0.4 3 | 4 | 注:この文書は3つの部分から構成されている: この文書の意図を述べた前文、オープンソースAIの定義そのもの、そしてライセンスを評価するためのチェックリストである。 5 | 6 | この文書は、経済協力開発機構(OECD)が採用したAIシステムの定義に従っている。 7 | 8 | AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から、物理的または仮想的な環境に影響を与えることが 9 | できる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムである。AIシステムに 10 | よって、自律性や導入後の適応性のレベルは異なる。 11 | 12 | AIシステムの定義の詳細については、OSIのブログをご覧ください。 13 | 14 | 15 | ## 前文 16 | ### オープンソースの人工知能(AI)が必要な理由 17 | 18 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除けば、誰にでも多大な利益がもたらされることを実証してきた。これらの利益は、オープンソースの定義に準拠したライセンスを使用した結果もたらされるものである。その利益は、自律性、透明性、共同改善という点に集約される。 19 | 20 | AIによるこれらの利益は誰もが必要としている。ユーザーが信頼性と透明性のあるAIシステムを構築し、展開できるようにするため、我々には本質的な自由が必要である。 21 | 22 | ### 範囲外の問題 23 | 24 | オープンソースAIの定義は、倫理的で信頼でき、あるいは責任あるAIシステムを開発し、展開する方法については述べていないが、それを妨げるものではない。何がAIシステムを倫理的で責任あるものであり、信頼できるものであり、効果的なものとするのかは別の議論である。我々は、政府の適切な規制を含め、これらの問題に取り組む努力を支持する。 25 | 26 | ## オープンソースAIとは何か 27 | 28 | オープンソースであるためには、AIシステムは以下の自由を認める法的条件の下で利用可能である必要がある: 29 | 30 | - どのような目的であれ、許可を得ることなくシステムを使用すること 31 | - システムがどのように動作するかを研究し、そのコンポーネントを検査すること 32 | - 出力を改変することを含め、どのような目的であれシステムを修正すること 33 | - どのような目的であれ、改変の有無に関わらず、他の人が使用できるようにシステムを共有すること 34 | 35 | [Provide an example, based on machine learning?] 36 | 37 | ## ライセンスを評価するためのチェックリスト 38 | 39 | TODO 40 | -------------------------------------------------------------------------------- /osaid-0-0-3-ja.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | バージョン 0.0.3 3 | 4 | (原文:https://hackmd.io/@opensourceinitiative/osaid-0-0-3) 5 | 6 | :information_source:注:この文書は3つの部分から構成されている:この文書の意図を述べた前文、オープンソースAIの定義そのもの、そしてライセンスを評価するためのチェックリストである。 7 | 我々はユネスコが採用したAIの定義に従う。(https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449) 8 | 9 | AIシステムとは、人間が定義した特定の目的に対して、現実または仮想の環境に影響を与える予測、推奨、決定を行うことが 10 | できる機械ベースのシステムである。AIシステムは、様々なレベルの自律性で動作するように設計されている。 11 | 12 | 13 | ## 前文 14 | ### オープンソースの人工知能(AI)が必要な理由 15 | 16 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除くことで、誰にでも多大な恩恵がもたらされることを証明してきた。これらの恩恵はオープンソースの定義に準拠したライセンスを使用した結果である。その恩恵は、自律性、透明性、共同の改善という点に集約される。 17 | 18 | 誰もがAIにこれらの恩恵を必要としている。ユーザーが信頼性と透明性の高いAIシステムを構築し、展開できるようにするためには、本質的な自由が必要なのである。 19 | 20 | 21 | ### オープンソースAIの恩恵を得るには 22 | 23 | システムがオープンソースのソフトウェアであるための前提条件は、開発者が「作品に改変を加えるために望ましい形式」へ無制限にアクセスできることである。 24 | AIシステムの場合、作品に改変を加えるために望ましい形式は、特定の種類のAIに依存する。 25 | 26 | [Provide an example, based on machine learning?] 27 | 28 | 29 | ### 範囲外の問題 30 | 31 | オープンソースAIの定義は、倫理的または責任あるAIシステムを開発し、展開する方法について述べていないが、それを妨げるものではない。何がAIシステムを倫理的あるいは責任あるものとするのかは別の議論となる。 32 | 33 | 34 | ## オープンソースAIとは何か 35 | 36 | オープンソースであるためには、AIシステムはそのコンポーネントを個別に以下の自由を認めるライセンスの下で利用可能にする必要がある: 37 | 38 | - システムがどのように動作するかを研究し、そのコンポーネントを検査すること 39 | - どのような目的であれ、許諾を得ることなくシステムを利用すること 40 | - 推奨、予測、決定を個別のニーズに合わせて変更するために、システムを改変すること 41 | - どのような目的であれ、改変の有無にかかわらず、システムを共有すること 42 | 43 | [Provide an example, based on machine learning?] 44 | 45 | 46 | ## ライセンスを評価するためのチェックリスト 47 | 48 | TODO 49 | -------------------------------------------------------------------------------- /osaid-0-0-5-ja.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | バージョン 0.0.5 3 | 4 | :information_source:注:この文書は3つの部分から構成されている: この文書の意図を述べた前文、オープンソースAIの定義そのもの、そしてライセンスを評価するためのチェックリストである。 5 | 6 | :information_source:この文書は、経済協力開発機構(OECD)が採用したAIシステムの定義に従っている。 7 | 8 | AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることが 9 | できる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムである。 10 | AIシステムによって、自律性や導入後の適応性のレベルは異なる。 11 | 12 | AIシステムの定義の詳細については、[OSIのブログ](https://blog.opensource.org/open-source-ai-establishing-a-common-ground/)をご覧ください。 13 | 14 | 15 | ## 前文 16 | ### オープンソースの人工知能(AI)が必要な理由 17 | 18 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除けば、誰にでも多大な恩恵がもたらされることを実証してきた。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果もたらされるものです。その恩恵は、自律性、透明性、共同改善に集約される。 19 | 20 | AIによるこれらの恩恵は誰もが必要としている。ユーザーが信頼性と透明性のあるAIシステムを構築し、展開できるようにするため、我々には本質的な自由を必要である。 21 | 22 | ### 範囲外の問題 23 | 24 | オープンソースAIの定義は、倫理的で信頼でき、あるいは責任あるAIシステムを開発し、展開する方法については述べていないが、それを妨げるものではない。政府による適切な規制を含め、AIシステムの責任ある開発、展開、使用については、別の話として議論する努力を我々は支持する。 25 | 26 | ## オープンソースAIとは何か 27 | 28 | AIシステムがオープンソースであるためには、以下の自由を認める法的条件の下で利用可能である必要がある: 29 | 30 | - どのような目的であれ、許可を得ることなくシステムを使用すること。 31 | - システムがどのように動作するかを研究し、そのコンポーネントを検査すること。 32 | - 出力を変更することを含め、どのような目的であれシステムを改変すること。 33 | - どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。 34 | 35 | ## 法的文書を評価するためのチェックリスト 36 | 37 | この表は現在作成中です。詳細は[このスライドの7ページ](https://opensource.org/wp-content/uploads/2024/01/osi_townhall_2.pdf)をご覧ください。 38 | 39 | | コンポーネント | 使用に必要 | 研究に必要 | 改変に必要 | 共有に必要 | 40 | | :---- | ---- | ---- | ---- | ---- | 41 | | **コード**
以下を含むデータを解析し、処理するために使用される全てのコード: | | | | | 42 | | - データ前処理コード | | | | | 43 | | - トレーニングコード | | | | | 44 | | - ベンチマークテストの推論に使用されるコード | | | | | 45 | | - 検証コード | | | | | 46 | | - 推論コード | | | | | 47 | | - 評価コード | | | | | 48 | | - トークナイザーやハイパーパラメーター検索コードなど、システムの一部であるその他のライブラリやコードの成果物 (使用された場合) | | | | | 49 | | **データ**
以下を含む全てのデータセット: | | | | | 50 | | - 学習用データセット | | | | | 51 | | - テスト用データセット | | | | | 52 | | - 検証用データセット | | | | | 53 | | - ベンチマーク用データセット | | | | | 54 | | - データカード | | | | | 55 | | - 評価指標と結果 | | | | | 56 | | - その他の全データ文書 | | | | | 57 | | **モデル**
以下を含む全てのモデル要素: | | | | | 58 | | - モデル・アーキテクチャ | | | | | 59 | | - モデル・パラメータ(重みを含む) | | | | | 60 | | - モデル・カード | | | | | 61 | | - モデル出力のサンプル | | | | | 62 | | **その他**
以下を含むその他の作成または使用した文書やツール | | | | | 63 | | - 研究論文 | | | | | 64 | | - 使用法の文書 | | | | | 65 | | - テクニカルレポート | | | | | 66 | | - サポートツール | | | | | 67 | -------------------------------------------------------------------------------- /osaid-0-0-9-ja.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | ### バージョン 0.0.9 3 | 4 | :information_source: この文書は、[経済協力開発機構(OECD)](https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449)が採用したAIシステムの定義に従っています。 5 | 6 | > AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムです。AIシステムによって、自律性や導入後の適応性のレベルは異なります。 7 | 8 | AIシステムの定義の詳細については、[OSIのブログ](https://blog.opensource.org/open-source-ai-establishing-a-common-ground/)をご覧ください。 9 | 10 | 11 | # 前文 12 | 13 | ## オープンソースの人工知能(AI)が必要な理由 14 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除くことで、誰もが多大な恩恵を得られることを実証してきました。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果として得られたものです。AIにおいても、AIの開発者、導入者、およびエンドユーザーが同様の利益、すなわち自律性、透明性、軋轢が生じない再利用、共同での改善を享受できるようにするためには、社会はオープンソースと同様の基本的な自由を必要としています。 15 | 16 | 17 | # オープンソースAIとは何か 18 | 19 | 「システム」という場合、完全に機能する構造とその個別の構造要素の両方を広く指しています。オープンソースと見なされるためには、**システム**、**モデル**、**ウェイト及びパラメータ**、またはその他の構造要素のいずれに適用される場合でも要件は同じです。 20 | 21 | オープンソースAIとは、以下のような自由[^1]を認める条件と方法で提供されるAIシステムです: 22 | 23 | * **使用**:どのような目的であれ、許可を得ることなくシステムを使用すること。 24 | * **研究**:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。 25 | * **改変**:出力を変更することを含め、どのような目的であれシステムを改変すること。 26 | * **共有**:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。 27 | 28 | これらの自由は、完全に機能するシステムとシステムの個別の要素の両方に適用されます。これらの自由を行使するための前提条件は、システムに改変を加えるための推奨される形式にアクセスできることです。 29 | 30 | [^1]: これらの自由は、[フリーソフトウェアの定義](https://www.gnu.org/philosophy/free-sw.en.html)から派生したものです。 31 | 32 | 33 | ## 機械学習システムに改変を加えるための推奨される形式 34 | 35 | 機械学習システムを改変するために推奨される形式は次の通りです: 36 | 37 | * **データ情報**:熟練者が同一または類似のデータを使用して実質的に同等のシステムを再作成できるように、システムの学習に使用したデータに関する十分に詳細な情報。データ情報は、オープンソースの定義に準拠したライセンスで利用可能でなければなりません。 38 | * 例えば、使用されている場合、学習方法方法および技術、使用された学習用データセット、それらのデータセットの出所および範囲と特徴、データの取得方法と選択方法、ラベリングの手順とデータクリーニング方法に関する情報が含まれます。 39 | * **コード**:OSI承認のライセンスで利用可能なシステムのトレーニングおよび実行のために使用されるソースコード。 40 | * 例えば、使用されている場合、データの前処理に使用されたコード、学習と検証およびテストに使用されたコード、トークナイザーやハイパーパラメーター検索コード等のサポートライブラリ、推論コード、モデルアーキテクチャなどが含まれます。 41 | * **ウェイト**:OSI承認の条件[^2]で利用可能なモデルのウェイトとパラメータ。 42 | * 例えば、最終的なオプティマイザの状態だけでなく、学習の主要な中間段階からのチェックポイントも含まれます。 43 | 44 | ## オープンソース・モデルとオープンソース・ウェイト 45 | 46 | 機械学習システムの場合、 47 | 48 | * **AIモデル**は、モデル・アーキテクチャ、モデル・パラメータ(ウェイトを含む)、及びモデルを実行するための推論コードで構成されます。 49 | * **AIウェイト**は、与えられた入力から出力を生成するためにモデル・アーキテクチャへ重ね合わされる学習済みのパラメータのセットです。 50 | 51 | 機械学習システムに改変を加えるための推奨される形式は、これらの個々のコンポーネントにも適用されます。「オープンソース・モデル」及び「オープンソース・ウェイト」には、これらのパラメータを導出するために使用されたデータ情報及びコードが含まれている必要があります。 52 | 53 | [^2]: オープンソースAIの定義では、モデル・パラメータにライセンスやその他の法的手段が必要かどうか、また、それらが公開及び共有された後にそのような手段によって法的に制御できるかどうかについては、いかなる立場もとりません。 54 | 55 | -------------------------------------------------------------------------------- /checklist-mof.md: -------------------------------------------------------------------------------- 1 | # 機械学習システムを評価するためのチェックリスト 2 | 3 | このチェックリストは、2024年3月21日に発行された論文[「The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency and Usability in AI」](https://arxiv.org/abs/2403.13784) - [DOI](https://doi.org/10.48550/arXiv.2403.13784)に基づいています。Model Openness Framework (MOF)は、[Model Openness ToolのWebサイト](https://mot.isitopen.ai)で実装されています。 4 | 5 | 6 | # この文書の範囲 7 | このチェックリストは、AIシステムの審査担当者が、オープンソースAIの基本的な自由を行使するために必要なコンポーネントを特定し、ランク付けすることを支援するために、共同設計プロセスにおいてボランティアによって作成されました。さらに、hackmd上のフォーラムおよび公開ドラフトに関するパブリックコメントを通じて改良されました。 8 | 9 | この文書は、定義プロセスの一部、学習ツールとして捉えるべきです。**チェックリストは、オープンソースAIを評価するための操作マニュアルではありません。** 10 | 11 | # Model Openness Frameworkとの関係 12 | 13 | MOFは、コンポーネントの可用性の度合いに応じて、一部(クラスIII、オープン・モデル)から全て(クラスI、オープン・サイエンス)まで、システムを3段階に分類します。MOFを使用する場合、「MLシステムに変更を加えるための推奨される形式」の要件は、MOFのクラス範囲に重ねたバーとして考えることができます。 14 | 15 | 16 | # 既知の問題と制限 17 | 18 | * **生成AIに拘束**: MOFに基づいているため、このチェックリストは生成AIと密接に結びついているように見えます。コンポーネントのリストは、全ての機械学習に適用できるほど一般化されていません。「オープンソースAIの定義」の原則を他の種類のAIや異なる機械学習システムに適用するには、さらなる研究が必要です。 19 | * **解釈の余地**: データセット・コンポーネントが利用可能である場合、データ要件は満たされるべきです。AIシステムがデータセット・コンポーネントを利用可能にしていない場合、代替のデータ・コンポーネントが「オープンソースAIの定義」で列挙された要件を満たしているかどうかを推測する必要があります。これは、オープンソースAIの実践が進むにつれて、さらなる研究が必要となるもう一つの領域です。 20 | 21 | 詳細については、[オープンソースAIのFAQ](https://opensource.org/ai/faq)もご覧ください。 22 | 23 | # デフォルトの必須コンポーネントの表 24 | 25 | | 必須コンポーネント | 法的枠組み[^1] | 26 | | ------------------------| ------------------------------ | 27 | | **データ** | 28 | | *既知の問題を参照してください。[オープンソースAIの定義](https://opensource.org/ai/definition)の要件を満たす必要があります。* | 29 | | - データセット | OSI承認の条件の下で利用可能 | 30 | | - 研究論文 | OSI承認の条件の下で利用可能 | 31 | | - 技術レポート | OSI承認の条件の下で利用可能 | 32 | | - データ・カード | OSI承認の条件の下で利用可能 | 33 | | **コード** | 34 | | *これらのコンポーネントはすべて必須です。* | 35 | | - データ前処理 | OSI承認ライセンスの下で利用可能 | 36 | | - 学習、検証、テスト | OSI承認ライセンスの下で利用可能 | 37 | | - 推論 | OSI承認ライセンスの下で利用可能 | 38 | | - サポート用のライブラリとツール | OSI承認ライセンスの下で利用可能 | 39 | | **モデル** | 40 | | *これらのコンポーネントはすべて必須です。* | 41 | | - モデル・アーキテクチャ | OSI承認ライセンスの下で利用可能 | 42 | | - モデル・パラメータ | OSI承認の条件の下で利用可能 | 43 | 44 | # オプションのコンポーネントの表 45 | Model Openness Frameworkに記載されているその他のコンポーネントはオプションです。 46 | 47 | | オプションのコンポーネント | 48 | | ------------------------| 49 | | **データ** | 50 | | - 評価データ | 51 | | - 評価結果 | 52 | | **コード** | 53 | | - ベンチマークテストの推論を実行するために使用されるコード | 54 | | - 評価コード | 55 | | **モデルl** | 56 | | - モデル・カード | 57 | | - モデル出力のサンプル | 58 | | - モデルのメタデータ | 59 | 60 | [^1]: `OSI承認の条件の下で利用可能` とは、OSIがライセンスおよび契約を審査し、全てのマテリアルが「オープンソースの定義」に準拠した条件で利用可能であると保証することを意味します。 61 | -------------------------------------------------------------------------------- /osaid-0-0-6-ja.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | ### バージョン 0.0.6 3 | 4 | :information_source: 注:この文書は3つの部分から構成されている: この文書の意図を述べた前文、オープンソースAIの定義そのもの、そして法的文書を評価するためのチェックリストである。 5 | 6 | :information_source: この文書は、[経済協力開発機構(OECD)](https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449)が採用したAIシステムの定義に従っている。 7 | 8 | > AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムである。AIシステムによって、自律性や導入後の適応性のレベルは異なる。 9 | 10 | AIシステムの定義の詳細については、[OSIのブログ](https://blog.opensource.org/open-source-ai-establishing-a-common-ground/)をご覧ください。 11 | 12 | 13 | # 前文 14 | 15 | ## オープンソースの人工知能(AI)が必要な理由 16 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除けば、誰にでも多大な恩恵がもたらされることを実証してきた。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果もたらされるものです。その恩恵は、自律性、透明性、共同改善に集約される。 17 | 18 | AIによるこれらの恩恵は誰もが必要としている。ユーザーが信頼性と透明性のあるAIシステムを構築し、展開できるようにするため、我々には本質的な自由が必要である。 19 | 20 | ## 範囲外の問題 21 | オープンソースAIの定義は、倫理的で信頼でき、あるいは責任あるAIシステムを開発し、展開する方法については述べていないが、それを妨げるものではない。政府の適切な規制を含め、AIシステムの責任ある開発、展開、使用について議論する取り組みは、別の話となる。 22 | 23 | # オープンソースAIとは何か 24 | 25 | オープンソースAIとは、以下のような自由を認める条件のもとで一般に公開されるAIシステムのことである: 26 | 27 | * **使用**:どのような目的であれ、許可を得ることなくシステムを使用すること。 28 | * **研究**:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。 29 | * **改変**:出力を変更することを含め、どのような目的であれシステムを改変すること。 30 | * **共有**:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。 31 | 32 | これらの自由を行使するための前提条件は、システムに修正を加えるための好ましい形式へのアクセス権を持っていることである。機械学習システムの場合、それは一般に公開されているものにアクセスできることを意味する: 33 | 34 | * **データ**:学習方法および技術、使用された学習用データセット、それらのデータセットの出所およびその範囲と特徴に関する情報を含むシステムの学習方法に関する十分に詳細な情報。データがどのように取得と選択がされたか、ラベリングの手順とデータクリーニングの方法。 35 | * **コード**:データの前処理に使用されたコード、学習と検証およびテストに使用されたコード、(使用されている場合)トークナイザーやハイパーパラメータ検索コード等のサポートライブラリ、推論コード、モデルアーキテクチャ。 36 | * **モデル**:重みを含むモデル・パラメータ。適用可能な場合は、最終的なオプティマイザの状態だけでなく学習の重要な中間的段階も含める。 37 | 38 | # 法的文書を評価するためのチェックリスト 39 | 40 | この表は現在作成中です。詳細は1月26日のタウンホールの[スライドの7ページ目](https://opensource.org/wp-content/uploads/2024/01/osi_townhall_2.pdf)をご覧ください。 41 | 42 | 43 | | 必須コンポーネント | 法的枠組み | 44 | | ------------------------| ------------------------------ | 45 | | **コード** | 46 | | - データ前処理 | OSI準拠のライセンスで利用可能 | 47 | | - 学習、検証、テスト | OSI準拠のライセンスで利用可能 | 48 | | - 推論コード | OSI準拠のライセンスで利用可能 | 49 | | - サポート用のライブラリとツール | OSI準拠のライセンスで利用可能 | 50 | | **モデル** | 51 | | - モデル・アーキテクチャ | OSI準拠のライセンスで利用可能 | 52 | | - モデル・パラメータ(重みを含む) | 次のフェーズで定義予定 | 53 | 54 | 以下のコンポーネントは必須ではありませんが、公開リリースに含めることを推奨します。 55 | 56 | | オプションのコンポーネント | 57 | |----------------------| 58 | | - ベンチマークテストの推論に使用されるコード | 59 | | - 評価コード | 60 | | **データ** 以下を含む全てのデータセット: | 61 | | - 学習用データセット | 62 | | - テスト用データセット | 63 | | - 検証用データセット | 64 | | - ベンチマーク用データセット | 65 | | - データカード | 66 | | - 評価指標と結果 | 67 | | - その他の全データ文書 | 68 | | **モデル** 以下を含む全てのモデル要素: | 69 | | - モデル・カード | 70 | | - モデル出力のサンプル | 71 | | **その他** 以下を含むその他の作成または使用した文書やツール: | 72 | | - 研究論文 | 73 | | - 使用法の文書 | 74 | | - テクニカルレポート | 75 | | - サポートツール | 76 | -------------------------------------------------------------------------------- /osaid-1-0-RC1.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | ### バージョン 1.0-RC1 3 | 4 | # 前文 5 | 6 | ## オープンソースの人工知能(AI)が必要な理由 7 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除くことで、誰もが多大な恩恵を得られることを実証してきました。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果として得られたものです。AIにおいても、AIの開発者、導入者、およびエンドユーザーが同様の利益、すなわち自律性、透明性、軋轢が生じない再利用、共同での改善を享受できるようにするためには、社会は少なくともオープンソースと同様の基本的な自由を必要としています。 8 | 9 | 10 | # オープンソースAIとは何か 11 | 12 | 「システム」という場合、完全に機能する構造とその個別の構造要素の両方を広く指しています。オープンソースと見なされるためには、**システム**、**モデル**、**ウェイト及びパラメータ**、またはその他の構造要素のいずれに適用される場合でも要件は同じです。 13 | 14 | *オープンソースAI*とは、以下のような自由[^1]を認める条件と方法で提供されるAIシステムです: 15 | 16 | * **使用**:どのような目的であれ、許可を得ることなくシステムを使用すること。 17 | * **研究**:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。 18 | * **改変**:出力を変更することを含め、どのような目的であれシステムを改変すること。 19 | * **共有**:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。 20 | 21 | これらの自由は、完全に機能するシステムとシステムの個別の要素の両方に適用されます。これらの自由を行使するための前提条件は、システムに改変を加えるための推奨される形式にアクセスできることです。 22 | 23 | [^1]: これらの自由は、[フリーソフトウェアの定義](https://www.gnu.org/philosophy/free-sw.en.html)から派生したものです。 24 | 25 | 26 | ## 機械学習システムに改変を加えるための推奨される形式 27 | 28 | 機械学習システムに変更を加える際の推奨される形式には、以下のすべての要素を含める必要があります: 29 | 30 | * **データ情報**:熟練者が実質的に同等のシステムを構築できる程度に、システムのトレーニングに使用したデータに関する十分に詳細な情報。データ情報は、OSIが承認した条件の下で利用可能とされるものとします。 31 | * 特に、これには以下を含める必要があります:(1)トレーニングに使用された全てのデータ(共有不可のデータを使用している場合はそれらも含む)の詳細な説明、データの出所と範囲および特性、データの取得方法と選択方法、ラベリングの手順、そしてデータクリーニングの方法の開示。(2)公開されている全てのトレーニングデータとその入手先の一覧。(3)第三者から入手可能な全てのトレーニングデータとその入手先(有料の場合を含む)の一覧。 32 | * **コード**:システムのトレーニングと実行に使用される完全なソースコード。コードは、データ情報がどのように処理され、訓練がどのように行われたかの完全な仕様を表すものとします。コードは、OSIが承認したライセンスの下で利用可能であることとします。 33 | * 例えば、使用される場合、これにはデータの前処理に使用されたコード、使用される引数と設定を含むトレーニングと検証およびテストに使用されるコード、トークナイザーやハイパーパラメーター検索コード等のサポートライブラリ、推論コード、およびモデルアーキテクチャが含まれなければなりません。 34 | * **パラメータ**:重みやその他の構成設定などのモデルパラメータ。パラメータは、OSIが承認した条件[^2]の下で利用可能であることとします。 35 | * 例えば、トレーニングの主要な中間段階のチェックポイントや、最終的なオプティマイザーの状態が含まれる場合があります。 36 | 37 | 38 | ## オープンソース・モデルとオープンソース・ウェイト 39 | 40 | 機械学習システムの場合、 41 | 42 | * **AIモデル**は、モデル・アーキテクチャ、モデル・パラメータ(ウェイトを含む)、及びモデルを実行するための推論コードで構成されます。 43 | * **AIウェイト**は、与えられた入力から出力を生成するためにモデル・アーキテクチャへ重ね合わされる学習済みのパラメータのセットです。 44 | 45 | 機械学習システムに改変を加えるための推奨される形式は、これらの個々のコンポーネントにも適用されます。「オープンソース・モデル」及び「オープンソース・ウェイト」には、これらのパラメータを導出するために使用されたデータ情報及びコードが含まれている必要があります。 46 | 47 | [^2]: オープンソースAIの定義では、モデル・パラメータにライセンスやその他の法的手段が必要かどうか、また、それらが公開及び共有された後にそのような手段によって法的に制御できるかどうかについては、いかなる立場もとりません。 48 | 49 | 50 | # 定義 51 | 52 | * AIシステム[^3]:AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムです。AIシステムによって、自律性や導入後の適応性のレベルは異なります。 53 | * 機械学習[^4]:機械学習とは、機械の性能を向上させ、通常は人間からの明示的な指示ではなく、パターンや規則性を識別するのに役立つトレーニングデータへの露出を通じて自動的にモデルを生成することを可能にする一連の技術です。機械学習技術を使用してシステムの性能を向上させるプロセスは、「トレーニング」と呼ばれます。 54 | 55 | 56 | [^3]: [Recommendation of the Council on Artificial Intelligence(人工知能に関する理事会の勧告) OECD/LEGAL/0449, Organization for Economic and Co-operation Development (OECD:経済協力開発機構), 2024](https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449) 57 | [^4]: [Explanatory memorandum on the updated OECD definition of an AI system(OECDのAIシステムの定義の更新に関する説明覚書), OECD Artificial Intelligence Papers, No. 8, OECD Publishing, Paris](https://doi.org/10.1787/623da898-en) 58 | -------------------------------------------------------------------------------- /osaid-1-0-RC2.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | ### バージョン 1.0-RC2 3 | 4 | # 前文 5 | 6 | ## オープンソースの人工知能(AI)が必要な理由 7 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除くことで、誰もが多大な恩恵を得られることを実証してきました。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果として得られたものです。AIにおいても、AIの開発者、導入者、およびエンドユーザーが同様の利益、すなわち自律性、透明性、軋轢が生じない再利用、共同での改善を享受できるようにするためには、社会は少なくともオープンソースと同様の基本的な自由を必要としています。 8 | 9 | 10 | # オープンソースAIとは何か 11 | 12 | 「システム」という場合、完全に機能する構造とその個別の構造要素の両方を広く指しています。オープンソースと見なされるためには、**システム**、**モデル**、**ウェイト及びパラメータ**、またはその他の構造要素のいずれに適用される場合でも要件は同じです。 13 | 14 | *オープンソースAI*とは、以下のような自由[^1]を認める条件と方法で提供されるAIシステムです: 15 | 16 | * **使用**:どのような目的であれ、許可を得ることなくシステムを使用すること。 17 | * **研究**:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。 18 | * **改変**:出力を変更することを含め、どのような目的であれシステムを改変すること。 19 | * **共有**:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。 20 | 21 | これらの自由は、完全に機能するシステムとシステムの個別の要素の両方に適用されます。これらの自由を行使するための前提条件は、システムに改変を加えるための推奨される形式にアクセスできることです。 22 | 23 | [^1]: これらの自由は、[フリーソフトウェアの定義](https://www.gnu.org/philosophy/free-sw.en.html)から派生したものです。 24 | 25 | 26 | ## 機械学習システムに改変を加えるための推奨される形式 27 | 28 | 機械学習システムに変更を加える際の推奨される形式には、以下のすべての要素を含める必要があります: 29 | 30 | * **データ情報**:熟練者が実質的に同等のシステムを構築できる程度に、システムのトレーニングに使用したデータに関する十分に詳細な情報。データ情報は、OSIが承認した条件の下で利用可能であることとします。 31 | * 特に、これには以下を含める必要があります:(1)トレーニングに使用された全てのデータ(共有不可のデータを使用している場合はそれらも含む)の完全な説明、データの出所と範囲および特性、データの取得方法と選択方法、ラベリングの手順、そしてデータ処理およびフィルタリングの方法の開示。(2)公開されている全てのトレーニングデータとその入手先の一覧。(3)第三者から入手可能な全てのトレーニングデータとその入手先(有料の場合を含む)の一覧。 32 | * **コード**:システムのトレーニングと実行に使用される完全なソースコード。コードは、データの処理方法とフィルタリング方法、およびトレーニングの実行方法の完全な仕様を表すものとします。コードは、OSIが承認したライセンスの下で利用可能であることとします。 33 | * 例えば、使用される場合、これにはデータの処理とフィルタリングに使用されるコード、使用される引数と設定を含むトレーニングと検証およびテストに使用されるコード、トークナイザーやハイパーパラメーター検索コード等のサポートライブラリ、推論コード、およびモデルアーキテクチャが含まれなければなりません。 34 | * **パラメータ**:重みやその他の構成設定などのモデルパラメータ。パラメータは、OSIが承認した条件の下で利用可能であることとします。 35 | * 例えば、トレーニングの主要な中間段階のチェックポイントや、最終的なオプティマイザーの状態が含まれる場合があります。 36 | 37 | 38 | ## オープンソース・モデルとオープンソース・ウェイト 39 | 40 | 機械学習システムの場合、 41 | 42 | * **AIモデル**は、モデル・アーキテクチャ、モデル・パラメータ(ウェイトを含む)、及びモデルを実行するための推論コードで構成されます。 43 | * **AIウェイト**は、与えられた入力から出力を生成するためにモデル・アーキテクチャへ重ね合わされる学習済みのパラメータのセットです。 44 | 45 | 機械学習システムに改変を加えるための推奨される形式は、これらの個々のコンポーネントにも適用されます。「オープンソース・モデル」及び「オープンソース・ウェイト」には、これらのパラメータを導出するために使用されたデータ情報及びコードが含まれている必要があります。 46 | 47 | オープンソースAIの定義では、モデル・パラメータが全ての人に自由に利用可能であることを保証するための特定の法的メカニズムを要求していません。それらは本質的に自由である場合もあれば、それらの自由を保証するためにライセンスやその他の法的手段が必要な場合もあります。法制度がオープンソースAIシステムに対応する機会が増えれば、この点は時間の経過とともに明確になるものと期待しています。 48 | 49 | # 定義 50 | 51 | * AIシステム[^2]:AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムです。AIシステムによって、自律性や導入後の適応性のレベルは異なります。 52 | * 機械学習[^3]:機械学習とは、機械の性能を向上させ、通常は人間からの明示的な指示ではなく、パターンや規則性を識別するのに役立つトレーニングデータへの露出を通じて自動的にモデルを生成することを可能にする一連の技術です。機械学習技術を使用してシステムの性能を向上させるプロセスは、「トレーニング」と呼ばれます。 53 | 54 | 55 | [^2]: [Recommendation of the Council on Artificial Intelligence(人工知能に関する理事会の勧告) OECD/LEGAL/0449, Organization for Economic and Co-operation Development (OECD:経済協力開発機構), 2024](https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449) 56 | [^3]: [Explanatory memorandum on the updated OECD definition of an AI system(OECDのAIシステムの定義の更新に関する説明覚書), OECD Artificial Intelligence Papers, No. 8, OECD Publishing, Paris](https://doi.org/10.1787/623da898-en) 57 | -------------------------------------------------------------------------------- /osaid-1-0.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | ### バージョン 1.0 3 | 4 | # 前文 5 | 6 | ## オープンソースの人工知能(AI)が必要な理由 7 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除くことで、誰もが多大な恩恵を得られることを実証してきました。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果として得られたものです。AIにおいても、AIの開発者、導入者、およびエンドユーザーが同様の利益、すなわち自律性、透明性、軋轢が生じない再利用、共同での改善を享受できるようにするためには、社会は少なくともオープンソースと同様の基本的な自由を必要としています。 8 | 9 | 10 | # オープンソースAIとは何か 11 | 12 | 「システム」という場合、完全に機能する構造とその個別の構造要素の両方を広く指しています。オープンソースと見なされるためには、**システム**、**モデル**、**ウェイト及びパラメータ**、またはその他の構造要素のいずれに適用される場合でも要件は同じです。 13 | 14 | *オープンソースAI*とは、以下のような自由[^1]を認める条件と方法で提供されるAIシステムです: 15 | 16 | * **使用**:どのような目的であれ、許可を得ることなくシステムを使用すること。 17 | * **研究**:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。 18 | * **改変**:出力を変更することを含め、どのような目的であれシステムを改変すること。 19 | * **共有**:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。 20 | 21 | これらの自由は、完全に機能するシステムとシステムの個別の要素の両方に適用されます。これらの自由を行使するための前提条件は、システムに改変を加えるための推奨される形式にアクセスできることです。 22 | 23 | [^1]: これらの自由は、[フリーソフトウェアの定義](https://www.gnu.org/philosophy/free-sw.en.html)から派生したものです。 24 | 25 | 26 | ## 機械学習システムに改変を加えるための推奨される形式 27 | 28 | 機械学習システムに変更を加える際の推奨される形式には、以下のすべての要素を含める必要があります: 29 | 30 | * **データ情報**:熟練者が実質的に同等のシステムを構築できる程度に、システムのトレーニングに使用したデータに関する十分に詳細な情報。データ情報は、OSIが承認した条件の下で利用可能であることとします。 31 | * 特に、これには以下を含める必要があります:(1)トレーニングに使用された全てのデータ(共有不可のデータを使用している場合はそれらも含む)の完全な説明、データの出所と範囲および特性、データの取得方法と選択方法、ラベリングの手順、そしてデータ処理およびフィルタリングの方法の開示。(2)公開されている全てのトレーニングデータとその入手先の一覧。(3)第三者から入手可能な全てのトレーニングデータとその入手先(有料の場合を含む)の一覧。 32 | * **コード**:システムのトレーニングと実行に使用される完全なソースコード。コードは、データの処理方法とフィルタリング方法、およびトレーニングの実行方法の完全な仕様を表すものとします。コードは、OSIが承認したライセンスの下で利用可能であることとします。 33 | * 例えば、使用される場合、これにはデータの処理とフィルタリングに使用されるコード、使用される引数と設定を含むトレーニングと検証およびテストに使用されるコード、トークナイザーやハイパーパラメーター検索コード等のサポートライブラリ、推論コード、およびモデルアーキテクチャが含まれなければなりません。 34 | * **パラメータ**:重みやその他の構成設定などのモデルパラメータ。パラメータは、OSIが承認した条件の下で利用可能であることとします。 35 | * 例えば、トレーニングの主要な中間段階のチェックポイントや、最終的なオプティマイザーの状態が含まれる場合があります。 36 | 37 | これらの要素およびそれらの任意の組み合わせに適用されるライセンスまたはその他の条件には、修正版をオリジナルと同じ条件で公開することを求める条件が含まれている場合があります。 38 | 39 | ## オープンソース・モデルとオープンソース・ウェイト 40 | 41 | 機械学習システムの場合、 42 | 43 | * **AIモデル**は、モデル・アーキテクチャ、モデル・パラメータ(ウェイトを含む)、及びモデルを実行するための推論コードで構成されます。 44 | * **AIウェイト**は、与えられた入力から出力を生成するためにモデル・アーキテクチャへ重ね合わされる学習済みのパラメータのセットです。 45 | 46 | 機械学習システムに改変を加えるための推奨される形式は、これらの個々のコンポーネントにも適用されます。「オープンソース・モデル」及び「オープンソース・ウェイト」には、これらのパラメータを導出するために使用されたデータ情報及びコードが含まれている必要があります。 47 | 48 | オープンソースAIの定義では、モデル・パラメータが全ての人に自由に利用可能であることを保証するための特定の法的メカニズムを要求していません。それらは本質的に自由である場合もあれば、それらの自由を保証するためにライセンスやその他の法的手段が必要な場合もあります。法制度がオープンソースAIシステムに対応する機会が増えれば、この点は時間の経過とともに明確になるものと期待しています。 49 | 50 | # 定義 51 | 52 | * AIシステム[^2]:AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムです。AIシステムによって、自律性や導入後の適応性のレベルは異なります。 53 | * 機械学習[^3]:機械学習とは、機械の性能を向上させ、通常は人間からの明示的な指示ではなく、パターンや規則性を識別するのに役立つトレーニングデータへの露出を通じて自動的にモデルを生成することを可能にする一連の技術です。機械学習技術を使用してシステムの性能を向上させるプロセスは、「トレーニング」と呼ばれます。 54 | 55 | 56 | [^2]: [Recommendation of the Council on Artificial Intelligence(人工知能に関する理事会の勧告) OECD/LEGAL/0449, Organization for Economic and Co-operation Development (OECD:経済協力開発機構), 2024](https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449) 57 | [^3]: [Explanatory memorandum on the updated OECD definition of an AI system(OECDのAIシステムの定義の更新に関する説明覚書), OECD Artificial Intelligence Papers, No. 8, OECD Publishing, Paris](https://doi.org/10.1787/623da898-en) 58 | -------------------------------------------------------------------------------- /osaid-0-0-7-ja.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | ### バージョン 0.0.7.1 3 | 4 | :information_source: 注:この文書は3つの部分から構成されている: この文書の意図を述べた前文、オープンソースAIの定義そのもの、そして法的文書を評価するためのチェックリストである。 5 | 6 | :information_source: この文書は、[経済協力開発機構(OECD)](https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449)が採用したAIシステムの定義に従っている。 7 | 8 | 9 | 10 | > AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムである。AIシステムによって、自律性や導入後の適応性のレベルは異なる。 11 | 12 | AIシステムの定義の詳細については、[OSIのブログ](https://blog.opensource.org/open-source-ai-establishing-a-common-ground/)をご覧ください。 13 | 14 | 15 | # 前文 16 | 17 | ## オープンソースの人工知能(AI)が必要な理由 18 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除けば、誰にでも多大な恩恵がもたらされることを実証してきた。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果もたらされるものです。その恩恵は、自律性、透明性、共同改善に集約される。 19 | 20 | AIによるこれらの恩恵は誰もが必要としている。ユーザーが信頼性と透明性のあるAIシステムを構築し、展開できるようにするため、我々には本質的な自由が必要である。 21 | 22 | ## 範囲外の問題 23 | オープンソースAIの定義は、倫理的で信頼でき、あるいは責任あるAIシステムを開発し、展開する方法については述べていないが、それを妨げるものではない。政府の適切な規制を含め、AIシステムの責任ある開発、展開、使用について議論する取り組みは、別の話となる。 24 | 25 | 26 | # オープンソースAIとは何か 27 | 28 | オープンソースAIとは、以下のような自由を与える条件の下で利用できるAIシステムのことである: 29 | 30 | * **使用**:どのような目的であれ、許可を得ることなくシステムを使用すること。 31 | * **研究**:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。 32 | * **改変**:出力を変更することを含め、どのような目的であれシステムを改変すること。 33 | * **共有**:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。 34 | 35 | これらの自由を行使するための前提条件は、システムに修正を加えるための好ましい形式へのアクセス権を持っていることである。 36 | 37 | # 機械学習システムを評価するためのチェックリスト 38 | 39 | このチェックリストは、2024年3月21日に発行された論文[「The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency and Usability in AI」](https://arxiv.org/abs/2403.13784)に基づいています。 40 | 41 | ## 機械学習システムに改変を加えるための推奨される形式 42 | 43 | 機械学習のオープンソースAIに必要なコンポーネントのデフォルトのセットは以下の通りである: 44 | 45 | * **データの透明性**:システムの学習方法に関する十分に詳細な情報。これには、学習方法および技術、使用された学習用データセット、それらのデータセットの出所および範囲と特徴に関する情報などが含まれる;データがどのように取得と選択がされたか、ラベリングの手順とデータクリーニングの方法。 46 | * **コード**:データの前処理に使用されたコード、学習と検証およびテストに使用されたコード、(使用されている場合)トークナイザーやハイパーパラメータ検索コード等のサポートライブラリ、推論コード、モデルアーキテクチャ。 47 | * **モデル**:重みを含むモデル・パラメータ。適用可能な場合は、最終的なオプティマイザの状態だけでなく学習の重要な中間的段階も含める。 48 | 49 | 50 | ### デフォルトの必須コンポーネントの表 51 | 52 | 53 | | 必須コンポーネント | 法的枠組み | 54 | | ------------------------| ------------------------------ | 55 | | **コード** | 56 | | - データ前処理 | OSI準拠のライセンスで利用可能 | 57 | | - 学習、検証、テスト | OSI準拠のライセンスで利用可能 | 58 | | - 推論コード | OSI準拠のライセンスで利用可能 | 59 | | - サポート用のライブラリとツール | OSI準拠のライセンスで利用可能 | 60 | | **モデル** | 61 | | - モデル・アーキテクチャ | OSI準拠のライセンスで利用可能 | 62 | | - モデル・パラメータ(重みを含む) | オープンソースの原則と互換性のある条件で利用可能 | 63 | | **データの透明性** | 64 | | - 学習の方法論と技術 | OSI準拠のライセンスで利用可能 | 65 | | - 学習データの範囲と特徴 | OSI準拠のライセンスで利用可能 | 66 | | - 学習データの出所(データの入手方法、選択方法等) | OSI準拠のライセンスで利用可能 | 67 | | - 学習データのラベリング手順(使用する場合) | OSI準拠のライセンスで利用可能 | 68 | | - 学習データのクリーニング技法 | OSI準拠のライセンスで利用可能 | 69 | 70 | 以下のコンポーネントは必須ではありませんが、公開リリースに含めることを推奨します。 71 | 72 | | オプションのコンポーネント | 73 | |----------------------| 74 | | **コード** | 75 | | - ベンチマークテストの推論に使用されるコード | 76 | | - 評価コード | 77 | | **データ** 以下を含む全てのデータセット: | 78 | | - 学習用データセット | 79 | | - テスト用データセット | 80 | | - 検証用データセット | 81 | | - ベンチマーク用データセット | 82 | | - データカード | 83 | | - 評価指標と結果 | 84 | | - その他の全データ文書 | 85 | | **モデル** 以下を含む全てのモデル要素: | 86 | | - モデル・カード | 87 | | - モデル出力のサンプル | 88 | | **その他** 以下を含むその他の作成または使用した文書やツール: | 89 | | - 研究論文 | 90 | | - 使用法の文書 | 91 | | - テクニカルレポート | 92 | | - サポートツール | 93 | -------------------------------------------------------------------------------- /osaid-0-0-8-ja.md: -------------------------------------------------------------------------------- 1 | # オープンソースAIの定義 2 | ### バージョン 0.0.8 3 | 4 | :information_source: 注:この文書は3つの部分から構成されている: この文書の意図を述べた前文、オープンソースAIの定義そのもの、そして法的文書を評価するためのチェックリストである。 5 | 6 | :information_source: この文書は、[経済協力開発機構(OECD)](https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449)が採用したAIシステムの定義に従っている。 7 | 8 | 9 | 10 | > AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムである。AIシステムによって、自律性や導入後の適応性のレベルは異なる。 11 | 12 | AIシステムの定義の詳細については、[OSIのブログ](https://blog.opensource.org/open-source-ai-establishing-a-common-ground/)をご覧ください。 13 | 14 | 15 | # 前文 16 | 17 | ## オープンソースの人工知能(AI)が必要な理由 18 | オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除けば、誰にでも多大な恩恵がもたらされることを実証してきた。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果もたらされるものです。その恩恵は、自律性、透明性、軋轢が生じない再利用、共同改善に集約される。 19 | 20 | AIによるこれらの恩恵は誰もが必要としている。ユーザーが信頼性と透明性のあるAIシステムを構築し、展開できるようにするため、我々には本質的な自由が必要である。 21 | 22 | # オープンソースAIとは何か 23 | 24 | オープンソースAIとは、以下のような自由を与える条件の下で利用できるAIシステムのことである: 25 | 26 | * **使用**:どのような目的であれ、許可を得ることなくシステムを使用すること。 27 | * **研究**:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。 28 | * **改変**:出力を変更することを含め、どのような目的であれシステムを改変すること。 29 | * **共有**:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。 30 | 31 | これらの自由を行使するための前提条件は、システムに修正を加えるための好ましい形式へのアクセス権を持っていることである。 32 | 33 | ## 機械学習システムに改変を加えるための推奨される形式 34 | 35 | 機械学習のオープンソースAIを改変する好ましい形式には、以下のものが含まれている必要がある: 36 | 37 | * **データの情報**:熟練者が同一または類似のデータを使用して実質的に同等のシステムを再作成できるように、システムの学習に使用したデータに関する十分に詳細な情報 38 | * 例えば、使用されている場合、学習方法方法および技術、使用された学習用データセット、それらのデータセットの出所および範囲と特徴、データの取得方法と選択方法、ラベリングの手順とデータクリーニング方法に関する情報が含まれる。 39 | * **コード**:システムのトレーニングおよび実行に使用されたソースコード 40 | * 例えば、使用されている場合、データの前処理に使用されたコード、学習と検証およびテストに使用されたコード、トークナイザーやハイパーパラメーター検索コード等のサポートライブラリ、推論コード、モデルアーキテクチャなどが含まれる。 41 | * **モデル**:モデル・パラメータ 42 | * 例えば、最終的なオプティマイザの状態だけでなく、学習の主要な中間段階からのチェックポイントも含まれる。 43 | 44 | 45 | # 機械学習システムを評価するためのチェックリスト 46 | 47 | このチェックリストは、2024年3月21日に発行された論文[「The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency and Usability in AI」](https://arxiv.org/abs/2403.13784)に基づいている。 48 | 49 | ### デフォルトの必須コンポーネントの表 50 | 51 | | 必須コンポーネント | 法的枠組み | 52 | | ------------------------| ------------------------------ | 53 | | **データの情報** | 54 | | - 学習の方法論と技術 | OSD準拠のライセンスで利用可能 | 55 | | - 学習データの範囲と特徴 | OSD準拠のライセンスで利用可能 | 56 | | - 学習データの出所(データの入手方法、選択方法等) | OSD準拠のライセンスで利用可能 | 57 | | - 学習データのラベリング手順(使用する場合) | OSD準拠のライセンスで利用可能 | 58 | | - 学習データのクリーニング技法 | OSD準拠のライセンスで利用可能 | 59 | | **コード** | 60 | | - データ前処理 | OSI承認のライセンスで利用可能 | 61 | | - 学習、検証、テスト | OSI承認のライセンスで利用可能 | 62 | | - 推論 | OSI承認のライセンスで利用可能 | 63 | | - サポート用のライブラリとツール | OSI承認のライセンスで利用可能 | 64 | | **モデル** | 65 | | - モデル・アーキテクチャ | OSI承認のライセンスで利用可能 | 66 | | - モデル・パラメータ | OSDに適合した条件で利用可能 | 67 | 68 | 以下のコンポーネントは改変を加えるための好ましい形式として必須ではないが、公開リリースに含めることを推奨される。 69 | 70 | | オプションのコンポーネント | 法的枠組み | 71 | |----------------------| ------------------------------ | 72 | | **データの情報** 以下を含む全てのデータセット: | 73 | | - 学習用データセット | OSD準拠のライセンスで利用可能 | 74 | | - テスト用データセット | OSD準拠のライセンスで利用可能 | 75 | | - 検証用データセット | OSD準拠のライセンスで利用可能 | 76 | | - ベンチマーク用データセット | OSD準拠のライセンスで利用可能 | 77 | | - データカード | OSD準拠のライセンスで利用可能 | 78 | | - 評価データ | OSD準拠のライセンスで利用可能 | 79 | | - 評価結果 | OSD準拠のライセンスで利用可能 | 80 | | - その他のデータ文書 | OSD準拠のライセンスで利用可能 | 81 | | **コード** | 82 | | - ベンチマークテストの推論を実行するために使用されるコード | OSI承認のライセンスで利用可能 | 83 | | - 評価コード | OSI承認のライセンスで利用可能 | 84 | | **モデル** 以下を含む全てのモデル要素: | 85 | | - モデル・カード | OSD準拠のライセンスで利用可能 | 86 | | - モデル出力のサンプル | OSD準拠のライセンスで利用可能 | 87 | | - モデルのメタデータ | OSD準拠のライセンスで利用可能 | 88 | | **その他** 以下を含むその他の作成または使用した文書やツール: | 89 | | - 研究論文 | OSD準拠のライセンスで利用可能 | 90 | | - テクニカルレポート | OSD準拠のライセンスで利用可能 | 91 | -------------------------------------------------------------------------------- /osaid-faq.md: -------------------------------------------------------------------------------- 1 | # よくある質問への回答 2 | 最終更新日 2024年10月22日 3 | 4 | # :warning: この文書はまだ作成中です :warning: 5 | 6 | ## オープンソースAIとは何ですか? 7 | 8 | TL;DR: オープンソースAIとは、Open Source Initiative(OSI)が承認した法的条件の下で、必要な全てのコード、データ、パラメータが自由に利用できるAIシステムのことです。詳細は以下をご覧ください。 9 | 10 | ## なぜオープンソースAIの定義が作成されたのですか? 11 | 12 | [オープンソースの定義](https://opensource.org/osd)(OSD: Open Source Definition)の第2条に「プログラムはソースコードを含んでいなければならず、... (略) ソースコードは、プログラマがプログラムを変更する際に優先される形式でなければなりません」とあります。AIシステムを修正する際に優先される形式とは何かについて、明確な答えを持っている人は誰もいませんでした。そこで、OSIは[共同設計プロセス](https://opensource.org/deepdive/)に関わるコミュニティとともに、その答えを見つけることを提案しました。 13 | 14 | ## オープンソースの定義とオープンソースAIの定義の違いは何ですか? 15 | 16 | [オープンソースの定義](https://opensource.org/osd)は、ソフトウェア・プログラムに言及しています。AI、特に機械学習システムは、単なるソフトウェア・プログラムではなく、データ、構成オプション、ドキュメント、重みやバイアスなどの新しいアーティファクトとの境界が混在しています。オープンソースAIの定義は、AIシステムに改変を加えるための推奨される形式を説明し、OSDの原則をAIの領域で解釈するための明確性を提供します。 17 | 18 | 19 | ## オープンソースAIの定義におけるトレーニングデータの役割とは何でしょうか? 20 | 21 | オープンソースとは、追加の許可を必要とせずに、誰でもあなたのシステムを有意義にフォーク(研究および改変)し、自分自身や他の人々にとってより有用なものにできる能力を与えることを意味します。これが、OSD第2条が改変を行うための推奨される形式でソースコードを提供することを要求する理由です。これにより、誰もがオリジナルの開発者と同じ権利とフォークの能力を持ち、イノベーションの好循環が始まります。 22 | 23 | しかし、トレーニング・データはソフトウェアのソースコードと同じではありません。トレーニング・データは、最新の機械学習システムを研究する上で重要です。ただし、AI の研究者や実践者が、トレーニング済みモデルに改変を加えるための推奨される形式の一部として必ず使用するものではありません。 24 | 25 | データ情報およびコードの要件により、第三者のAI開発者はオリジナルの開発者と同じ情報を使用し、下流でオープンソースAIシステムをフォークすることができます。これらのフォークには、完全に公開またはオープンデータで新しいオープンソースAIシステムをトレーニングするために、トレーニング・データセットから非公開または非オープンなデータを削除することが含まれます。 26 | 27 | ### 一部のトレーニング データを除外できるのは何故ですか? 28 | 29 | 何故なら、私たちは医療AIなど、データが合法的に共有できない分野にもオープンソースAIが存在することを望んでいるからです。データのトレーニングを許可する法律は、著作権やその他の利益を保護するために、同じデータの再共有を制限することがよくあります。プライバシーに関する規則も、健康に関する決定など個人の最も機密性の高い情報を管理する正当な権限を個人に与えるものです。同様に、世界の先住民族の知識の多くは、後に開発された独占的権利や共有の枠組みと互換性のないメカニズムによって保護されています。 30 | 31 | また、一般に公開されているデータの利用規約が、Aという存在に「自由に利用できる」という確証を与え、「オープンデータ」と呼ぶことを可能にしている場合でも、Aという存在が別の管轄区域においてBという存在に確証を与えることができるという保証を与えない場合も多くあります。一方、Bという存在は、自らの管轄区域でそのデータを使用することに確信がある場合もあれば、ない場合もあります。一例として、いわゆるパブリックドメインのデータにおいては、パブリックドメインの定義が国によって異なります。このような再共有は、限定的であるというよりも、[法的確実性を欠いている](https://opensource.org/blog/copyright-law-makes-a-case-for-requiring-data-information-rather-than-open-datasets-for-open-source-ai)といえます。 32 | 33 | 34 | ### どのようにしてこの結論に至ったのですか? これはオープンソースの理想を妥協するものでしょうか? 35 | 36 | OSAIDの共同設計プロセスにおいて、重みとデータの関係性がコミュニティの関与を最も促す結果となりました。「[システム分析](https://discuss.opensource.org/t/report-on-working-group-recommendations/247)」のフェーズでは、ボランティアグループは、トレーニング・データやテストデータにアクセスするよりも、トレーニング・コードやデータ処理コードを修正する方がAIシステムを変更する上でより重要であると示唆しました。その結果は「[検証フェーズ](https://discuss.opensource.org/t/initial-report-on-definition-validation/368)」でさらに検証され、オープンソースAIがプロプライエタリなシステムと対等の立場で存在できる道筋を示しました。つまり、両者は同じ[種類のデータ](#What-kind-of-data-should-be-required-in-the-Open-Source-AI-Definition)でトレーニングを行うことができるということです。 37 | 38 | 全てのトレーニングデータ([種類](#What-kind-of-data-should-be-required-in-the-Open-Source-AI-Definition)による区別なし)への完全かつ無制限のアクセスが最も重要であり、それ以下ではAIシステムの完全な再現性、透明性、安全性が損なわれると主張する一部の人々もいます。このアプローチでは、オープンソースAIはオープンデータのみでトレーニング可能なAIのニッチな分野に追いやられてしまいます([FAQ](#What-kind-of-data-should-be-required-in-the-Open-Source-AI-Definition)を参照)。そのニッチな分野は、従来のソフトウェアエコシステムにおけるオープンソースのニッチな分野と比較しても、非常に小さなものになるでしょう。データ情報に関する要件は、完全な再現性と透明性を義務づけるものではないが、それらを可能にする(つまり、[再現可能なビルド](https://reproducible-builds.org/))というオープンソースの定義に存在するアプローチを維持します。同時に、データ情報を必須とするベースラインを設定することは、[デジタル公共財標準](https://digitalpublicgoods.net/standard/)や[自由なシステム・ディストリビューションのガイドライン](https://www.gnu.org/distros/free-system-distribution-guidelines.html)がオープンソースの定義に要件を追加しているように、他者がより多くの要件を策定し、要求することを妨げるものではありません。 39 | 40 | OSIの使命の重要な側面のひとつは、オープンソースのイノベーションを推進し、促進することです。ここでOSIは採用するアプローチは、オープンソースAIにおける完全なユーザーの選択を可能にします。ユーザーは、トレーニング+データ前処理コードおよび共有不可のトレーニングデータの説明から得られた洞察を保持し、それらを自身の共有不可のデータを使用してそれらを構築し、さらにトレーニングから得られた洞察を全ての人に提供することで、ヘルスケアなどの分野におけるオープンソースAIを実現することができます。あるいは、ユーザーはデータ情報から入手可能な公開データを使用して、非共有データなしでモデルを再トレーニングし、その結果、AIシステムにおけるデータの透明性をより高めることができます。コピーレフトや寛容ライセンスと同様に、このアプローチではユーザーに選択が委ねられます。 41 | 42 | ### オープンソースAIの定義ではどのような種類のデータが必要でしょうか? 43 | 44 | 法的制約に基づいて、4つのデータのクラスに分類され、それらはオープンソースAIシステムのトレーニングに使用できます: 45 | 46 | * **オープンなトレーニングデータ**: 複製、保存、変更、再共有が可能なデータ。ユーザーがシステムを研究する上で最善の方法を提供します。これは共有する必要があります。 47 | * **公開トレーニングデータ**: 利用可能である限り、他のユーザーが検査できるデータ。これにより、ユーザーはその作業を研究することもできます。ただし、このデータは、ネットワーク上でリンクや参照が失われたり削除されたりすると劣化する可能性があります。これを回避するには、異なるコミュニティが協力して、このリスクを克服するための標準、手順、ツール、ガバナンスモデルを定義する必要があります。また、後にデータが利用できなくなった場合に備えて、データ情報が必要となります。これは、入手先の詳細を全て開示しなければなりません。 48 | * **入手可能なトレーニングデータ**: 有料のものも含め、入手可能なデータ。この情報は透明性を提供し、オープンハードウェアシステムにおける購入可能なコンポーネントに類似しています。データ情報は、このデータを入手または購入する以外の方法で理解する手段を提供します。これは急速に変化する可能性が高い領域であり、オープンソースAI開発者を保護するために注意深い監視が必要になります。これは、入手先の詳細を全て開示しなければなりません。 49 | * **共有不可の非公開トレーニングデータ**: 個人を特定できる情報(PII:Personally Identifiable Information)など、説明可能な理由により共有できないデータ。このクラスのデータについては、システムのバイアスの一部を研究する能力には、データの詳細な説明(それが何であるか、どのように収集されたか、その特性など)が求められるため、ユーザーはシステムの根底にあるバイアスや分類を理解することができます。この点について詳細を明らかにしなければならず。例えば、病院が独自の患者データを使用して、同じ構造のデータセットを作成できるようにするためなどです。 50 | 51 | OSIは、これらの全ての種類のデータが、AIシステムに推奨される改変を加えるための一部となり得ると考えています。このアプローチは、AIシステムの全てのコンポーネントにおけるオープン性を向上させ、ヘルスケアなどのプライベート優先の分野でのオープンソースAIをさらに推進します。 52 | 53 | ## 熟練者(skilled person)とは何ですか? 54 | 55 | 法律の世界では、熟練者(**Skilled Person**)とは、特定の職務を遂行するのに必要な最新の知識、経験、能力を有する人物を意味します。この[Wikipediaのエントリ](https://en.wikipedia.org/wiki/Person_having_ordinary_skill_in_the_art)(日本語版Wikipediaでは「当業者」のエントリとなるが、OSAID日本語訳では敢えて一般的な用語である熟練者を訳語として採用した)に詳細が記載されています。 56 | 57 | ## オープンソースAIの定義は、モデルや重み、パラメータも対象としているのでしょうか? 58 | 59 | はい。オープンソースAIの定義では、AIシステム、モデル、重みとパラメータと呼ばれるものを区別していません。オープンソースAIと呼ばれるためには、提供物がAIシステム、モデル、重みやパラメータのいずれの特徴を持つものであっても、改変を可能にする推奨される形式を提供するための要件は同じです。 60 | 61 | ## OSD第2条ではコンパイラを必須としていないのに、何故トレーニングコードが必要なのですか? 62 | 63 | AIとソフトウェアは根本的に異なる領域であり、両者を比較することはほとんど生産的ではありません。コンパイラが規則上(ANSI Cのような)または事実上(TurboPascalやPythonのような)の標準化がされているため、OSD第2条では、オープンソースのソフトウェアがOSI承認ライセンスでリリースされたコンパイラのみを使用することを義務付けていません。より多くのオープンソースソフトウェアを開発するには、プロプライエタリな開発環境の使用を受け入れることも可能であると一般的に受け入れられていました。機械学習の場合、トレーニングコードは標準化されていないため、AIシステムをフォークする権利を維持するために改変を加えるための推奨される形式の一部でなければなりません。 64 | 65 | ## オープンソースAIの定義では、安全性やリスクの制限について言及されていないのは何故ですか? 66 | 67 | オープンソースAIの定義は、倫理的、信頼性、または責任あるAI開発の実践を具体的に指導したり、強制したりするものではありません。しかし、開発者がそうすることを選択した場合に、そのような原則に従うことを妨げる障壁を設けるものではありません。適切な政府規制を含むAIシステムの責任ある開発、展開、使用について議論する取り組みは、別の問題です。良い出発点は、OECDの「人工知能に関する理事会勧告」の[第1章「信頼できるAIの責任ある管理のための原則」](https://legalinstruments.oecd.org/en/instruments/oecd-legal-0449)である 68 | 69 | ## モデルパラメータは著作権保護の対象となりますか? 70 | 71 | オープンソースAIの定義は、パラメータの法的性質についていかなる立場もとっていません。パラメータは、その性質上、自由であるかもしれないし、自由を保証するためにライセンスやその他の法的手段が必要となるかもしれない。法制度がこれらの問題に対処する機会が増えれば、時間の経過とともに明確になるものと期待しています。いずれにしても、パラメータの頒布には、それが全ての人に自由に利用可能であることを保証する明示的な表明が必要です。 72 | 73 | ## 「改変を加えるための推奨される形式」が機械学習に限定されているのは何故ですか? 74 | 75 | オープンソースAIの定義で述べられている原則は一般的にあらゆる種類のAIに適用できますが、オープンソースの定義に課題を投げかけているのは機械学習です。機械学習の場合、システムを研究し改変するために必要な一連の成果物(コンポーネント)があるため、システムを研究し改変するために何が必要かについて、新たな説明が必要となります。 76 | 77 | ## どのAIシステムがオープンソースAIの定義に準拠していますか? 78 | 79 | OSAIDの検証およびテストの一環として、ボランティアは、AIシステムが期待される自由を提供しているかどうかを評価する際に、この定義が使用できるかどうかを確認しました。検証フェーズに合格したモデルの一覧は次のとおりです:Pythia(Eleuther AI)、OLMo(AI2)、AmberおよびCrystalCoder(LLM360)、T5(Google)。分析済みでライセンスまたは法的条件を変更すればおそらく合格すると思われるもの:BLOOM(BigScience)、Starcoder2 (BigCode)、Falcon(TII)。分析済みで必要なコンポーネントが欠如しているか、または法的条件がオープンソースの原則と適合しないため不合格となったもの:Llama2(Meta)、Grok(X/Twitter)、Phi-2(Microsoft)、Mixtral(Mistral)。 80 | これらの結果は、定義作成プロセスの一部であり、学習の機会と見做すべきであり、いかなる種類の認証でもありません。OSIは、ソフトウェアのプロジェクトを検証またはレビューしないのと同様に法的文書のみを検証し続け、個々のAIシステムを検証またはレビューすることはありません。 81 | --------------------------------------------------------------------------------