├── .gitignore ├── 1_img_recog └── 1_4_build_env.ipynb ├── 2_img_basics ├── 2_1_img_load.ipynb ├── 2_2_smoothing_filter.ipynb ├── 2_3_convolution.ipynb └── 2_4_attention.ipynb ├── 3_dnn_prep └── 3_1_train_eval.ipynb ├── 4_classification ├── 4_1_fnn │ ├── 4_1_fnn.ipynb │ ├── transform.py │ └── util.py ├── 4_2_cnn │ ├── 4_2_cnn.ipynb │ ├── eval.py │ └── util.py ├── 4_3_transformer │ ├── 4_3_transformer.ipynb │ ├── eval.py │ └── util.py └── 4_4_technique │ ├── 4_4_technique.ipynb │ ├── eval.py │ ├── model.py │ └── util.py ├── 5_object_detection ├── 5_1_object_detection_basics.ipynb ├── 5_2_dataset.ipynb ├── 5_3_retinanet │ ├── 5_3_retinanet.ipynb │ ├── dataset.py │ ├── transform.py │ └── util.py ├── 5_4_detr │ ├── 5_4_detr.ipynb │ ├── dataset.py │ ├── model.py │ ├── transform.py │ └── util.py └── model │ ├── .gitattributes │ ├── detr.pth │ └── retinanet.pth ├── 6_img_captioning ├── 6_2_dataset.ipynb ├── 6_3_show_and_tell │ ├── 6_3_show_and_tell.ipynb │ └── util.py ├── 6_4_show_attend_and_tell │ ├── 6_4_show_attend_and_tell.ipynb │ └── util.py ├── 6_5_transformer_captioning │ ├── 6_5_transformer_captioning.ipynb │ ├── model.py │ └── util.py └── model │ └── best │ ├── .gitattributes │ ├── 6-3_decoder_best.pth │ ├── 6-3_encoder_best.pth │ ├── 6-4_decoder_best.pth │ ├── 6-4_encoder_best.pth │ ├── 6-5_decoder_best.pth │ ├── 6-5_encoder_best.pth │ ├── id_to_word.pkl │ └── word_to_id.pkl ├── LICENSE.txt ├── README.md ├── appendix └── a_pytorch.ipynb ├── data ├── apple.jpg ├── classification │ ├── airplane.jpg │ ├── automobile.jpg │ ├── bird.jpg │ ├── cat.jpg │ ├── deer.jpg │ ├── dog.jpg │ ├── frog.jpg │ ├── horse.jpg │ ├── ship.jpg │ └── truck.jpg ├── coco2014 │ └── instances_val2014_small.json ├── coffee.jpg ├── coffee_noise.jpg ├── cosmos.jpg ├── image_captioning │ ├── adorable-1849992_1920.jpg │ ├── africa-1170179_1920.jpg │ ├── airplane-3702676_1920.jpg │ ├── automotive-1846910_1920.jpg │ ├── beach-1837030_1920.jpg │ ├── caravan-339564_1920.jpg │ ├── cat-4467818_1920.jpg │ ├── cherry-1468933_1920.jpg │ ├── couple-955926_1280.jpg │ ├── dog-7367949_1920.jpg │ ├── hit-1407826_1920.jpg │ ├── man-498473_1920.jpg │ ├── musician-743973_1920.jpg │ ├── port-5788261_1920.jpg │ ├── profile-7579739_1920.jpg │ ├── ural-owl-4808774_1920.jpg │ ├── wine-bar-2139973_1920.jpg │ ├── woman-3432069_1920.jpg │ └── zebras-1883654_1920.jpg └── object_detection │ ├── image1.jpg │ ├── image2.jpg │ ├── image3.jpg │ └── image4.jpg └── software_version.ipynb /.gitignore: -------------------------------------------------------------------------------- 1 | __pycache__ 2 | data/coco2014/val2014.zip 3 | data/coco2014/captions_val2014.json 4 | *.csv 5 | *.txt 6 | 6_img_captioning/model/id_to_word.pkl 7 | 6_img_captioning/model/word_to_id.pkl 8 | 6_img_captioning/model/6-3_decoder_best.pth 9 | 6_img_captioning/model/6-3_encoder_best.pth 10 | 6_img_captioning/model/6-4_decoder_best.pth 11 | 6_img_captioning/model/6-4_encoder_best.pth 12 | 6_img_captioning/model/6-3_decoder_best.pth 13 | 6_img_captioning/model/6-3_encoder_best.pth 14 | 6_img_captioning/model/6-4_decoder_best.pth 15 | 6_img_captioning/model/6-4_encoder_best.pth 16 | 6_img_captioning/model/6-5_decoder_best.pth 17 | 6_img_captioning/model/6-5_encoder_best.pth 18 | -------------------------------------------------------------------------------- /1_img_recog/1_4_build_env.ipynb: -------------------------------------------------------------------------------- 1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[],"authorship_tag":"ABX9TyMkJrcf0ucSJDSbc5Tb3c+h"},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"},"accelerator":"GPU","gpuClass":"standard"},"cells":[{"cell_type":"markdown","source":["# Pythonで学ぶ画像認識 第1章 画像認識とは?\n","## 第1.4節 画像認識のための開発環境構築"],"metadata":{"id":"BIRrkAsCkGeK"}},{"cell_type":"markdown","source":["### 環境構築結果の確認"],"metadata":{"id":"ePktBg2wkpoh"}},{"cell_type":"code","execution_count":1,"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"9ppJ0VQukAlK","executionInfo":{"status":"ok","timestamp":1673041865440,"user_tz":480,"elapsed":8128,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"8b93cefd-d223-4072-fe62-830aabc836cb"},"outputs":[{"output_type":"stream","name":"stdout","text":["Hello world!\n","CPU tensor([1, 2, 3, 4])\n","GPU tensor([1, 2, 3, 4], device='cuda:0')\n"]}],"source":["import torch\n","\n","print('Hello world!')\n","\n","x = torch.tensor([1, 2, 3, 4])\n","print('CPU', x)\n","\n","x = x.to('cuda')\n","print('GPU', x)"]}]} -------------------------------------------------------------------------------- /2_img_basics/2_4_attention.ipynb: -------------------------------------------------------------------------------- 1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[]},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"},"accelerator":"GPU","gpuClass":"standard"},"cells":[{"cell_type":"markdown","source":["#Pythonで学ぶ画像認識 第2章 画像処理の基礎知識\n","## 第2.4節 注意機構を使った特徴抽出"],"metadata":{"id":"PJHqNyQ4oGxC"}},{"cell_type":"markdown","source":["### モジュールのインポートとGoogleドライブのマウント"],"metadata":{"id":"F2MvMRsypQZK"}},{"cell_type":"code","execution_count":1,"metadata":{"id":"FnniPmx2oCdT","colab":{"base_uri":"https://localhost:8080/"},"executionInfo":{"status":"ok","timestamp":1673796041991,"user_tz":-540,"elapsed":16857,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}},"outputId":"163cd00a-7102-4488-aaae-5b37a486044d"},"outputs":[{"output_type":"stream","name":"stdout","text":["Mounted at /content/drive\n"]}],"source":["from PIL import Image\n","import numpy as np\n","\n","# Googleドライブをマウント\n","from google.colab import drive\n","drive.mount('/content/drive')"]},{"cell_type":"markdown","source":["###特徴空間への射影"],"metadata":{"id":"PnUvhuWPxpom"}},{"cell_type":"code","source":["# 画像の読み込み\n","img = Image.open('drive/MyDrive/python_image_recognition/data/cosmos.jpg')\n","\n","# NumPyを使うため画像をNumPy配列に変換\n","img = np.asarray(img, dtype='float32')\n","\n","# 画像を特徴空間に射影\n","w = np.array([[ 0.0065, -0.0045, -0.0018, 0.0075,\n"," 0.0095, 0.0075, -0.0026, 0.0022],\n"," [-0.0065, 0.0081, 0.0097, -0.0070,\n"," -0.0086, -0.0107, 0.0062, -0.0050],\n"," [ 0.0024, -0.0018, 0.0002, 0.0023,\n"," 0.0017, 0.0021, -0.0017, 0.0016]])\n","features = np.matmul(img, w)"],"metadata":{"id":"2L-LJ93Gxs_n","executionInfo":{"status":"ok","timestamp":1673796079996,"user_tz":-540,"elapsed":702,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}}},"execution_count":2,"outputs":[]},{"cell_type":"markdown","source":["###アテンションの計算"],"metadata":{"id":"3ixn17doWGWv"}},{"cell_type":"code","source":["# アテンション計算用の特徴を画像から抽出\n","feature_white = features[50, 50]\n","feature_pink = features[200, 200]\n","\n","# アテンションの計算\n","atten_white = np.matmul(features, feature_white)\n","atten_pink = np.matmul(features, feature_pink)\n","\n","# ソフトマックスの計算\n","atten_white = np.exp(atten_white) / np.sum(np.exp(atten_white))\n","atten_pink = np.exp(atten_pink) / np.sum(np.exp(atten_pink))"],"metadata":{"id":"oEF_OH2VWOSK","executionInfo":{"status":"ok","timestamp":1673796083155,"user_tz":-540,"elapsed":408,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}}},"execution_count":3,"outputs":[]},{"cell_type":"markdown","source":["###注意の表示"],"metadata":{"id":"1BtIz0SRwlLJ"}},{"cell_type":"code","source":["# 表示用に最大・最小値で正規化\n","atten_white = (atten_white - np.amin(atten_white)) / \\\n"," (np.amax(atten_white) - np.amin(atten_white))\n","atten_pink = (atten_pink - np.amin(atten_pink)) / \\\n"," (np.amax(atten_pink) - np.amin(atten_pink))\n","\n","# NumPy配列をPIL画像に変換\n","img_atten_white = Image.fromarray(\n"," (atten_white * 255).astype('uint8'))\n","img_atten_pink = Image.fromarray(\n"," (atten_pink * 255).astype('uint8'))\n","\n","print('白のコスモスに対するアテンション')\n","display(img_atten_white)\n","print('ピンクのコスモスに対するアテンション')\n","display(img_atten_pink)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/","height":565},"id":"oi4qqFTnwvPa","executionInfo":{"status":"ok","timestamp":1673796086351,"user_tz":-540,"elapsed":435,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}},"outputId":"e9ce4348-becc-4087-993f-c8e909dd49e0"},"execution_count":4,"outputs":[{"output_type":"stream","name":"stdout","text":["白のコスモスに対するアテンション\n"]},{"output_type":"display_data","data":{"text/plain":[""],"image/png":"\n"},"metadata":{}},{"output_type":"stream","name":"stdout","text":["ピンクのコスモスに対するアテンション\n"]},{"output_type":"display_data","data":{"text/plain":[""],"image/png":"\n"},"metadata":{}}]}]} -------------------------------------------------------------------------------- /4_classification/4_1_fnn/transform.py: -------------------------------------------------------------------------------- 1 | from PIL import Image 2 | import numpy as np 3 | 4 | 5 | ''' 6 | img : 整形対象の画像 7 | channel_mean: 各次元のデータセット全体の平均, [入力次元] 8 | channel_std : 各次元のデータセット全体の標準偏差, [入力次元] 9 | ''' 10 | def transform(img: Image.Image, channel_mean: np.ndarray=None, 11 | channel_std: np.ndarray=None): 12 | # PIL to numpy array, PyTorchでの処理用に単精度少数を使用 13 | img = np.asarray(img, dtype='float32') 14 | 15 | # [32, 32, 3]の画像を3072次元のベクトルに平坦化 16 | x = img.flatten() 17 | 18 | # 各次元をデータセット全体の平均と標準偏差で正規化 19 | if channel_mean is not None and channel_std is not None: 20 | x = (x - channel_mean) / channel_std 21 | 22 | return x 23 | -------------------------------------------------------------------------------- /4_classification/4_1_fnn/util.py: -------------------------------------------------------------------------------- 1 | import random 2 | import numpy as np 3 | 4 | from torch.utils.data import Dataset 5 | 6 | 7 | ''' 8 | データセットを分割するための2つの排反なインデックス集合を生成する関数 9 | dataset : 分割対象のデータセット 10 | ratio : 1つ目のセットに含めるデータ量の割合 11 | random_seed: 分割結果を不変にするためのシード 12 | ''' 13 | def generate_subset(dataset: Dataset, ratio: float, 14 | random_seed: int=0): 15 | # サブセットの大きさを計算 16 | size = int(len(dataset) * ratio) 17 | 18 | indices = list(range(len(dataset))) 19 | 20 | # 二つのセットに分ける前にシャッフル 21 | random.seed(random_seed) 22 | random.shuffle(indices) 23 | 24 | # セット1とセット2のサンプルのインデックスに分割 25 | indices1, indices2 = indices[:size], indices[size:] 26 | 27 | return indices1, indices2 28 | 29 | 30 | ''' 31 | 各次元のデータセット全体の平均と標準偏差を計算する関数 32 | dataset: 平均と標準偏差を計算する対象のPyTorchのデータセット 33 | ''' 34 | def get_dataset_statistics(dataset: Dataset): 35 | data = [] 36 | for i in range(len(dataset)): 37 | # 3072次元のベクトルを取得 38 | img_flat = dataset[i][0] 39 | data.append(img_flat) 40 | # 第0軸を追加して第0軸でデータを連結 41 | data = np.stack(data) 42 | 43 | # データ全体の平均と標準偏差を計算 44 | channel_mean = np.mean(data, axis=0) 45 | channel_std = np.std(data, axis=0) 46 | 47 | return channel_mean, channel_std 48 | -------------------------------------------------------------------------------- /4_classification/4_2_cnn/eval.py: -------------------------------------------------------------------------------- 1 | from typing import Callable 2 | 3 | import torch 4 | from torch import nn 5 | from torch.utils.data import Dataset 6 | 7 | 8 | ''' 9 | data_loader: 評価に使うデータを読み込むデータローダ 10 | model : 評価対象のモデル 11 | loss_func : 目的関数 12 | ''' 13 | def evaluate(data_loader: Dataset, model: nn.Module, 14 | loss_func: Callable): 15 | model.eval() 16 | 17 | losses = [] 18 | preds = [] 19 | for x, y in data_loader: 20 | with torch.no_grad(): 21 | x = x.to(model.get_device()) 22 | y = y.to(model.get_device()) 23 | 24 | y_pred = model(x) 25 | 26 | losses.append(loss_func(y_pred, y, reduction='none')) 27 | preds.append(y_pred.argmax(dim=1) == y) 28 | 29 | loss = torch.cat(losses).mean() 30 | accuracy = torch.cat(preds).float().mean() 31 | 32 | return loss, accuracy 33 | -------------------------------------------------------------------------------- /4_classification/4_2_cnn/util.py: -------------------------------------------------------------------------------- 1 | import random 2 | import matplotlib.pyplot as plt 3 | from sklearn.manifold import TSNE 4 | 5 | import torch 6 | from torch import nn 7 | from torch.utils.data import Dataset 8 | 9 | 10 | ''' 11 | データセットを分割するための2つの排反なインデックス集合を生成する関数 12 | dataset : 分割対象のデータセット 13 | ratio : 1つ目のセットに含めるデータ量の割合 14 | random_seed: 分割結果を不変にするためのシード 15 | ''' 16 | def generate_subset(dataset: Dataset, ratio: float, 17 | random_seed: int=0): 18 | # サブセットの大きさを計算 19 | size = int(len(dataset) * ratio) 20 | 21 | indices = list(range(len(dataset))) 22 | 23 | # 二つのセットに分ける前にシャッフル 24 | random.seed(random_seed) 25 | random.shuffle(indices) 26 | 27 | # セット1とセット2のサンプルのインデックスに分割 28 | indices1, indices2 = indices[:size], indices[size:] 29 | 30 | return indices1, indices2 31 | 32 | 33 | ''' 34 | t-SNEのプロット関数 35 | data_loader: プロット対象のデータを読み込むデータローダ 36 | model : 特徴量抽出に使うモデル 37 | num_samples: t-SNEでプロットするサンプル数 38 | ''' 39 | def plot_t_sne(data_loader: Dataset, model: nn.Module, 40 | num_samples: int): 41 | model.eval() 42 | 43 | # t-SNEのためにデータを整形 44 | x = [] 45 | y = [] 46 | for imgs, labels in data_loader: 47 | with torch.no_grad(): 48 | imgs = imgs.to(model.get_device()) 49 | 50 | # 特徴量の抽出 51 | embeddings = model(imgs, return_embed=True) 52 | 53 | x.append(embeddings.to('cpu')) 54 | y.append(labels.clone()) 55 | 56 | x = torch.cat(x) 57 | y = torch.cat(y) 58 | 59 | # NumPy配列に変換 60 | x = x.numpy() 61 | y = y.numpy() 62 | 63 | # 指定サンプル数だけ抽出 64 | x = x[:num_samples] 65 | y = y[:num_samples] 66 | 67 | # t-SNEを適用 68 | t_sne = TSNE(n_components=2, random_state=0) 69 | x_reduced = t_sne.fit_transform(x) 70 | 71 | # 各ラベルの色とマーカーを設定 72 | cmap = plt.get_cmap("tab10") 73 | markers = ['4', '8', 's', 'p', '*', 'h', 'H', '+', 'x', 'D'] 74 | 75 | # データをプロット 76 | plt.figure(figsize=(20, 15)) 77 | for i, cls in enumerate(data_loader.dataset.classes): 78 | plt.scatter(x_reduced[y == i, 0], x_reduced[y == i, 1], 79 | c=[cmap(i / len(data_loader.dataset.classes))], 80 | marker=markers[i], s=500, alpha=0.6, label=cls) 81 | plt.axis('off') 82 | plt.legend(bbox_to_anchor=(1, 1), fontsize=24, framealpha=0) 83 | plt.show() 84 | -------------------------------------------------------------------------------- /4_classification/4_3_transformer/eval.py: -------------------------------------------------------------------------------- 1 | from typing import Callable 2 | 3 | import torch 4 | from torch import nn 5 | from torch.utils.data import Dataset 6 | 7 | 8 | ''' 9 | data_loader: 評価に使うデータを読み込むデータローダ 10 | model : 評価対象のモデル 11 | loss_func : 目的関数 12 | ''' 13 | def evaluate(data_loader: Dataset, model: nn.Module, 14 | loss_func: Callable): 15 | model.eval() 16 | 17 | losses = [] 18 | preds = [] 19 | for x, y in data_loader: 20 | with torch.no_grad(): 21 | x = x.to(model.get_device()) 22 | y = y.to(model.get_device()) 23 | 24 | y_pred = model(x) 25 | 26 | losses.append(loss_func(y_pred, y, reduction='none')) 27 | preds.append(y_pred.argmax(dim=1) == y) 28 | 29 | loss = torch.cat(losses).mean() 30 | accuracy = torch.cat(preds).float().mean() 31 | 32 | return loss, accuracy 33 | -------------------------------------------------------------------------------- /4_classification/4_3_transformer/util.py: -------------------------------------------------------------------------------- 1 | import random 2 | import matplotlib.pyplot as plt 3 | from sklearn.manifold import TSNE 4 | 5 | import torch 6 | from torch import nn 7 | from torch.utils.data import Dataset 8 | 9 | 10 | ''' 11 | データセットを分割するための2つの排反なインデックス集合を生成する関数 12 | dataset : 分割対象のデータセット 13 | ratio : 1つ目のセットに含めるデータ量の割合 14 | random_seed: 分割結果を不変にするためのシード 15 | ''' 16 | def generate_subset(dataset: Dataset, ratio: float, 17 | random_seed: int=0): 18 | # サブセットの大きさを計算 19 | size = int(len(dataset) * ratio) 20 | 21 | indices = list(range(len(dataset))) 22 | 23 | # 二つのセットに分ける前にシャッフル 24 | random.seed(random_seed) 25 | random.shuffle(indices) 26 | 27 | # セット1とセット2のサンプルのインデックスに分割 28 | indices1, indices2 = indices[:size], indices[size:] 29 | 30 | return indices1, indices2 31 | 32 | 33 | ''' 34 | 各チャネルのデータセット全体の平均と標準偏差を計算する関数 35 | dataset: 平均と標準偏差を計算する対象のPyTorchのデータセット 36 | ''' 37 | def get_dataset_statistics(dataset: Dataset): 38 | data = [] 39 | for i in range(len(dataset)): 40 | # [チャネル数, 高さ, 幅]の画像を取得 41 | img = dataset[i][0] 42 | data.append(img) 43 | data = torch.stack(data) 44 | 45 | # 各チャネルの平均と標準偏差を計算 46 | channel_mean = data.mean(dim=(0, 2, 3)) 47 | channel_std = data.std(dim=(0, 2, 3)) 48 | 49 | return channel_mean, channel_std 50 | 51 | 52 | ''' 53 | t-SNEのプロット関数 54 | data_loader: プロット対象のデータを読み込むデータローダ 55 | model : 特徴量抽出に使うモデル 56 | num_samples: t-SNEでプロットするサンプル数 57 | ''' 58 | def plot_t_sne(data_loader: Dataset, model: nn.Module, 59 | num_samples: int): 60 | model.eval() 61 | 62 | # t-SNEのためにデータを整形 63 | x = [] 64 | y = [] 65 | for imgs, labels in data_loader: 66 | with torch.no_grad(): 67 | imgs = imgs.to(model.get_device()) 68 | 69 | # 特徴量の抽出 70 | embeddings = model(imgs, return_embed=True) 71 | 72 | x.append(embeddings.to('cpu')) 73 | y.append(labels.clone()) 74 | 75 | x = torch.cat(x) 76 | y = torch.cat(y) 77 | 78 | # NumPy配列に変換 79 | x = x.numpy() 80 | y = y.numpy() 81 | 82 | # 指定サンプル数だけ抽出 83 | x = x[:num_samples] 84 | y = y[:num_samples] 85 | 86 | # t-SNEを適用 87 | t_sne = TSNE(n_components=2, random_state=0) 88 | x_reduced = t_sne.fit_transform(x) 89 | 90 | # 各ラベルの色とマーカーを設定 91 | cmap = plt.get_cmap("tab10") 92 | markers = ['4', '8', 's', 'p', '*', 'h', 'H', '+', 'x', 'D'] 93 | 94 | # データをプロット 95 | plt.figure(figsize=(20, 15)) 96 | for i, cls in enumerate(data_loader.dataset.classes): 97 | plt.scatter(x_reduced[y == i, 0], x_reduced[y == i, 1], 98 | c=[cmap(i / len(data_loader.dataset.classes))], 99 | marker=markers[i], s=500, alpha=0.6, label=cls) 100 | plt.axis('off') 101 | plt.legend(bbox_to_anchor=(1, 1), fontsize=24, framealpha=0) 102 | plt.show() 103 | -------------------------------------------------------------------------------- /4_classification/4_4_technique/eval.py: -------------------------------------------------------------------------------- 1 | from typing import Callable 2 | 3 | import torch 4 | from torch import nn 5 | from torch.utils.data import Dataset 6 | 7 | 8 | ''' 9 | data_loader: 評価に使うデータを読み込むデータローダ 10 | model : 評価対象のモデル 11 | loss_func : 目的関数 12 | ''' 13 | def evaluate(data_loader: Dataset, model: nn.Module, 14 | loss_func: Callable): 15 | model.eval() 16 | 17 | losses = [] 18 | preds = [] 19 | for x, y in data_loader: 20 | with torch.no_grad(): 21 | x = x.to(model.get_device()) 22 | y = y.to(model.get_device()) 23 | 24 | y_pred = model(x) 25 | 26 | losses.append(loss_func(y_pred, y, reduction='none')) 27 | preds.append(y_pred.argmax(dim=1) == y) 28 | 29 | loss = torch.cat(losses).mean() 30 | accuracy = torch.cat(preds).float().mean() 31 | 32 | return loss, accuracy 33 | -------------------------------------------------------------------------------- /4_classification/4_4_technique/model.py: -------------------------------------------------------------------------------- 1 | import torch 2 | from torch import nn 3 | 4 | 5 | class BasicBlock(nn.Module): 6 | ''' 7 | ResNet18における残差ブロック 8 | in_channels : 入力チャネル数 9 | out_channels: 出力チャネル数 10 | stride : 畳み込み層のストライド 11 | ''' 12 | def __init__(self, in_channels: int, out_channels: int, 13 | stride: int=1): 14 | super().__init__() 15 | 16 | ''''' 残差接続 ''''' 17 | self.conv1 = nn.Conv2d(in_channels, out_channels, 18 | kernel_size=3, stride=stride, 19 | padding=1, bias=False) 20 | self.bn1 = nn.BatchNorm2d(out_channels) 21 | self.conv2 = nn.Conv2d(out_channels, out_channels, 22 | kernel_size=3, padding=1, bias=False) 23 | self.bn2 = nn.BatchNorm2d(out_channels) 24 | self.relu = nn.ReLU(inplace=True) 25 | '''''''''''''''''''' 26 | 27 | # strideが1より大きいときにスキップ接続と残差接続の高さと幅を 28 | # 合わせるため、別途畳み込み演算を用意 29 | self.downsample = None 30 | if stride > 1: 31 | self.downsample = nn.Sequential( 32 | nn.Conv2d(in_channels, out_channels, kernel_size=1, 33 | stride=stride, bias=False), 34 | nn.BatchNorm2d(out_channels) 35 | ) 36 | 37 | ''' 38 | 順伝播関数 39 | x: 入力, [バッチサイズ, 入力チャネル数, 高さ, 幅] 40 | ''' 41 | def forward(self, x: torch.Tensor): 42 | ''''' 残差接続 ''''' 43 | out = self.conv1(x) 44 | out = self.bn1(out) 45 | out = self.relu(out) 46 | out = self.conv2(out) 47 | out = self.bn2(out) 48 | '''''''''''''''''''' 49 | 50 | if self.downsample is not None: 51 | x = self.downsample(x) 52 | 53 | # 残差写像と恒等写像の要素毎の和を計算 54 | out += x 55 | 56 | out = self.relu(out) 57 | 58 | return out 59 | -------------------------------------------------------------------------------- /4_classification/4_4_technique/util.py: -------------------------------------------------------------------------------- 1 | import random 2 | import matplotlib.pyplot as plt 3 | from sklearn.manifold import TSNE 4 | 5 | import torch 6 | from torch import nn 7 | from torch.utils.data import Dataset 8 | 9 | 10 | ''' 11 | データセットを分割するための2つの排反なインデックス集合を生成する関数 12 | dataset : 分割対象のデータセット 13 | ratio : 1つ目のセットに含めるデータ量の割合 14 | random_seed: 分割結果を不変にするためのシード 15 | ''' 16 | def generate_subset(dataset: Dataset, ratio: float, 17 | random_seed: int=0): 18 | # サブセットの大きさを計算 19 | size = int(len(dataset) * ratio) 20 | 21 | indices = list(range(len(dataset))) 22 | 23 | # 二つのセットに分ける前にシャッフル 24 | random.seed(random_seed) 25 | random.shuffle(indices) 26 | 27 | # セット1とセット2のサンプルのインデックスに分割 28 | indices1, indices2 = indices[:size], indices[size:] 29 | 30 | return indices1, indices2 31 | 32 | 33 | ''' 34 | 各チャネルのデータセット全体の平均と標準偏差を計算する関数 35 | dataset: 平均と標準偏差を計算する対象のPyTorchのデータセット 36 | ''' 37 | def get_dataset_statistics(dataset: Dataset): 38 | data = [] 39 | for i in range(len(dataset)): 40 | # [チャネル数, 高さ, 幅]の画像を取得 41 | img = dataset[i][0] 42 | data.append(img) 43 | data = torch.stack(data) 44 | 45 | # 各チャネルの平均と標準偏差を計算 46 | channel_mean = data.mean(dim=(0, 2, 3)) 47 | channel_std = data.std(dim=(0, 2, 3)) 48 | 49 | return channel_mean, channel_std 50 | 51 | 52 | ''' 53 | t-SNEのプロット関数 54 | data_loader: プロット対象のデータを読み込むデータローダ 55 | model : 特徴量抽出に使うモデル 56 | num_samples: t-SNEでプロットするサンプル数 57 | ''' 58 | def plot_t_sne(data_loader: Dataset, model: nn.Module, 59 | num_samples: int): 60 | model.eval() 61 | 62 | # t-SNEのためにデータを整形 63 | x = [] 64 | y = [] 65 | for imgs, labels in data_loader: 66 | with torch.no_grad(): 67 | imgs = imgs.to(model.get_device()) 68 | 69 | # 特徴量の抽出 70 | embeddings = model(imgs, return_embed=True) 71 | 72 | x.append(embeddings.to('cpu')) 73 | y.append(labels.clone()) 74 | 75 | x = torch.cat(x) 76 | y = torch.cat(y) 77 | 78 | # NumPy配列に変換 79 | x = x.numpy() 80 | y = y.numpy() 81 | 82 | # 指定サンプル数だけ抽出 83 | x = x[:num_samples] 84 | y = y[:num_samples] 85 | 86 | # t-SNEを適用 87 | t_sne = TSNE(n_components=2, random_state=0) 88 | x_reduced = t_sne.fit_transform(x) 89 | 90 | # 各ラベルの色とマーカーを設定 91 | cmap = plt.get_cmap("tab10") 92 | markers = ['4', '8', 's', 'p', '*', 'h', 'H', '+', 'x', 'D'] 93 | 94 | # データをプロット 95 | plt.figure(figsize=(20, 15)) 96 | for i, cls in enumerate(data_loader.dataset.classes): 97 | plt.scatter(x_reduced[y == i, 0], x_reduced[y == i, 1], 98 | c=[cmap(i / len(data_loader.dataset.classes))], 99 | marker=markers[i], s=500, alpha=0.6, label=cls) 100 | plt.axis('off') 101 | plt.legend(bbox_to_anchor=(1, 1), fontsize=24, framealpha=0) 102 | plt.show() 103 | -------------------------------------------------------------------------------- /5_object_detection/5_1_object_detection_basics.ipynb: -------------------------------------------------------------------------------- 1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[],"mount_file_id":"1RF8xXYnvOx0RIK0LxkgnvvlSU2w7MaZB","authorship_tag":"ABX9TyM7LnUMWQDOpd7IZ9s5WRDz"},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"},"gpuClass":"premium"},"cells":[{"cell_type":"markdown","source":["#Pythonで学ぶ画像認識 第5章 画像分類\n","##第5.1節 物体検出の基礎"],"metadata":{"id":"8pGi7CLCXU01"}},{"cell_type":"markdown","source":["###モジュールのインポート"],"metadata":{"id":"Ye6RlSk6XffT"}},{"cell_type":"code","execution_count":1,"metadata":{"id":"-T2qBvOoXIol","executionInfo":{"status":"ok","timestamp":1673049994947,"user_tz":480,"elapsed":4258,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}}},"outputs":[],"source":["import torch"]},{"cell_type":"markdown","source":["###外接矩形の表現方法を変換する関数"],"metadata":{"id":"qpiTy4fWXlHq"}},{"cell_type":"code","source":["'''\n","矩形をxmin, ymin, xmax, ymaxからx, y, width, heightに変換する関数\n","boxes: 矩形集合, [矩形数 (任意の軸数), 4 (xmin, ymin, xmax, ymax)]\n","'''\n","def convert_to_xywh(boxes: torch.Tensor):\n"," wh = boxes[..., 2:] - boxes[..., :2]\n"," xy = boxes[..., :2] + wh / 2\n"," boxes = torch.cat((xy, wh), dim=-1)\n","\n"," return boxes\n","\n","'''\n","矩形をx, y, width, heightからxmin, ymin, xmax, ymaxに変換\n","boxes: 外接集合, [矩形数 (任意の軸数), 4 (x, y, width, height)]\n","'''\n","def convert_to_xyxy(boxes: torch.Tensor):\n"," xymin = boxes[..., :2] - boxes[..., 2:] / 2\n"," xymax = boxes[..., 2:] + xymin\n"," boxes = torch.cat((xymin, xymax), dim=-1)\n","\n"," return boxes"],"metadata":{"id":"oL0CWEFKXoNB","executionInfo":{"status":"ok","timestamp":1673049997362,"user_tz":480,"elapsed":189,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}}},"execution_count":2,"outputs":[]},{"cell_type":"markdown","source":["###IoUを計算する関数"],"metadata":{"id":"dpjp9i_U6Qxr"}},{"cell_type":"code","source":["'''\n","boxes1: 矩形集合, [矩形数, 4 (xmin, ymin, xmax, ymax)]\n","boxes2: 矩形集合, [矩形数, 4 (xmin, ymin, xmax, ymax)]\n","'''\n","def calc_iou(boxes1: torch.Tensor, boxes2: torch.Tensor):\n"," # 第1軸をunsqueezeし、ブロードキャストを利用することで\n"," # [矩形数, 1, 2] と[矩形数, 2]の演算結果が\n"," # [boxes1の矩形数, boxes2の矩形数, 2] となる\n"," \n"," # 積集合の左上の座標を取得\n"," intersect_left_top = torch.maximum(\n"," boxes1[:, :2].unsqueeze(1), boxes2[:, :2])\n"," # 積集合の右下の座標を取得\n"," intersect_right_bottom = torch.minimum(\n"," boxes1[:, 2:].unsqueeze(1), boxes2[:, 2:])\n","\n"," # 積集合の幅と高さを算出し、面積を計算\n"," intersect_width_height = (\n"," intersect_right_bottom - intersect_left_top).clamp(min=0)\n"," intersect_areas = intersect_width_height.prod(dim=2)\n","\n"," # それぞれの矩形の面積を計算\n"," areas1 = (boxes1[:, 2] - boxes1[:, 0]) * \\\n"," (boxes1[:, 3] - boxes1[:, 1])\n"," areas2 = (boxes2[:, 2] - boxes2[:, 0]) * \\\n"," (boxes2[:, 3] - boxes2[:, 1])\n","\n"," # 和集合の面積を計算\n"," union_areas = areas1.unsqueeze(1) + areas2 - intersect_areas\n","\n"," ious = intersect_areas / union_areas\n","\n"," return ious, union_areas"],"metadata":{"id":"jckB6g-Z6UWA","executionInfo":{"status":"ok","timestamp":1673050000307,"user_tz":480,"elapsed":186,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}}},"execution_count":3,"outputs":[]}]} -------------------------------------------------------------------------------- /5_object_detection/5_2_dataset.ipynb: -------------------------------------------------------------------------------- 1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[],"authorship_tag":"ABX9TyNJEA3Ap62BI7hQMCy7ubOe"},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"}},"cells":[{"cell_type":"markdown","source":["#Pythonで学ぶ画像認識 第5章 画像分類\n","##第5.2節 データセットの準備"],"metadata":{"id":"DjLIh1ZEV3UD"}},{"cell_type":"markdown","source":["###モジュールのインポート"],"metadata":{"id":"jKbIqBVPWpR-"}},{"cell_type":"code","source":["import random\n","import numpy as np\n","from PIL import Image\n","from typing import Sequence, Callable\n","\n","import torch\n","import torchvision\n","import torchvision.transforms as T\n","import torchvision.transforms.functional as F"],"metadata":{"id":"aFpcGXs2WrZa"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["###物体検出用COCOデータセットを扱うCocoDetectionクラス"],"metadata":{"id":"IFSVkl3o8sQS"}},{"cell_type":"code","source":["class CocoDetection(torchvision.datasets.CocoDetection):\n"," '''\n"," 物体検出用COCOデータセット読み込みクラス\n"," img_directory: 画像ファイルが保存されてるディレクトリへのパス\n"," anno_file : アノテーションファイルのパス\n"," transform : データ拡張と整形を行うクラスインスタンス\n"," '''\n"," def __init__(self, img_directory: str, anno_file: str,\n"," transform: Callable=None):\n"," super().__init__(img_directory, anno_file)\n","\n"," self.transform = transform\n","\n"," # カテゴリーIDに欠番があるため、それを埋めてクラスIDを割り当て\n"," self.classes = []\n"," # 元々のクラスIDと新しく割り当てたクラスIDを相互に変換する\n"," # ためのマッピングを保持\n"," self.coco_to_pred = {}\n"," self.pred_to_coco = {}\n"," for i, category_id in enumerate(\n"," sorted(self.coco.cats.keys())):\n"," self.classes.append(self.coco.cats[category_id]['name'])\n"," self.coco_to_pred[category_id] = i\n"," self.pred_to_coco[i] = category_id\n","\n"," '''\n"," データ取得関数\n"," idx: サンプルを指すインデックス\n"," '''\n"," def __getitem__(self, idx: int):\n"," img, target = super().__getitem__(idx)\n","\n"," # 親クラスのコンストラクタでself.idsに画像IDが\n"," # 格納されているのでそれを取得\n"," img_id = self.ids[idx]\n","\n"," # 物体の集合を一つの矩形でアノテーションしているものを除外\n"," target = [obj for obj in target\n"," if 'iscrowd' not in obj or obj['iscrowd'] == 0]\n","\n"," # 学習用に当該画像に映る物体のクラスIDと矩形を取得\n"," # クラスIDはコンストラクタで新規に割り当てたIDに変換\n"," classes = torch.tensor([self.coco_to_pred[obj['category_id']]\n"," for obj in target], dtype=torch.int64)\n"," boxes = torch.tensor([obj['bbox'] for obj in target],\n"," dtype=torch.float32)\n","\n"," # 矩形が0個のとき、boxes.shape == [0]となってしまうため、\n"," # 第1軸に4を追加して軸数と第2軸の次元を合わせる\n"," if boxes.shape[0] == 0:\n"," boxes = torch.zeros((0, 4))\n","\n"," width, height = img.size\n"," # xmin, ymin, width, height -> xmin, ymin, xmax, ymax\n"," boxes[:, 2:] += boxes[:, :2]\n","\n"," # 矩形が画像領域内に収まるように値をクリップ\n"," boxes[:, ::2] = boxes[:, ::2].clamp(min=0, max=width)\n"," boxes[:, 1::2] = boxes[:, 1::2].clamp(min=0, max=height)\n","\n"," # 学習のための正解データを用意\n"," # クラスIDや矩形など渡すものが多岐にわたるため、辞書で用意\n"," target = {\n"," 'image_id': torch.tensor(img_id, dtype=torch.int64),\n"," 'classes': classes,\n"," 'boxes': boxes,\n"," 'size': torch.tensor((width, height), dtype=torch.int64),\n"," 'orig_size': torch.tensor((width, height),\n"," dtype=torch.int64),\n"," 'orig_img': torch.tensor(np.asarray(img))\n"," }\n","\n"," # データ拡張と整形\n"," if self.transform is not None:\n"," img, target = self.transform(img, target)\n","\n"," return img, target\n","\n"," '''\n"," モデルで予測されたクラスIDからCOCOのクラスIDに変換する関数\n"," label: 予測されたクラスID\n"," '''\n"," def to_coco_label(self, label: int):\n"," return self.pred_to_coco[label]"],"metadata":{"id":"L7q0Ov4T8x2E"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["###無作為に画像を水平反転するクラス"],"metadata":{"id":"ZrXXSpiJ-2I2"}},{"cell_type":"code","source":["class RandomHorizontalFlip:\n"," '''\n"," 無作為に画像を水平反転するクラス\n"," prob: 水平反転する確率\n"," '''\n"," def __init__(self, prob: float=0.5):\n"," self.prob = prob\n","\n"," '''\n"," 無作為に画像を水平反転する関数\n"," img : 水平反転する画像\n"," target: 物体検出用のラベルを持つ辞書\n"," '''\n"," def __call__(self, img: Image, target: dict):\n"," if random.random() < self.prob:\n"," # 画像の水平反転\n"," img = F.hflip(img)\n","\n"," # 正解矩形をx軸方向に反転\n"," # xmin, xmaxは水平反転すると大小が逆転し、\n"," # width - xmax, width - xminとなる\n"," width = img.size[0]\n"," target['boxes'][:, [0, 2]] = width - \\\n"," target['boxes'][:, [2, 0]]\n","\n"," return img, target"],"metadata":{"id":"LNwH1Ztw-5ym"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["###無作為に画像を切り抜くクラス"],"metadata":{"id":"36KyArnm_rMw"}},{"cell_type":"code","source":["class RandomSizeCrop:\n"," '''\n"," 無作為に画像を切り抜くクラス\n"," scale: 切り抜き前に対する切り抜き後の画像面積の下限と上限\n"," ratio: 切り抜き後の画像のアスペクト比の下限と上限\n"," '''\n"," def __init__(self, scale: Sequence[float],\n"," ratio: Sequence[float]):\n"," self.scale = scale\n"," self.ratio = ratio\n","\n"," '''\n"," 無作為に画像を切り抜く関数\n"," img : 切り抜きをする画像\n"," target: 物体検出用のラベルを持つ辞書\n"," '''\n"," def __call__(self, img: Image, target: dict):\n"," width, height = img.size\n","\n"," # 切り抜く領域の左上の座標と幅および高さを取得\n"," # 切り抜く領域はscaleとratioの下限と上限に従う\n"," top, left, cropped_height, cropped_width = \\\n"," T.RandomResizedCrop.get_params(\n"," img, self.scale, self.ratio)\n","\n"," # 左上の座標と幅および高さで指定した領域を切り抜き\n"," img = F.crop(img, top, left, cropped_height, cropped_width)\n","\n"," # 原点がx = left, y = topに移動し、合わせて矩形の座標も移動\n"," target['boxes'][:, ::2] -= left\n"," target['boxes'][:, 1::2] -= top\n","\n"," # 矩形の座標が切り抜き後に領域外に出る場合は座標をクリップ\n"," target['boxes'][:, ::2] = \\\n"," target['boxes'][:, ::2].clamp(min=0)\n"," target['boxes'][:, 1::2] = \\\n"," target['boxes'][:, 1::2].clamp(min=0)\n"," target['boxes'][:, ::2] = \\\n"," target['boxes'][:, ::2].clamp(max=cropped_width)\n"," target['boxes'][:, 1::2] = \\\n"," target['boxes'][:, 1::2].clamp(max=cropped_height)\n","\n"," # 幅と高さが0より大きくなる(矩形の面積が0でない)矩形のみ保持\n"," keep = (target['boxes'][:, 2] > target['boxes'][:, 0]) & \\\n"," (target['boxes'][:, 3] > target['boxes'][:, 1])\n"," target['classes'] = target['classes'][keep]\n"," target['boxes'] = target['boxes'][keep]\n","\n"," # 切り抜き後の画像の大きさを保持\n"," target['size'] = torch.tensor(\n"," [cropped_width, cropped_height], dtype=torch.int64)\n","\n"," return img, target"],"metadata":{"id":"TKYc2IUr_ulN"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["###無作為に画像をリサイズするクラス"],"metadata":{"id":"EcyzJYyuAwHf"}},{"cell_type":"code","source":["class RandomResize:\n"," '''\n"," 無作為に画像をアスペクト比を保持してリサイズするクラス\n"," min_sizes: 短辺の長さの候補、この中から無作為に長さを抽出\n"," max_size : 長辺の長さの最大値\n"," '''\n"," def __init__(self, min_sizes: Sequence[int], max_size: int):\n"," self.min_sizes = min_sizes\n"," self.max_size = max_size\n","\n"," '''\n"," リサイズ後の短辺と長辺を計算する関数\n"," min_side: 短辺の長さ\n"," max_side: 長辺の長さ\n"," target : 目標となる短辺の長さ\n"," '''\n"," def _get_target_size(self, min_side: int, max_side:int,\n"," target: int):\n"," # アスペクト比を保持して短辺をtargetに合わせる\n"," max_side = int(max_side * target / min_side)\n"," min_side = target\n","\n"," # 長辺がmax_sizeを超えている場合、\n"," # アスペクト比を保持して長辺をmax_sizeに合わせる\n"," if max_side > self.max_size:\n"," min_side = int(min_side * self.max_size / max_side)\n"," max_side = self.max_size\n","\n"," return min_side, max_side\n","\n"," '''\n"," 無作為に画像をリサイズする関数\n"," img : リサイズする画像\n"," target: 物体検出用のラベルを持つ辞書\n"," '''\n"," def __call__(self, img: Image, target: dict):\n"," # 短辺の長さを候補の中から無作為に抽出\n"," min_size = random.choice(self.min_sizes)\n","\n"," width, height = img.size\n","\n"," # リサイズ後の大きさを取得\n"," # 幅と高さのどちらが短辺であるかで場合分け\n"," if width < height:\n"," resized_width, resized_height = self._get_target_size(\n"," width, height, min_size)\n"," else:\n"," resized_height, resized_width = self._get_target_size(\n"," height, width, min_size)\n","\n"," # 指定した大きさに画像をリサイズ\n"," img = F.resize(img, (resized_height, resized_width))\n","\n"," # 正解矩形をリサイズ前後のスケールに合わせて変更\n"," ratio = resized_width / width\n"," target['boxes'] *= ratio\n","\n"," # リサイズ後の画像の大きさを保持\n"," target['size'] = torch.tensor(\n"," [resized_width, resized_height], dtype=torch.int64)\n","\n"," return img, target"],"metadata":{"id":"R8NnhNStAwP9"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["###PIL画像をテンソルに変換するクラス"],"metadata":{"id":"lO8NX061BvQu"}},{"cell_type":"code","source":["class ToTensor:\n"," '''\n"," PIL画像をテンソルに変換する関数\n"," img : テンソルに変換する画像\n"," target: 物体検出用のラベルを持つ辞書\n"," '''\n"," def __call__(self, img: Image, target: dict):\n"," img = F.to_tensor(img)\n","\n"," return img, target"],"metadata":{"id":"RTqRQrXXByPR"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["###画像を標準化するクラス"],"metadata":{"id":"w-EAGmbbCEpJ"}},{"cell_type":"code","source":["class Normalize:\n"," '''\n"," 画像を標準化するクラス\n"," mean: R, G, Bチャネルそれぞれの平均値\n"," std : R, G, Bチャネルそれぞれの標準偏差\n"," '''\n"," def __init__(self, mean: Sequence[float], std: Sequence[float]):\n"," self.mean = mean\n"," self.std = std\n","\n"," '''\n"," 画像を標準化する関数\n"," img : 標準化する画像\n"," target: 物体検出用のラベルを持つ辞書\n"," '''\n"," def __call__(self, img: torch.Tensor, target: dict):\n"," img = F.normalize(img, mean=self.mean, std=self.std)\n","\n"," return img, target"],"metadata":{"id":"rfHi21e9CG3a"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["###データ整形・拡張をまとめるクラス"],"metadata":{"id":"8JdeTcxyCycQ"}},{"cell_type":"code","source":["class Compose:\n"," '''\n"," データ整形・拡張をまとめて適用するためのクラス\n"," transforms: データ整形・拡張のクラスインスタンスのシーケンス\n"," '''\n"," def __init__(self, transforms: Sequence[Callable]):\n"," self.transforms = transforms\n","\n"," '''\n"," データ整形・拡張を連続して適用する関数\n"," img : データ整形・拡張する画像\n"," target: 物体検出用のラベルを持つ辞書\n"," '''\n"," def __call__(self, img: Image, target: dict):\n"," for transform in self.transforms:\n"," img, target = transform(img, target)\n","\n"," return img, target"],"metadata":{"id":"DirPK2mNC2K-"},"execution_count":null,"outputs":[]},{"cell_type":"markdown","source":["###2つのデータ拡張から無作為にどちらかを選択して適用する関数"],"metadata":{"id":"UTy9XBvxD0Av"}},{"cell_type":"code","source":["class RandomSelect:\n"," '''\n"," 2種類のデータ拡張を受け取り、無作為にどちらかを適用するクラス\n"," transform1: データ拡張1\n"," transform2: データ拡張2\n"," prob : データ拡張1が適用される確率\n"," '''\n"," def __init__(self, transform1: Callable, transform2: Callable,\n"," prob: float=0.5):\n"," self.transform1 = transform1\n"," self.transform2 = transform2\n"," self.prob = prob\n","\n"," '''\n"," データ拡張を無作為に選択して適用する関数\n"," img : データ整形・拡張する画像\n"," target: 物体検出用のラベルを持つ辞書\n"," '''\n"," def __call__(self, img: Image, target: dict):\n"," if random.random() < self.prob:\n"," return self.transform1(img, target)\n","\n"," return self.transform2(img, target)"],"metadata":{"id":"i5APzNHuD0k1"},"execution_count":null,"outputs":[]}]} -------------------------------------------------------------------------------- /5_object_detection/5_3_retinanet/dataset.py: -------------------------------------------------------------------------------- 1 | import numpy as np 2 | from typing import Callable 3 | 4 | import torch 5 | import torchvision 6 | 7 | 8 | class CocoDetection(torchvision.datasets.CocoDetection): 9 | ''' 10 | 物体検出用COCOデータセット読み込みクラス 11 | img_directory: 画像ファイルが保存されてるディレクトリへのパス 12 | anno_file : アノテーションファイルのパス 13 | transform : データ拡張と整形を行うクラスインスタンス 14 | ''' 15 | def __init__(self, img_directory: str, anno_file: str, 16 | transform: Callable=None): 17 | super().__init__(img_directory, anno_file) 18 | 19 | self.transform = transform 20 | 21 | # カテゴリーIDに欠番があるため、それを埋めてクラスIDを割り当て 22 | self.classes = [] 23 | # 元々のクラスIDと新しく割り当てたクラスIDを相互に変換する 24 | # ためのマッピングを保持 25 | self.coco_to_pred = {} 26 | self.pred_to_coco = {} 27 | for i, category_id in enumerate( 28 | sorted(self.coco.cats.keys())): 29 | self.classes.append(self.coco.cats[category_id]['name']) 30 | self.coco_to_pred[category_id] = i 31 | self.pred_to_coco[i] = category_id 32 | 33 | ''' 34 | データ取得関数 35 | idx: サンプルを指すインデックス 36 | ''' 37 | def __getitem__(self, idx: int): 38 | img, target = super().__getitem__(idx) 39 | 40 | # 親クラスのコンストラクタでself.idsに画像IDが 41 | # 格納されているのでそれを取得 42 | img_id = self.ids[idx] 43 | 44 | # 物体の集合を一つの矩形でアノテーションしているものを除外 45 | target = [obj for obj in target 46 | if 'iscrowd' not in obj or obj['iscrowd'] == 0] 47 | 48 | # 学習用に当該画像に映る物体のクラスIDと矩形を取得 49 | # クラスIDはコンストラクタで新規に割り当てたIDに変換 50 | classes = torch.tensor([self.coco_to_pred[obj['category_id']] 51 | for obj in target], dtype=torch.int64) 52 | boxes = torch.tensor([obj['bbox'] for obj in target], 53 | dtype=torch.float32) 54 | 55 | # 矩形が0個のとき、boxes.shape == [0]となってしまうため、 56 | # 第1軸に4を追加して軸数と第2軸の次元を合わせる 57 | if boxes.shape[0] == 0: 58 | boxes = torch.zeros((0, 4)) 59 | 60 | width, height = img.size 61 | # xmin, ymin, width, height -> xmin, ymin, xmax, ymax 62 | boxes[:, 2:] += boxes[:, :2] 63 | 64 | # 矩形が画像領域内に収まるように値をクリップ 65 | boxes[:, ::2] = boxes[:, ::2].clamp(min=0, max=width) 66 | boxes[:, 1::2] = boxes[:, 1::2].clamp(min=0, max=height) 67 | 68 | # 学習のための正解データを用意 69 | # クラスIDや矩形など渡すものが多義にわたるため、辞書で用意 70 | target = { 71 | 'image_id': torch.tensor(img_id, dtype=torch.int64), 72 | 'classes': classes, 73 | 'boxes': boxes, 74 | 'size': torch.tensor((width, height), dtype=torch.int64), 75 | 'orig_size': torch.tensor((width, height), 76 | dtype=torch.int64), 77 | 'orig_img': torch.tensor(np.asarray(img)) 78 | } 79 | 80 | # データ拡張と整形 81 | if self.transform is not None: 82 | img, target = self.transform(img, target) 83 | 84 | return img, target 85 | 86 | ''' 87 | モデルで予測されたクラスIDからCOCOのクラスIDに変換する関数 88 | label: 予測されたクラスID 89 | ''' 90 | def to_coco_label(self, label: int): 91 | return self.pred_to_coco[label] 92 | -------------------------------------------------------------------------------- /5_object_detection/5_3_retinanet/transform.py: -------------------------------------------------------------------------------- 1 | import random 2 | from PIL import Image 3 | from typing import Sequence, Callable 4 | 5 | import torch 6 | import torchvision.transforms as T 7 | import torchvision.transforms.functional as F 8 | 9 | 10 | class RandomHorizontalFlip: 11 | ''' 12 | 無作為に画像を水平反転するクラス 13 | prob: 水平反転する確率 14 | ''' 15 | def __init__(self, prob: float=0.5): 16 | self.prob = prob 17 | 18 | ''' 19 | 無作為に画像を水平反転する関数 20 | img : 水平反転する画像 21 | target: 物体検出用のラベルを持つ辞書 22 | ''' 23 | def __call__(self, img: Image, target: dict): 24 | if random.random() < self.prob: 25 | # 画像の水平反転 26 | img = F.hflip(img) 27 | 28 | # 正解矩形をx軸方向に反転 29 | # xmin, xmaxは水平反転すると大小が逆転し、 30 | # width - xmax, width - xminとなる 31 | width = img.size[0] 32 | target['boxes'][:, [0, 2]] = width - \ 33 | target['boxes'][:, [2, 0]] 34 | 35 | return img, target 36 | 37 | 38 | class RandomSizeCrop: 39 | ''' 40 | 無作為に画像を切り抜くクラス 41 | scale: 切り抜き前に対する切り抜き後の画像面積の下限と上限 42 | ratio: 切り抜き後の画像のアスペクト比の下限と上限 43 | ''' 44 | def __init__(self, scale: Sequence[float], 45 | ratio: Sequence[float]): 46 | self.scale = scale 47 | self.ratio = ratio 48 | 49 | ''' 50 | 無作為に画像を切り抜く関数 51 | img : 切り抜きをする画像 52 | target: 物体検出用のラベルを持つ辞書 53 | ''' 54 | def __call__(self, img: Image, target: dict): 55 | width, height = img.size 56 | 57 | # 切り抜く領域の左上の座標と幅および高さを取得 58 | # 切り抜く領域はscaleとratioの下限と上限に従う 59 | top, left, cropped_height, cropped_width = \ 60 | T.RandomResizedCrop.get_params( 61 | img, self.scale, self.ratio) 62 | 63 | # 左上の座標と幅および高さで指定した領域を切り抜き 64 | img = F.crop(img, top, left, cropped_height, cropped_width) 65 | 66 | # 原点がx = left, y = topに移動し、合わせて矩形の座標も移動 67 | target['boxes'][:, ::2] -= left 68 | target['boxes'][:, 1::2] -= top 69 | 70 | # 矩形の座標が切り抜き後に領域外に出る場合は座標をクリップ 71 | target['boxes'][:, ::2] = \ 72 | target['boxes'][:, ::2].clamp(min=0) 73 | target['boxes'][:, 1::2] = \ 74 | target['boxes'][:, 1::2].clamp(min=0) 75 | target['boxes'][:, ::2] = \ 76 | target['boxes'][:, ::2].clamp(max=cropped_width) 77 | target['boxes'][:, 1::2] = \ 78 | target['boxes'][:, 1::2].clamp(max=cropped_height) 79 | 80 | # 幅と高さが0より大きくなる(矩形の面積が0でない)矩形のみ保持 81 | keep = (target['boxes'][:, 2] > target['boxes'][:, 0]) & \ 82 | (target['boxes'][:, 3] > target['boxes'][:, 1]) 83 | target['classes'] = target['classes'][keep] 84 | target['boxes'] = target['boxes'][keep] 85 | 86 | # 切り抜き後の画像の大きさを保持 87 | target['size'] = torch.tensor( 88 | [cropped_width, cropped_height], dtype=torch.int64) 89 | 90 | return img, target 91 | 92 | 93 | class RandomResize: 94 | ''' 95 | 無作為に画像をアスペクト比を保持してリサイズするクラス 96 | min_sizes: 短辺の長さの候補、この中から無作為に長さを抽出 97 | max_size : 長辺の長さの最大値 98 | ''' 99 | def __init__(self, min_sizes: Sequence[int], max_size: int): 100 | self.min_sizes = min_sizes 101 | self.max_size = max_size 102 | 103 | ''' 104 | リサイズ後の短辺と長辺を計算する関数 105 | min_side: 短辺の長さ 106 | max_side: 長辺の長さ 107 | target : 目標となる短辺の長さ 108 | ''' 109 | def _get_target_size(self, min_side: int, max_side:int, 110 | target: int): 111 | # アスペクト比を保持して短辺をtargetに合わせる 112 | max_side = int(max_side * target / min_side) 113 | min_side = target 114 | 115 | # 長辺がmax_sizeを超えている場合、 116 | # アスペクト比を保持して長辺をmax_sizeに合わせる 117 | if max_side > self.max_size: 118 | min_side = int(min_side * self.max_size / max_side) 119 | max_side = self.max_size 120 | 121 | return min_side, max_side 122 | 123 | ''' 124 | 無作為に画像をリサイズする関数 125 | img : リサイズする画像 126 | target: 物体検出用のラベルを持つ辞書 127 | ''' 128 | def __call__(self, img: Image, target: dict): 129 | # 短辺の長さを候補の中から無作為に抽出 130 | min_size = random.choice(self.min_sizes) 131 | 132 | width, height = img.size 133 | 134 | # リサイズ後の大きさを取得 135 | # 幅と高さのどちらが短辺であるかで場合分け 136 | if width < height: 137 | resized_width, resized_height = self._get_target_size( 138 | width, height, min_size) 139 | else: 140 | resized_height, resized_width = self._get_target_size( 141 | height, width, min_size) 142 | 143 | # 指定した大きさに画像をリサイズ 144 | img = F.resize(img, (resized_height, resized_width)) 145 | 146 | # 正解矩形をリサイズ前後のスケールに合わせて変更 147 | ratio = resized_width / width 148 | target['boxes'] *= ratio 149 | 150 | # リサイズ後の画像の大きさを保持 151 | target['size'] = torch.tensor( 152 | [resized_width, resized_height], dtype=torch.int64) 153 | 154 | return img, target 155 | 156 | 157 | class ToTensor: 158 | ''' 159 | PIL画像をテンソルに変換する関数 160 | img : テンソルに変換する画像 161 | target: 物体検出用のラベルを持つ辞書 162 | ''' 163 | def __call__(self, img: Image, target: dict): 164 | img = F.to_tensor(img) 165 | 166 | return img, target 167 | 168 | 169 | class Normalize: 170 | ''' 171 | 画像を標準化するクラス 172 | mean: R, G, Bチャネルそれぞれの平均値 173 | std : R, G, Bチャネルそれぞれの標準偏差 174 | ''' 175 | def __init__(self, mean: Sequence[float], std: Sequence[float]): 176 | self.mean = mean 177 | self.std = std 178 | 179 | ''' 180 | 画像を標準化する関数 181 | img : 標準化する画像 182 | target: 物体検出用のラベルを持つ辞書 183 | ''' 184 | def __call__(self, img: torch.Tensor, target: dict): 185 | img = F.normalize(img, mean=self.mean, std=self.std) 186 | 187 | return img, target 188 | 189 | 190 | class Compose: 191 | ''' 192 | データ整形・拡張をまとめて適用するためのクラス 193 | transforms: データ整形・拡張のクラスインスタンスのシーケンス 194 | ''' 195 | def __init__(self, transforms: Sequence[Callable]): 196 | self.transforms = transforms 197 | 198 | ''' 199 | データ整形・拡張を連続して適用する関数 200 | img : データ整形・拡張する画像 201 | target: 物体検出用のラベルを持つ辞書 202 | ''' 203 | def __call__(self, img: Image, target: dict): 204 | for transform in self.transforms: 205 | img, target = transform(img, target) 206 | 207 | return img, target 208 | 209 | 210 | class RandomSelect: 211 | ''' 212 | 2種類のデータ拡張を受け取り、無作為にどちらかを適用するクラス 213 | transform1: データ拡張1 214 | transform2: データ拡張2 215 | prob : データ拡張1が適用される確率 216 | ''' 217 | def __init__(self, transform1: Callable, transform2: Callable, 218 | prob: float=0.5): 219 | self.transform1 = transform1 220 | self.transform2 = transform2 221 | self.prob = prob 222 | 223 | ''' 224 | データ拡張を無作為に選択して適用する関数 225 | img : データ整形・拡張する画像 226 | target: 物体検出用のラベルを持つ辞書 227 | ''' 228 | def __call__(self, img: Image, target: dict): 229 | if random.random() < self.prob: 230 | return self.transform1(img, target) 231 | 232 | return self.transform2(img, target) 233 | -------------------------------------------------------------------------------- /5_object_detection/5_3_retinanet/util.py: -------------------------------------------------------------------------------- 1 | import random 2 | 3 | import torch 4 | from torch.utils.data import Dataset 5 | import torchvision 6 | 7 | 8 | ''' 9 | データセットを分割するための2つの排反なインデックス集合を生成する関数 10 | dataset : 分割対称のデータセット 11 | ratio : 1つ目のセットに含めるデータ量の割合 12 | random_seed: 分割結果を不変にするためのシード 13 | ''' 14 | def generate_subset(dataset: Dataset, ratio: float, 15 | random_seed: int=0): 16 | # サブセットの大きさを計算 17 | size = int(len(dataset) * ratio) 18 | 19 | indices = list(range(len(dataset))) 20 | 21 | # 二つのセットに分ける前にシャッフル 22 | random.seed(random_seed) 23 | random.shuffle(indices) 24 | 25 | # セット1とセット2のサンプルのインデックスに分割 26 | indices1, indices2 = indices[:size], indices[size:] 27 | 28 | return indices1, indices2 29 | 30 | 31 | ''' 32 | 矩形をxmin, ymin, xmax, ymaxからx, y, width, heightに変換する関数 33 | boxes: 矩形集合, [矩形数 (任意の軸数), 4 (xmin, ymin, xmax, ymax)] 34 | ''' 35 | def convert_to_xywh(boxes: torch.Tensor): 36 | wh = boxes[..., 2:] - boxes[..., :2] 37 | xy = boxes[..., :2] + wh / 2 38 | boxes = torch.cat((xy, wh), dim=-1) 39 | 40 | return boxes 41 | 42 | 43 | ''' 44 | 矩形をx, y, width, heightからxmin, ymin, xmax, ymaxに変換 45 | boxes: 外接集合, [矩形数 (任意の軸数), 4 (x, y, width, height)] 46 | ''' 47 | def convert_to_xyxy(boxes: torch.Tensor): 48 | xymin = boxes[..., :2] - boxes[..., 2:] / 2 49 | xymax = boxes[..., 2:] + xymin 50 | boxes = torch.cat((xymin, xymax), dim=-1) 51 | 52 | return boxes 53 | 54 | 55 | ''' 56 | boxes1: 矩形集合, [矩形数, 4 (xmin, ymin, xmax, ymax)] 57 | boxes2: 矩形集合, [矩形数, 4 (xmin, ymin, xmax, ymax)] 58 | ''' 59 | def calc_iou(boxes1: torch.Tensor, boxes2: torch.Tensor): 60 | # 第1軸をunsqueezeし、ブロードキャストを利用することで 61 | # [矩形数, 1, 2] と[矩形数, 2]の演算結果が 62 | # [boxes1の矩形数, boxes2の矩形数, 2] となる 63 | 64 | # 積集合の左上の座標を取得 65 | intersect_left_top = torch.maximum( 66 | boxes1[:, :2].unsqueeze(1), boxes2[:, :2]) 67 | # 積集合の右下の座標を取得 68 | intersect_right_bottom = torch.minimum( 69 | boxes1[:, 2:].unsqueeze(1), boxes2[:, 2:]) 70 | 71 | # 積集合の幅と高さを算出し、面積を計算 72 | intersect_width_height = ( 73 | intersect_right_bottom - intersect_left_top).clamp(min=0) 74 | intersect_areas = intersect_width_height.prod(dim=2) 75 | 76 | # それぞれの矩形の面積を計算 77 | areas1 = (boxes1[:, 2] - boxes1[:, 0]) * \ 78 | (boxes1[:, 3] - boxes1[:, 1]) 79 | areas2 = (boxes2[:, 2] - boxes2[:, 0]) * \ 80 | (boxes2[:, 3] - boxes2[:, 1]) 81 | 82 | # 和集合の面積を計算 83 | union_areas = areas1.unsqueeze(1) + areas2 - intersect_areas 84 | 85 | ious = intersect_areas / union_areas 86 | 87 | return ious, union_areas 88 | -------------------------------------------------------------------------------- /5_object_detection/5_4_detr/dataset.py: -------------------------------------------------------------------------------- 1 | import numpy as np 2 | from typing import Callable 3 | 4 | import torch 5 | import torchvision 6 | 7 | 8 | class CocoDetection(torchvision.datasets.CocoDetection): 9 | ''' 10 | 物体検出用COCOデータセット読み込みクラス 11 | img_directory: 画像ファイルが保存されてるディレクトリへのパス 12 | anno_file : アノテーションファイルのパス 13 | transform : データ拡張と整形を行うクラスインスタンス 14 | ''' 15 | def __init__(self, img_directory: str, anno_file: str, 16 | transform: Callable=None): 17 | super().__init__(img_directory, anno_file) 18 | 19 | self.transform = transform 20 | 21 | # カテゴリーIDに欠番があるため、それを埋めてクラスIDを割り当て 22 | self.classes = [] 23 | # 元々のクラスIDと新しく割り当てたクラスIDを相互に変換する 24 | # ためのマッピングを保持 25 | self.coco_to_pred = {} 26 | self.pred_to_coco = {} 27 | for i, category_id in enumerate( 28 | sorted(self.coco.cats.keys())): 29 | self.classes.append(self.coco.cats[category_id]['name']) 30 | self.coco_to_pred[category_id] = i 31 | self.pred_to_coco[i] = category_id 32 | 33 | ''' 34 | データ取得関数 35 | idx: サンプルを指すインデックス 36 | ''' 37 | def __getitem__(self, idx: int): 38 | img, target = super().__getitem__(idx) 39 | 40 | # 親クラスのコンストラクタでself.idsに画像IDが 41 | # 格納されているのでそれを取得 42 | img_id = self.ids[idx] 43 | 44 | # 物体の集合を一つの矩形でアノテーションしているものを除外 45 | target = [obj for obj in target 46 | if 'iscrowd' not in obj or obj['iscrowd'] == 0] 47 | 48 | # 学習用に当該画像に映る物体のクラスIDと矩形を取得 49 | # クラスIDはコンストラクタで新規に割り当てたIDに変換 50 | classes = torch.tensor([self.coco_to_pred[obj['category_id']] 51 | for obj in target], dtype=torch.int64) 52 | boxes = torch.tensor([obj['bbox'] for obj in target], 53 | dtype=torch.float32) 54 | 55 | # 矩形が0個のとき、boxes.shape == [0]となってしまうため、 56 | # 第1軸に4を追加して軸数と第2軸の次元を合わせる 57 | if boxes.shape[0] == 0: 58 | boxes = torch.zeros((0, 4)) 59 | 60 | width, height = img.size 61 | # xmin, ymin, width, height -> xmin, ymin, xmax, ymax 62 | boxes[:, 2:] += boxes[:, :2] 63 | 64 | # 矩形が画像領域内に収まるように値をクリップ 65 | boxes[:, ::2] = boxes[:, ::2].clamp(min=0, max=width) 66 | boxes[:, 1::2] = boxes[:, 1::2].clamp(min=0, max=height) 67 | 68 | # 学習のための正解データを用意 69 | # クラスIDや矩形など渡すものが多義にわたるため、辞書で用意 70 | target = { 71 | 'image_id': torch.tensor(img_id, dtype=torch.int64), 72 | 'classes': classes, 73 | 'boxes': boxes, 74 | 'size': torch.tensor((width, height), dtype=torch.int64), 75 | 'orig_size': torch.tensor((width, height), 76 | dtype=torch.int64), 77 | 'orig_img': torch.tensor(np.asarray(img)) 78 | } 79 | 80 | # データ拡張と整形 81 | if self.transform is not None: 82 | img, target = self.transform(img, target) 83 | 84 | return img, target 85 | 86 | ''' 87 | モデルで予測されたクラスIDからCOCOのクラスIDに変換する関数 88 | label: 予測されたクラスID 89 | ''' 90 | def to_coco_label(self, label: int): 91 | return self.pred_to_coco[label] 92 | -------------------------------------------------------------------------------- /5_object_detection/5_4_detr/model.py: -------------------------------------------------------------------------------- 1 | import torch 2 | from torch import nn 3 | 4 | from torchvision.ops.misc import FrozenBatchNorm2d 5 | 6 | 7 | class BasicBlock(nn.Module): 8 | ''' 9 | ResNet18における残差ブロック 10 | in_channels : 入力チャネル数 11 | out_channels: 出力チャネル数 12 | stride : 畳み込み層のストライド 13 | ''' 14 | def __init__(self, in_channels: int, out_channels: int, 15 | stride: int=1): 16 | super().__init__() 17 | 18 | ''''' 残差接続 ''''' 19 | self.conv1 = nn.Conv2d(in_channels, out_channels, 20 | kernel_size=3, stride=stride, 21 | padding=1, bias=False) 22 | self.bn1 = FrozenBatchNorm2d(out_channels) 23 | self.conv2 = nn.Conv2d(out_channels, out_channels, 24 | kernel_size=3, padding=1, bias=False) 25 | self.bn2 = FrozenBatchNorm2d(out_channels) 26 | self.relu = nn.ReLU(inplace=True) 27 | '''''''''''''''''''' 28 | 29 | # strideが1より大きいときにスキップ接続と残差接続の高さと幅を 30 | # 合わせるため、別途畳み込み演算を用意 31 | self.downsample = None 32 | if stride > 1: 33 | self.downsample = nn.Sequential( 34 | nn.Conv2d(in_channels, out_channels, kernel_size=1, 35 | stride=stride, bias=False), 36 | FrozenBatchNorm2d(out_channels) 37 | ) 38 | 39 | ''' 40 | 順伝播関数 41 | x: 入力, [バッチサイズ, チャネル数, 高さ, 幅] 42 | ''' 43 | def forward(self, x: torch.Tensor): 44 | ''''' 残差接続 ''''' 45 | out = self.conv1(x) 46 | out = self.bn1(out) 47 | out = self.relu(out) 48 | out = self.conv2(out) 49 | out = self.bn2(out) 50 | '''''''''''''''''''' 51 | 52 | if self.downsample is not None: 53 | x = self.downsample(x) 54 | 55 | # 残差写像と恒等写像の要素毎の和を計算 56 | out += x 57 | 58 | out = self.relu(out) 59 | 60 | return out 61 | 62 | 63 | class ResNet18(nn.Module): 64 | ''' 65 | ResNet18モデル 66 | ''' 67 | def __init__(self): 68 | super().__init__() 69 | 70 | self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, 71 | padding=3, bias=False) 72 | self.bn1 = FrozenBatchNorm2d(64) 73 | self.relu = nn.ReLU(inplace=True) 74 | 75 | self.max_pool = nn.MaxPool2d(kernel_size=3, 76 | stride=2, padding=1) 77 | 78 | self.layer1 = nn.Sequential( 79 | BasicBlock(64, 64), 80 | BasicBlock(64, 64), 81 | ) 82 | self.layer2 = nn.Sequential( 83 | BasicBlock(64, 128, stride=2), 84 | BasicBlock(128, 128), 85 | ) 86 | self.layer3 = nn.Sequential( 87 | BasicBlock(128, 256, stride=2), 88 | BasicBlock(256, 256), 89 | ) 90 | self.layer4 = nn.Sequential( 91 | BasicBlock(256, 512, stride=2), 92 | BasicBlock(512, 512), 93 | ) 94 | 95 | ''' 96 | 順伝播関数 97 | x: 入力, [バッチサイズ, チャネル数, 高さ, 幅] 98 | ''' 99 | def forward(self, x: torch.Tensor): 100 | x = self.conv1(x) 101 | x = self.bn1(x) 102 | x = self.relu(x) 103 | x = self.max_pool(x) 104 | 105 | x = self.layer1(x) 106 | c3 = self.layer2(x) 107 | c4 = self.layer3(c3) 108 | c5 = self.layer4(c4) 109 | 110 | return c3, c4, c5 111 | -------------------------------------------------------------------------------- /5_object_detection/5_4_detr/transform.py: -------------------------------------------------------------------------------- 1 | import random 2 | from PIL import Image 3 | from typing import Sequence, Callable 4 | 5 | import torch 6 | import torchvision.transforms as T 7 | import torchvision.transforms.functional as F 8 | 9 | 10 | class RandomHorizontalFlip: 11 | ''' 12 | 無作為に画像を水平反転するクラス 13 | prob: 水平反転する確率 14 | ''' 15 | def __init__(self, prob: float=0.5): 16 | self.prob = prob 17 | 18 | ''' 19 | 無作為に画像を水平反転する関数 20 | img : 水平反転する画像 21 | target: 物体検出用のラベルを持つ辞書 22 | ''' 23 | def __call__(self, img: Image, target: dict): 24 | if random.random() < self.prob: 25 | # 画像の水平反転 26 | img = F.hflip(img) 27 | 28 | # 正解矩形をx軸方向に反転 29 | # xmin, xmaxは水平反転すると大小が逆転し、 30 | # width - xmax, width - xminとなる 31 | width = img.size[0] 32 | target['boxes'][:, [0, 2]] = width - \ 33 | target['boxes'][:, [2, 0]] 34 | 35 | return img, target 36 | 37 | 38 | class RandomSizeCrop: 39 | ''' 40 | 無作為に画像を切り抜くクラス 41 | scale: 切り抜き前に対する切り抜き後の画像面積の下限と上限 42 | ratio: 切り抜き後の画像のアスペクト比の下限と上限 43 | ''' 44 | def __init__(self, scale: Sequence[float], 45 | ratio: Sequence[float]): 46 | self.scale = scale 47 | self.ratio = ratio 48 | 49 | ''' 50 | 無作為に画像を切り抜く関数 51 | img : 切り抜きをする画像 52 | target: 物体検出用のラベルを持つ辞書 53 | ''' 54 | def __call__(self, img: Image, target: dict): 55 | width, height = img.size 56 | 57 | # 切り抜く領域の左上の座標と幅および高さを取得 58 | # 切り抜く領域はscaleとratioの下限と上限に従う 59 | top, left, cropped_height, cropped_width = \ 60 | T.RandomResizedCrop.get_params( 61 | img, self.scale, self.ratio) 62 | 63 | # 左上の座標と幅および高さで指定した領域を切り抜き 64 | img = F.crop(img, top, left, cropped_height, cropped_width) 65 | 66 | # 原点がx = left, y = topに移動し、合わせて矩形の座標も移動 67 | target['boxes'][:, ::2] -= left 68 | target['boxes'][:, 1::2] -= top 69 | 70 | # 矩形の座標が切り抜き後に領域外に出る場合は座標をクリップ 71 | target['boxes'][:, ::2] = \ 72 | target['boxes'][:, ::2].clamp(min=0) 73 | target['boxes'][:, 1::2] = \ 74 | target['boxes'][:, 1::2].clamp(min=0) 75 | target['boxes'][:, ::2] = \ 76 | target['boxes'][:, ::2].clamp(max=cropped_width) 77 | target['boxes'][:, 1::2] = \ 78 | target['boxes'][:, 1::2].clamp(max=cropped_height) 79 | 80 | # 幅と高さが0より大きくなる(矩形の面積が0でない)矩形のみ保持 81 | keep = (target['boxes'][:, 2] > target['boxes'][:, 0]) & \ 82 | (target['boxes'][:, 3] > target['boxes'][:, 1]) 83 | target['classes'] = target['classes'][keep] 84 | target['boxes'] = target['boxes'][keep] 85 | 86 | # 切り抜き後の画像の大きさを保持 87 | target['size'] = torch.tensor( 88 | [cropped_width, cropped_height], dtype=torch.int64) 89 | 90 | return img, target 91 | 92 | 93 | class RandomResize: 94 | ''' 95 | 無作為に画像をアスペクト比を保持してリサイズするクラス 96 | min_sizes: 短辺の長さの候補、この中から無作為に長さを抽出 97 | max_size : 長辺の長さの最大値 98 | ''' 99 | def __init__(self, min_sizes: Sequence[int], max_size: int): 100 | self.min_sizes = min_sizes 101 | self.max_size = max_size 102 | 103 | ''' 104 | リサイズ後の短辺と長辺を計算する関数 105 | min_side: 短辺の長さ 106 | max_side: 長辺の長さ 107 | target : 目標となる短辺の長さ 108 | ''' 109 | def _get_target_size(self, min_side: int, max_side:int, 110 | target: int): 111 | # アスペクト比を保持して短辺をtargetに合わせる 112 | max_side = int(max_side * target / min_side) 113 | min_side = target 114 | 115 | # 長辺がmax_sizeを超えている場合、 116 | # アスペクト比を保持して長辺をmax_sizeに合わせる 117 | if max_side > self.max_size: 118 | min_side = int(min_side * self.max_size / max_side) 119 | max_side = self.max_size 120 | 121 | return min_side, max_side 122 | 123 | ''' 124 | 無作為に画像をリサイズする関数 125 | img : リサイズする画像 126 | target: 物体検出用のラベルを持つ辞書 127 | ''' 128 | def __call__(self, img: Image, target: dict): 129 | # 短辺の長さを候補の中から無作為に抽出 130 | min_size = random.choice(self.min_sizes) 131 | 132 | width, height = img.size 133 | 134 | # リサイズ後の大きさを取得 135 | # 幅と高さのどちらが短辺であるかで場合分け 136 | if width < height: 137 | resized_width, resized_height = self._get_target_size( 138 | width, height, min_size) 139 | else: 140 | resized_height, resized_width = self._get_target_size( 141 | height, width, min_size) 142 | 143 | # 指定した大きさに画像をリサイズ 144 | img = F.resize(img, (resized_height, resized_width)) 145 | 146 | # 正解矩形をリサイズ前後のスケールに合わせて変更 147 | ratio = resized_width / width 148 | target['boxes'] *= ratio 149 | 150 | # リサイズ後の画像の大きさを保持 151 | target['size'] = torch.tensor( 152 | [resized_width, resized_height], dtype=torch.int64) 153 | 154 | return img, target 155 | 156 | 157 | class ToTensor: 158 | ''' 159 | PIL画像をテンソルに変換する関数 160 | img : テンソルに変換する画像 161 | target: 物体検出用のラベルを持つ辞書 162 | ''' 163 | def __call__(self, img: Image, target: dict): 164 | img = F.to_tensor(img) 165 | 166 | return img, target 167 | 168 | 169 | class Normalize: 170 | ''' 171 | 画像を標準化するクラス 172 | mean: R, G, Bチャネルそれぞれの平均値 173 | std : R, G, Bチャネルそれぞれの標準偏差 174 | ''' 175 | def __init__(self, mean: Sequence[float], std: Sequence[float]): 176 | self.mean = mean 177 | self.std = std 178 | 179 | ''' 180 | 画像を標準化する関数 181 | img : 標準化する画像 182 | target: 物体検出用のラベルを持つ辞書 183 | ''' 184 | def __call__(self, img: torch.Tensor, target: dict): 185 | img = F.normalize(img, mean=self.mean, std=self.std) 186 | 187 | return img, target 188 | 189 | 190 | class Compose: 191 | ''' 192 | データ整形・拡張をまとめて適用するためのクラス 193 | transforms: データ整形・拡張のクラスインスタンスのシーケンス 194 | ''' 195 | def __init__(self, transforms: Sequence[Callable]): 196 | self.transforms = transforms 197 | 198 | ''' 199 | データ整形・拡張を連続して適用する関数 200 | img : データ整形・拡張する画像 201 | target: 物体検出用のラベルを持つ辞書 202 | ''' 203 | def __call__(self, img: Image, target: dict): 204 | for transform in self.transforms: 205 | img, target = transform(img, target) 206 | 207 | return img, target 208 | 209 | 210 | class RandomSelect: 211 | ''' 212 | 2種類のデータ拡張を受け取り、無作為にどちらかを適用するクラス 213 | transform1: データ拡張1 214 | transform2: データ拡張2 215 | prob : データ拡張1が適用される確率 216 | ''' 217 | def __init__(self, transform1: Callable, transform2: Callable, 218 | prob: float=0.5): 219 | self.transform1 = transform1 220 | self.transform2 = transform2 221 | self.prob = prob 222 | 223 | ''' 224 | データ拡張を無作為に選択して適用する関数 225 | img : データ整形・拡張する画像 226 | target: 物体検出用のラベルを持つ辞書 227 | ''' 228 | def __call__(self, img: Image, target: dict): 229 | if random.random() < self.prob: 230 | return self.transform1(img, target) 231 | 232 | return self.transform2(img, target) 233 | -------------------------------------------------------------------------------- /5_object_detection/5_4_detr/util.py: -------------------------------------------------------------------------------- 1 | import random 2 | 3 | import torch 4 | from torch.utils.data import Dataset 5 | import torchvision 6 | 7 | 8 | ''' 9 | データセットを分割するための2つの排反なインデックス集合を生成する関数 10 | dataset : 分割対称のデータセット 11 | ratio : 1つ目のセットに含めるデータ量の割合 12 | random_seed: 分割結果を不変にするためのシード 13 | ''' 14 | def generate_subset(dataset: Dataset, ratio: float, 15 | random_seed: int=0): 16 | # サブセットの大きさを計算 17 | size = int(len(dataset) * ratio) 18 | 19 | indices = list(range(len(dataset))) 20 | 21 | # 二つのセットに分ける前にシャッフル 22 | random.seed(random_seed) 23 | random.shuffle(indices) 24 | 25 | # セット1とセット2のサンプルのインデックスに分割 26 | indices1, indices2 = indices[:size], indices[size:] 27 | 28 | return indices1, indices2 29 | 30 | 31 | ''' 32 | 矩形をxmin, ymin, xmax, ymaxからx, y, width, heightに変換する関数 33 | boxes: 矩形集合, [矩形数 (任意の軸数), 4 (xmin, ymin, xmax, ymax)] 34 | ''' 35 | def convert_to_xywh(boxes: torch.Tensor): 36 | wh = boxes[..., 2:] - boxes[..., :2] 37 | xy = boxes[..., :2] + wh / 2 38 | boxes = torch.cat((xy, wh), dim=-1) 39 | 40 | return boxes 41 | 42 | 43 | ''' 44 | 矩形をx, y, width, heightからxmin, ymin, xmax, ymaxに変換 45 | boxes: 外接集合, [矩形数 (任意の軸数), 4 (x, y, width, height)] 46 | ''' 47 | def convert_to_xyxy(boxes: torch.Tensor): 48 | xymin = boxes[..., :2] - boxes[..., 2:] / 2 49 | xymax = boxes[..., 2:] + xymin 50 | boxes = torch.cat((xymin, xymax), dim=-1) 51 | 52 | return boxes 53 | 54 | 55 | ''' 56 | boxes1: 矩形集合, [矩形数, 4 (xmin, ymin, xmax, ymax)] 57 | boxes2: 矩形集合, [矩形数, 4 (xmin, ymin, xmax, ymax)] 58 | ''' 59 | def calc_iou(boxes1: torch.Tensor, boxes2: torch.Tensor): 60 | # 第1軸をunsqueezeし、ブロードキャストを利用することで 61 | # [矩形数, 1, 2] と[矩形数, 2]の演算結果が 62 | # [boxes1の矩形数, boxes2の矩形数, 2] となる 63 | 64 | # 積集合の左上の座標を取得 65 | intersect_left_top = torch.maximum( 66 | boxes1[:, :2].unsqueeze(1), boxes2[:, :2]) 67 | # 積集合の右下の座標を取得 68 | intersect_right_bottom = torch.minimum( 69 | boxes1[:, 2:].unsqueeze(1), boxes2[:, 2:]) 70 | 71 | # 積集合の幅と高さを算出し、面積を計算 72 | intersect_width_height = ( 73 | intersect_right_bottom - intersect_left_top).clamp(min=0) 74 | intersect_areas = intersect_width_height.prod(dim=2) 75 | 76 | # それぞれの矩形の面積を計算 77 | areas1 = (boxes1[:, 2] - boxes1[:, 0]) * \ 78 | (boxes1[:, 3] - boxes1[:, 1]) 79 | areas2 = (boxes2[:, 2] - boxes2[:, 0]) * \ 80 | (boxes2[:, 3] - boxes2[:, 1]) 81 | 82 | # 和集合の面積を計算 83 | union_areas = areas1.unsqueeze(1) + areas2 - intersect_areas 84 | 85 | ious = intersect_areas / union_areas 86 | 87 | return ious, union_areas 88 | -------------------------------------------------------------------------------- /5_object_detection/model/.gitattributes: -------------------------------------------------------------------------------- 1 | detr.pth filter=lfs diff=lfs merge=lfs -text 2 | retinanet.pth filter=lfs diff=lfs merge=lfs -text 3 | -------------------------------------------------------------------------------- /5_object_detection/model/detr.pth: -------------------------------------------------------------------------------- 1 | version https://git-lfs.github.com/spec/v1 2 | oid sha256:6a4dcee45815597550bcb347dab16853589e1711bb8e025b08bcdd9913133158 3 | size 115447628 4 | -------------------------------------------------------------------------------- /5_object_detection/model/retinanet.pth: -------------------------------------------------------------------------------- 1 | version https://git-lfs.github.com/spec/v1 2 | oid sha256:8426108f9ac671eed6da09de7c244bf3f47fc7cf1bb058a54a42cb0fdbd2a88b 3 | size 79254533 4 | -------------------------------------------------------------------------------- /6_img_captioning/6_2_dataset.ipynb: -------------------------------------------------------------------------------- 1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[]},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"},"gpuClass":"standard"},"cells":[{"cell_type":"markdown","source":["#第6章 画像キャプショニング\n","##第6.2節 データセットの準備"],"metadata":{"id":"oQUVJmRm7a2V"}},{"cell_type":"markdown","source":["###モジュールのインポートとGoogleドライブのマウント"],"metadata":{"id":"fIZCu47o_nCg"}},{"cell_type":"code","execution_count":1,"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"eS1kRMB4512I","executionInfo":{"status":"ok","timestamp":1677132421957,"user_tz":-540,"elapsed":22318,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}},"outputId":"c7931ad2-005a-4c3e-f2a3-03fcc143bfde"},"outputs":[{"output_type":"stream","name":"stdout","text":["Mounted at /content/drive\n"]}],"source":["import pickle\n","from pycocotools.coco import COCO\n","from collections import Counter\n","\n","# Googleドライブをマウント\n","from google.colab import drive\n","drive.mount('/content/drive')"]},{"cell_type":"markdown","source":["###辞書の作成"],"metadata":{"id":"PqJpT6tdBVFL"}},{"cell_type":"code","source":["# データの保存先\n","fp_train_caption = 'drive/MyDrive/python_image_recognition/' \\\n"," 'data/coco2014/captions_val2014.json'\n","fp_word_to_id = 'drive/MyDrive/python_image_recognition/' \\\n"," '6_img_captioning/model/word_to_id.pkl'\n","fp_id_to_word = 'drive/MyDrive/python_image_recognition/' \\\n"," '6_img_captioning/model/id_to_word.pkl'\n","\n","# キャプションを読み込み\n","coco = COCO(fp_train_caption)\n","anns_keys = coco.anns.keys()\n","\n","# 単語ーID対応表の作成\n","coco_token = []\n","for key in anns_keys:\n"," caption = coco.anns[key]['caption']\n"," tokens = caption.lower().split()\n"," coco_token.extend(tokens)\n","\n","# ピリオド、カンマを削除\n","table = str.maketrans({'.': '',\n"," ',': ''})\n","for k in range(len(coco_token)):\n"," coco_token[k] = coco_token[k].translate(table)\n","\n","# 単語ヒストグラムを作成\n","freq = Counter(coco_token)\n","\n","# 3回以上出現する単語に限定して辞書を作成\n","vocab = [token for token, count in freq.items() if count >= 3]\n","sorted(vocab)\n","\n","# 特殊トークンの追加\n","vocab.append('') # 文章の始まりを表すトークンを追加\n","vocab.append('') # 文章の終わりを表すトークンを追加\n","vocab.append('') # 辞書に無い単語を表すトークンを追加\n","vocab.append('') # 系列長を揃えるためのトークンを追加\n","\n","# 単語ー単語ID対応表の作成\n","word_to_id = {token: i for i, token in enumerate(vocab)}\n","id_to_word = {i: token for i, token in enumerate(vocab)}\n","\n","# ファイル出力\n","with open(fp_word_to_id, 'wb') as f:\n"," pickle.dump(word_to_id, f)\n","with open(fp_id_to_word, 'wb') as f:\n"," pickle.dump(id_to_word, f)\n","\n","print(f'単語数: {str(len(word_to_id))}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"dt03YvWpBVbo","executionInfo":{"status":"ok","timestamp":1677132447572,"user_tz":-540,"elapsed":4197,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}},"outputId":"19bb016b-6664-4a4c-cd12-93e82478acc6"},"execution_count":2,"outputs":[{"output_type":"stream","name":"stdout","text":["loading annotations into memory...\n","Done (t=1.66s)\n","creating index...\n","index created!\n","単語数: 8583\n"]}]}]} -------------------------------------------------------------------------------- /6_img_captioning/6_3_show_and_tell/util.py: -------------------------------------------------------------------------------- 1 | import random 2 | 3 | from torch.utils.data import Dataset 4 | 5 | 6 | ''' 7 | データセットを分割するための2つの排反なインデックス集合を生成する関数 8 | dataset : 分割対称のデータセット 9 | ratio : 1つ目のセットに含めるデータ量の割合 10 | random_seed: 分割結果を不変にするためのシード 11 | ''' 12 | def generate_subset(dataset: Dataset, ratio: float, 13 | random_seed: int=0): 14 | # サブセットの大きさを計算 15 | size = int(len(dataset) * ratio) 16 | 17 | indices = list(range(len(dataset))) 18 | 19 | # 二つのセットに分ける前にシャッフル 20 | random.seed(random_seed) 21 | random.shuffle(indices) 22 | 23 | # セット1とセット2のサンプルのインデックスに分割 24 | indices1, indices2 = indices[:size], indices[size:] 25 | 26 | return indices1, indices2 27 | -------------------------------------------------------------------------------- /6_img_captioning/6_4_show_attend_and_tell/util.py: -------------------------------------------------------------------------------- 1 | import random 2 | from typing import Sequence, Dict, Tuple, Union 3 | 4 | import torch 5 | from torch.utils.data import Dataset 6 | 7 | 8 | ''' 9 | データセットを分割するための2つの排反なインデックス集合を生成する関数 10 | dataset : 分割対称のデータセット 11 | ratio : 1つ目のセットに含めるデータ量の割合 12 | random_seed: 分割結果を不変にするためのシード 13 | ''' 14 | def generate_subset(dataset: Dataset, ratio: float, 15 | random_seed: int=0): 16 | # サブセットの大きさを計算 17 | size = int(len(dataset) * ratio) 18 | 19 | indices = list(range(len(dataset))) 20 | 21 | # 二つのセットに分ける前にシャッフル 22 | random.seed(random_seed) 23 | random.shuffle(indices) 24 | 25 | # セット1とセット2のサンプルのインデックスに分割 26 | indices1, indices2 = indices[:size], indices[size:] 27 | 28 | return indices1, indices2 29 | 30 | 31 | ''' 32 | サンプルからミニバッチを生成するcollate関数 33 | batch : CocoCaptionsからサンプルした複数の画像とラベルをまとめたもの 34 | word_to_id: 単語->単語ID辞書 35 | ''' 36 | def collate_func(batch: Sequence[Tuple[Union[torch.Tensor, str]]], 37 | word_to_id: Dict[str, int]): 38 | imgs, captions = zip(*batch) 39 | 40 | # それぞれのサンプルの5個のキャプションの中から1つを選択してトークナイズ 41 | captions = [tokenize_caption( 42 | random.choice(cap), word_to_id) for cap in captions] 43 | 44 | # キャプションの長さが降順になるように並び替え 45 | batch = zip(imgs, captions) 46 | batch = sorted(batch, key=lambda x: len(x[1]), reverse=True) 47 | imgs, captions = zip(*batch) 48 | imgs = torch.stack(imgs) 49 | 50 | lengths = [cap.shape[0] for cap in captions] 51 | targets = torch.full((len(captions), max(lengths)), 52 | word_to_id[''], dtype=torch.int64) 53 | for i, cap in enumerate(captions): 54 | end = lengths[i] 55 | targets[i, :end] = cap[:end] 56 | 57 | return imgs, targets, lengths 58 | 59 | 60 | ''' 61 | トークナイザ - 文章(caption)を単語IDのリスト(tokens_id)に変換 62 | caption : 画像キャプション 63 | word_to_id: 単語->単語ID辞書 64 | ''' 65 | def tokenize_caption(caption: str, word_to_id: Dict[str, int]): 66 | tokens = caption.lower().split() 67 | 68 | tokens_temp = [] 69 | # 単語についたピリオド、カンマを削除 70 | for token in tokens: 71 | if token == '.' or token == ',': 72 | continue 73 | 74 | token = token.rstrip('.') 75 | token = token.rstrip(',') 76 | 77 | tokens_temp.append(token) 78 | 79 | tokens = tokens_temp 80 | 81 | # 文章(caption)を単語IDのリスト(tokens_id)に変換 82 | tokens_ext = [''] + tokens + [''] 83 | tokens_id = [] 84 | for k in tokens_ext: 85 | if k in word_to_id: 86 | tokens_id.append(word_to_id[k]) 87 | else: 88 | tokens_id.append(word_to_id['']) 89 | 90 | return torch.Tensor(tokens_id) 91 | -------------------------------------------------------------------------------- /6_img_captioning/6_5_transformer_captioning/model.py: -------------------------------------------------------------------------------- 1 | import torch 2 | from torch import nn 3 | from torchvision import models 4 | 5 | 6 | class CNNEncoder(nn.Module): 7 | ''' 8 | Transformer captioningのエンコーダ 9 | dim_embedding: 埋め込み次元 10 | ''' 11 | def __init__(self, dim_embedding: int): 12 | super().__init__() 13 | 14 | # ImageNetで事前学習された 15 | # ResNet152モデルをバックボーンネットワークとする 16 | resnet = models.resnet152(weights="IMAGENET1K_V2") 17 | 18 | # 特徴抽出器として使うため全結合層を削除 19 | modules = list(resnet.children())[:-1] 20 | self.backbone = nn.Sequential(*modules) 21 | 22 | # デコーダへの出力 23 | self.linear = nn.Linear(resnet.fc.in_features, dim_embedding) 24 | 25 | ''' 26 | エンコーダの順伝播 27 | imgs: 入力画像, [バッチサイズ, チャネル数, 高さ, 幅] 28 | ''' 29 | def forward(self, imgs: torch.Tensor): 30 | # 特徴抽出 -> [バッチサイズ, 2048] 31 | # 今回はバックボーンネットワークは学習させない 32 | with torch.no_grad(): 33 | features = self.backbone(imgs) 34 | features = features.flatten(1) 35 | 36 | # 全結合 37 | features = self.linear(features) 38 | 39 | return features 40 | -------------------------------------------------------------------------------- /6_img_captioning/6_5_transformer_captioning/util.py: -------------------------------------------------------------------------------- 1 | import random 2 | from typing import Sequence, Dict, Tuple, Union 3 | 4 | import torch 5 | from torch.utils.data import Dataset 6 | 7 | 8 | ''' 9 | データセットを分割するための2つの排反なインデックス集合を生成する関数 10 | dataset : 分割対称のデータセット 11 | ratio : 1つ目のセットに含めるデータ量の割合 12 | random_seed: 分割結果を不変にするためのシード 13 | ''' 14 | def generate_subset(dataset: Dataset, ratio: float, 15 | random_seed: int=0): 16 | # サブセットの大きさを計算 17 | size = int(len(dataset) * ratio) 18 | 19 | indices = list(range(len(dataset))) 20 | 21 | # 二つのセットに分ける前にシャッフル 22 | random.seed(random_seed) 23 | random.shuffle(indices) 24 | 25 | # セット1とセット2のサンプルのインデックスに分割 26 | indices1, indices2 = indices[:size], indices[size:] 27 | 28 | return indices1, indices2 29 | 30 | 31 | ''' 32 | サンプルからミニバッチを生成するcollate関数 33 | batch : CocoCaptionsからサンプルした複数の画像とラベルをまとめたもの 34 | word_to_id: 単語->単語ID辞書 35 | ''' 36 | def collate_func(batch: Sequence[Tuple[Union[torch.Tensor, str]]], 37 | word_to_id: Dict[str, int]): 38 | imgs, captions = zip(*batch) 39 | 40 | # それぞれのサンプルの5個のキャプションの中から1つを選択してトークナイズ 41 | captions = [tokenize_caption( 42 | random.choice(cap), word_to_id) for cap in captions] 43 | 44 | # キャプションの長さが降順になるように並び替え 45 | batch = zip(imgs, captions) 46 | batch = sorted(batch, key=lambda x: len(x[1]), reverse=True) 47 | imgs, captions = zip(*batch) 48 | imgs = torch.stack(imgs) 49 | 50 | lengths = [cap.shape[0] for cap in captions] 51 | targets = torch.full((len(captions), max(lengths)), 52 | word_to_id[''], dtype=torch.int64) 53 | for i, cap in enumerate(captions): 54 | end = lengths[i] 55 | targets[i, :end] = cap[:end] 56 | 57 | return imgs, targets, lengths 58 | 59 | 60 | ''' 61 | トークナイザ - 文章(caption)を単語IDのリスト(tokens_id)に変換 62 | caption : 画像キャプション 63 | word_to_id: 単語->単語ID辞書 64 | ''' 65 | def tokenize_caption(caption: str, word_to_id: Dict[str, int]): 66 | tokens = caption.lower().split() 67 | 68 | tokens_temp = [] 69 | # 単語についたピリオド、カンマを削除 70 | for token in tokens: 71 | if token == '.' or token == ',': 72 | continue 73 | 74 | token = token.rstrip('.') 75 | token = token.rstrip(',') 76 | 77 | tokens_temp.append(token) 78 | 79 | tokens = tokens_temp 80 | 81 | # 文章(caption)を単語IDのリスト(tokens_id)に変換 82 | tokens_ext = [''] + tokens + [''] 83 | tokens_id = [] 84 | for k in tokens_ext: 85 | if k in word_to_id: 86 | tokens_id.append(word_to_id[k]) 87 | else: 88 | tokens_id.append(word_to_id['']) 89 | 90 | return torch.Tensor(tokens_id) 91 | -------------------------------------------------------------------------------- /6_img_captioning/model/best/.gitattributes: -------------------------------------------------------------------------------- 1 | 6-3_encoder_best.pth filter=lfs diff=lfs merge=lfs -text 2 | 6-3_decoder_best.pth filter=lfs diff=lfs merge=lfs -text 3 | 6-4_decoder_best.pth filter=lfs diff=lfs merge=lfs -text 4 | 6-4_encoder_best.pth filter=lfs diff=lfs merge=lfs -text 5 | 6-5_encoder_best.pth filter=lfs diff=lfs merge=lfs -text 6 | 6-5_decoder_best.pth filter=lfs diff=lfs merge=lfs -text 7 | -------------------------------------------------------------------------------- /6_img_captioning/model/best/6-3_decoder_best.pth: -------------------------------------------------------------------------------- 1 | version https://git-lfs.github.com/spec/v1 2 | oid sha256:762e8185b42f54da08e3e754292ef82078a2b9cf23660e7b03dbd3e3e1f905d4 3 | size 16139797 4 | -------------------------------------------------------------------------------- /6_img_captioning/model/best/6-3_encoder_best.pth: -------------------------------------------------------------------------------- 1 | version https://git-lfs.github.com/spec/v1 2 | oid sha256:a44ad9fc1b38858e237607ebb7bfb708988d5c5ac906c4b0a28c6b297b2aac3b 3 | size 235959247 4 | -------------------------------------------------------------------------------- /6_img_captioning/model/best/6-4_decoder_best.pth: -------------------------------------------------------------------------------- 1 | version https://git-lfs.github.com/spec/v1 2 | oid sha256:ac4eb6a6205cd5578b801158c80cf47e480afc08ea31b9086b593019d3d67720 3 | size 17822365 4 | -------------------------------------------------------------------------------- /6_img_captioning/model/best/6-4_encoder_best.pth: -------------------------------------------------------------------------------- 1 | version https://git-lfs.github.com/spec/v1 2 | oid sha256:add4894c87d982ac48bf0698f4478278abf04c3ec3b9016843b495bd02de1d7c 3 | size 233499841 4 | -------------------------------------------------------------------------------- /6_img_captioning/model/best/6-5_decoder_best.pth: -------------------------------------------------------------------------------- 1 | version https://git-lfs.github.com/spec/v1 2 | oid sha256:52fdb48f5dd833ac9402ea1bfdb28fa7eece366ced29db109d033702fcde734e 3 | size 52331167 4 | -------------------------------------------------------------------------------- /6_img_captioning/model/best/6-5_encoder_best.pth: -------------------------------------------------------------------------------- 1 | version https://git-lfs.github.com/spec/v1 2 | oid sha256:931e345d34a8839188885a3d1cb9e00ab33255928c92f1a3ba3e44f1a0688d48 3 | size 235959247 4 | -------------------------------------------------------------------------------- /6_img_captioning/model/best/id_to_word.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/6_img_captioning/model/best/id_to_word.pkl -------------------------------------------------------------------------------- /6_img_captioning/model/best/word_to_id.pkl: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/6_img_captioning/model/best/word_to_id.pkl -------------------------------------------------------------------------------- /LICENSE.txt: -------------------------------------------------------------------------------- 1 | MIT License 2 | 3 | Copyright (c) 2023 Masato Tamura and Katuyuki Nakamura 4 | 5 | Permission is hereby granted, free of charge, to any person obtaining a copy 6 | of this software and associated documentation files (the "Software"), to deal 7 | in the Software without restriction, including without limitation the rights 8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell 9 | copies of the Software, and to permit persons to whom the Software is 10 | furnished to do so, subject to the following conditions: 11 | 12 | The above copyright notice and this permission notice shall be included in all 13 | copies or substantial portions of the Software. 14 | 15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR 16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, 17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE 18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER 19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, 20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE 21 | SOFTWARE. -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # Pythonで学ぶ画像認識 (機械学習実践シリーズ) 2 | 3 | ![License](https://img.shields.io/badge/License-MIT-green) 4 | ![Python](https://img.shields.io/badge/Python-3.8-orange) 5 | ![PyTorch](https://img.shields.io/badge/PyTorch-1.13.0-orange) 6 | Open In Colab 7 | 8 | 9 | 10 | 本リポジトリではインプレス社より出版されている[田村 雅人](https://tamtamz.github.io/ja/)・[中村 克行](https://scholar.google.com/citations?user=ZIxQ5zAAAAAJ&hl=en) 著の機械学習実践シリーズ「**[Pythonで学ぶ画像認識](https://book.impress.co.jp/books/1122101074)**」で扱うソースコードやデータ、学習済みパラメータを管理しています。ソースコードはJupyterノートブックにまとめられており、Google Colabで実行されることを想定しています。ソースコードの解説は書籍内に記載されており、本リポジトリのソースコードは補助教材となっています。 11 | 12 | ## 書籍の内容 13 | 14 | 書籍は以下のような構成になります。また、[CVMLエキスパートガイド](https://cvml-expertguide.net/)という学習支援サイトにて[紹介記事](https://cvml-expertguide.net/books/cv-dl-books/python-image-recognition/)を書いていただいており、記事にて本書の内容や長所を簡単に把握できます。本書ではカバーしきれなかった補完情報を載せた記事にすぐたどり着くことができるようになっておりますので、合わせてご活用ください。 15 | 16 | Jupyterノートブックの補助教材がある節には Open In Colab のバッジをつけています。バッジをクリックすると該当するノートブックをColabで開けます。ただし、この方法でノートブックを開いて画像やラベルデータの読み込みを行う処理を実行した場合、該当するデータがColab上にないためエラーが発生します。ノートブックの処理を実行したい場合には書籍の第1.4節で解説されている環境構築を行って実行してください。 17 | 18 | - **第1章 画像認識とは?** 19 | - 第1節 画像認識の概要 20 | 21 | - 第2節 コンピュータによる画像認識の仕組みを理解しよう 22 | 23 | - 第3節 実社会で使われている画像認識アプリケーション 24 | 25 | - 第4節 画像認識のための開発環境構築 Open In Colab 26 | - **第2章 画像処理の基礎知識** 27 | - 第1節 画像データを読み込んで表示してみよう Open In Colab 28 | 29 | - 第2節 画像に平滑化フィルタをかけてみよう Open In Colab 30 | 31 | - 第3節 畳み込み演算を使った特徴抽出Open In Colab 32 | 33 | - 第4節 アテンションを使った特徴抽出Open In Colab 34 | 35 | - **第3章 深層学習を使う準備** 36 | - 第1節 学習と評価の基礎 Open In Colab 37 | 38 | - 第2節 深層ニューラルネットワーク 39 | 40 | - **第4章 画像分類** 41 | - 第1節 順伝播型ニューラルネットワークによる手法 Open In Colab 42 | 43 | - 第2節 畳み込みニューラルネットワークによる手法ーResNet18を実装してみよう Open In Colab 44 | 45 | - 第3節 Transformerによる手法ーVision Transformerを実装してみよう Open In Colab 46 | 47 | - 第4節 精度向上のテクニック Open In Colab 48 | 49 | - **第5章 物体検出** 50 | - 第1節 物体検出の基礎 Open In Colab 51 | 52 | - 第2節 データセットの準備 Open In Colab 53 | 54 | - 第3節 CNNによる手法ーRetinaNetを実装してみよう Open In Colab 55 | 56 | - 第4節 Transformerによる手法ーDETRを実装してみよう Open In Colab 57 | 58 | - **第6章 画像キャプショニング** 59 | - 第1節 画像キャプショニングの基礎 60 | 61 | - 第2節 データセットの準備 Open In Colab 62 | 63 | - 第3節 CNN-LSTMによる手法ーShow and tellを実装してみよう Open In Colab 64 | 65 | - 第4節 アテンション機構による手法ーShow, attend and tellを実装してみよう Open In Colab 66 | 67 | - 第5節 Transformerによる画像キャプショニングを実装してみよう Open In Colab 68 | 69 | ## 付録 70 | 71 | 書籍でカバーしきれなかった内容について付録を用意しました。付録はJupyterノートブックで作成されています。 72 | 73 |
74 |
付録A PyTorchの基礎 Open In Colab
75 |
PyTorchを使う上で最低限必要となる知識について解説しています。PyTorchを始めて使う方は第4章に入る前に本ノートブックを読むことをおすすめします。
76 |
77 | 78 | ## 関連リンク 79 | 80 | ### [CVMLエキスパートガイド](https://cvml-expertguide.net/) 81 | 82 | コンピュータビジョンやディープラーニングを専門とする研究開発者を対象とした学習支援サイトです。サイトの指定参考書に本書を入れていただいています。本書では分量の関係上、詳細を割愛したものやカバーしきれなかったものが詳しく解説されており、本書と合わせてサイトをご活用いただくと、より理解が深まるのでおススメのサイトです。 83 | 84 | ## 疑問点・修正点 85 | 86 | 疑問点や修正点はIssueにて管理しています。不明点などございましたら以下を確認し、解決方法が見つからない場合には新しくIssueを作成してください。 87 | 88 | https://github.com/py-img-recog/python_image_recognition/issues 89 | -------------------------------------------------------------------------------- /appendix/a_pytorch.ipynb: -------------------------------------------------------------------------------- 1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[],"authorship_tag":"ABX9TyPDtZFTJ7tNYqlLJyztRKXW"},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"},"accelerator":"GPU","gpuClass":"standard"},"cells":[{"cell_type":"markdown","source":["#Pythonで学ぶ画像認識 付録A PyTorchの基礎"],"metadata":{"id":"aI7F4SRNLsQz"}},{"cell_type":"markdown","source":["本付録では本書で使う深層学習フレームワークのPyTorchについて、本書を読み進める上で必要となる最低限の知識を解説します。PyTorchではNumPyと同じように、複数の数値を1つにまとめた多次元配列を使って処理を進めます。多次元配列の使い方や多次元配列に適用する関数はNumPyと類似する部分が多くあります。NumPyの使い方をご存じの方はそれらの処理を思い浮かべながら共通する部分を確認していただければと思います。"],"metadata":{"id":"c5M_ug8Bnh6k"}},{"cell_type":"markdown","source":["##モジュールのインポート"],"metadata":{"id":"zeIShpEgLw5q"}},{"cell_type":"code","execution_count":1,"metadata":{"id":"Mz_fwzMLLkOd","executionInfo":{"status":"ok","timestamp":1677900422622,"user_tz":480,"elapsed":4734,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}}},"outputs":[],"source":["import torch\n","import torch.nn.functional as F\n","from torch import nn"]},{"cell_type":"markdown","source":["##テンソルとテンソルの操作"],"metadata":{"id":"-n79EMMFnlku"}},{"cell_type":"markdown","source":["###テンソルとは"],"metadata":{"id":"6_heDLJRqBSe"}},{"cell_type":"markdown","source":["####テンソルの生成"],"metadata":{"id":"jdQk8njyMAhB"}},{"cell_type":"markdown","source":["まずはPyTorchの多次元配列の基礎と多次元配列を使った簡単な処理を解説します。PyTorchでは多次元配列のことを**テンソル(Tensor)**と呼び、`Tensor`クラスで定義しています。以下にテンソルの生成例を示します。"],"metadata":{"id":"G0EvEfbZnzLe"}},{"cell_type":"code","source":["t1 = torch.tensor([1, 2, 3, 4])\n","t2 = torch.zeros((32, 3, 128, 128))\n","\n","print(f't1 = {t1}, t1.shape = {t1.shape}')\n","print(f't2.shape = {t2.shape}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"lxMPxuFeMC07","executionInfo":{"status":"ok","timestamp":1677900425665,"user_tz":480,"elapsed":133,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"6d011007-d804-40e6-fee1-0304cea74500"},"execution_count":2,"outputs":[{"output_type":"stream","name":"stdout","text":["t1 = tensor([1, 2, 3, 4]), t1.shape = torch.Size([4])\n","t2.shape = torch.Size([32, 3, 128, 128])\n"]}]},{"cell_type":"markdown","source":["`t1`は`tensor`関数にリストを渡すことで生成されています。この生成結果は第0軸が4次元で1から4の値を持つテンソルです。`t2`は`zeros`関数により生成されています。`zeros`関数は各軸の次元を指定することで、その形を持つ全ての値が0のテンソルを生成します。このようにテンソルは任意の軸数および次元を持つことができます。テンソルの形は`Tensor`クラスのインスタンスが持つ`shape`変数で確認できます。"],"metadata":{"id":"vL8PbEB9oRy6"}},{"cell_type":"markdown","source":["####テンソルのGPUへの転送"],"metadata":{"id":"GkmJxwi8SWt-"}},{"cell_type":"markdown","source":["テンソルは通常だとCPUで処理するためにメインメモリ上に生成されますが、GPUメモリ上に生成したり、後からGPUメモリに転送したりできます。以下にGPUメモリにテンソルを配置するための例を示します。"],"metadata":{"id":"YRHMME8Go4wv"}},{"cell_type":"code","source":["t1 = torch.tensor([1, 2, 3, 4], device='cuda')\n","\n","t2 = torch.tensor([1, 2, 3, 4])\n","t2 = t2.to('cuda')"],"metadata":{"id":"GZQZnl1nSc9n","executionInfo":{"status":"ok","timestamp":1677900433279,"user_tz":480,"elapsed":5130,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}}},"execution_count":3,"outputs":[]},{"cell_type":"markdown","source":["`t1`は生成時に`device`引数に`'cuda'`を指定しているので最初からGPUメモリ上に生成されます。一方で`t2`はまずメインメモリ上に生成され、`to`関数によりGPUメモリに転送されます。このようにテンソルをGPUメモリに配置してGPUで処理することにより高速に処理できるようになります。ただし、メインメモリと比較してGPUメモリは容量が限られていることが多いので、GPUメモリに配置するテンソルの数と大きさに気をつける必要があります。"],"metadata":{"id":"9hDO2aV8o_ce"}},{"cell_type":"markdown","source":["####Python演算子を使ったテンソルの演算"],"metadata":{"id":"hTLJXSpkWww2"}},{"cell_type":"markdown","source":["Pythonの演算子を使ってテンソルの演算をした場合、演算は要素ごとに行われます。以下にPython演算子によるテンソルの演算とその結果を示します。"],"metadata":{"id":"vlKmhSh3pYrg"}},{"cell_type":"code","source":["t1 = torch.tensor([1, 2, 3, 4])\n","t2 = torch.tensor([2, 4, 6, 8])\n","\n","t3 = t1 + t2\n","t4 = t1 ** 2\n","\n","print(f't3 = {t3}')\n","print(f't4 = {t4}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"BtLMa2q4W1km","executionInfo":{"status":"ok","timestamp":1677900435828,"user_tz":480,"elapsed":115,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"74990e18-1acf-4315-f491-567c96f44dc5"},"execution_count":4,"outputs":[{"output_type":"stream","name":"stdout","text":["t3 = tensor([ 3, 6, 9, 12])\n","t4 = tensor([ 1, 4, 9, 16])\n"]}]},{"cell_type":"markdown","source":["`t3`は`t1`と`t2`の要素毎の加算により得られ、`t4`は`t1`の要素毎の2乗により得られていることがわかります。このような要素毎の演算をするため、Python演算子を使った2つのテンソルの演算では2つのテンソルは基本的に同じ形である必要があります。ただし、後ほど解説するブロードキャストが可能な条件に当てはまれば、異なる形のテンソル同士で演算可能です。"],"metadata":{"id":"NCtQjvrkpiN-"}},{"cell_type":"markdown","source":["以上がテンソルの解説になります。`Tensor`クラスにはテンソルを処理するための様々な関数が実装されています。次はそれらの中から頻繁に使うものをいくつか解説します。"],"metadata":{"id":"oOqSJHMcpx1Z"}},{"cell_type":"markdown","source":["###テンソルを処理する関数"],"metadata":{"id":"h5p8dH0BqmUi"}},{"cell_type":"markdown","source":["####view関数によるテンソルの形の変更"],"metadata":{"id":"tcudLLoZcakt"}},{"cell_type":"markdown","source":["PyTorchでデータを処理する際にテンソルの形を変更することが多くあります。そのようなときは`view`関数を使用します。以下に`view`関数の使用例と形を変更した結果を示します。"],"metadata":{"id":"6iOf7nuLqv9o"}},{"cell_type":"code","source":["t1 = torch.tensor([1, 2, 3, 4])\n","t1 = t1.view(2, 2)\n","\n","t2 = torch.tensor([1, 2, 3, 4, 5, 6])\n","t2 = t2.view(2, -1)\n","\n","print(f't1.shape = {t1.shape}')\n","print(f't2.shape = {t2.shape}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"l6SCg2yLcdnH","executionInfo":{"status":"ok","timestamp":1677900438225,"user_tz":480,"elapsed":111,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"ad44ddc1-c020-4ab9-f583-e3e2ff744587"},"execution_count":5,"outputs":[{"output_type":"stream","name":"stdout","text":["t1.shape = torch.Size([2, 2])\n","t2.shape = torch.Size([2, 3])\n"]}]},{"cell_type":"markdown","source":["`t1`は元々`[4]`の形のテンソルでしたが、`view`関数により`[2, 2]`の形に変更されています。`t2`の形は`view`関数により`[6]`から`[2, 3]`に変更されています。`view`関数には1つだけ`-1`を渡すことができ、`-1`を指定された軸の次元は、元のテンソルの大きさと`view`関数に渡されたその他の軸の次元から自動的に計算されます。\n","\n","`view`関数は元のテンソルのデータをメモリ上で複製せずに、見かけ上の形を変更します。このような理由からメモリ上のデータ配置と見かけ上の形で整合性が取れないときは`view`関数を使えません。このようなときは`reshape`関数を使います。`reshape`関数は前述のような整合性がとれないときは、データを複製して形を変更します。多くの場合で`view`関数を使うことができるので、`view`関数でエラーが出るときのみ`reshape`関数を使えば問題ありません。"],"metadata":{"id":"UUw3edaEq4l9"}},{"cell_type":"markdown","source":["####transpose関数とpermute関数による軸の並び替え"],"metadata":{"id":"UlRMk54pqpNG"}},{"cell_type":"markdown","source":["`view`関数と同様にテンソルの処理で頻繁に登場するのが軸の順番を並び替える`transpose`関数や`permute`関数です。軸の並び替えというと想像しにくいですが、行列の行と列を入れ替える操作をより多くの軸で行うイメージです。`transpose`関数は任意の2軸を入れ替えます。一方で`permute`関数は`transpose`関数を拡張した関数で、全ての軸を一度に並べ替えることができます。以下に`transpose`関数と`permute`関数の使用例と軸を並び替えた結果を示します。"],"metadata":{"id":"FaQC98PnrkHu"}},{"cell_type":"code","source":["t1 = torch.zeros((32, 3, 128, 128))\n","t1 = t1.transpose(0, 2)\n","\n","t2 = torch.zeros((32, 3, 128, 128))\n","t2 = t2.permute(2, 0, 3, 1)\n","\n","print(f't1.shape = {t1.shape}')\n","print(f't2.shape = {t2.shape}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"SHN1nRCQqshs","executionInfo":{"status":"ok","timestamp":1677900440457,"user_tz":480,"elapsed":125,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"dc850e11-14a9-4906-ae23-4505299e7f78"},"execution_count":6,"outputs":[{"output_type":"stream","name":"stdout","text":["t1.shape = torch.Size([128, 3, 32, 128])\n","t2.shape = torch.Size([128, 32, 128, 3])\n"]}]},{"cell_type":"markdown","source":["`transpose`関数で第0軸と第2軸を入れ替えた結果、`[32, 3, 128, 128]`の形であったテンソル`t1`が`[128, 3, 32, 128]`の形になります。`permute`関数は軸の順番が第2軸、第0軸、第3軸、第1軸となるよう並べ替えており、軸を並べ替えられた`t2`は`[128, 32, 128, 3]`の形になります。"],"metadata":{"id":"3imq7A8tr0Ha"}},{"cell_type":"markdown","source":["####cat関数とstack関数による複数テンソルの連結"],"metadata":{"id":"nJMzfO1fwGEi"}},{"cell_type":"markdown","source":["`view`関数や`transpose`関数は1つのテンソルに対する操作でしたが、複数のテンソルを組み合わせる操作が必要になることも多くあります。そのようなときに使用するのが`cat`関数と`stack`関数です。`cat`関数はテンソルが持つ既存の軸の1つで複数のテンソルを連結します。一方で`stack`関数は新しく軸を追加して、その軸で複数のテンソルを連結します。以下に`cat`関数と`stack`関数の使用例と複数のテンソルを連結した結果を示します。"],"metadata":{"id":"2xP3U8MnsAaF"}},{"cell_type":"code","source":["t1 = torch.tensor([1, 2, 3, 4, 5, 6]).view(2, 3)\n","t2 = torch.tensor([7, 8, 9]).view(1, 3)\n","t3 = torch.cat((t1, t2))\n","\n","t4 = torch.tensor([1, 2, 3])\n","t5 = torch.tensor([4, 5, 6])\n","t6 = torch.stack((t4, t5), dim=1)\n","\n","print(f't3 = {t3}')\n","print(f't6 = {t6}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"vYv8qYn9wKin","executionInfo":{"status":"ok","timestamp":1677900442375,"user_tz":480,"elapsed":173,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"cf31c61f-1a40-4264-a207-3124be9c65e6"},"execution_count":7,"outputs":[{"output_type":"stream","name":"stdout","text":["t3 = tensor([[1, 2, 3],\n"," [4, 5, 6],\n"," [7, 8, 9]])\n","t6 = tensor([[1, 4],\n"," [2, 5],\n"," [3, 6]])\n"]}]},{"cell_type":"markdown","source":["`cat`関数は`[2, 3]`の形の`t1`と`[1, 3]`の形の`t2`を第0軸で連結して、`[3, 3]`の形の`t3`を生成しています。`cat`関数はデフォルトで第0軸で連結しますが、連結する軸を`dim`引数で指定することもできます。`cat`関数を使うときは、連結されるテンソルは`dim`引数で指定する軸以外は同じ次元である必要があります。`stack`関数は`[3]`の形の`t4`と`[3]`の形の`t5`に第1軸を追加してその軸で連結し、`[3, 2]`の形の`t6`を生成しています。`stack`関数を使うときは、連結されるテンソルは全て同じ形である必要があります。"],"metadata":{"id":"9wOSVVUTsRTS"}},{"cell_type":"markdown","source":["###インデクシングによるテンソルの要素の抽出"],"metadata":{"id":"6w6kqKqj5U0u"}},{"cell_type":"markdown","source":["データを処理していると、テンソルから一部の要素を抽出する必要があるときがあります。そのようなときは、Pythonのリストと同じようにインデクシングにより要素を抽出できます。ただし、`Tensor`クラスにはより高度なインデクシングの方法が実装されています。以下にインデクシングの例とその結果を示します。"],"metadata":{"id":"t_1dcPoQscm-"}},{"cell_type":"code","source":["t1 = torch.tensor([1, 2, 3, 4, 5, 6, 7, 8, 9]).view(3, 3)\n","t2 = t1[[0, 1]]\n","t3 = t1[:, [0, 2]]\n","t4 = t1[[0, 2, 1], [1, 2, 1]]\n","t5 = t1[[True, False, False]]\n","t6 = t1[t1 % 2 == 0]\n","\n","print(f't2 = {t2}')\n","print(f't3 = {t3}')\n","print(f't4 = {t4}')\n","print(f't5 = {t5}')\n","print(f't6 = {t6}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"sP6OWTze5aBN","executionInfo":{"status":"ok","timestamp":1677900444627,"user_tz":480,"elapsed":131,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"497acee0-fc0c-47c7-81b7-d4d73ad18e40"},"execution_count":8,"outputs":[{"output_type":"stream","name":"stdout","text":["t2 = tensor([[1, 2, 3],\n"," [4, 5, 6]])\n","t3 = tensor([[1, 3],\n"," [4, 6],\n"," [7, 9]])\n","t4 = tensor([2, 9, 5])\n","t5 = tensor([[1, 2, 3]])\n","t6 = tensor([2, 4, 6, 8])\n"]}]},{"cell_type":"markdown","source":["インデクシングの1つの方法は抽出したい次元を指定する方法です。`t2`や`t3`はそれぞれ`t1`の第0軸と第1軸の次元を複数のインデックスを使って指定し、その次元の値を抽出することで得られるテンソルになります。このように1つの軸に対して複数のインデックスを指定することで、複数の次元を抽出した新しいテンソルを生成できます。一方で`t4`は`t1`の2つの軸に同時にインデックスを指定して値を抽出したテンソルになります。このように複数の軸に同時にインデックスを指定した場合、インデックスを座標のように使った値の抽出ができます。`t4`の例では2軸を持つテンソルである`t1`から0行1列目、2行2列目および1行1列目の3つの値を抽出したテンソルになります。\n","\n","インデクシングのもう1つの方法は真偽値を使う方法です。`t5`の例では`t1`の第0軸に対して抽出対象の次元に`True`を、そうでない次元に`False`を設定して値を抽出しています。このように1つの軸の各次元に真偽値を設定することによって、その軸の必要な次元を抽出することができます。また、`t6`の例のように`t1`の全ての要素に対して真偽値を設定し、必要な要素を取り出すこともできます。`t6`は`t1`の要素が偶数かどうかを表す真偽値をインデックスとして使い、抽出されたテンソルです。このようなインデクシングにより、`t1`から偶数のみを抽出したテンソルを得られています。"],"metadata":{"id":"WYhrakzTtRDm"}},{"cell_type":"markdown","source":["###ブロードキャストを使った演算"],"metadata":{"id":"_CUKF2gZKNNj"}},{"cell_type":"markdown","source":["Python演算子を使ったテンソルの計算のところで解説したように、要素毎の演算において異なる形を持つテンソル同士がある一定の条件を満たすとき、それらを使って演算を行うことができます。これは一方のテンソルの形が他方に合わせて自動的に拡張して解釈されるためで、**ブロードキャスト(broadcast)**と呼ばれます。ブロードキャストが起きる条件は以下になります。\n","\n","* 2つのテンソルの軸数が1以上である\n","* 2つのテンソルを最終軸から比較した場合、各軸の次元が同じであるか、どちらかが1であるか、どちらかの軸が存在しない\n","\n","以下にブロードキャストが起きる例とその演算結果を示します。"],"metadata":{"id":"YnGLIaWjuEgL"}},{"cell_type":"code","source":["t1 = torch.tensor([1, 2]).view(2, 1)\n","t2 = torch.tensor([3, 4, 5])\n","# t1 = [[1], -> [[1, 1, 1],\n","# [2]] broadcast [2, 2, 2]]\n","# t2 = [3, 4, 5] -> [[3, 4, 5],\n","# [3, 4, 5]]\n","t3 = t1 + t2\n","\n","t4 = torch.tensor([1, 2, 3, 4, 5, 6]).view(3, 2)\n","t5 = torch.tensor([3, 4])\n","# t4 = [[1, 2],\n","# [3, 4],\n","# [5, 6]] broadcast \n","# t5 = [3, 4] -> [[3, 4],\n","# [3, 4],\n","# [3, 4]]\n","t6 = t4 + t5\n","\n","print(f't3 = {t3}')\n","print(f't6 = {t6}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"YQvWndTfKRYi","executionInfo":{"status":"ok","timestamp":1677900447954,"user_tz":480,"elapsed":123,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"a490b9ca-cc48-4420-e9e8-b0b8213885a6"},"execution_count":9,"outputs":[{"output_type":"stream","name":"stdout","text":["t3 = tensor([[4, 5, 6],\n"," [5, 6, 7]])\n","t6 = tensor([[ 4, 6],\n"," [ 6, 8],\n"," [ 8, 10]])\n"]}]},{"cell_type":"markdown","source":["`t1`と`t2`の加算では`t1`の形`[2, 1]`と`t2`の形`[3]`が最終軸から比較されます。`t1`の最終軸の次元は1、`t2`の最終軸の次元は3であるので、`t1`の軸が拡張して解釈され、最終軸の次元が3であるかのように扱われます。`t1`の1つ前の軸の次元は2、`t2`は1つ前の軸がないので、`t2`の軸が拡張して解釈され、第0軸が追加されてその次元が2のように扱われます。その結果、`[2, 3]`の形の`t3`が得られます。`t4`と`t5`の加算では`t4`の形`[3, 2]`と`t5`の形`[2]`が最終軸から比較されます。`t4`と`t5`の最終軸の次元はともに2であるので、なにもせずに1つ前の軸が比較されます。`t4`の1つ前の軸の次元は3、`t5`は1つ前の軸がないので、`t5`の軸が拡張して解釈され、第0軸が追加されてその次元が3のように扱われます。その結果、`[3, 2]`の形の`t6`が得られます。"],"metadata":{"id":"5Wnl2-zAuXWx"}},{"cell_type":"markdown","source":["以上がテンソルに関する解説になります。次はPyTorchを使ったモデルの実装について解説します。"],"metadata":{"id":"5UI3CVNpuaFv"}},{"cell_type":"markdown","source":["##モジュール"],"metadata":{"id":"DSxwYPdIu9tU"}},{"cell_type":"markdown","source":["PyTorchではパラメータを持つモデルを実装する際に決められたやり方に従って実装する必要があります。そのやり方に従うことによって、モデルが持つパラメータの抽出やパラメータのGPUへの転送、モデルを学習に使うのか評価に使うのかの切り替えなどの処理を簡単に実行することができます。以下ではその実装方法について解説します。"],"metadata":{"id":"PXM1CXIqmwxA"}},{"cell_type":"markdown","source":["###モジュールとは"],"metadata":{"id":"EBLd-quSvIZi"}},{"cell_type":"markdown","source":["####多クラスロジスティック回帰のPyTorchを使った実装"],"metadata":{"id":"tmMhwvy8M9yJ"}},{"cell_type":"markdown","source":["PyTorchでは1つ1つのモデルをクラスで定義し、PyTorchの`Module`クラスを継承して実装します。Pythonで`import`して使用するモジュールとPyTorchのモジュールは名称は同じですが異なる概念なので注意してください。以下に多クラスロジスティック回帰モデルを`Module`クラスを継承して実装した例を示します。"],"metadata":{"id":"-6XTOvUev8kh"}},{"cell_type":"code","source":["class MultiClassLogisticRegression(nn.Module):\n"," '''\n"," 多クラスロジスティック回帰\n"," dim_input : 入力次元\n"," num_classes: 分類対象の物体クラス数\n"," '''\n"," def __init__(self, dim_input: int, num_classes: int):\n"," super().__init__()\n"," \n"," self.linear = nn.Linear(dim_input, num_classes)\n","\n"," '''\n"," 順伝播関数\n"," x: 入力データ, [バッチサイズ, 入力次元]\n"," '''\n"," def forward(self, x: torch.Tensor):\n"," l = self.linear(x)\n"," y = l.softmax(dim=1)\n","\n"," return y"],"metadata":{"id":"30q0tlikNDTI","executionInfo":{"status":"ok","timestamp":1677900451789,"user_tz":480,"elapsed":122,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}}},"execution_count":10,"outputs":[]},{"cell_type":"markdown","source":["`Module`クラスを継承したモデルクラスのコンストラクタでは、まず親クラスのコンストラクタを呼ぶ必要があります。そのあとにモデルに必要なものを用意します。\n","\n","PyTorchには`Tensor`クラスを拡張した`Parameter`クラスがあり、そのクラスがパラメータの実装になります。しかし、自分で実装するモデルクラスのコンストラクタの中で`Parameter`クラスのインスタンスを生成することはあまりありません。なぜならPyTorchには深層学習で必要となる多くの処理が既にクラスとして実装されており、それらの中でそれぞれに必要なパラメータが生成されるからです。例えば線形関数は`Linear`クラスとして実装されており、上記の`MultiClassLogisticRegression`クラスではそれを使用しています。`Linear`クラスもまた`Module`クラスを継承したクラスとなっており、このクラスのコンストラクタの中で重みやバイアスのパラメータが用意されています。\n","\n","モデルの実装でコンストラクタの他にもう1つ必要になるのが順伝播を行う`forward`関数です。`Module`クラスには`__call__`関数が定義されており、`Module`クラスのインスタンスを関数と同じように使えます。`__call__`関数を呼び出すと`forward`関数が呼ばれ、順伝播が行われます。上記の`forward`関数では線形関数の順伝播によりロジット`l`を得た後、`Tensor`クラスが持つ`softmax`関数を第1軸に適用することで予測確率を得ています。"],"metadata":{"id":"WDH3h59iwdy0"}},{"cell_type":"markdown","source":["####多クラスロジスティック回帰モデルの使用例"],"metadata":{"id":"MgLaieykN7YV"}},{"cell_type":"markdown","source":["以下に実装した多クラスロジスティック回帰モデルの使用例を示します。\n"],"metadata":{"id":"Wca9fjw8xRiS"}},{"cell_type":"code","source":["model = MultiClassLogisticRegression(32 * 32 * 3, 10)\n","\n","# 学習モードに設定\n","model.train()\n","\n","# 評価(推論)モードに設定\n","model.eval()\n","\n","x = torch.normal(0, 1, size=(1, 32 * 32 * 3))\n","y = model(x)\n","\n","for name, parameter in model.named_parameters():\n"," print(f'{name}: shape = {parameter.shape}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"Gsrwn4__OC54","executionInfo":{"status":"ok","timestamp":1677900454057,"user_tz":480,"elapsed":131,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"8dad1a01-cda2-42d8-8e6f-cec9d3a212ca"},"execution_count":11,"outputs":[{"output_type":"stream","name":"stdout","text":["linear.weight: shape = torch.Size([10, 3072])\n","linear.bias: shape = torch.Size([10])\n"]}]},{"cell_type":"markdown","source":["`Module`クラスには`train`関数と`eval`関数が実装されており、モデルの学習モードと評価モードを切り替えられるようになっています。今回の多クラスロジスティック回帰モデルでは学習モードと評価モードに違いはありませんが、モデルの中で学習と評価で異なる処理が必要となることもあるため、このような関数を用意して学習モードと評価モードを簡単に切り替えられるようになっています。\n","\n","`Module`クラスに実装されている`named_parameters`関数を使うことで、モデルが持つパラメータをその名前とともに抽出することができます。上記コードの実行結果には`MultiClassLogisticRegression`クラスのパラメータの名前と形が示されています。`MultiClassLogisticRegression`クラスで`Linear`クラスのインスタンスは`linear`変数に登録されており、`Linear`クラスで重みは`weight`変数に、バイアスは`bias`変数に登録されているため、パラメータの名前は上記結果のようになります。"],"metadata":{"id":"ScN28iWhxc_d"}},{"cell_type":"markdown","source":["以上がモジュールの解説になります。次は複数のモジュールを1つにまとめるために用意されているクラスを解説します。"],"metadata":{"id":"N416J6L-xgfL"}},{"cell_type":"markdown","source":["###`Sequential`クラスと`ModuleList`クラス"],"metadata":{"id":"gGS5GhaMygjD"}},{"cell_type":"markdown","source":["PyTorchには複数の`Module`クラスのインスタンスを1つにまとめるための`Sequential`クラスおよび`ModuleList`クラスが用意されています。`Sequential`クラスは複数の処理を直列にまとめて適用するためのクラスです。一方で`ModuleList`クラスはリストのように複数の処理をリストにまとめて保持しておくためのクラスです。ここでは`Sequential`クラスと`ModuleList`クラスを使いながら2つのクラスがどのように異なるかを確認します。"],"metadata":{"id":"oNuX-GwzyySW"}},{"cell_type":"markdown","source":["####Sequentialクラスを使ったモデルの実装"],"metadata":{"id":"kpLz7SPKs4ka"}},{"cell_type":"markdown","source":["以下に`Sequential`クラスを使った順伝播型ニューラルネットワークの実装例を示します。"],"metadata":{"id":"a2TPbZZhz9oD"}},{"cell_type":"code","source":["class FNNSequential(nn.Module):\n"," '''\n"," 順伝播型ニューラルネットワーク\n"," dim_input : 入力次元\n"," num_classes: 分類対象の物体クラス数\n"," '''\n"," def __init__(self, dim_input: int, num_classes: int):\n"," super().__init__()\n"," \n"," self.layers = nn.Sequential(\n"," nn.Linear(dim_input, 256),\n"," nn.ReLU(inplace=True),\n"," nn.Linear(256, 256),\n"," nn.ReLU(inplace=True),\n"," nn.Linear(256, 256),\n"," nn.ReLU(inplace=True),\n"," nn.Linear(256, num_classes)\n"," )\n","\n"," '''\n"," 順伝播関数\n"," x: 入力データ, [バッチサイズ, 入力次元]\n"," '''\n"," def forward(self, x):\n"," l = self.layers(x)\n"," y = l.softmax(dim=1)\n","\n"," return y\n"],"metadata":{"id":"EZsmWRWms8mA","executionInfo":{"status":"ok","timestamp":1677900462202,"user_tz":480,"elapsed":134,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}}},"execution_count":12,"outputs":[]},{"cell_type":"markdown","source":["`FNNSequential`クラスのコンストラクタの中で`Sequential`クラスを使用しています。`Sequential`クラスのコンストラクタには適用したい処理のクラスインスタンスを渡します。ここでは線形関数である`Linear`クラスとReLU関数である`ReLU`クラスのインスタンスを渡しています。これらの処理は引数で渡した順番で直列に適用されます。`forward`関数の実装に示すように、順伝播を行うには`Sequential`クラスのインスタンスに入力を渡します。得られる結果は`Sequential`クラスのコンストラクタに渡した全ての処理を適用したものになります。"],"metadata":{"id":"u43DLJhj0CKa"}},{"cell_type":"markdown","source":["####ModuleListクラスを使ったモデルの実装"],"metadata":{"id":"9ktyaLi1v-3F"}},{"cell_type":"markdown","source":["以下に`ModuleList`クラスを使った順伝播型ニューラルネットワークの実装例を示します。"],"metadata":{"id":"kU5H_bE50PMo"}},{"cell_type":"code","source":["class FNNModuleList(nn.Module):\n"," '''\n"," 順伝播型ニューラルネットワーク\n"," dim_input : 入力次元\n"," num_classes: 分類対象の物体クラス数\n"," '''\n"," def __init__(self, dim_input: int, num_classes: int):\n"," super().__init__()\n"," \n"," layers = [nn.Linear(dim_input, 256)]\n"," layers += [nn.Linear(256, 256) for _ in range(2)]\n"," layers.append(nn.Linear(256, num_classes))\n"," self.layers = nn.ModuleList(layers)\n","\n"," '''\n"," 順伝播関数\n"," x: 入力データ, [バッチサイズ, 入力次元]\n"," '''\n"," def forward(self, x):\n"," for layer in self.layers[:-1]:\n"," x = F.relu(layer(x))\n"," l = self.layers[-1](x)\n"," y = l.softmax(dim=1)\n"," \n"," return y"],"metadata":{"id":"q3w97GU6wBzb","executionInfo":{"status":"ok","timestamp":1677900464565,"user_tz":480,"elapsed":134,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}}},"execution_count":13,"outputs":[]},{"cell_type":"markdown","source":["`ModuleList`クラスのコンストラクタには必要な処理のクラスを集めたリストを渡します。このように複数の処理をまとめたリストを使う場合にはPythonクラスのリストではなく`ModuleList`クラスを使う必要があります。`ModueList`クラスを使わずにPythonのリストをそのままクラス変数に登録してしまった場合、モデルが持つパラメータの管理がうまくできなくなります。`ModueList`クラスの使い方はPythonリストと同じで、順伝播時には`for`ループなどを使って要素を抽出して使います。"],"metadata":{"id":"HQu2eEFu0f2Q"}},{"cell_type":"markdown","source":["####`Sequential`クラスと`ModuleList`クラスを使ったFNNモデルの使用例"],"metadata":{"id":"Px2QMu0mw-zw"}},{"cell_type":"code","source":["model_sequential = FNNSequential(32 * 32 * 3, 10)\n","model_modulelist = FNNModuleList(32 * 32 * 3, 10)\n","\n","model_sequential.eval()\n","model_modulelist.eval()\n","\n","x = torch.normal(0, 1, size=(1, 32 * 32 * 3))\n","y_sequential = model_sequential(x)\n","y_modulelist = model_modulelist(x)\n","\n","print(f'y_sequential = {y_sequential}')\n","print(f'y_modulelist = {y_modulelist}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"q5njzERaxDCk","executionInfo":{"status":"ok","timestamp":1677900466443,"user_tz":480,"elapsed":112,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"5999ffb1-e850-4f53-d92e-668567f215e2"},"execution_count":14,"outputs":[{"output_type":"stream","name":"stdout","text":["y_sequential = tensor([[0.1015, 0.0933, 0.0947, 0.0955, 0.1072, 0.0904, 0.1054, 0.1059, 0.0952,\n"," 0.1109]], grad_fn=)\n","y_modulelist = tensor([[0.0947, 0.0904, 0.1014, 0.0958, 0.0994, 0.1121, 0.1010, 0.0981, 0.0946,\n"," 0.1125]], grad_fn=)\n"]}]},{"cell_type":"markdown","source":["上記に示すように、`Sequential`クラスを使った場合と`ModuleList`クラスを使った場合で、モデルの外から見た違いはありません。では2つのクラスをモデルの中でどのように使い分けるかというと、`Sequential`クラスはまとまった複数の処理を1つの処理として適用するときによく使われます。例えば線形関数とReLU関数は1セットの処理と考えられるので、`Sequential`クラスで`Linear`クラスと`ReLU`クラスをまとめます。一方で`ModuleList`クラスは同じ処理を複数回適用するようなときに使われます。例えば`Sequential`クラスでまとめた線形関数とReLU関数を3回適用したい場合などは、`Sequential`クラスのインスタンスを3つ`ModuleList`クラスでまとめます。"],"metadata":{"id":"DZ6MnvZr0kr-"}},{"cell_type":"markdown","source":["以上がPyTorchのモジュールの解説になります。最後にPyTorchの誤差逆伝播のために実装された自動微分について解説します。"],"metadata":{"id":"EzGn3g3b0lhM"}},{"cell_type":"markdown","source":["##自動微分"],"metadata":{"id":"TwNBjhRc0tR1"}},{"cell_type":"markdown","source":["PyTorchでは誤差逆伝播を簡単に行うために自動微分という仕組みが実装されています。第3.1節で実装した多クラスロジスティック回帰モデルでは勾配の計算を実装してパラメータの更新を行いましたが、自動微分があるPyTorchを使えば勾配の計算を実装する必要はありません。\n","\n","第3.2節で解説したように、DNNはグラフ構造として捉えられます。順伝播ではグラフを順方向に辿って出力を計算し、誤差逆伝播では順伝播とは逆方向に辿って勾配を計算します。また、誤差逆伝播では連鎖率により現在の処理の勾配と逆伝播されてきた勾配の積を計算すれば、目的関数のパラメータ方向の勾配を計算できました。これらを考慮すると、順伝播でグラフ構造を把握し、かつ個々の処理で勾配の計算が実装されていれば誤差逆伝播を行えることになります。\n","\n","PyTorchではこのような順伝播時のグラフ構造の記録と個々の処理の勾配計算の実装により自動微分を実現しています。PyTorchでは入力から出力までで、適用された関数や計算の途中結果がグラフを構築するように記録され、誤差逆伝播時にはそれを逆にたどることで全てのパラメータの勾配が計算されます。グラフの記録を漏れなく行うためには、テンソルに対する処理を全てPyTorchの関数で行う必要があります。PyTorchの関数にない独自の処理を行いたい場合には、PyTorchの関数の設計方針に従って関数を実装することも可能です。しかし、多くの場合はPyTorchの関数を組み合わせれば目的の処理を実現できます。"],"metadata":{"id":"iiNp8tCw01XW"}},{"cell_type":"markdown","source":["以下に自動微分を使った誤差逆伝播の例を示します。\n"],"metadata":{"id":"jcNUHLEO05-z"}},{"cell_type":"code","source":["linear = nn.Linear(32 * 32 * 3, 10)\n","\n","# 入力とラベルの用意\n","x = torch.normal(0, 1, size=(1, 32 * 32 * 3))\n","y = torch.tensor([0])\n","\n","# 目的関数(交差エントロピー誤差)の計算\n","y_pred = linear(x)\n","loss = F.cross_entropy(y_pred, y)\n","\n","# 誤差逆伝播\n","loss.backward()\n","\n","print(f'linear.weight.grad = {linear.weight.grad}')\n","print(f'linear.bias.grad = {linear.bias.grad}')"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"18a-IwS0CP6F","executionInfo":{"status":"ok","timestamp":1677900472339,"user_tz":480,"elapsed":112,"user":{"displayName":"Taro Python","userId":"05683982304053166545"}},"outputId":"570f3f3d-3c28-41ef-ccd3-af3c73471949"},"execution_count":15,"outputs":[{"output_type":"stream","name":"stdout","text":["linear.weight.grad = tensor([[ 0.0814, 0.1924, -1.3381, ..., -0.5630, -0.7319, 0.1235],\n"," [-0.0034, -0.0081, 0.0564, ..., 0.0237, 0.0308, -0.0052],\n"," [-0.0124, -0.0294, 0.2045, ..., 0.0860, 0.1119, -0.0189],\n"," ...,\n"," [-0.0074, -0.0174, 0.1209, ..., 0.0509, 0.0661, -0.0112],\n"," [-0.0208, -0.0491, 0.3417, ..., 0.1438, 0.1869, -0.0315],\n"," [-0.0080, -0.0189, 0.1316, ..., 0.0554, 0.0720, -0.0121]])\n","linear.bias.grad = tensor([-0.8701, 0.0367, 0.1330, 0.1623, 0.0346, 0.0345, 0.0828, 0.0786,\n"," 0.2222, 0.0856])\n"]}]},{"cell_type":"markdown","source":["誤差逆伝播を行う際は、まずは入力に対して順伝播を行い、目的関数を計算します。あとは`Tensor`クラスに実装された`backward`関数を呼ぶだけで誤差逆伝播が完了します。\n","\n","勾配は上記に示すように`Parameter`クラスのインスタンスの`grad`変数に格納されています。パラメータの更新はこの勾配を使って行われます。"],"metadata":{"id":"Ht5nIrHT09Pz"}},{"cell_type":"markdown","source":["以上がPyTorchの基礎の解説になります。"],"metadata":{"id":"S281tbQM1CP6"}}]} -------------------------------------------------------------------------------- /data/apple.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/apple.jpg -------------------------------------------------------------------------------- /data/classification/airplane.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/airplane.jpg -------------------------------------------------------------------------------- /data/classification/automobile.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/automobile.jpg -------------------------------------------------------------------------------- /data/classification/bird.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/bird.jpg -------------------------------------------------------------------------------- /data/classification/cat.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/cat.jpg -------------------------------------------------------------------------------- /data/classification/deer.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/deer.jpg -------------------------------------------------------------------------------- /data/classification/dog.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/dog.jpg -------------------------------------------------------------------------------- /data/classification/frog.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/frog.jpg -------------------------------------------------------------------------------- /data/classification/horse.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/horse.jpg -------------------------------------------------------------------------------- /data/classification/ship.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/ship.jpg -------------------------------------------------------------------------------- /data/classification/truck.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/classification/truck.jpg -------------------------------------------------------------------------------- /data/coffee.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/coffee.jpg -------------------------------------------------------------------------------- /data/coffee_noise.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/coffee_noise.jpg -------------------------------------------------------------------------------- /data/cosmos.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/cosmos.jpg -------------------------------------------------------------------------------- /data/image_captioning/adorable-1849992_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/adorable-1849992_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/africa-1170179_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/africa-1170179_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/airplane-3702676_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/airplane-3702676_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/automotive-1846910_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/automotive-1846910_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/beach-1837030_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/beach-1837030_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/caravan-339564_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/caravan-339564_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/cat-4467818_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/cat-4467818_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/cherry-1468933_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/cherry-1468933_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/couple-955926_1280.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/couple-955926_1280.jpg -------------------------------------------------------------------------------- /data/image_captioning/dog-7367949_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/dog-7367949_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/hit-1407826_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/hit-1407826_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/man-498473_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/man-498473_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/musician-743973_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/musician-743973_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/port-5788261_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/port-5788261_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/profile-7579739_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/profile-7579739_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/ural-owl-4808774_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/ural-owl-4808774_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/wine-bar-2139973_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/wine-bar-2139973_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/woman-3432069_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/woman-3432069_1920.jpg -------------------------------------------------------------------------------- /data/image_captioning/zebras-1883654_1920.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/image_captioning/zebras-1883654_1920.jpg -------------------------------------------------------------------------------- /data/object_detection/image1.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/object_detection/image1.jpg -------------------------------------------------------------------------------- /data/object_detection/image2.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/object_detection/image2.jpg -------------------------------------------------------------------------------- /data/object_detection/image3.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/object_detection/image3.jpg -------------------------------------------------------------------------------- /data/object_detection/image4.jpg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/py-img-recog/python_image_recognition/60711d7e2b8d8427d50394f2b6bdf1a915eea834/data/object_detection/image4.jpg -------------------------------------------------------------------------------- /software_version.ipynb: -------------------------------------------------------------------------------- 1 | {"nbformat":4,"nbformat_minor":0,"metadata":{"colab":{"provenance":[],"toc_visible":true,"authorship_tag":"ABX9TyPOZRUTzIPe9UbWWMiostfP"},"kernelspec":{"name":"python3","display_name":"Python 3"},"language_info":{"name":"python"}},"cells":[{"cell_type":"markdown","source":["# Pythonで学ぶ画像認識\n","## Colab実行環境の確認"],"metadata":{"id":"vfQvOnC9U9Hq"}},{"cell_type":"markdown","source":["### 確認日時"],"metadata":{"id":"ktmUldoUW59U"}},{"cell_type":"code","source":["import datetime\n","import pytz\n","\n","now = datetime.datetime.now(pytz.timezone('Asia/Tokyo'))\n","print(now)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"b0qj0_vPW2fN","executionInfo":{"status":"ok","timestamp":1673232717453,"user_tz":-540,"elapsed":5,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}},"outputId":"b0e75f0e-c517-42a3-fff3-4919bed150cd"},"execution_count":15,"outputs":[{"output_type":"stream","name":"stdout","text":["2023-01-09 11:51:57.245406+09:00\n"]}]},{"cell_type":"markdown","source":["### Pythonバージョン"],"metadata":{"id":"-XTTYtWqVuZZ"}},{"cell_type":"code","source":["! python -V"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"3QInpPaeVthL","executionInfo":{"status":"ok","timestamp":1673232723305,"user_tz":-540,"elapsed":252,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}},"outputId":"6a9954e6-c3c4-4fdd-a84a-573040974c69"},"execution_count":16,"outputs":[{"output_type":"stream","name":"stdout","text":["Python 3.8.16\n"]}]},{"cell_type":"markdown","source":["### PyTorchバージョン"],"metadata":{"id":"5DXr5X8uVFIC"}},{"cell_type":"code","source":["import torch\n","print(torch.__version__)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"uxiX9A10VDn8","executionInfo":{"status":"ok","timestamp":1673232724728,"user_tz":-540,"elapsed":270,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}},"outputId":"c706d5ce-4773-4c2d-a069-65e2b5cb2620"},"execution_count":17,"outputs":[{"output_type":"stream","name":"stdout","text":["1.13.0+cu116\n"]}]},{"cell_type":"markdown","source":["### Torchvisionバージョン"],"metadata":{"id":"K7p4MXwhWXUy"}},{"cell_type":"code","source":["import torchvision\n","print(torchvision.__version__)"],"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"MP2Wng6XWFBp","executionInfo":{"status":"ok","timestamp":1673232726590,"user_tz":-540,"elapsed":240,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}},"outputId":"02b73319-b1da-4265-af55-9e4b8531f82a"},"execution_count":18,"outputs":[{"output_type":"stream","name":"stdout","text":["0.14.0+cu116\n"]}]},{"cell_type":"markdown","source":["### CUDAバージョン"],"metadata":{"id":"A7mWoKTVVMgY"}},{"cell_type":"code","execution_count":19,"metadata":{"colab":{"base_uri":"https://localhost:8080/"},"id":"4N8tI0cQUv7V","executionInfo":{"status":"ok","timestamp":1673232728114,"user_tz":-540,"elapsed":390,"user":{"displayName":"Katsuyuki Nakamura","userId":"06073403914299127731"}},"outputId":"b0d58f37-21b0-4022-e559-054202e50b08"},"outputs":[{"output_type":"stream","name":"stdout","text":["nvcc: NVIDIA (R) Cuda compiler driver\n","Copyright (c) 2005-2021 NVIDIA Corporation\n","Built on Sun_Feb_14_21:12:58_PST_2021\n","Cuda compilation tools, release 11.2, V11.2.152\n","Build cuda_11.2.r11.2/compiler.29618528_0\n"]}],"source":["!nvcc --version"]}]} --------------------------------------------------------------------------------