24 |
25 | ### 🎯 Место: 4
26 | 📍 **Международный хакатон 2024 года**
27 | 🔗 [Ссылка на мероприятие](https://hacks-ai.ru/events/1077382)
28 |
29 | ### 📖 Описание кейса:
30 | Разработка ИИ-прототипа для автоматического анализа видеозаписей с видеорегистраторов автотранспорта ОАО «РЖД» с целью выявления нарушений ПДД.
31 |
32 | ### 👥 Участники команды:
33 | - [Константин Кожин](https://github.com/konstantinkozhin) — **Руководитель команды;**
34 | - [Павел Шерстнев](https://github.com/sherstpasha) — **Data Analyst;**
35 | - [Владислава Жуковская](https://github.com/vlada2025) — **Дизайнер;**
36 | - [Антон Михалев](https://github.com/asmikhalev) — **ML-инженер;**
37 | - [Алина Нуриманова](https://github.com/ALENKOZAVR) — **Data Scientist.**
38 |
39 |
40 |
41 |
42 |
43 |
44 |
45 |
46 |
47 |
48 | ## 📌 Описание решения
49 |
50 | ### 🔹 Общая концепция
51 | Наша система анализирует видеозаписи с видеорегистраторов для выявления нарушений правил дорожного движения. В основе работы — комбинация моделей компьютерного зрения, которые определяют ключевые элементы дорожной сцены и фиксируют возможные нарушения. Такой подход делает систему гибкой, масштабируемой и позволяет её дообучать для повышения точности.
52 |
53 | ### ⚙️ Схема работы системы
54 | 🔹 **Разделение видео** на фрагменты по 10 секунд для последовательной обработки.
55 | 🔹 **Детекция ключевых объектов** с помощью нейросетей:
56 | - YOLOv5 — поиск автомобилей и пешеходов.
57 | - YOLOv5 — обнаружение дорожных знаков и светофоров.
58 | - SegFormer — сегментация дорожной разметки.
59 | 🔹 **Фокусировка на значимых зонах**: фоновые элементы приглушаются, что повышает точность анализа.
60 | 🔹 **Определение нарушений** с помощью XCLIP: модель анализирует обработанный фрагмент и фиксирует возможные нарушения.
61 | 🔹 **Переход к следующему фрагменту** и повторение процесса.
62 |
63 | ### 🔄 Гибкость и масштабируемость
64 | Мы разработали **модульную систему**, которая не зависит от жёстких правил и эвристик. Вместо простых триггеров (например, пересечение разметки) используется **нейросеть**, которую можно дообучать и адаптировать под новые типы нарушений. Это делает систему более точной и расширяемой.
65 |
66 | ## 🎥 Screencast (Демонстрация решения)
67 | Посмотрите, как система выявляет нарушения на реальных видеозаписях.
68 |
69 | 📌 **[Смотреть видеоролик](Screencast.mp4)**
70 |
71 |
72 |
73 |
📹 Презентация работы системы
74 |
🎯 Обработанный фрагмент (вход для XCLIP)
75 |
76 |
77 |
78 |
79 |
80 |
81 |
82 | ## 📊 Дополнительный функционал: Распознавание скорости
83 |
84 | В дополнение к выявлению нарушений, наша система использует **OCR-модель** для **распознавания показателей скорости** с видеорегистраторов. Это позволяет фиксировать еще одно важное нарушение — **превышение скорости**.
85 |
86 | 🔹 **Извлечение скорости** из видео в режиме реального времени.
87 | 🔹 **Сравнение полученных данных** с допустимыми скоростными ограничениями.
88 | 🔹 **Фиксация нарушений** при превышении установленного лимита.
89 | 🔹 **Запись статистики** по каждому фрагменту видео для дальнейшего анализа.
90 |
91 | Этот модуль расширяет возможности системы, позволяя детектировать не только визуальные нарушения, но и **анализировать скорость транспортного средства**.
92 |
93 | ---
94 |
95 |
96 |
97 |
98 |
99 | ---
100 |
101 | ## 🛠 Технологический стек
102 | - **Python** — основной язык разработки;
103 | - **PyTorch** — для построения и обучения нейросетей;
104 | - **Hugging Face** — для использования предобученных моделей (X-CLIP, AST, BERT);
105 | - **EasyOCR** — для распознавания текста на видеозаписях (скорость);
106 | - **Gradio** — для удобного развертывания и тестирования модели через веб-интерфейс;
107 | - **Docker** — для контейнеризации и развертывания системы.
108 |
109 | ---
110 |
111 | ## 🏆 Лидерборд
112 |
113 |
114 |
115 |
116 | ## 📂 Описание файлов в репозитории
117 |
118 | ### 📌 Основные файлы проекта:
119 |
120 | 1. **`FULL_LAUNCH.ipynb`**
121 | - Jupyter Notebook для полного запуска решения на тестовом датасете.
122 | - Включает загрузку данных, обработку видео, предсказания и формирование `submission.csv`.
123 |
124 | 2. **`best_model_dataset_1_39.pth`** и **`best_model_dataset_1_47.pth`**
125 | - Файлы с весами предварительно обученных моделей.
126 | - Используются при запуске ноутбука для выполнения предсказаний.
127 |
128 | 3. **`dataset.py`**
129 | - Определяет класс датасета и логику загрузки данных.
130 | - Обеспечивает корректную обработку входных видеоданных.
131 |
132 | 4. **`model.py`**
133 | - Содержит архитектуру модели, используемой для анализа видео.
134 |
135 | 5. **`train_run.py`**
136 | - Скрипт для обучения модели, включая настройку, процесс обучения и сохранение контрольных точек.
137 |
138 | ### 🔄 Полный запуск решения
139 | Файл **`FULL_LAUNCH.ipynb`** позволяет запустить всю последовательность обработки данных, включая:
140 | ✅ Задание пути к папке с видео (`video_folder`).
141 | ✅ Формирование выходного файла (`output_csv`).
142 | ✅ Автоматическое создание `submission.csv` с результатами детекции нарушений.
143 |
--------------------------------------------------------------------------------
/README_.md:
--------------------------------------------------------------------------------
1 | # hack_101124
2 | Описание файлов в репозитории:
3 |
4 | 1. **`FULL_LAUNCH.ipynb`**:
5 | - Этот Jupyter Notebook предназначен для полного запуска решения на тестовом датасете, начиная с загрузки тестовых данных и заканчивая созданием файла `submission.csv`. Он расположен в корне проекта и соответствует всем требованиям для полного запуска.
6 |
7 | 2. **`best_model_dataset_1_39.pth`** и **`best_model_dataset_1_47.pth`**:
8 | - Файлы с весами предварительно обученных моделей, которые загружаются при выполнении ноутбука для выполнения предсказаний.
9 |
10 | 3. **`dataset.py`**:
11 | - Скрипт, определяющий класс датасета и логику загрузки данных, необходимые для обработки входных данных.
12 |
13 | 4. **`model.py`**:
14 | - Скрипт с архитектурой модели, используемой в решении.
15 |
16 | 5. **`train_run.py`**:
17 | - Скрипт для обучения модели, который включает настройку модели, цикл обучения и сохранение контрольных точек.
18 |
19 |
20 | Файл **`FULL_LAUNCH.ipynb`** предназначен для запуска всей последовательности обработки данных, включая указание путей к папке с видео (`video_folder`) и выходному файлу (`output_csv`), в результате чего создается файл `submission.csv`.
21 |
--------------------------------------------------------------------------------
/Screencast.gif:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/sherstpasha/hacks_ai_rzd_violation_detection/bd6345e27f6ecfbb4e3154cb71a3a616aa14f390/Screencast.gif
--------------------------------------------------------------------------------
/Screencast.mp4:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/sherstpasha/hacks_ai_rzd_violation_detection/bd6345e27f6ecfbb4e3154cb71a3a616aa14f390/Screencast.mp4
--------------------------------------------------------------------------------
/Screencast2.gif:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/sherstpasha/hacks_ai_rzd_violation_detection/bd6345e27f6ecfbb4e3154cb71a3a616aa14f390/Screencast2.gif
--------------------------------------------------------------------------------
/best_model_dataset_1_39.pth:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/sherstpasha/hacks_ai_rzd_violation_detection/bd6345e27f6ecfbb4e3154cb71a3a616aa14f390/best_model_dataset_1_39.pth
--------------------------------------------------------------------------------
/best_model_dataset_1_47.pth:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/sherstpasha/hacks_ai_rzd_violation_detection/bd6345e27f6ecfbb4e3154cb71a3a616aa14f390/best_model_dataset_1_47.pth
--------------------------------------------------------------------------------
/dataset.py:
--------------------------------------------------------------------------------
1 | from torch.utils.data import Dataset
2 | from torchvision import transforms
3 | import cv2
4 | import numpy as np
5 | from PIL import Image
6 | import os
7 | import torch
8 | import pandas as pd
9 |
10 | label_list = [
11 | "нарушений нет",
12 | "Статья 12.16. часть 1 Несоблюдение требований, предписанных дорожными знаками или разметкой проезжей части дороги",
13 | "Статья 12.16 часть 2 Поворот налево или разворот в нарушение требований, предписанных дорожными знаками или разметкой проезжей части дороги",
14 | "Статья 12.17 часть 1.1 и 1.2. движение транспортных средств по полосе для маршрутных транспортных средств или остановка на указанной полосе в нарушение Правил дорожного движения ",
15 | "Статья 12.12 часть 2 1. невыполнение требования ПДД об остановке перед стоп-линией, обозначенной дорожными знаками или разметкой проезжей части дороги, при запрещающем сигнале светофора или запрещающем жесте регулировщика",
16 | "Статья 12.15 часть 4 Выезд в нарушение правил дорожного движения на полосу, предназначенную для встречного движения, при объезде препятствия, либо на трамвайные пути встречного направления, за исключением случаев, предусмотренных частью 3 настоящей статьи",
17 | ]
18 |
19 |
20 | # Определение класса датасета с применением обработки кадров
21 | import torch
22 | import cv2
23 | import numpy as np
24 | from PIL import Image
25 | import os
26 | from torch.utils.data import Dataset
27 | from torchvision import transforms
28 | from transformers import SegformerForSemanticSegmentation, SegformerImageProcessor
29 |
30 | label_list = [
31 | "нарушений нет",
32 | "Статья 12.16. часть 1 Несоблюдение требований, предписанных дорожными знаками или разметкой проезжей части дороги",
33 | "Статья 12.16 часть 2 Поворот налево или разворот в нарушение требований, предписанных дорожными знаками или разметкой проезжей части дороги",
34 | "Статья 12.17 часть 1.1 и 1.2. движение транспортных средств по полосе для маршрутных транспортных средств или остановка на указанной полосе в нарушение Правил дорожного движения ",
35 | "Статья 12.12 часть 2 1. невыполнение требования ПДД об остановке перед стоп-линией, обозначенной дорожными знаками или разметкой проезжей части дороги, при запрещающем сигнале светофора или запрещающем жесте регулировщика",
36 | "Статья 12.15 часть 4 Выезд в нарушение правил дорожного движения на полосу, предназначенную для встречного движения, при объезде препятствия, либо на трамвайные пути встречного направления, за исключением случаев, предусмотренных частью 3 настоящей статьи",
37 | ]
38 |
39 |
40 | # Определение класса датасета с применением обработки кадров и сохранением в папку
41 | class XCLIPVideoDataset(Dataset):
42 | def __init__(
43 | self,
44 | dataframe,
45 | video_folder,
46 | processor,
47 | num_frames=8,
48 | apply_preprocessing=False,
49 | yolo_pretrained_path=None,
50 | yolo_custom_path=None,
51 | segformer_model_path=None,
52 | ):
53 | self.data_frame = dataframe.reset_index(drop=True)
54 | self.video_folder = video_folder
55 | self.processor = processor
56 | self.num_frames = num_frames
57 | self.apply_preprocessing = (
58 | apply_preprocessing # Тумблер для применения предварительной обработки
59 | )
60 |
61 | # Загрузка моделей
62 | self.device = "cuda" if torch.cuda.is_available() else "cpu"
63 |
64 | # Загрузка модели YOLOv5 (предобученной)
65 | if yolo_pretrained_path:
66 | self.pretrained_model = (
67 | torch.hub.load(
68 | "ultralytics/yolov5",
69 | "yolov5n",
70 | pretrained=True,
71 | )
72 | .to(self.device)
73 | .eval()
74 | )
75 |
76 | # Загрузка кастомной модели YOLOv5
77 | if yolo_custom_path:
78 | self.custom_model = (
79 | torch.hub.load(
80 | "ultralytics/yolov5",
81 | "custom",
82 | path=yolo_custom_path,
83 | force_reload=True,
84 | )
85 | .to(self.device)
86 | .eval()
87 | )
88 |
89 | # Загрузка модели SegFormer
90 | if segformer_model_path:
91 | self.extractor = SegformerImageProcessor()
92 | self.segformer_model = (
93 | SegformerForSemanticSegmentation.from_pretrained(segformer_model_path)
94 | .to(self.device)
95 | .eval()
96 | )
97 |
98 | self.video_transform = transforms.Compose(
99 | [
100 | transforms.Resize((224, 224)),
101 | transforms.ToTensor(),
102 | ]
103 | )
104 |
105 | # Папка для сохранения кадров
106 | # self.save_frames_folder = "./saved_frames"
107 | # os.makedirs(self.save_frames_folder, exist_ok=True)
108 |
109 | # Параметры для обработки
110 | self.traffic_related_classes = ["car", "bus", "truck", "motorcycle", "bicycle"]
111 | self.target_class_id = 2 # Идентификатор целевого класса для SegFormer
112 |
113 | def extract_video_frames(self, video_path, num_frames):
114 | video_capture = cv2.VideoCapture(video_path)
115 | frames = []
116 | total_frames = int(video_capture.get(cv2.CAP_PROP_FRAME_COUNT))
117 | frame_interval = max(total_frames // num_frames, 1)
118 |
119 | for frame_idx in range(0, total_frames, frame_interval):
120 | video_capture.set(cv2.CAP_PROP_POS_FRAMES, frame_idx)
121 | success, frame = video_capture.read()
122 | if not success:
123 | break
124 |
125 | if self.apply_preprocessing:
126 | frame = self.apply_models_processing(frame)
127 |
128 | frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
129 | frame_pil = Image.fromarray(frame_rgb)
130 | frame_tensor = self.video_transform(frame_pil)
131 | frames.append(frame_tensor)
132 |
133 | # Сохранение кадра
134 | # frame_save_path = os.path.join(
135 | # self.save_frames_folder,
136 | # f"{os.path.basename(video_path).split('.')[0]}_frame_{frame_idx}.png",
137 | # )
138 | # frame_pil.save(frame_save_path)
139 |
140 | if len(frames) >= num_frames:
141 | break
142 |
143 | video_capture.release()
144 |
145 | if len(frames) == 0:
146 | print(f"Не удалось извлечь кадры для видео {video_path}")
147 | return torch.zeros((num_frames, 3, 224, 224))
148 |
149 | while len(frames) < num_frames:
150 | frames.append(
151 | frames[-1].clone() if len(frames) > 0 else torch.zeros(3, 224, 224)
152 | )
153 |
154 | return torch.stack(frames)
155 |
156 | def apply_models_processing(self, frame):
157 | height, width, _ = frame.shape
158 |
159 | # Преобразование кадра для SegFormer
160 | rgb_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
161 | img = Image.fromarray(rgb_frame)
162 |
163 | # Получение результатов от обеих моделей YOLOv5
164 | results_pretrained = self.pretrained_model(img)
165 | results_custom = self.custom_model(img)
166 |
167 | # Объединение результатов в один DataFrame
168 | results_combined = pd.concat(
169 | [results_pretrained.pandas().xyxy[0], results_custom.pandas().xyxy[0]],
170 | ignore_index=True,
171 | )
172 |
173 | # Обработка кадра моделью SegFormer
174 | seg_map = self.predict_segformer(
175 | self.segformer_model, self.extractor, rgb_frame
176 | )
177 |
178 | # Создание маски для затемнения
179 | mask = np.zeros((height, width), dtype=np.uint8)
180 |
181 | # Добавление результатов YOLOv5 в маску
182 | for _, row in results_combined.iterrows():
183 | if row["name"] in self.traffic_related_classes or row["confidence"] > 0.25:
184 | x1 = int(max(0, row["xmin"]))
185 | y1 = int(max(0, row["ymin"]))
186 | x2 = int(min(width - 1, row["xmax"]))
187 | y2 = int(min(height - 1, row["ymax"]))
188 | mask[y1:y2, x1:x2] = 255 # Область, которую не затемняем
189 |
190 | # Добавление результатов SegFormer в маску
191 | if seg_map.shape != (height, width):
192 | seg_map_resized = cv2.resize(
193 | seg_map, (width, height), interpolation=cv2.INTER_NEAREST
194 | )
195 | else:
196 | seg_map_resized = seg_map
197 | seg_mask = np.where(seg_map_resized == self.target_class_id, 255, 0).astype(
198 | np.uint8
199 | )
200 | mask = cv2.bitwise_or(mask, seg_mask)
201 |
202 | # Создание итогового кадра с затемнением
203 | alpha_mask = cv2.merge((mask, mask, mask))
204 | frame_darkened = (frame * 0.2).astype(np.uint8)
205 | frame_result = np.where(alpha_mask == 255, frame, frame_darkened)
206 |
207 | return frame_result
208 |
209 | def predict_segformer(self, model, extractor, image):
210 | inputs = extractor(images=image, return_tensors="pt").to(self.device)
211 | with torch.no_grad():
212 | outputs = model(**inputs)
213 | logits = outputs.logits # Shape [batch_size, num_classes, height, width]
214 | segmentation = torch.argmax(logits, dim=1).squeeze(0)
215 | return segmentation.cpu().numpy()
216 |
217 | def __getitem__(self, idx):
218 | row = self.data_frame.iloc[idx]
219 | segment_id = row["id"]
220 | segment_name = row["segment_name"]
221 | label = row["violation_name"]
222 | video_path = os.path.join(self.video_folder, segment_name)
223 |
224 | video_frames_tensor = self.extract_video_frames(video_path, self.num_frames)
225 | label_id = label_list.index(label)
226 |
227 | return {
228 | "pixel_values": video_frames_tensor, # [num_frames, 3, 224, 224]
229 | "label": torch.tensor(label_id, dtype=torch.long),
230 | "segment_id": segment_id, # Добавляем идентификатор сегмента
231 | "segment_name": segment_name, # Сохраняем имя сегмента для отладки, если нужно
232 | }
233 |
234 | def __len__(self):
235 | return len(self.data_frame)
236 |
237 |
238 | # ======== Создание датасета для эмбеддингов ======== #
239 | class EmbeddingsDataset(Dataset):
240 | def __init__(self, dataframe, embeddings_dir):
241 | self.data_frame = dataframe.reset_index(drop=True)
242 | self.embeddings_dir = embeddings_dir
243 |
244 | def __len__(self):
245 | return len(self.data_frame)
246 |
247 | def __getitem__(self, idx):
248 | row = self.data_frame.iloc[idx]
249 | segment_id = row["id"]
250 | label = row["violation_name"]
251 | label_id = label_list.index(label)
252 |
253 | embedding_filename = f"{segment_id}.pt"
254 | embedding_file = os.path.join(self.embeddings_dir, embedding_filename)
255 |
256 | data = torch.load(embedding_file)
257 | embedding = data["embedding"] # Tensor размерности [projection_dim]
258 | return {"embedding": embedding, "label": label_id}
259 |
--------------------------------------------------------------------------------
/leaderboard.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/sherstpasha/hacks_ai_rzd_violation_detection/bd6345e27f6ecfbb4e3154cb71a3a616aa14f390/leaderboard.jpg
--------------------------------------------------------------------------------
/model.py:
--------------------------------------------------------------------------------
1 | import torch.nn as nn
2 |
3 |
4 | # ======== Определение и обучение классификатора ======== #
5 | # Определение модели классификатора
6 | class EmbeddingClassifier(nn.Module):
7 | def __init__(self, input_dim, num_classes):
8 | super(EmbeddingClassifier, self).__init__()
9 | self.classifier = nn.Sequential(
10 | nn.Linear(input_dim, 1024),
11 | nn.ReLU(),
12 | nn.Dropout(0.1),
13 | nn.Linear(1024, num_classes)
14 | )
15 |
16 | def forward(self, embedding):
17 | logits = self.classifier(embedding)
18 | return logits
--------------------------------------------------------------------------------
/screenshot.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/sherstpasha/hacks_ai_rzd_violation_detection/bd6345e27f6ecfbb4e3154cb71a3a616aa14f390/screenshot.jpg
--------------------------------------------------------------------------------
/speed_detection.jpg:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/sherstpasha/hacks_ai_rzd_violation_detection/bd6345e27f6ecfbb4e3154cb71a3a616aa14f390/speed_detection.jpg
--------------------------------------------------------------------------------
/speed_test.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "cells": [
3 | {
4 | "cell_type": "code",
5 | "execution_count": 2,
6 | "id": "4c5e1150-a81d-45c1-b96f-d02211af69db",
7 | "metadata": {},
8 | "outputs": [
9 | {
10 | "name": "stdout",
11 | "output_type": "stream",
12 | "text": [
13 | "Найдена скорость: '72KM/y' с уверенностью 0.51\n",
14 | "Область скорости определена: (282, 1020, 362, 1044)\n",
15 | "\n",
16 | "Кадр 356:\n",
17 | "\n",
18 | "Кадр 445:\n",
19 | "\n",
20 | "Кадр 534:\n",
21 | "Найдена скорость: '69KM/4' с уверенностью 0.81\n",
22 | "\n",
23 | "Кадр 623:\n",
24 | "Найдена скорость: '68KM/y' с уверенностью 0.53\n",
25 | "\n",
26 | "Кадр 712:\n",
27 | "\n",
28 | "Кадр 801:\n",
29 | "Найдена скорость: '76KM/y' с уверенностью 0.44\n",
30 | "\n",
31 | "Кадр 890:\n",
32 | "Найдена скорость: '79KM/y' с уверенностью 0.55\n",
33 | "\n",
34 | "Кадр 979:\n",
35 | "\n",
36 | "Кадр 1068:\n",
37 | "\n",
38 | "Кадр 1157:\n",
39 | "\n",
40 | "Кадр 1246:\n",
41 | "\n",
42 | "Кадр 1335:\n",
43 | "\n",
44 | "Кадр 1424:\n",
45 | "\n",
46 | "Кадр 1513:\n",
47 | "Найдена скорость: '63KM/y' с уверенностью 0.68\n",
48 | "\n",
49 | "Кадр 1602:\n",
50 | "\n",
51 | "Кадр 1691:\n",
52 | "Найдена скорость: '72KM/y' с уверенностью 0.53\n",
53 | "\n",
54 | "Кадр 1780:\n",
55 | "Найдена скорость: '78KM/4' с уверенностью 0.83\n",
56 | "\n",
57 | "Кадр 1869:\n",
58 | "Найдена скорость: '84KM/y' с уверенностью 0.52\n",
59 | "\n",
60 | "Кадр 1958:\n",
61 | "Найдена скорость: '86KM/y' с уверенностью 0.47\n",
62 | "\n",
63 | "Кадр 2047:\n",
64 | "Найдена скорость: '87KM/y' с уверенностью 0.60\n",
65 | "\n",
66 | "Кадр 2136:\n",
67 | "\n",
68 | "Кадр 2225:\n",
69 | "Найдена скорость: '72Km/y' с уверенностью 0.49\n",
70 | "\n",
71 | "Кадр 2314:\n",
72 | "Найдена скорость: '59Km/y' с уверенностью 0.60\n",
73 | "\n",
74 | "Кадр 2403:\n",
75 | "Найдена скорость: '55Km/y' с уверенностью 0.42\n",
76 | "\n",
77 | "Кадр 2492:\n",
78 | "\n",
79 | "Кадр 2581:\n",
80 | "Найдена скорость: '39KM/y' с уверенностью 0.51\n",
81 | "\n",
82 | "Кадр 2670:\n",
83 | "\n",
84 | "Кадр 2759:\n",
85 | "Найдена скорость: '33KM/4' с уверенностью 0.58\n",
86 | "\n",
87 | "Кадр 2848:\n",
88 | "Найдена скорость: '64Km/y' с уверенностью 0.52\n",
89 | "\n",
90 | "Кадр 2937:\n",
91 | "Найдена скорость: '94KM/4' с уверенностью 0.68\n",
92 | "\n",
93 | "Кадр 3026:\n",
94 | "Найдена скорость: '69KM/ 4' с уверенностью 0.68\n",
95 | "\n",
96 | "Кадр 3115:\n",
97 | "Найдена скорость: '19Km/4' с уверенностью 0.48\n",
98 | "\n",
99 | "Кадр 3204:\n",
100 | "\n",
101 | "Кадр 3293:\n",
102 | "Найдена скорость: '74KM}y' с уверенностью 0.55\n",
103 | "\n",
104 | "Кадр 3382:\n",
105 | "Найдена скорость: '64Km/4' с уверенностью 0.62\n",
106 | "\n",
107 | "Кадр 3471:\n",
108 | "Найдена скорость: '53KM/y' с уверенностью 0.56\n",
109 | "\n",
110 | "Кадр 3560:\n",
111 | "Найдена скорость: '39KM/4' с уверенностью 0.91\n",
112 | "\n",
113 | "Кадр 3649:\n",
114 | "Найдена скорость: '44Km/4' с уверенностью 0.50\n",
115 | "\n",
116 | "Кадр 3738:\n",
117 | "Найдена скорость: '17KM/4' с уверенностью 0.49\n",
118 | "\n",
119 | "Кадр 3827:\n",
120 | "Найдена скорость: '13KM/4' с уверенностью 0.87\n",
121 | "\n",
122 | "Кадр 3916:\n",
123 | "Найдена скорость: '25Km/y' с уверенностью 0.55\n",
124 | "\n",
125 | "Кадр 4005:\n",
126 | "Найдена скорость: '26KM/y' с уверенностью 0.55\n",
127 | "\n",
128 | "Кадр 4094:\n",
129 | "Найдена скорость: '13Km/4' с уверенностью 0.74\n",
130 | "\n",
131 | "Кадр 4183:\n",
132 | "Найдена скорость: '24Km/y' с уверенностью 0.47\n",
133 | "\n",
134 | "Кадр 4272:\n",
135 | "\n",
136 | "Кадр 4361:\n",
137 | "Найдена скорость: '42KM/4' с уверенностью 0.51\n",
138 | "\n",
139 | "Кадр 4450:\n",
140 | "Найдена скорость: '63KM/ 4' с уверенностью 0.58\n",
141 | "\n",
142 | "Кадр 4539:\n",
143 | "Найдена скорость: '83KM/y' с уверенностью 0.67\n",
144 | "\n",
145 | "Кадр 4628:\n",
146 | "Найдена скорость: '89KM/y' с уверенностью 0.50\n",
147 | "\n",
148 | "Кадр 4717:\n",
149 | "Найдена скорость: '86KM/y' с уверенностью 0.44\n",
150 | "\n",
151 | "Кадр 4806:\n",
152 | "Найдена скорость: '78KM/4' с уверенностью 0.73\n",
153 | "\n",
154 | "Кадр 4895:\n",
155 | "Найдена скорость: '76Km/y' с уверенностью 0.47\n",
156 | "\n",
157 | "Кадр 4984:\n",
158 | "Найдена скорость: '75Km/y' с уверенностью 0.72\n",
159 | "\n",
160 | "Кадр 5073:\n",
161 | "\n",
162 | "Кадр 5162:\n",
163 | "Найдена скорость: '70Km/4' с уверенностью 0.42\n",
164 | "\n",
165 | "Кадр 5251:\n",
166 | "Найдена скорость: '73KM/y' с уверенностью 0.53\n",
167 | "\n",
168 | "Кадр 5340:\n",
169 | "Найдена скорость: '74Km/y' с уверенностью 0.83\n",
170 | "\n",
171 | "Кадр 5429:\n",
172 | "\n",
173 | "Кадр 5518:\n",
174 | "Найдена скорость: '76KM/y' с уверенностью 0.43\n",
175 | "\n",
176 | "Кадр 5607:\n",
177 | "Найдена скорость: '76Km/y' с уверенностью 0.44\n",
178 | "\n",
179 | "Кадр 5696:\n",
180 | "Найдена скорость: '77Km/y' с уверенностью 0.75\n",
181 | "\n",
182 | "Кадр 5785:\n",
183 | "Найдена скорость: '73KM/y' с уверенностью 0.53\n",
184 | "\n",
185 | "Кадр 5874:\n",
186 | "Найдена скорость: '74Km/4' с уверенностью 0.41\n",
187 | "\n",
188 | "Кадр 5963:\n",
189 | "Найдена скорость: '69KM/y' с уверенностью 0.62\n",
190 | "\n",
191 | "Кадр 6052:\n",
192 | "Найдена скорость: '70Km/y' с уверенностью 0.44\n",
193 | "\n",
194 | "Кадр 6141:\n",
195 | "\n",
196 | "Кадр 6230:\n",
197 | "Найдена скорость: '68KM/4' с уверенностью 0.76\n",
198 | "\n",
199 | "Кадр 6319:\n",
200 | "\n",
201 | "Кадр 6408:\n",
202 | "Найдена скорость: '74Km/4' с уверенностью 0.58\n",
203 | "\n",
204 | "Кадр 6497:\n",
205 | "Найдена скорость: '73KM/y' с уверенностью 0.59\n",
206 | "\n",
207 | "Кадр 6586:\n",
208 | "Найдена скорость: '72Km/y' с уверенностью 0.68\n",
209 | "\n",
210 | "Кадр 6675:\n",
211 | "Найдена скорость: '70KM/4' с уверенностью 0.49\n",
212 | "\n",
213 | "Кадр 6764:\n",
214 | "\n",
215 | "Кадр 6853:\n",
216 | "Найдена скорость: '63KM/ 4' с уверенностью 0.68\n",
217 | "\n",
218 | "Кадр 6942:\n",
219 | "Найдена скорость: '63KM/ 4' с уверенностью 0.69\n",
220 | "\n",
221 | "Кадр 7031:\n",
222 | "Найдена скорость: '63KM/ 4' с уверенностью 0.74\n",
223 | "\n",
224 | "Кадр 7120:\n",
225 | "Найдена скорость: '62KM/4' с уверенностью 0.88\n",
226 | "\n",
227 | "Кадр 7209:\n",
228 | "\n",
229 | "Кадр 7298:\n",
230 | "Найдена скорость: '59Km/y' с уверенностью 0.48\n",
231 | "\n",
232 | "Кадр 7387:\n",
233 | "\n",
234 | "Кадр 7476:\n",
235 | "\n",
236 | "Кадр 7565:\n",
237 | "Найдена скорость: '47KM/4' с уверенностью 0.58\n",
238 | "\n",
239 | "Кадр 7654:\n",
240 | "\n",
241 | "Кадр 7743:\n",
242 | "Найдена скорость: '37KM/y' с уверенностью 0.70\n",
243 | "\n",
244 | "Кадр 7832:\n",
245 | "Найдена скорость: '30KM/4' с уверенностью 0.68\n",
246 | "\n",
247 | "Кадр 7921:\n",
248 | "Найдена скорость: '22KM/y' с уверенностью 0.64\n",
249 | "\n",
250 | "Кадр 8010:\n",
251 | "Найдена скорость: '18KM/4' с уверенностью 0.62\n",
252 | "\n",
253 | "Кадр 8099:\n",
254 | "Найдена скорость: '12KM/4' с уверенностью 0.48\n",
255 | "\n",
256 | "Кадр 8188:\n",
257 | "\n",
258 | "Кадр 8277:\n",
259 | "Найдена скорость: '02Km/y' с уверенностью 0.69\n",
260 | "\n",
261 | "Кадр 8366:\n",
262 | "Найдена скорость: '0 1KM/y' с уверенностью 0.51\n",
263 | "\n",
264 | "Кадр 8455:\n",
265 | "\n",
266 | "Кадр 8544:\n",
267 | "Найдена скорость: '23KM/y' с уверенностью 0.58\n",
268 | "\n",
269 | "Кадр 8633:\n",
270 | "Найдена скорость: '18KM/y' с уверенностью 0.54\n",
271 | "\n",
272 | "Кадр 8722:\n",
273 | "Найдена скорость: '03KM/4' с уверенностью 0.47\n",
274 | "\n",
275 | "Кадр 8811:\n",
276 | "\n",
277 | "Кадр 8900:\n",
278 | "\n",
279 | "Кадр 8989:\n",
280 | "Обработка видео завершена.\n"
281 | ]
282 | },
283 | {
284 | "data": {
285 | "image/png": "",
286 | "text/plain": [
287 | ""
288 | ]
289 | },
290 | "metadata": {},
291 | "output_type": "display_data"
292 | },
293 | {
294 | "name": "stdout",
295 | "output_type": "stream",
296 | "text": [
297 | "Кадр 267: скорость 72 км/ч\n",
298 | "Кадр 356: скорость 71 км/ч\n",
299 | "Кадр 445: скорость 70 км/ч\n",
300 | "Кадр 534: скорость 69 км/ч\n",
301 | "Кадр 623: скорость 68 км/ч\n",
302 | "Кадр 712: скорость 72 км/ч\n",
303 | "Кадр 801: скорость 76 км/ч\n",
304 | "Кадр 890: скорость 79 км/ч\n",
305 | "Кадр 979: скорость 76 км/ч\n",
306 | "Кадр 1068: скорость 74 км/ч\n",
307 | "Кадр 1157: скорость 72 км/ч\n",
308 | "Кадр 1246: скорость 69 км/ч\n",
309 | "Кадр 1335: скорость 67 км/ч\n",
310 | "Кадр 1424: скорость 65 км/ч\n",
311 | "Кадр 1513: скорость 63 км/ч\n",
312 | "Кадр 1602: скорость 67 км/ч\n",
313 | "Кадр 1691: скорость 72 км/ч\n",
314 | "Кадр 1780: скорость 78 км/ч\n",
315 | "Кадр 1869: скорость 84 км/ч\n",
316 | "Кадр 1958: скорость 86 км/ч\n",
317 | "Кадр 2047: скорость 87 км/ч\n",
318 | "Кадр 2136: скорость 79 км/ч\n",
319 | "Кадр 2225: скорость 72 км/ч\n",
320 | "Кадр 2314: скорость 59 км/ч\n",
321 | "Кадр 2403: скорость 55 км/ч\n",
322 | "Кадр 2492: скорость 47 км/ч\n",
323 | "Кадр 2581: скорость 39 км/ч\n",
324 | "Кадр 2670: скорость 36 км/ч\n",
325 | "Кадр 2759: скорость 33 км/ч\n",
326 | "Кадр 2848: скорость 64 км/ч\n",
327 | "Кадр 2937: скорость 94 км/ч\n",
328 | "Кадр 3026: скорость 69 км/ч\n",
329 | "Кадр 3115: скорость 19 км/ч\n",
330 | "Кадр 3204: скорость 46 км/ч\n",
331 | "Кадр 3293: скорость 74 км/ч\n",
332 | "Кадр 3382: скорость 64 км/ч\n",
333 | "Кадр 3471: скорость 53 км/ч\n",
334 | "Кадр 3560: скорость 39 км/ч\n",
335 | "Кадр 3649: скорость 44 км/ч\n",
336 | "Кадр 3738: скорость 17 км/ч\n",
337 | "Кадр 3827: скорость 13 км/ч\n",
338 | "Кадр 3916: скорость 25 км/ч\n",
339 | "Кадр 4005: скорость 26 км/ч\n",
340 | "Кадр 4094: скорость 13 км/ч\n",
341 | "Кадр 4183: скорость 24 км/ч\n",
342 | "Кадр 4272: скорость 33 км/ч\n",
343 | "Кадр 4361: скорость 42 км/ч\n",
344 | "Кадр 4450: скорость 63 км/ч\n",
345 | "Кадр 4539: скорость 83 км/ч\n",
346 | "Кадр 4628: скорость 89 км/ч\n",
347 | "Кадр 4717: скорость 86 км/ч\n",
348 | "Кадр 4806: скорость 78 км/ч\n",
349 | "Кадр 4895: скорость 76 км/ч\n",
350 | "Кадр 4984: скорость 75 км/ч\n",
351 | "Кадр 5073: скорость 72 км/ч\n",
352 | "Кадр 5162: скорость 70 км/ч\n",
353 | "Кадр 5251: скорость 73 км/ч\n",
354 | "Кадр 5340: скорость 74 км/ч\n",
355 | "Кадр 5429: скорость 75 км/ч\n",
356 | "Кадр 5518: скорость 76 км/ч\n",
357 | "Кадр 5607: скорость 76 км/ч\n",
358 | "Кадр 5696: скорость 77 км/ч\n",
359 | "Кадр 5785: скорость 73 км/ч\n",
360 | "Кадр 5874: скорость 74 км/ч\n",
361 | "Кадр 5963: скорость 69 км/ч\n",
362 | "Кадр 6052: скорость 70 км/ч\n",
363 | "Кадр 6141: скорость 69 км/ч\n",
364 | "Кадр 6230: скорость 68 км/ч\n",
365 | "Кадр 6319: скорость 71 км/ч\n",
366 | "Кадр 6408: скорость 74 км/ч\n",
367 | "Кадр 6497: скорость 73 км/ч\n",
368 | "Кадр 6586: скорость 72 км/ч\n",
369 | "Кадр 6675: скорость 70 км/ч\n",
370 | "Кадр 6764: скорость 66 км/ч\n",
371 | "Кадр 6853: скорость 63 км/ч\n",
372 | "Кадр 6942: скорость 63 км/ч\n",
373 | "Кадр 7031: скорость 63 км/ч\n",
374 | "Кадр 7120: скорость 62 км/ч\n",
375 | "Кадр 7209: скорость 60 км/ч\n",
376 | "Кадр 7298: скорость 59 км/ч\n",
377 | "Кадр 7387: скорость 55 км/ч\n",
378 | "Кадр 7476: скорость 51 км/ч\n",
379 | "Кадр 7565: скорость 47 км/ч\n",
380 | "Кадр 7654: скорость 42 км/ч\n",
381 | "Кадр 7743: скорость 37 км/ч\n",
382 | "Кадр 7832: скорость 30 км/ч\n",
383 | "Кадр 7921: скорость 22 км/ч\n",
384 | "Кадр 8010: скорость 18 км/ч\n",
385 | "Кадр 8099: скорость 12 км/ч\n",
386 | "Кадр 8188: скорость 7 км/ч\n",
387 | "Кадр 8277: скорость 2 км/ч\n",
388 | "Кадр 8366: скорость 0 км/ч\n",
389 | "Кадр 8455: скорость 11 км/ч\n",
390 | "Кадр 8544: скорость 23 км/ч\n",
391 | "Кадр 8633: скорость 18 км/ч\n",
392 | "Кадр 8722: скорость 3 км/ч\n",
393 | "Кадр 8811: скорость 0 км/ч\n",
394 | "Кадр 8900: скорость 0 км/ч\n",
395 | "Кадр 8989: скорость 0 км/ч\n"
396 | ]
397 | }
398 | ],
399 | "source": [
400 | "import cv2\n",
401 | "import easyocr\n",
402 | "import re\n",
403 | "import time\n",
404 | "import torch\n",
405 | "import numpy as np\n",
406 | "import matplotlib.pyplot as plt\n",
407 | "from scipy.interpolate import interp1d\n",
408 | "\n",
409 | "# Проверка наличия GPU\n",
410 | "use_gpu = torch.cuda.is_available()\n",
411 | "\n",
412 | "# Инициализация EasyOCR reader с использованием GPU, если доступен\n",
413 | "reader = easyocr.Reader(['en'], gpu=use_gpu)\n",
414 | "\n",
415 | "# Расширенное регулярное выражение для поиска значений скорости\n",
416 | "km_pattern = re.compile(r'\\b\\d+\\s?[kK][mM](?:/y|/ч|/h)?\\b')\n",
417 | "\n",
418 | "# Координаты области, где была обнаружена скорость\n",
419 | "speed_region = None\n",
420 | "\n",
421 | "def process_frame(frame, region=None):\n",
422 | " \"\"\"\n",
423 | " Обрабатывает один кадр, считывает текст и возвращает данные о тексте.\n",
424 | " \"\"\"\n",
425 | " if region:\n",
426 | " # Обрезаем кадр до области, где была найдена скорость\n",
427 | " frame = frame[region[1]:region[3], region[0]:region[2]]\n",
428 | " \n",
429 | " results = reader.readtext(frame, detail=1)\n",
430 | " return results\n",
431 | "\n",
432 | "def find_speed_region(results):\n",
433 | " \"\"\"\n",
434 | " Ищет область, содержащую текст скорости, используя регулярное выражение.\n",
435 | " \"\"\"\n",
436 | " for (bbox, text, prob) in results:\n",
437 | " if km_pattern.search(text) and prob > 0.4:\n",
438 | " print(f\"Найдена скорость: '{text}' с уверенностью {prob:.2f}\")\n",
439 | " return bbox # Возвращаем координаты области (top_left, bottom_right)\n",
440 | " return None\n",
441 | "\n",
442 | "def normalize_speed(text):\n",
443 | " \"\"\"\n",
444 | " Приводит найденное значение скорости к числовому формату.\n",
445 | " \"\"\"\n",
446 | " match = re.search(r'\\d+', text)\n",
447 | " if match:\n",
448 | " return int(match.group())\n",
449 | " return None\n",
450 | "\n",
451 | "def interpolate_speeds(frames, speeds):\n",
452 | " \"\"\"\n",
453 | " Интерполирует пропущенные значения скорости и возвращает только положительные значения.\n",
454 | " \"\"\"\n",
455 | " valid_indices = [i for i, s in enumerate(speeds) if s is not None]\n",
456 | " valid_frames = [frames[i] for i in valid_indices]\n",
457 | " valid_speeds = [s for s in speeds if s is not None]\n",
458 | "\n",
459 | " if len(valid_frames) < 2:\n",
460 | " # Недостаточно данных для интерполяции\n",
461 | " return speeds\n",
462 | "\n",
463 | " interpolation_function = interp1d(valid_frames, valid_speeds, kind='linear', fill_value='extrapolate')\n",
464 | " interpolated_speeds = interpolation_function(frames)\n",
465 | "\n",
466 | " # Убедимся, что все значения положительные\n",
467 | " return [max(0, int(s)) for s in interpolated_speeds]\n",
468 | "\n",
469 | "def process_video(video_path):\n",
470 | " \"\"\"\n",
471 | " Обрабатывает видеофайл, извлекает текст с каждого кадра и выводит результаты в консоль.\n",
472 | " \"\"\"\n",
473 | " global speed_region\n",
474 | "\n",
475 | " cap = cv2.VideoCapture(video_path)\n",
476 | " fps = cap.get(cv2.CAP_PROP_FPS)\n",
477 | " frame_interval = int(fps * 3) # Обрабатываем кадры каждые 3 секунды\n",
478 | " frame_count = 0\n",
479 | " speeds = []\n",
480 | " frames = []\n",
481 | "\n",
482 | " while cap.isOpened():\n",
483 | " ret, frame = cap.read()\n",
484 | " if not ret:\n",
485 | " break\n",
486 | "\n",
487 | " frame_count += 1\n",
488 | "\n",
489 | " if frame_count % frame_interval == 0:\n",
490 | " if speed_region is None:\n",
491 | " # Ищем скорость на всем кадре, если область еще не найдена\n",
492 | " results = process_frame(frame)\n",
493 | " region = find_speed_region(results)\n",
494 | " if region:\n",
495 | " x1, y1 = int(region[0][0]), int(region[0][1])\n",
496 | " x2, y2 = int(region[2][0]), int(region[2][1])\n",
497 | " speed_region = (x1, y1, x2, y2)\n",
498 | " print(f\"Область скорости определена: {speed_region}\")\n",
499 | " # Нормализуем значение скорости\n",
500 | " for (_, text, _) in results:\n",
501 | " if km_pattern.search(text):\n",
502 | " speed = normalize_speed(text)\n",
503 | " speeds.append(speed)\n",
504 | " frames.append(frame_count)\n",
505 | " break\n",
506 | " else:\n",
507 | " # Ищем только в заданной области\n",
508 | " results = process_frame(frame, region=speed_region)\n",
509 | " print(f\"\\nКадр {frame_count}:\")\n",
510 | " found_speed = None\n",
511 | " for (_, text, prob) in results:\n",
512 | " if km_pattern.search(text) and prob > 0.4:\n",
513 | " found_speed = normalize_speed(text)\n",
514 | " print(f\"Найдена скорость: '{text}' с уверенностью {prob:.2f}\")\n",
515 | " break\n",
516 | " \n",
517 | " speeds.append(found_speed)\n",
518 | " frames.append(frame_count)\n",
519 | "\n",
520 | " cap.release()\n",
521 | " print('Обработка видео завершена.')\n",
522 | "\n",
523 | " # Интерполяция пропущенных значений\n",
524 | " speeds = interpolate_speeds(frames, speeds)\n",
525 | "\n",
526 | " # Построение графика скорости\n",
527 | " plt.figure(figsize=(14, 6))\n",
528 | " plt.plot([f / fps for f in frames], speeds, marker='o', linestyle='-', color='b')\n",
529 | " plt.xlabel('Время (секунды)')\n",
530 | " plt.ylabel('Скорость (км/ч)')\n",
531 | " plt.title('Изменение скорости по времени')\n",
532 | " plt.grid(True)\n",
533 | " plt.show()\n",
534 | "\n",
535 | " # Вывод интерполированных значений\n",
536 | " for f, s in zip(frames, speeds):\n",
537 | " print(f\"Кадр {f}: скорость {s} км/ч\")\n",
538 | "\n",
539 | "# Путь к видеофайлу\n",
540 | "video_path = 'AKN00048.mp4'\n",
541 | "process_video(video_path)\n"
542 | ]
543 | },
544 | {
545 | "cell_type": "code",
546 | "execution_count": null,
547 | "id": "d38914b5-0ba3-4327-b43b-4fccc3014e18",
548 | "metadata": {},
549 | "outputs": [],
550 | "source": []
551 | }
552 | ],
553 | "metadata": {
554 | "kernelspec": {
555 | "display_name": "Python 3 (ipykernel)",
556 | "language": "python",
557 | "name": "python3"
558 | },
559 | "language_info": {
560 | "codemirror_mode": {
561 | "name": "ipython",
562 | "version": 3
563 | },
564 | "file_extension": ".py",
565 | "mimetype": "text/x-python",
566 | "name": "python",
567 | "nbconvert_exporter": "python",
568 | "pygments_lexer": "ipython3",
569 | "version": "3.10.0"
570 | }
571 | },
572 | "nbformat": 4,
573 | "nbformat_minor": 5
574 | }
575 |
--------------------------------------------------------------------------------
/train_run.py:
--------------------------------------------------------------------------------
1 | import os
2 | import torch
3 | import torch.nn as nn
4 | from torch.utils.data import DataLoader
5 | import pandas as pd
6 | from transformers import XCLIPModel, XCLIPProcessor
7 | from sklearn.model_selection import train_test_split
8 | from tqdm import tqdm
9 | import numpy as np
10 | import matplotlib.pyplot as plt
11 | import seaborn as sns
12 | from sklearn.metrics import confusion_matrix, classification_report
13 | import torch.optim as optim
14 |
15 | from dataset import XCLIPVideoDataset, EmbeddingsDataset
16 | from model import EmbeddingClassifier
17 |
18 | import warnings
19 |
20 | # Игнорировать все предупреждения
21 | warnings.filterwarnings("ignore")
22 |
23 |
24 | # ======== Подготовка данных ======== #
25 | # Пути к данным
26 | csv_path = r"C:\Users\pasha\OneDrive\Рабочий стол\dataset1011_1\videos_cut\violations_summary_p.csv"
27 | video_folder = r"C:\Users\pasha\OneDrive\Рабочий стол\dataset1011_1\videos_cut"
28 | processor = XCLIPProcessor.from_pretrained("microsoft/xclip-base-patch16")
29 |
30 | # Загрузка данных
31 | data = pd.read_csv(csv_path)
32 |
33 | # Добавляем уникальный идентификатор для каждой строки
34 | data.reset_index(drop=True, inplace=True)
35 | data["id"] = data.index # Используем индекс как уникальный идентификатор
36 |
37 | label_list = data["violation_name"].unique().tolist()
38 | print(label_list)
39 |
40 |
41 | # Создание полного датасета
42 | full_dataset = XCLIPVideoDataset(
43 | data,
44 | video_folder,
45 | processor,
46 | num_frames=8,
47 | apply_preprocessing=True,
48 | yolo_custom_path=r"C:\Users\pasha\OneDrive\Рабочий стол\best_93.pt",
49 | yolo_pretrained_path=r"C:\Users\pasha\OneDrive\Рабочий стол\best_93.pt",
50 | segformer_model_path=r"C:\Users\pasha\OneDrive\Рабочий стол\model",
51 | )
52 |
53 | # Создание DataLoader для вычисления эмбеддингов
54 | dataloader = DataLoader(full_dataset, batch_size=1, shuffle=False)
55 |
56 | # ======== Загрузка модели XCLIP и установка устройства ======== #
57 | model_name = "microsoft/xclip-base-patch16"
58 | model = XCLIPModel.from_pretrained(model_name)
59 |
60 | # Устройство (CPU или GPU)
61 | device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
62 | print(f"Using device: {device}")
63 |
64 | model.to(device)
65 | model.eval() # Переводим модель в режим оценки
66 |
67 | # Папка для сохранения эмбеддингов
68 | embeddings_dir = "./embeddings"
69 | os.makedirs(embeddings_dir, exist_ok=True)
70 |
71 | # Вычисление и сохранение эмбеддингов
72 | with torch.no_grad():
73 | for idx, sample in enumerate(tqdm(dataloader, desc="Processing")):
74 | pixel_values = sample["pixel_values"] # [batch_size, num_frames, 3, 224, 224]
75 | label = sample["label"] # [batch_size]
76 | segment_id = sample["segment_id"].item() # Идентификатор сегмента
77 | segment_name = sample["segment_name"][0] # Имя видеофайла (для отладки)
78 |
79 | # Создаем имя файла для эмбеддинга, используя идентификатор сегмента
80 | embedding_filename = f"{segment_id}.pt"
81 | embedding_file = os.path.join(embeddings_dir, embedding_filename)
82 |
83 | # Проверяем, существует ли файл эмбеддинга
84 | if os.path.exists(embedding_file):
85 | # Эмбеддинг уже существует, пропускаем вычисление
86 | continue
87 |
88 | # Перемещаем данные на устройство
89 | pixel_values = pixel_values.to(device)
90 |
91 | # Генерируем фиктивный текстовый ввод и перемещаем на устройство
92 | text_inputs = processor(
93 | text=[""] * pixel_values.size(0),
94 | return_tensors="pt",
95 | padding=True,
96 | truncation=True,
97 | max_length=77,
98 | )
99 | input_ids = text_inputs["input_ids"].to(device)
100 | attention_mask = text_inputs["attention_mask"].to(device)
101 |
102 | # Передаем pixel_values в модель
103 | outputs = model(
104 | pixel_values=pixel_values,
105 | input_ids=input_ids,
106 | attention_mask=attention_mask,
107 | )
108 | video_embeds = outputs.video_embeds # [batch_size, projection_dim]
109 |
110 | # Переносим эмбеддинги на CPU перед сохранением
111 | video_embeds_cpu = video_embeds.squeeze(0).cpu()
112 |
113 | # Сохраняем эмбеддинги и метку
114 | torch.save(
115 | {
116 | "embedding": video_embeds_cpu, # [projection_dim]
117 | "label": label.item(),
118 | "segment_id": segment_id,
119 | "segment_name": segment_name, # Сохраняем имя сегмента для отладки
120 | },
121 | embedding_file,
122 | )
123 |
124 |
125 | # Разделяем исходный датафрейм на обучающую и валидационную выборки
126 | train_data, val_data = train_test_split(
127 | data, test_size=0.3, stratify=data["violation_name"], random_state=42
128 | )
129 |
130 | # Создаем датасеты
131 | train_dataset = EmbeddingsDataset(train_data, embeddings_dir)
132 | val_dataset = EmbeddingsDataset(val_data, embeddings_dir)
133 |
134 |
135 | # Инициализация модели
136 | input_dim = model.config.projection_dim # Размерность эмбеддингов
137 | num_classes = len(label_list)
138 | classifier_model = EmbeddingClassifier(input_dim, num_classes)
139 |
140 | # Параметры обучения
141 | batch_size = 8
142 | num_epochs = 5000
143 | initial_learning_rate = 1e-4 # Начальный learning rate
144 |
145 | # DataLoaders
146 | train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
147 | val_loader = DataLoader(val_dataset, batch_size=batch_size)
148 |
149 | # Определение функции потерь и оптимизатора
150 | criterion = nn.CrossEntropyLoss()
151 | optimizer = optim.Adam(classifier_model.parameters(), lr=initial_learning_rate)
152 |
153 | # Добавляем scheduler для изменения learning rate
154 | scheduler = optim.lr_scheduler.ReduceLROnPlateau(
155 | optimizer, mode="min", factor=0.1, patience=5, verbose=True
156 | )
157 |
158 | # Перемещение классификатора на устройство
159 | classifier_model.to(device)
160 |
161 | # Папка для сохранения моделей
162 | models_dir = "./models"
163 | os.makedirs(models_dir, exist_ok=True)
164 |
165 | best_val_loss = float("inf")
166 | best_model_path = os.path.join(models_dir, "best_model.pth")
167 |
168 | # Добавляем параметры для ранней остановки
169 | early_stopping_patience = 100 # Количество эпох без улучшения для остановки
170 | epochs_without_improvement = 0 # Счетчик эпох без улучшения
171 |
172 | # Цикл обучения
173 | for epoch in range(num_epochs):
174 | classifier_model.train()
175 | running_loss = 0.0
176 | for batch in train_loader:
177 | embeddings = batch["embedding"].to(device)
178 | labels = batch["label"].to(device)
179 |
180 | optimizer.zero_grad()
181 | outputs = classifier_model(embeddings)
182 | loss = criterion(outputs, labels)
183 | loss.backward()
184 | optimizer.step()
185 |
186 | running_loss += loss.item() * embeddings.size(0)
187 |
188 | epoch_loss = running_loss / len(train_dataset)
189 |
190 | # Валидация
191 | classifier_model.eval()
192 | val_running_loss = 0.0 # Добавлено для валидационного лосса
193 | correct = 0
194 | total = 0
195 | with torch.no_grad():
196 | for batch in val_loader:
197 | embeddings = batch["embedding"].to(device)
198 | labels = batch["label"].to(device)
199 | outputs = classifier_model(embeddings)
200 | val_loss = criterion(outputs, labels) # Вычисляем лосс на валидации
201 | val_running_loss += val_loss.item() * embeddings.size(0)
202 | _, predicted = torch.max(outputs.data, 1)
203 | total += labels.size(0)
204 | correct += (predicted == labels).sum().item()
205 | val_loss_epoch = val_running_loss / len(val_dataset) # Средний лосс на валидации
206 | val_accuracy = correct / total
207 |
208 | # Сохранение модели при улучшении валидационной ошибки
209 | if val_loss_epoch < best_val_loss:
210 | best_val_loss = val_loss_epoch
211 | torch.save(classifier_model.state_dict(), best_model_path)
212 | print(
213 | f"Модель сохранена на {epoch + 1} эпохе с валидационной ошибкой: {val_loss_epoch:.4f}"
214 | )
215 | epochs_without_improvement = 0 # Сброс счетчика
216 | else:
217 | epochs_without_improvement += 1
218 |
219 | # Шаг scheduler
220 | scheduler.step(val_loss_epoch)
221 |
222 | # Проверка на раннюю остановку
223 | if epochs_without_improvement >= early_stopping_patience:
224 | print(
225 | f"Ранняя остановка на {epoch + 1} эпохе. Валидационная ошибка не улучшалась {early_stopping_patience} эпох."
226 | )
227 | break
228 |
229 | # Вывод информации
230 | print(
231 | f"Epoch {epoch+1}/{num_epochs}, "
232 | f"Training Loss: {epoch_loss:.4f}, "
233 | f"Validation Loss: {val_loss_epoch:.4f}, "
234 | f"Validation Accuracy: {val_accuracy * 100:.2f}%"
235 | )
236 |
237 | # Загрузка лучшей модели для оценки
238 | best_model_path = os.path.join(models_dir, "best_model.pth")
239 | classifier_model.load_state_dict(torch.load(best_model_path))
240 | classifier_model.eval()
241 |
242 | print("Лучшая модель загружена для оценки.")
243 |
244 | # ======== Оценка модели на валидационном наборе ======== #
245 | # Сбор всех предсказаний и истинных меток
246 | val_all_preds = []
247 | val_all_labels = []
248 | with torch.no_grad():
249 | for batch in val_loader:
250 | embeddings = batch["embedding"].to(device)
251 | labels = batch["label"].to(device)
252 | outputs = classifier_model(embeddings)
253 | _, predicted = torch.max(outputs.data, 1)
254 | val_all_preds.extend(predicted.cpu().numpy())
255 | val_all_labels.extend(labels.cpu().numpy())
256 |
257 | # Получаем уникальные метки, присутствующие в данных
258 | present_labels = np.unique(val_all_labels)
259 | present_label_names = [label_list[i] for i in present_labels]
260 |
261 | # Вычисление матрицы ошибок для валидационного набора
262 | cm = confusion_matrix(val_all_labels, val_all_preds, labels=present_labels)
263 | print("Classification report for validation data:")
264 | print(
265 | classification_report(
266 | val_all_labels,
267 | val_all_preds,
268 | labels=present_labels,
269 | target_names=present_label_names,
270 | )
271 | )
272 |
273 | # Отображение матрицы ошибок для валидационного набора
274 | plt.figure(figsize=(12, 10))
275 | sns.heatmap(
276 | cm,
277 | annot=True,
278 | fmt="d",
279 | cmap="Blues",
280 | xticklabels=present_label_names,
281 | yticklabels=present_label_names,
282 | )
283 | plt.ylabel("Истинные метки")
284 | plt.xlabel("Предсказанные метки")
285 | plt.title("Матрица ошибок (валидация)")
286 | plt.show()
287 |
288 | # ======== Оценка модели на обучающем наборе ======== #
289 | # Сбор всех предсказаний и истинных меток для обучающего набора
290 | train_all_preds = []
291 | train_all_labels = []
292 | with torch.no_grad():
293 | for batch in train_loader:
294 | embeddings = batch["embedding"].to(device)
295 | labels = batch["label"].to(device)
296 | outputs = classifier_model(embeddings)
297 | _, predicted = torch.max(outputs.data, 1)
298 | train_all_preds.extend(predicted.cpu().numpy())
299 | train_all_labels.extend(labels.cpu().numpy())
300 |
301 | # Получаем уникальные метки, присутствующие в данных
302 | train_present_labels = np.unique(train_all_labels)
303 | train_present_label_names = [label_list[i] for i in train_present_labels]
304 | print(train_present_label_names)
305 |
306 | # Вычисление матрицы ошибок для обучающего набора
307 | train_cm = confusion_matrix(
308 | train_all_labels, train_all_preds, labels=train_present_labels
309 | )
310 | print("Classification report for training data:")
311 | print(
312 | classification_report(
313 | train_all_labels,
314 | train_all_preds,
315 | labels=train_present_labels,
316 | target_names=train_present_label_names,
317 | )
318 | )
319 |
320 | # Отображение матрицы ошибок для обучающего набора
321 | plt.figure(figsize=(12, 10))
322 | sns.heatmap(
323 | train_cm,
324 | annot=True,
325 | fmt="d",
326 | cmap="Blues",
327 | xticklabels=train_present_label_names,
328 | yticklabels=train_present_label_names,
329 | )
330 | plt.ylabel("Истинные метки")
331 | plt.xlabel("Предсказанные метки")
332 | plt.title("Матрица ошибок (обучение)")
333 | plt.show()
334 |
--------------------------------------------------------------------------------
/whisper.ipynb:
--------------------------------------------------------------------------------
1 | {
2 | "nbformat": 4,
3 | "nbformat_minor": 0,
4 | "metadata": {
5 | "colab": {
6 | "provenance": []
7 | },
8 | "kernelspec": {
9 | "name": "python3",
10 | "display_name": "Python 3"
11 | },
12 | "language_info": {
13 | "name": "python"
14 | }
15 | },
16 | "cells": [
17 | {
18 | "cell_type": "code",
19 | "source": [
20 | "# Установка библиотек\n",
21 | "!pip install openai-whisper ffmpeg-python pydub\n"
22 | ],
23 | "metadata": {
24 | "colab": {
25 | "base_uri": "https://localhost:8080/"
26 | },
27 | "id": "RnNNBBd0oPwN",
28 | "outputId": "957102ca-b752-4620-b936-478b67b3fd77"
29 | },
30 | "execution_count": null,
31 | "outputs": [
32 | {
33 | "output_type": "stream",
34 | "name": "stdout",
35 | "text": [
36 | "Requirement already satisfied: openai-whisper in /usr/local/lib/python3.10/dist-packages (20240930)\n",
37 | "Requirement already satisfied: ffmpeg-python in /usr/local/lib/python3.10/dist-packages (0.2.0)\n",
38 | "Requirement already satisfied: pydub in /usr/local/lib/python3.10/dist-packages (0.25.1)\n",
39 | "Requirement already satisfied: numba in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (0.60.0)\n",
40 | "Requirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (1.26.4)\n",
41 | "Requirement already satisfied: torch in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (2.5.0+cu121)\n",
42 | "Requirement already satisfied: tqdm in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (4.66.6)\n",
43 | "Requirement already satisfied: more-itertools in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (10.5.0)\n",
44 | "Requirement already satisfied: tiktoken in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (0.8.0)\n",
45 | "Requirement already satisfied: triton>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (3.1.0)\n",
46 | "Requirement already satisfied: future in /usr/local/lib/python3.10/dist-packages (from ffmpeg-python) (1.0.0)\n",
47 | "Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from triton>=2.0.0->openai-whisper) (3.16.1)\n",
48 | "Requirement already satisfied: llvmlite<0.44,>=0.43.0dev0 in /usr/local/lib/python3.10/dist-packages (from numba->openai-whisper) (0.43.0)\n",
49 | "Requirement already satisfied: regex>=2022.1.18 in /usr/local/lib/python3.10/dist-packages (from tiktoken->openai-whisper) (2024.9.11)\n",
50 | "Requirement already satisfied: requests>=2.26.0 in /usr/local/lib/python3.10/dist-packages (from tiktoken->openai-whisper) (2.32.3)\n",
51 | "Requirement already satisfied: typing-extensions>=4.8.0 in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (4.12.2)\n",
52 | "Requirement already satisfied: networkx in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (3.4.2)\n",
53 | "Requirement already satisfied: jinja2 in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (3.1.4)\n",
54 | "Requirement already satisfied: fsspec in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (2024.10.0)\n",
55 | "Requirement already satisfied: sympy==1.13.1 in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (1.13.1)\n",
56 | "Requirement already satisfied: mpmath<1.4,>=1.1.0 in /usr/local/lib/python3.10/dist-packages (from sympy==1.13.1->torch->openai-whisper) (1.3.0)\n",
57 | "Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests>=2.26.0->tiktoken->openai-whisper) (3.4.0)\n",
58 | "Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests>=2.26.0->tiktoken->openai-whisper) (3.10)\n",
59 | "Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests>=2.26.0->tiktoken->openai-whisper) (2.2.3)\n",
60 | "Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests>=2.26.0->tiktoken->openai-whisper) (2024.8.30)\n",
61 | "Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.10/dist-packages (from jinja2->torch->openai-whisper) (3.0.2)\n"
62 | ]
63 | }
64 | ]
65 | },
66 | {
67 | "cell_type": "code",
68 | "execution_count": null,
69 | "metadata": {
70 | "colab": {
71 | "base_uri": "https://localhost:8080/",
72 | "height": 158
73 | },
74 | "id": "bHXubBYTlcvD",
75 | "outputId": "637a9cdf-0078-488a-808f-e9214c61fd31"
76 | },
77 | "outputs": [
78 | {
79 | "output_type": "stream",
80 | "name": "stderr",
81 | "text": [
82 | "100%|████████████████████████████████████████| 139M/139M [00:01<00:00, 101MiB/s]\n",
83 | "/usr/local/lib/python3.10/dist-packages/whisper/__init__.py:150: FutureWarning: You are using `torch.load` with `weights_only=False` (the current default value), which uses the default pickle module implicitly. It is possible to construct malicious pickle data which will execute arbitrary code during unpickling (See https://github.com/pytorch/pytorch/blob/main/SECURITY.md#untrusted-models for more details). In a future release, the default value for `weights_only` will be flipped to `True`. This limits the functions that could be executed during unpickling. Arbitrary objects will no longer be allowed to be loaded via this mode unless they are explicitly allowlisted by the user via `torch.serialization.add_safe_globals`. We recommend you start setting `weights_only=True` for any use case where you don't have full control of the loaded file. Please open an issue on GitHub for any issues related to this experimental feature.\n",
84 | " checkpoint = torch.load(fp, map_location=device)\n",
85 | "/usr/local/lib/python3.10/dist-packages/whisper/transcribe.py:126: UserWarning: FP16 is not supported on CPU; using FP32 instead\n",
86 | " warnings.warn(\"FP16 is not supported on CPU; using FP32 instead\")\n"
87 | ]
88 | },
89 | {
90 | "output_type": "stream",
91 | "name": "stdout",
92 | "text": [
93 | "Транскрибация речи:\n",
94 | " Проверяю по ребрику. Показываю поворотник. Ставай на тормоз. Садок тормозим! Тормозимать твою! Сура! Блин, тормозим! Взравляю!\n"
95 | ]
96 | },
97 | {
98 | "output_type": "display_data",
99 | "data": {
100 | "text/plain": [
101 | ""
102 | ],
103 | "application/javascript": [
104 | "\n",
105 | " async function download(id, filename, size) {\n",
106 | " if (!google.colab.kernel.accessAllowed) {\n",
107 | " return;\n",
108 | " }\n",
109 | " const div = document.createElement('div');\n",
110 | " const label = document.createElement('label');\n",
111 | " label.textContent = `Downloading \"${filename}\": `;\n",
112 | " div.appendChild(label);\n",
113 | " const progress = document.createElement('progress');\n",
114 | " progress.max = size;\n",
115 | " div.appendChild(progress);\n",
116 | " document.body.appendChild(div);\n",
117 | "\n",
118 | " const buffers = [];\n",
119 | " let downloaded = 0;\n",
120 | "\n",
121 | " const channel = await google.colab.kernel.comms.open(id);\n",
122 | " // Send a message to notify the kernel that we're ready.\n",
123 | " channel.send({})\n",
124 | "\n",
125 | " for await (const message of channel.messages) {\n",
126 | " // Send a message to notify the kernel that we're ready.\n",
127 | " channel.send({})\n",
128 | " if (message.buffers) {\n",
129 | " for (const buffer of message.buffers) {\n",
130 | " buffers.push(buffer);\n",
131 | " downloaded += buffer.byteLength;\n",
132 | " progress.value = downloaded;\n",
133 | " }\n",
134 | " }\n",
135 | " }\n",
136 | " const blob = new Blob(buffers, {type: 'application/binary'});\n",
137 | " const a = document.createElement('a');\n",
138 | " a.href = window.URL.createObjectURL(blob);\n",
139 | " a.download = filename;\n",
140 | " div.appendChild(a);\n",
141 | " a.click();\n",
142 | " div.remove();\n",
143 | " }\n",
144 | " "
145 | ]
146 | },
147 | "metadata": {}
148 | },
149 | {
150 | "output_type": "display_data",
151 | "data": {
152 | "text/plain": [
153 | ""
154 | ],
155 | "application/javascript": [
156 | "download(\"download_ae0475a8-6963-478b-9cde-b1b43df155cc\", \"transcription.txt\", 229)"
157 | ]
158 | },
159 | "metadata": {}
160 | }
161 | ],
162 | "source": [
163 | "import whisper\n",
164 | "import ffmpeg\n",
165 | "import os\n",
166 | "\n",
167 | "# Укажите путь к вашему видеофайлу (например, '/content/ваше_видео.mp4')\n",
168 | "video_path = '1.mp4'\n",
169 | "\n",
170 | "# Путь для сохранения извлеченного аудио\n",
171 | "audio_file = 'extracted_audio.mp3'\n",
172 | "\n",
173 | "# Преобразование видео в аудиоформат с использованием ffmpeg\n",
174 | "ffmpeg.input(video_path).output(audio_file, format='mp3').run(overwrite_output=True)\n",
175 | "\n",
176 | "# Загрузка модели Whisper для транскрибации\n",
177 | "model = whisper.load_model('base') # Можно заменить на другие размеры модели: 'small', 'medium', 'large'\n",
178 | "\n",
179 | "# Транскрибация аудио\n",
180 | "result = model.transcribe(audio_file)\n",
181 | "\n",
182 | "# Печать результата транскрибации\n",
183 | "print(\"Транскрибация речи:\")\n",
184 | "print(result['text'])\n",
185 | "\n",
186 | "# Сохранение результата в текстовый файл\n",
187 | "with open('transcription.txt', 'w') as f:\n",
188 | " f.write(result['text'])\n",
189 | "\n",
190 | "# Автоматическое скачивание файла с транскрибацией (если вы используете Colab)\n",
191 | "from google.colab import files\n",
192 | "files.download('transcription.txt')\n",
193 | "\n",
194 | "# Удаление временного аудиофайла\n",
195 | "os.remove(audio_file)"
196 | ]
197 | },
198 | {
199 | "cell_type": "code",
200 | "source": [],
201 | "metadata": {
202 | "id": "vDw1aOcSq1Yn"
203 | },
204 | "execution_count": null,
205 | "outputs": []
206 | }
207 | ]
208 | }
--------------------------------------------------------------------------------