├── README.md ├── homeworks ├── hw1_n_gram_generaiton.ipynb └── hw2_rnn_classification │ ├── biotech_news.tsv │ └── hw2_rnn_classification.ipynb ├── week01_text_classification ├── ag_news_test.csv ├── ag_news_train.csv ├── lecture1.pdf └── seminar1.ipynb ├── week02_generation ├── lecture2.pdf └── seminar2.ipynb ├── week03_transformer ├── lecture3.pdf └── seminar3.ipynb ├── week04_bert_gpt ├── lecture4.pdf └── seminar4.ipynb └── week05_distil_quant ├── lecture5.pdf └── seminar5.ipynb /README.md: -------------------------------------------------------------------------------- 1 | # Natural Language Processing (NLP), ФКН ВШЭ 2 | 3 | Этот репозиторий содержит материалы лекций, семинаров и домашние задания. 4 | 5 | # Темы курса 6 | 7 | 1. Классификация текста. Записи: [лекция](https://disk.yandex.ru/i/f4iwpQSXOGNXlA), [семинар](https://disk.yandex.ru/i/JRcJ3bIcsoJPYQ) 8 | 2. Генерация текста, RNN. Записи: [лекция](https://disk.yandex.ru/i/9q02Vbzy4GKw3w), [семинар](https://disk.yandex.ru/i/Gf2KyS3odxx_FQ) 9 | 3. Трансформер. Записи: [лекция](https://disk.yandex.ru/i/jNpFYKPMxFfjrg), [семинар](https://disk.yandex.ru/i/6DtHWdcH4KrvLQ) 10 | 11 | # Преподаватели 12 | 13 | * [Александр Шабалин](https://t.me/amshabalin) 14 | * [Егор Чимбулатов](https://t.me/m0rjique) 15 | * [Дарья Андреева](https://t.me/Xufana) 16 | * [Алексей Биршерт](https://t.me/Birshert) 17 | -------------------------------------------------------------------------------- /homeworks/hw1_n_gram_generaiton.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "markdown", 5 | "metadata": {}, 6 | "source": [ 7 | "# Глубинное обучение для текстовых данных, ФКН ВШЭ\n", 8 | "\n", 9 | "## Домашнее задание 1: Text Suggestion\n", 10 | "\n", 11 | "__Мягкий дедлайн: 24.09 23:59__ \n", 12 | "__Жесткий дедлайн: 27.09 23:59__\n", 13 | "\n", 14 | "### О задании\n", 15 | "\n", 16 | "В этом задании вам предстоит реализовать систему, предлагающую удачное продолжение слова или нескольких следующих слов в режиме реального времени по типу тех, которые используются в почте или поисковой строке. За дополнительные баллы полученную систему нужно будет обернуть в пользовательский интерфейс с помощью библиотеки [reflex](https://github.com/reflex-dev/reflex) или аналогов. В этой домашке вам не придется обучать никаких моделей, мы ограничимся n-граммной генерацией.\n", 17 | "\n", 18 | "### Структура\n", 19 | "\n", 20 | "Это домашнее задание состоит из двух частей: основной и бонусной. В первой вам нужно будет выполнить 5 заданий, по итогам которых вы получите минимально рабочее решение. А во второй, пользуясь тем, что вы уже сделали реализовать полноценную систему подсказки текста с пользовательским интерфейсом. Во второй части мы никак не будем ограничивать вашу фантазию. Делайте что угодно, лишь бы в результате получился удобный фреймворк. Чем лучше у вас будет результат, тем больше баллов вы получите. Если будет совсем хорошо, то мы добавим бонусов сверху по своему усмотрению.\n", 21 | "\n", 22 | "### Оценивание и штрафы\n", 23 | "\n", 24 | "Максимально допустимая оценка за работу — 15 баллов. Сдавать задание после жесткого дедлайна нельзя. При сдачи решения после мягкого дедлайна за каждый день просрочки снимается по __одному__ баллу.\n", 25 | "\n", 26 | "Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Весь код должен быть написан самостоятельно. Чужим кодом для пользоваться запрещается даже с указанием ссылки на источник. В разумных рамках, конечно. Взять пару очевидных строчек кода для реализации какого-то небольшого функционала можно.\n", 27 | "\n", 28 | "Неэффективная реализация кода может негативно отразиться на оценке. Также оценка может быть снижена за плохо читаемый код.\n", 29 | "\n", 30 | "При сдаче зададания в anytask вам будет необходимо сдать весь код, а если вы возьметесь за бонусную часть, то еще отчет и видео с демонстрацией вашего UI. За основную часть можно получить до __10-ти__ баллов, а за бонусную – до __5-ти__ баллов." 31 | ] 32 | }, 33 | { 34 | "cell_type": "markdown", 35 | "metadata": {}, 36 | "source": [ 37 | "### Данные\n", 38 | "\n", 39 | "Для получения текстовых статистик используйте датасет `emails.csv`. Вы можете найти его по [ссылке](https://disk.yandex.ru/d/ikyUhWPlvfXxCg). Он содержит более 500 тысяч электронных писем на английском языке." 40 | ] 41 | }, 42 | { 43 | "cell_type": "code", 44 | "execution_count": 1, 45 | "metadata": {}, 46 | "outputs": [], 47 | "source": [ 48 | "import pandas as pd\n", 49 | "\n", 50 | "emails = pd.read_csv('emails.csv')\n", 51 | "len(emails)" 52 | ] 53 | }, 54 | { 55 | "cell_type": "markdown", 56 | "metadata": {}, 57 | "source": [ 58 | "Заметьте, что данные очень грязные. В каждом письме содержится различная мета-информация, которая будет только мешать при предсказании продолжения текста.\n", 59 | "\n", 60 | "__Задание 1 (2 балла).__ Очистите корпус текстов по вашему усмотрению и объясните свой выбор. В идеале обработанные тексты должны содержать только текст самого письма и ничего лишнего по типу ссылок, адресатов и прочих символов, которыми мы точно не хотим продолжать текст." 61 | ] 62 | }, 63 | { 64 | "cell_type": "code", 65 | "execution_count": 5, 66 | "metadata": {}, 67 | "outputs": [], 68 | "source": [ 69 | "# your code here" 70 | ] 71 | }, 72 | { 73 | "cell_type": "markdown", 74 | "metadata": {}, 75 | "source": [ 76 | "Для следующего задания вам нужно будет токенизировать текст. Для этого просто разбейте его по словам. Очевидно, итоговый результат для финального пользователя будет лучше, если ваша система также будет предлагать уместную пунктуацию. Но если вы заметите, что из-за этого падает качество самого текса, то можете удалить все небуквенные символы на этапе токенизации." 77 | ] 78 | }, 79 | { 80 | "cell_type": "markdown", 81 | "metadata": {}, 82 | "source": [ 83 | "## Общая схема решения\n", 84 | "\n", 85 | "Мы хотим сделать систему, которая будет ускорять набор текста, советуя подходящие продолжения. Для подсказки следующего слова мы будем использовать n-граммную модель. Так как n-граммная модель работает с целыми словами, а советы мы хотим давать в риал-тайме даже когда слово еще не дописано, сперва надо научиться дополнять слово до целого." 86 | ] 87 | }, 88 | { 89 | "cell_type": "markdown", 90 | "metadata": {}, 91 | "source": [ 92 | "## Дополнение слова\n", 93 | "\n", 94 | "В этой части вам предстоит реализовать метод дополнения слова до целого по его началу (префиксу). Для этого сперва необходимо научиться находить все слова, имеющие определенный префикс. Мы будем вызывать функцию поиска подходящих слов после каждой напечатанной пользователем буквы. Поэтому нам очень важно, чтобы поиск работал как можно быстрее. Простой перебор всех слов занимает $O(|V| \\cdot n)$ времени, где $|V|$ – размер словаря, а $n$ – длина префикса. Мы же напишем [префиксное дерево](https://ru.wikipedia.org/wiki/Префиксное_дерево), которое позволяет искать слова не больше чем за $O(n + mk)$, где $m$ - число подходящих слов, а $k$ – длина суффикса." 95 | ] 96 | }, 97 | { 98 | "cell_type": "markdown", 99 | "metadata": {}, 100 | "source": [ 101 | "__Задание 2 (2 балла).__ Допишите префиксное дерево для поиска слов по префиксу." 102 | ] 103 | }, 104 | { 105 | "cell_type": "code", 106 | "execution_count": 401, 107 | "metadata": {}, 108 | "outputs": [], 109 | "source": [ 110 | "from typing import List\n", 111 | "\n", 112 | "class PrefixTreeNode:\n", 113 | " def __init__(self):\n", 114 | " self.children: dict[str, PrefixTreeNode] = {}\n", 115 | " self.is_end_of_word = False\n", 116 | "\n", 117 | "class PrefixTree:\n", 118 | " def __init__(self, vocabulary: List[str]):\n", 119 | " \"\"\"\n", 120 | " vocabulary: список всех уникальных токенов в корпусе\n", 121 | " \"\"\"\n", 122 | " self.root = PrefixTreeNode()\n", 123 | " \n", 124 | " # your code here\n", 125 | "\n", 126 | " def search_prefix(self, prefix) -> List[str]:\n", 127 | " \"\"\"\n", 128 | " Возвращает все слова, начинающиеся на prefix\n", 129 | " prefix: str – префикс слова\n", 130 | " \"\"\"\n", 131 | "\n", 132 | " # your code here" 133 | ] 134 | }, 135 | { 136 | "cell_type": "code", 137 | "execution_count": null, 138 | "metadata": {}, 139 | "outputs": [], 140 | "source": [ 141 | "vocabulary = ['aa', 'aaa', 'abb', 'bba', 'bbb', 'bcd']\n", 142 | "prefix_tree = PrefixTree(vocabulary)\n", 143 | "\n", 144 | "assert set(prefix_tree.search_prefix('a')) == set(['aa', 'aaa', 'abb'])\n", 145 | "assert set(prefix_tree.search_prefix('bb')) == set(['bba', 'bbb'])" 146 | ] 147 | }, 148 | { 149 | "cell_type": "markdown", 150 | "metadata": {}, 151 | "source": [ 152 | "Теперь, когда у нас есть способ быстро находить все слова с определенным префиксом, нам нужно их упорядочить по вероятности, чтобы выбирать лучшее. Будем оценивать вероятность слова по частоте его __встречаемости в корпусе__.\n", 153 | "\n", 154 | "__Задание 3 (2 балла).__ Допишите класс `WordCompletor`, который формирует словарь и префиксное дерево, а так же умеет находить все возможные продолжения слова вместе с их вероятностями. В этом классе вы можете при необходимости дополнительно отфильтровать слова, например, удалив все самые редкие. Постарайтесь максимально оптимизировать ваш код." 155 | ] 156 | }, 157 | { 158 | "cell_type": "code", 159 | "execution_count": 284, 160 | "metadata": {}, 161 | "outputs": [], 162 | "source": [ 163 | "class WordCompletor:\n", 164 | " def __init__(self, corpus):\n", 165 | " \"\"\"\n", 166 | " corpus: list – корпус текстов\n", 167 | " \"\"\"\n", 168 | " # your code here\n", 169 | " self.prefix_tree = PrefixTree()\n", 170 | "\n", 171 | " def get_words_and_probs(self, prefix: str) -> (List[str], List[float]):\n", 172 | " \"\"\"\n", 173 | " Возвращает список слов, начинающихся на prefix,\n", 174 | " с их вероятностями (нормировать ничего не нужно)\n", 175 | " \"\"\"\n", 176 | " words, probs = [], []\n", 177 | " # your code here\n", 178 | " return words, probs" 179 | ] 180 | }, 181 | { 182 | "cell_type": "code", 183 | "execution_count": null, 184 | "metadata": {}, 185 | "outputs": [], 186 | "source": [ 187 | "dummy_corpus = [\n", 188 | " [\"aa\", \"ab\"],\n", 189 | " [\"aaa\", \"abab\"],\n", 190 | " [\"abb\", \"aa\", \"ab\", \"bba\", \"bbb\", \"bcd\"],\n", 191 | "]\n", 192 | "\n", 193 | "word_completor = WordCompletor(dummy_corpus)\n", 194 | "words, probs = word_completor.get_words_and_probs('a')\n", 195 | "words_probs = list(zip(words, probs))\n", 196 | "assert set(words_probs) == {('aa', 0.2), ('ab', 0.2), ('aaa', 0.1), ('abab', 0.1), ('abb', 0.1)}" 197 | ] 198 | }, 199 | { 200 | "cell_type": "markdown", 201 | "metadata": {}, 202 | "source": [ 203 | "## Предсказание следующих слов\n", 204 | "\n", 205 | "Теперь, когда мы умеем дописывать слово за пользователем, мы можем пойти дальше и предожить ему следующее слово (или несколько) с учетом дописанного. Для этого мы воспользуемся n-граммной моделью.\n", 206 | "\n", 207 | "Напомним, что вероятность последовательности для такой модели записывается по формуле\n", 208 | "$$\n", 209 | "P(w_1, \\dots, w_T) = \\prod_{i=1}^T P(w_i \\mid w_{i-1}, \\dots, w_{i-n}).\n", 210 | "$$\n", 211 | "\n", 212 | "$P(w_i \\mid w_{i-1}, \\dots, w_{i-n})$ оценивается по частоте встречаемости n-граммы. \n", 213 | "\n", 214 | "__Задание 4 (2 балла).__ Напишите класс для n-граммной модели. Никакого сглаживания добавлять не надо, мы же не хотим, чтобы модель советовала случайные слова (хоть и очень редко)." 215 | ] 216 | }, 217 | { 218 | "cell_type": "code", 219 | "execution_count": 403, 220 | "metadata": {}, 221 | "outputs": [], 222 | "source": [ 223 | "class NGramLanguageModel:\n", 224 | " def __init__(self, corpus, n):\n", 225 | " # your code here\n", 226 | "\n", 227 | " def get_next_words_and_probs(self, prefix: list) -> (List[str], List[float]):\n", 228 | " \"\"\"\n", 229 | " Возвращает список слов, которые могут идти после prefix,\n", 230 | " а так же список вероятностей этих слов\n", 231 | " \"\"\"\n", 232 | "\n", 233 | " next_words, probs = [], []\n", 234 | " \n", 235 | " # your code here\n", 236 | "\n", 237 | " return next_words, probs" 238 | ] 239 | }, 240 | { 241 | "cell_type": "code", 242 | "execution_count": null, 243 | "metadata": {}, 244 | "outputs": [], 245 | "source": [ 246 | "dummy_corpus = [\n", 247 | " ['aa', 'aa', 'aa', 'aa', 'ab'],\n", 248 | " ['aaa', 'abab'],\n", 249 | " ['abb', 'aa', 'ab', 'bba', 'bbb', 'bcd']\n", 250 | "]\n", 251 | "\n", 252 | "n_gram_model = NGramLanguageModel(corpus=dummy_corpus, n=2)\n", 253 | "\n", 254 | "next_words, probs = n_gram_model.get_next_words_and_probs(['aa', 'aa'])\n", 255 | "words_probs = list(zip(next_words, probs))\n", 256 | "\n", 257 | "assert set(words_probs) == {('aa', 2/3), ('ab', 1/3)}" 258 | ] 259 | }, 260 | { 261 | "cell_type": "markdown", 262 | "metadata": {}, 263 | "source": [ 264 | "Отлично, мы теперь можем объединить два метода в автоматический дописыватель текстов: первый будет дополнять слово, а второй – предлагать продолжения. Хочется, чтобы предлагался список возможных продолжений, из который пользователь сможет выбрать наиболее подходящее. Самое сложное тут – аккуратно выбирать, что показывать, а что нет. \n", 265 | "\n", 266 | "__Задание 5 (2 балла).__ В качестве первого подхода к снаряду реализуйте метод, возвращающий всегда самое вероятное продолжение жадным способом. После этого можно добавить опцию генерации нескольких вариантов продолжений, что сделает метод гораздо лучше." 267 | ] 268 | }, 269 | { 270 | "cell_type": "code", 271 | "execution_count": 443, 272 | "metadata": {}, 273 | "outputs": [], 274 | "source": [ 275 | "class TextSuggestion:\n", 276 | " def __init__(self, word_completor, n_gram_model):\n", 277 | " self.word_completor = word_completor\n", 278 | " self.n_gram_model = n_gram_model\n", 279 | "\n", 280 | " def suggest_text(self, text: Union[str, list], n_words=3, n_texts=1) -> list[list[str]]:\n", 281 | " \"\"\"\n", 282 | " Возвращает возможные варианты продолжения текста (по умолчанию только один)\n", 283 | " \n", 284 | " text: строка или список слов – написанный пользователем текст\n", 285 | " n_words: число слов, которые дописывает n-граммная модель\n", 286 | " n_texts: число возвращаемых продолжений (пока что только одно)\n", 287 | " \n", 288 | " return: list[list[srt]] – список из n_texts списков слов, по 1 + n_words слов в каждом\n", 289 | " Первое слово – это то, которое WordCompletor дополнил до целого.\n", 290 | " \"\"\"\n", 291 | "\n", 292 | " suggestions = []\n", 293 | "\n", 294 | " # your code here\n", 295 | "\n", 296 | " return suggestions" 297 | ] 298 | }, 299 | { 300 | "cell_type": "code", 301 | "execution_count": null, 302 | "metadata": {}, 303 | "outputs": [], 304 | "source": [ 305 | "dummy_corpus = [\n", 306 | " ['aa', 'aa', 'aa', 'aa', 'ab'],\n", 307 | " ['aaa', 'abab'],\n", 308 | " ['abb', 'aa', 'ab', 'bba', 'bbb', 'bcd']\n", 309 | "]\n", 310 | "\n", 311 | "word_completor = WordCompletor(dummy_corpus)\n", 312 | "n_gram_model = NGramLanguageModel(corpus=dummy_corpus, n=2)\n", 313 | "text_suggestion = TextSuggestion(word_completor, n_gram_model)\n", 314 | "\n", 315 | "assert text_suggestion.suggest_text(['aa', 'aa'], n_words=3, n_texts=1) == [['aa', 'aa', 'aa', 'aa']]\n", 316 | "assert text_suggestion.suggest_text(['abb', 'aa', 'ab'], n_words=2, n_texts=1) == [['ab', 'bba', 'bbb']]" 317 | ] 318 | }, 319 | { 320 | "cell_type": "code", 321 | "execution_count": 450, 322 | "metadata": {}, 323 | "outputs": [], 324 | "source": [ 325 | "text_suggestion = TextSuggestion(word_completor, n_gram_model)" 326 | ] 327 | }, 328 | { 329 | "cell_type": "markdown", 330 | "metadata": {}, 331 | "source": [ 332 | "## Бонусная часть: Добавляем UI" 333 | ] 334 | }, 335 | { 336 | "cell_type": "markdown", 337 | "metadata": {}, 338 | "source": [ 339 | "Запускать ячейки в юпитере – это хорошо, но будет лучше, если вашим решением действительно можно будет пользоваться. Для этого вам предлагается добавить полноценных User Interface. Мы рекомендуем использовать для этого [reflex](https://github.com/reflex-dev/reflex). Это Python библиотека для создания web-интерфейсом с очень богатым функционалом.\n", 340 | "\n", 341 | "Ваша задача – сделать поле для текстового ввода, при наборе текста в котором будут появляться подсказки в реальном времени. Продумайте, как пользователь будет выбирать подсказки, сколько продолжений рекомендавать и так далее. В общем, должно получиться красиво и удобно. В этой части вы можете модифицировать все классы по своему усмотрению и добавлять любые эвристики. Если нужно, то дополнительно обрабатывать текст и вообще делать все, что считаете нужным. \n", 342 | "\n", 343 | "За это задание можно получить до __5-ти бонусных баллов__ в зависимости о того, насколько хорошо и удобно у вас получилось. При сдаче задания прикрепите небольшой __отчет__ (полстраницы) с описанием вашей системы, а также __видео__ (1-2 минуты) с демонстрацией работы интерфейса.\n", 344 | "\n", 345 | "Мы настоятельно рекомендуем вам оформить код в проект, а не писать в ноутбуке. Но если вам очень хочется писать тут, то хотя бы не меняйте код в предыдущих заданиях, чтобы его можно было нормально оценивать." 346 | ] 347 | }, 348 | { 349 | "cell_type": "code", 350 | "execution_count": null, 351 | "metadata": {}, 352 | "outputs": [], 353 | "source": [] 354 | } 355 | ], 356 | "metadata": { 357 | "kernelspec": { 358 | "display_name": "Python 3 (ipykernel)", 359 | "language": "python", 360 | "name": "python3" 361 | }, 362 | "language_info": { 363 | "codemirror_mode": { 364 | "name": "ipython", 365 | "version": 3 366 | }, 367 | "file_extension": ".py", 368 | "mimetype": "text/x-python", 369 | "name": "python", 370 | "nbconvert_exporter": "python", 371 | "pygments_lexer": "ipython3", 372 | "version": "3.12.6" 373 | }, 374 | "notebookId": "53997d2d-afb8-4477-8874-b6d46299f06c", 375 | "notebookPath": "seminar.ipynb" 376 | }, 377 | "nbformat": 4, 378 | "nbformat_minor": 4 379 | } 380 | -------------------------------------------------------------------------------- /homeworks/hw2_rnn_classification/hw2_rnn_classification.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "markdown", 5 | "id": "b1acf78a", 6 | "metadata": { 7 | "id": "b1acf78a" 8 | }, 9 | "source": [ 10 | "# Глубинное обучение для текстовых данных, ФКН ВШЭ\n", 11 | "\n", 12 | "## Домашнее задание 2: Рекуррентные нейронные сети\n", 13 | "\n", 14 | "### Оценивание и штрафы\n", 15 | "\n", 16 | "Максимально допустимая оценка за работу — __10 (+3) баллов__. Сдавать задание после указанного срока сдачи нельзя.\n", 17 | "\n", 18 | "Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов. Весь код должен быть написан самостоятельно. Чужим кодом для пользоваться запрещается даже с указанием ссылки на источник. В разумных рамках, конечно. Взять пару очевидных строчек кода для реализации какого-то небольшого функционала можно.\n", 19 | "\n", 20 | "Неэффективная реализация кода может негативно отразиться на оценке. Также оценка может быть снижена за плохо читаемый код и плохо оформленные графики. Все ответы должны сопровождаться кодом или комментариями о том, как они были получены.\n", 21 | "\n", 22 | "__Мягкий дедлайн: 5.10.25 23:59__ \n", 23 | "__Жесткий дедлайн: 8.10.25 23:59__\n", 24 | "\n", 25 | "### О задании\n", 26 | "\n", 27 | "В этом задании вам предстоит самостоятельно реализовать модель LSTM для решения задачи классификации с пересекающимися классами (multi-label classification). Это вид классификации, в которой каждый объект может относиться одновременно к нескольким классам. Такая задача часто возникает при классификации фильмов по жанрам, научных или новостных статей по темам, музыкальных композиций по инструментам и так далее.\n", 28 | "\n", 29 | "В нашем случае мы будем работать с датасетом биотехнических новостей и классифицировать их по темам. Этот датасет уже предобработан: текст приведен к нижнему регистру, удалена пунктуация, все слова разделены проблелом." 30 | ] 31 | }, 32 | { 33 | "cell_type": "code", 34 | "execution_count": null, 35 | "id": "af1a5fff", 36 | "metadata": { 37 | "colab": { 38 | "base_uri": "https://localhost:8080/", 39 | "height": 206 40 | }, 41 | "id": "af1a5fff", 42 | "outputId": "891c58cd-6964-4319-ade3-92bb90356f93" 43 | }, 44 | "outputs": [], 45 | "source": [ 46 | "import pandas as pd\n", 47 | "\n", 48 | "dataset = pd.read_csv('biotech_news.tsv', sep='\\t')\n", 49 | "dataset.head()" 50 | ] 51 | }, 52 | { 53 | "cell_type": "markdown", 54 | "id": "HRBZwYd9QMMS", 55 | "metadata": { 56 | "id": "HRBZwYd9QMMS" 57 | }, 58 | "source": [ 59 | "## Предобработка лейблов\n", 60 | "\n", 61 | "\n", 62 | "__Задание 1 (0.5 балла)__. Как вы можете заметить, лейблы записаны в виде строк, разделенных запятыми. Для работы с ними нам нужно преобразовать их в числа. Так как каждый объект может принадлежать нескольким классам, закодируйте лейблы в виде векторов из 0 и 1, где 1 означает, что объект принадлежит соответствующему классу, а 0 – не принадлежит. Имея такую кодировку, мы сможем обучить модель, решая задачу бинарной классификации для каждого класса." 63 | ] 64 | }, 65 | { 66 | "cell_type": "code", 67 | "execution_count": null, 68 | "id": "7c65a9bf-dbe9-4cad-978d-3a0e10b1eac1", 69 | "metadata": {}, 70 | "outputs": [], 71 | "source": [ 72 | "# your code here" 73 | ] 74 | }, 75 | { 76 | "cell_type": "markdown", 77 | "id": "83c0296f-9699-475e-b4bd-c9e531dca2d4", 78 | "metadata": {}, 79 | "source": [ 80 | "## Предобработка данных" 81 | ] 82 | }, 83 | { 84 | "cell_type": "markdown", 85 | "id": "vMe0c5AAXM8d", 86 | "metadata": { 87 | "id": "vMe0c5AAXM8d" 88 | }, 89 | "source": [ 90 | "В этом задании мы будем обучать рекуррентные нейронные сети. Как вы знаете, они работают лучше для коротких текстов, так как не очень хорошо улавливают далекие зависимости. Для уменьшение длин текстов их стоит почистить.\n", 91 | "\n", 92 | "Сразу разделим выборку на обучающую и тестовую, чтобы считать все нужные статистики только по обучающей." 93 | ] 94 | }, 95 | { 96 | "cell_type": "code", 97 | "execution_count": null, 98 | "id": "f8135000", 99 | "metadata": { 100 | "id": "f8135000" 101 | }, 102 | "outputs": [], 103 | "source": [ 104 | "from sklearn.model_selection import train_test_split\n", 105 | "\n", 106 | "texts_train, texts_test, y_train, y_test = train_test_split(\n", 107 | " ,\n", 108 | " ,\n", 109 | " test_size=0.2, # do not change this\n", 110 | " random_state=0 # do not change this\n" 111 | ] 112 | }, 113 | { 114 | "cell_type": "markdown", 115 | "id": "4ace679c-db5f-45d3-8fa3-6a5c55eb912a", 116 | "metadata": {}, 117 | "source": [ 118 | "__Задание 2 (1 балл)__. Удалите из текстов стоп слова, слишком редкие и слишком частые слова. Гиперпараметры подберите самостоятельно (в идеале их стоит подбирать по качеству на тестовой выборке). Если вы считаете, что стоит добавить еще какую-то обработку, то сделайте это. Важно не удалить ничего, что может повлиять на предсказание класса." 119 | ] 120 | }, 121 | { 122 | "cell_type": "code", 123 | "execution_count": null, 124 | "id": "BcmyCcoaXIqy", 125 | "metadata": { 126 | "id": "BcmyCcoaXIqy" 127 | }, 128 | "outputs": [], 129 | "source": [ 130 | "# your code here" 131 | ] 132 | }, 133 | { 134 | "cell_type": "markdown", 135 | "id": "4f4848c2-7fe1-43f9-8564-1144015fc29b", 136 | "metadata": {}, 137 | "source": [ 138 | "__Задание 3 (1.5 балла)__. Осталось перевести тексты в индексы токенов, чтобы их можно было подавать в модель. У вас есть две опции, как это сделать:\n", 139 | "1. __(+0 баллов)__ Токенизировать тексты по словам.\n", 140 | "2. __(до +3 баллов)__ Реализовать свою токенизацию BPE. Количество баллов будет варьироваться в зависимости от эффективности реализации. При реализации нельзя пользоваться специализированными библиотеками.\n", 141 | "\n", 142 | "Токенизируйте тексты, переведите их в списки индексов и сложите вместе с лейблами в `DataLoader`. Не забудьте добавить в `DataLoader` `collate_fn`, которая будет дополнять все короткие тексты в батче паддингами. Для маппинга токенов в индексы вам может пригодиться `gensim.corpora.dictionary.Dictionary`." 143 | ] 144 | }, 145 | { 146 | "cell_type": "markdown", 147 | "id": "627e78f9-6bef-46f4-8b58-818b7eb0c082", 148 | "metadata": {}, 149 | "source": [ 150 | "## Метрика качества\n", 151 | "\n", 152 | "Перед тем, как приступить к обучению, нам нужно выбрать метрику оценки качества. Так как в задаче классификации с пересекающимися классами классы часто несбалансированы, чаще всего в качестве метрики берется [F1 score](https://en.wikipedia.org/wiki/F-score).\n", 153 | "\n", 154 | "Функция `compute_f1` принимает истинные метки и предсказанные и считает среднее значение F1 по всем классам. Используйте ее для оценки качества моделей.\n", 155 | "\n", 156 | "$$\n", 157 | "F1_{total} = \\frac{1}{K} \\sum_{k=1}^K F1(Y_k, \\hat{Y}_k),\n", 158 | "$$\n", 159 | "где $Y_k$ – истинные значения для класса k, а $\\hat{Y}_k$ – предсказания." 160 | ] 161 | }, 162 | { 163 | "cell_type": "code", 164 | "execution_count": null, 165 | "id": "671a0928-fd68-4f36-bae7-2dacb18fd865", 166 | "metadata": {}, 167 | "outputs": [], 168 | "source": [ 169 | "from sklearn.metrics import f1_score\n", 170 | "\n", 171 | "def compute_f1(y_true, y_pred):\n", 172 | " assert y_true.ndim == 2\n", 173 | " assert y_true.shape == y_pred.shape\n", 174 | "\n", 175 | " return f1_score(y_true, y_pred, average='macro')" 176 | ] 177 | }, 178 | { 179 | "cell_type": "markdown", 180 | "id": "aagj29J7Ap2H", 181 | "metadata": { 182 | "id": "aagj29J7Ap2H" 183 | }, 184 | "source": [ 185 | "## Обучение моделей" 186 | ] 187 | }, 188 | { 189 | "cell_type": "markdown", 190 | "id": "56ae5666", 191 | "metadata": { 192 | "id": "56ae5666" 193 | }, 194 | "source": [ 195 | "### RNN\n", 196 | "\n", 197 | "В качестве бейзлайна обучим самую простую рекуррентную нейронную сеть. Напомним, что блок RNN выглядит таким образом.\n", 198 | "\n", 199 | "\"drawing\"\n", 200 | "\n", 201 | "Его скрытое состояние обновляется по формуле\n", 202 | "$h_t = \\sigma(W x_{t} + U h_{t-1} + b_h)$. А предсказание считается с помощью применения линейного слоя к последнему токену\n", 203 | "$o_T = V h_T + b_o$. В качестве функции активации выберите гиперболический тангенс. \n", 204 | "\n", 205 | "__Задание 4 (2 балла)__. Реализуйте RNN в соответствии с формулой выше и обучите ее на нашу задачу. Нулевой скрытый вектор инициализируйте нулями, так модель будет обучаться стабильнее, чем при случайной инициализации. После этого замеряйте качество на тестовой выборке. У вас должно получиться значение F1 не меньше 0.33, а само обучение не должно занимать много времени." 206 | ] 207 | }, 208 | { 209 | "cell_type": "code", 210 | "execution_count": null, 211 | "id": "05743f95-dd39-43f5-81cf-1a79edc194fa", 212 | "metadata": {}, 213 | "outputs": [], 214 | "source": [ 215 | "# your code here" 216 | ] 217 | }, 218 | { 219 | "cell_type": "markdown", 220 | "id": "xqt0dk6LEJUU", 221 | "metadata": { 222 | "id": "xqt0dk6LEJUU" 223 | }, 224 | "source": [ 225 | "### LSTM\n", 226 | "\n", 227 | "\"drawing\"\n", 228 | "\n", 229 | "Теперь перейдем к более продвинутым рекурренным моделям, а именно LSTM. Из-за дополнительного вектора памяти эта модель должна гораздо лучше улавливать далекие зависимости, что должно напрямую отражаться на качестве.\n", 230 | "\n", 231 | "Параметры блока LSTM обновляются вот так ($\\sigma$ означает сигмоиду):\n", 232 | "\\begin{align}\n", 233 | "f_{t} &= \\sigma(W_f x_{t} + U_f h_{t-1} + b_f) \\\\ \n", 234 | "i_{t} &= \\sigma(W_i x_{t} + U_i h_{t-1} + b_i) \\\\\n", 235 | "\\tilde{c}_{t} &= \\tanh(W_c x_{t} + U_c h_{t-1} + b_i) \\\\\n", 236 | "c_{t} &= f_t \\odot c_{t-1} + i_t \\odot \\tilde{c}_t \\\\\n", 237 | "o_{t} &= \\sigma(W_t x_{t} + U_t h_{t-1} + b_t) \\\\\n", 238 | "h_t &= o_t \\odot \\tanh(c_t)\n", 239 | "\\end{align}\n", 240 | "\n", 241 | "__Задание 5 (2 балла).__ Реализуйте LSTM по описанной схеме. Выберите гиперпараметры LSTM так, чтобы их общее число (без учета слоя эмбеддингов) примерно совпадало с числом параметров обычной RNN, но размерность скрытого слоя была не меньше 64. Так мы будем сравнивать архитектуры максимально независимо. Обучите LSTM до сходимости и сравните качество с RNN на тестовой выборке. Удалось ли получить лучший результат? Как вы можете это объяснить?" 242 | ] 243 | }, 244 | { 245 | "cell_type": "code", 246 | "execution_count": null, 247 | "id": "6e18b79b-f2c6-4474-a5c0-c8ce51f13afb", 248 | "metadata": {}, 249 | "outputs": [], 250 | "source": [ 251 | "# your code here" 252 | ] 253 | }, 254 | { 255 | "cell_type": "markdown", 256 | "id": "abfdd1a1-51f4-4065-85f7-22ed773a2628", 257 | "metadata": {}, 258 | "source": [ 259 | "__Задание 6 (2 балла).__ Главный недостаток RNN моделей заключается в том, что при сжатии всей информации в один вектор, важные детали пропадают. Для решения этой проблемы был придуман механизм внимания. Реализуйте его по [оригинальной статье](https://arxiv.org/abs/1409.0473). Замерьте качество и сделайте выводы. \n", 260 | "Обратите внимание, что метод был предложен для Encoder-Decoder моделей. В нашем случае декодера нет, поэтому встройте внимание в энкодер: каждый блок LSTM будет смотреть на выходы всех предыдущих блоков. " 261 | ] 262 | }, 263 | { 264 | "cell_type": "code", 265 | "execution_count": null, 266 | "id": "b5bd1fa9-2c1f-4268-be24-5c31752204ac", 267 | "metadata": {}, 268 | "outputs": [], 269 | "source": [ 270 | "# your code here" 271 | ] 272 | }, 273 | { 274 | "cell_type": "markdown", 275 | "id": "phQ-ka4mp0oS", 276 | "metadata": { 277 | "id": "phQ-ka4mp0oS" 278 | }, 279 | "source": [ 280 | "__Задание 7 (1 балл).__ Добавьте в вашу реализации возможность увеличивать число слоев LSTM. Обучите модель с двумя слоями и замерьте качество. Сделайте выводы: стоит ли увеличивать размер модели?" 281 | ] 282 | }, 283 | { 284 | "cell_type": "code", 285 | "execution_count": null, 286 | "id": "ee7c7177", 287 | "metadata": { 288 | "id": "ee7c7177" 289 | }, 290 | "outputs": [], 291 | "source": [ 292 | "# your code here" 293 | ] 294 | } 295 | ], 296 | "metadata": { 297 | "accelerator": "GPU", 298 | "colab": { 299 | "gpuType": "T4", 300 | "provenance": [] 301 | }, 302 | "kernelspec": { 303 | "display_name": "Python 3 (ipykernel)", 304 | "language": "python", 305 | "name": "python3" 306 | }, 307 | "language_info": { 308 | "codemirror_mode": { 309 | "name": "ipython", 310 | "version": 3 311 | }, 312 | "file_extension": ".py", 313 | "mimetype": "text/x-python", 314 | "name": "python", 315 | "nbconvert_exporter": "python", 316 | "pygments_lexer": "ipython3", 317 | "version": "3.12.6" 318 | }, 319 | "widgets": { 320 | "application/vnd.jupyter.widget-state+json": { 321 | "12b0627d4aaf46c0adc64b442bf88d0a": { 322 | "model_module": "@jupyter-widgets/controls", 323 | "model_module_version": "1.5.0", 324 | "model_name": "DescriptionStyleModel", 325 | "state": { 326 | "_model_module": "@jupyter-widgets/controls", 327 | "_model_module_version": "1.5.0", 328 | "_model_name": "DescriptionStyleModel", 329 | "_view_count": null, 330 | "_view_module": "@jupyter-widgets/base", 331 | "_view_module_version": "1.2.0", 332 | "_view_name": "StyleView", 333 | "description_width": "" 334 | } 335 | }, 336 | "1d5b2e090c51406e953b4eec4b0b91ad": { 337 | "model_module": "@jupyter-widgets/base", 338 | "model_module_version": "1.2.0", 339 | "model_name": "LayoutModel", 340 | "state": { 341 | "_model_module": "@jupyter-widgets/base", 342 | "_model_module_version": "1.2.0", 343 | "_model_name": "LayoutModel", 344 | "_view_count": null, 345 | "_view_module": "@jupyter-widgets/base", 346 | "_view_module_version": "1.2.0", 347 | "_view_name": "LayoutView", 348 | "align_content": null, 349 | "align_items": null, 350 | "align_self": null, 351 | "border": null, 352 | "bottom": null, 353 | "display": null, 354 | "flex": null, 355 | "flex_flow": null, 356 | "grid_area": null, 357 | "grid_auto_columns": null, 358 | "grid_auto_flow": null, 359 | "grid_auto_rows": null, 360 | "grid_column": null, 361 | "grid_gap": null, 362 | "grid_row": null, 363 | "grid_template_areas": null, 364 | "grid_template_columns": null, 365 | "grid_template_rows": null, 366 | "height": null, 367 | "justify_content": null, 368 | "justify_items": null, 369 | "left": null, 370 | "margin": null, 371 | "max_height": null, 372 | "max_width": null, 373 | "min_height": null, 374 | "min_width": null, 375 | "object_fit": null, 376 | "object_position": null, 377 | "order": null, 378 | "overflow": null, 379 | "overflow_x": null, 380 | "overflow_y": null, 381 | "padding": null, 382 | "right": null, 383 | "top": null, 384 | "visibility": null, 385 | "width": null 386 | } 387 | }, 388 | "282f83858a424e2ea76990eb957dc5a0": { 389 | "model_module": "@jupyter-widgets/base", 390 | "model_module_version": "1.2.0", 391 | "model_name": "LayoutModel", 392 | "state": { 393 | "_model_module": "@jupyter-widgets/base", 394 | "_model_module_version": "1.2.0", 395 | "_model_name": "LayoutModel", 396 | "_view_count": null, 397 | "_view_module": "@jupyter-widgets/base", 398 | "_view_module_version": "1.2.0", 399 | "_view_name": "LayoutView", 400 | "align_content": null, 401 | "align_items": null, 402 | "align_self": null, 403 | "border": null, 404 | "bottom": null, 405 | "display": null, 406 | "flex": null, 407 | "flex_flow": null, 408 | "grid_area": null, 409 | "grid_auto_columns": null, 410 | "grid_auto_flow": null, 411 | "grid_auto_rows": null, 412 | "grid_column": null, 413 | "grid_gap": null, 414 | "grid_row": null, 415 | "grid_template_areas": null, 416 | "grid_template_columns": null, 417 | "grid_template_rows": null, 418 | "height": null, 419 | "justify_content": null, 420 | "justify_items": null, 421 | "left": null, 422 | "margin": null, 423 | "max_height": null, 424 | "max_width": null, 425 | "min_height": null, 426 | "min_width": null, 427 | "object_fit": null, 428 | "object_position": null, 429 | "order": null, 430 | "overflow": null, 431 | "overflow_x": null, 432 | "overflow_y": null, 433 | "padding": null, 434 | "right": null, 435 | "top": null, 436 | "visibility": null, 437 | "width": null 438 | } 439 | }, 440 | "32808478ae8c4242beb79f0272ea6b1f": { 441 | "model_module": "@jupyter-widgets/base", 442 | "model_module_version": "1.2.0", 443 | "model_name": "LayoutModel", 444 | "state": { 445 | "_model_module": "@jupyter-widgets/base", 446 | "_model_module_version": "1.2.0", 447 | "_model_name": "LayoutModel", 448 | "_view_count": null, 449 | "_view_module": "@jupyter-widgets/base", 450 | "_view_module_version": "1.2.0", 451 | "_view_name": "LayoutView", 452 | "align_content": null, 453 | "align_items": null, 454 | "align_self": null, 455 | "border": null, 456 | "bottom": null, 457 | "display": null, 458 | "flex": null, 459 | "flex_flow": null, 460 | "grid_area": null, 461 | "grid_auto_columns": null, 462 | "grid_auto_flow": null, 463 | "grid_auto_rows": null, 464 | "grid_column": null, 465 | "grid_gap": null, 466 | "grid_row": null, 467 | "grid_template_areas": null, 468 | "grid_template_columns": null, 469 | "grid_template_rows": null, 470 | "height": null, 471 | "justify_content": null, 472 | "justify_items": null, 473 | "left": null, 474 | "margin": null, 475 | "max_height": null, 476 | "max_width": null, 477 | "min_height": null, 478 | "min_width": null, 479 | "object_fit": null, 480 | "object_position": null, 481 | "order": null, 482 | "overflow": null, 483 | "overflow_x": null, 484 | "overflow_y": null, 485 | "padding": null, 486 | "right": null, 487 | "top": null, 488 | "visibility": null, 489 | "width": null 490 | } 491 | }, 492 | "34e8d1401c0e4dc1a8e71bbad7c2f74d": { 493 | "model_module": "@jupyter-widgets/controls", 494 | "model_module_version": "1.5.0", 495 | "model_name": "HTMLModel", 496 | "state": { 497 | "_dom_classes": [], 498 | "_model_module": "@jupyter-widgets/controls", 499 | "_model_module_version": "1.5.0", 500 | "_model_name": "HTMLModel", 501 | "_view_count": null, 502 | "_view_module": "@jupyter-widgets/controls", 503 | "_view_module_version": "1.5.0", 504 | "_view_name": "HTMLView", 505 | "description": "", 506 | "description_tooltip": null, 507 | "layout": "IPY_MODEL_b23f3b8b7247491c8d5e3ead7f54d886", 508 | "placeholder": "​", 509 | "style": "IPY_MODEL_cb632291897f4f9db86a00a5a71ca35f", 510 | "value": " 40/40 [36:41<00:00, 51.61s/it]" 511 | } 512 | }, 513 | "3735627f227d4b4f927955113111409f": { 514 | "model_module": "@jupyter-widgets/controls", 515 | "model_module_version": "1.5.0", 516 | "model_name": "DescriptionStyleModel", 517 | "state": { 518 | "_model_module": "@jupyter-widgets/controls", 519 | "_model_module_version": "1.5.0", 520 | "_model_name": "DescriptionStyleModel", 521 | "_view_count": null, 522 | "_view_module": "@jupyter-widgets/base", 523 | "_view_module_version": "1.2.0", 524 | "_view_name": "StyleView", 525 | "description_width": "" 526 | } 527 | }, 528 | "47f4f11bc6984b96ac3c3875d733f0ba": { 529 | "model_module": "@jupyter-widgets/controls", 530 | "model_module_version": "1.5.0", 531 | "model_name": "FloatProgressModel", 532 | "state": { 533 | "_dom_classes": [], 534 | "_model_module": "@jupyter-widgets/controls", 535 | "_model_module_version": "1.5.0", 536 | "_model_name": "FloatProgressModel", 537 | "_view_count": null, 538 | "_view_module": "@jupyter-widgets/controls", 539 | "_view_module_version": "1.5.0", 540 | "_view_name": "ProgressView", 541 | "bar_style": "success", 542 | "description": "", 543 | "description_tooltip": null, 544 | "layout": "IPY_MODEL_dc4f687f9d5940aba074e2bb41581c93", 545 | "max": 40, 546 | "min": 0, 547 | "orientation": "horizontal", 548 | "style": "IPY_MODEL_6e10fd6d1a6c47a9ac34a47ae5ba708b", 549 | "value": 40 550 | } 551 | }, 552 | "4aab16bb20824688aadbd23460adad9b": { 553 | "model_module": "@jupyter-widgets/controls", 554 | "model_module_version": "1.5.0", 555 | "model_name": "HBoxModel", 556 | "state": { 557 | "_dom_classes": [], 558 | "_model_module": "@jupyter-widgets/controls", 559 | "_model_module_version": "1.5.0", 560 | "_model_name": "HBoxModel", 561 | "_view_count": null, 562 | "_view_module": "@jupyter-widgets/controls", 563 | "_view_module_version": "1.5.0", 564 | "_view_name": "HBoxView", 565 | "box_style": "", 566 | "children": [ 567 | "IPY_MODEL_f65eec1b45de42e59fb9e24b99aad917", 568 | "IPY_MODEL_47f4f11bc6984b96ac3c3875d733f0ba", 569 | "IPY_MODEL_f58fddb1bf414071b0523701a619ad71" 570 | ], 571 | "layout": "IPY_MODEL_32808478ae8c4242beb79f0272ea6b1f" 572 | } 573 | }, 574 | "4de9492961d841aa9f3d7bc629911296": { 575 | "model_module": "@jupyter-widgets/base", 576 | "model_module_version": "1.2.0", 577 | "model_name": "LayoutModel", 578 | "state": { 579 | "_model_module": "@jupyter-widgets/base", 580 | "_model_module_version": "1.2.0", 581 | "_model_name": "LayoutModel", 582 | "_view_count": null, 583 | "_view_module": "@jupyter-widgets/base", 584 | "_view_module_version": "1.2.0", 585 | "_view_name": "LayoutView", 586 | "align_content": null, 587 | "align_items": null, 588 | "align_self": null, 589 | "border": null, 590 | "bottom": null, 591 | "display": null, 592 | "flex": null, 593 | "flex_flow": null, 594 | "grid_area": null, 595 | "grid_auto_columns": null, 596 | "grid_auto_flow": null, 597 | "grid_auto_rows": null, 598 | "grid_column": null, 599 | "grid_gap": null, 600 | "grid_row": null, 601 | "grid_template_areas": null, 602 | "grid_template_columns": null, 603 | "grid_template_rows": null, 604 | "height": null, 605 | "justify_content": null, 606 | "justify_items": null, 607 | "left": null, 608 | "margin": null, 609 | "max_height": null, 610 | "max_width": null, 611 | "min_height": null, 612 | "min_width": null, 613 | "object_fit": null, 614 | "object_position": null, 615 | "order": null, 616 | "overflow": null, 617 | "overflow_x": null, 618 | "overflow_y": null, 619 | "padding": null, 620 | "right": null, 621 | "top": null, 622 | "visibility": null, 623 | "width": null 624 | } 625 | }, 626 | "67ae0c089c4a426db3b52976fae1a9dc": { 627 | "model_module": "@jupyter-widgets/base", 628 | "model_module_version": "1.2.0", 629 | "model_name": "LayoutModel", 630 | "state": { 631 | "_model_module": "@jupyter-widgets/base", 632 | "_model_module_version": "1.2.0", 633 | "_model_name": "LayoutModel", 634 | "_view_count": null, 635 | "_view_module": "@jupyter-widgets/base", 636 | "_view_module_version": "1.2.0", 637 | "_view_name": "LayoutView", 638 | "align_content": null, 639 | "align_items": null, 640 | "align_self": null, 641 | "border": null, 642 | "bottom": null, 643 | "display": null, 644 | "flex": null, 645 | "flex_flow": null, 646 | "grid_area": null, 647 | "grid_auto_columns": null, 648 | "grid_auto_flow": null, 649 | "grid_auto_rows": null, 650 | "grid_column": null, 651 | "grid_gap": null, 652 | "grid_row": null, 653 | "grid_template_areas": null, 654 | "grid_template_columns": null, 655 | "grid_template_rows": null, 656 | "height": null, 657 | "justify_content": null, 658 | "justify_items": null, 659 | "left": null, 660 | "margin": null, 661 | "max_height": null, 662 | "max_width": null, 663 | "min_height": null, 664 | "min_width": null, 665 | "object_fit": null, 666 | "object_position": null, 667 | "order": null, 668 | "overflow": null, 669 | "overflow_x": null, 670 | "overflow_y": null, 671 | "padding": null, 672 | "right": null, 673 | "top": null, 674 | "visibility": null, 675 | "width": null 676 | } 677 | }, 678 | "6e10fd6d1a6c47a9ac34a47ae5ba708b": { 679 | "model_module": "@jupyter-widgets/controls", 680 | "model_module_version": "1.5.0", 681 | "model_name": "ProgressStyleModel", 682 | "state": { 683 | "_model_module": "@jupyter-widgets/controls", 684 | "_model_module_version": "1.5.0", 685 | "_model_name": "ProgressStyleModel", 686 | "_view_count": null, 687 | "_view_module": "@jupyter-widgets/base", 688 | "_view_module_version": "1.2.0", 689 | "_view_name": "StyleView", 690 | "bar_color": null, 691 | "description_width": "" 692 | } 693 | }, 694 | "b23f3b8b7247491c8d5e3ead7f54d886": { 695 | "model_module": "@jupyter-widgets/base", 696 | "model_module_version": "1.2.0", 697 | "model_name": "LayoutModel", 698 | "state": { 699 | "_model_module": "@jupyter-widgets/base", 700 | "_model_module_version": "1.2.0", 701 | "_model_name": "LayoutModel", 702 | "_view_count": null, 703 | "_view_module": "@jupyter-widgets/base", 704 | "_view_module_version": "1.2.0", 705 | "_view_name": "LayoutView", 706 | "align_content": null, 707 | "align_items": null, 708 | "align_self": null, 709 | "border": null, 710 | "bottom": null, 711 | "display": null, 712 | "flex": null, 713 | "flex_flow": null, 714 | "grid_area": null, 715 | "grid_auto_columns": null, 716 | "grid_auto_flow": null, 717 | "grid_auto_rows": null, 718 | "grid_column": null, 719 | "grid_gap": null, 720 | "grid_row": null, 721 | "grid_template_areas": null, 722 | "grid_template_columns": null, 723 | "grid_template_rows": null, 724 | "height": null, 725 | "justify_content": null, 726 | "justify_items": null, 727 | "left": null, 728 | "margin": null, 729 | "max_height": null, 730 | "max_width": null, 731 | "min_height": null, 732 | "min_width": null, 733 | "object_fit": null, 734 | "object_position": null, 735 | "order": null, 736 | "overflow": null, 737 | "overflow_x": null, 738 | "overflow_y": null, 739 | "padding": null, 740 | "right": null, 741 | "top": null, 742 | "visibility": null, 743 | "width": null 744 | } 745 | }, 746 | "bc4165ff8fc3480fb1590b6ecd39fb4f": { 747 | "model_module": "@jupyter-widgets/controls", 748 | "model_module_version": "1.5.0", 749 | "model_name": "HBoxModel", 750 | "state": { 751 | "_dom_classes": [], 752 | "_model_module": "@jupyter-widgets/controls", 753 | "_model_module_version": "1.5.0", 754 | "_model_name": "HBoxModel", 755 | "_view_count": null, 756 | "_view_module": "@jupyter-widgets/controls", 757 | "_view_module_version": "1.5.0", 758 | "_view_name": "HBoxView", 759 | "box_style": "", 760 | "children": [ 761 | "IPY_MODEL_cba16e32a9df4b1b89b4f7066945fc42", 762 | "IPY_MODEL_e8f0522f19c44066b5a78ded999f050a", 763 | "IPY_MODEL_34e8d1401c0e4dc1a8e71bbad7c2f74d" 764 | ], 765 | "layout": "IPY_MODEL_282f83858a424e2ea76990eb957dc5a0" 766 | } 767 | }, 768 | "cb632291897f4f9db86a00a5a71ca35f": { 769 | "model_module": "@jupyter-widgets/controls", 770 | "model_module_version": "1.5.0", 771 | "model_name": "DescriptionStyleModel", 772 | "state": { 773 | "_model_module": "@jupyter-widgets/controls", 774 | "_model_module_version": "1.5.0", 775 | "_model_name": "DescriptionStyleModel", 776 | "_view_count": null, 777 | "_view_module": "@jupyter-widgets/base", 778 | "_view_module_version": "1.2.0", 779 | "_view_name": "StyleView", 780 | "description_width": "" 781 | } 782 | }, 783 | "cba16e32a9df4b1b89b4f7066945fc42": { 784 | "model_module": "@jupyter-widgets/controls", 785 | "model_module_version": "1.5.0", 786 | "model_name": "HTMLModel", 787 | "state": { 788 | "_dom_classes": [], 789 | "_model_module": "@jupyter-widgets/controls", 790 | "_model_module_version": "1.5.0", 791 | "_model_name": "HTMLModel", 792 | "_view_count": null, 793 | "_view_module": "@jupyter-widgets/controls", 794 | "_view_module_version": "1.5.0", 795 | "_view_name": "HTMLView", 796 | "description": "", 797 | "description_tooltip": null, 798 | "layout": "IPY_MODEL_67ae0c089c4a426db3b52976fae1a9dc", 799 | "placeholder": "​", 800 | "style": "IPY_MODEL_12b0627d4aaf46c0adc64b442bf88d0a", 801 | "value": "100%" 802 | } 803 | }, 804 | "d7ed88f49793494bbdb3c2fffc01b216": { 805 | "model_module": "@jupyter-widgets/controls", 806 | "model_module_version": "1.5.0", 807 | "model_name": "DescriptionStyleModel", 808 | "state": { 809 | "_model_module": "@jupyter-widgets/controls", 810 | "_model_module_version": "1.5.0", 811 | "_model_name": "DescriptionStyleModel", 812 | "_view_count": null, 813 | "_view_module": "@jupyter-widgets/base", 814 | "_view_module_version": "1.2.0", 815 | "_view_name": "StyleView", 816 | "description_width": "" 817 | } 818 | }, 819 | "dc4f687f9d5940aba074e2bb41581c93": { 820 | "model_module": "@jupyter-widgets/base", 821 | "model_module_version": "1.2.0", 822 | "model_name": "LayoutModel", 823 | "state": { 824 | "_model_module": "@jupyter-widgets/base", 825 | "_model_module_version": "1.2.0", 826 | "_model_name": "LayoutModel", 827 | "_view_count": null, 828 | "_view_module": "@jupyter-widgets/base", 829 | "_view_module_version": "1.2.0", 830 | "_view_name": "LayoutView", 831 | "align_content": null, 832 | "align_items": null, 833 | "align_self": null, 834 | "border": null, 835 | "bottom": null, 836 | "display": null, 837 | "flex": null, 838 | "flex_flow": null, 839 | "grid_area": null, 840 | "grid_auto_columns": null, 841 | "grid_auto_flow": null, 842 | "grid_auto_rows": null, 843 | "grid_column": null, 844 | "grid_gap": null, 845 | "grid_row": null, 846 | "grid_template_areas": null, 847 | "grid_template_columns": null, 848 | "grid_template_rows": null, 849 | "height": null, 850 | "justify_content": null, 851 | "justify_items": null, 852 | "left": null, 853 | "margin": null, 854 | "max_height": null, 855 | "max_width": null, 856 | "min_height": null, 857 | "min_width": null, 858 | "object_fit": null, 859 | "object_position": null, 860 | "order": null, 861 | "overflow": null, 862 | "overflow_x": null, 863 | "overflow_y": null, 864 | "padding": null, 865 | "right": null, 866 | "top": null, 867 | "visibility": null, 868 | "width": null 869 | } 870 | }, 871 | "e7876fd73da349ea873c137c63d8d528": { 872 | "model_module": "@jupyter-widgets/controls", 873 | "model_module_version": "1.5.0", 874 | "model_name": "ProgressStyleModel", 875 | "state": { 876 | "_model_module": "@jupyter-widgets/controls", 877 | "_model_module_version": "1.5.0", 878 | "_model_name": "ProgressStyleModel", 879 | "_view_count": null, 880 | "_view_module": "@jupyter-widgets/base", 881 | "_view_module_version": "1.2.0", 882 | "_view_name": "StyleView", 883 | "bar_color": null, 884 | "description_width": "" 885 | } 886 | }, 887 | "e8f0522f19c44066b5a78ded999f050a": { 888 | "model_module": "@jupyter-widgets/controls", 889 | "model_module_version": "1.5.0", 890 | "model_name": "FloatProgressModel", 891 | "state": { 892 | "_dom_classes": [], 893 | "_model_module": "@jupyter-widgets/controls", 894 | "_model_module_version": "1.5.0", 895 | "_model_name": "FloatProgressModel", 896 | "_view_count": null, 897 | "_view_module": "@jupyter-widgets/controls", 898 | "_view_module_version": "1.5.0", 899 | "_view_name": "ProgressView", 900 | "bar_style": "success", 901 | "description": "", 902 | "description_tooltip": null, 903 | "layout": "IPY_MODEL_4de9492961d841aa9f3d7bc629911296", 904 | "max": 40, 905 | "min": 0, 906 | "orientation": "horizontal", 907 | "style": "IPY_MODEL_e7876fd73da349ea873c137c63d8d528", 908 | "value": 40 909 | } 910 | }, 911 | "f58fddb1bf414071b0523701a619ad71": { 912 | "model_module": "@jupyter-widgets/controls", 913 | "model_module_version": "1.5.0", 914 | "model_name": "HTMLModel", 915 | "state": { 916 | "_dom_classes": [], 917 | "_model_module": "@jupyter-widgets/controls", 918 | "_model_module_version": "1.5.0", 919 | "_model_name": "HTMLModel", 920 | "_view_count": null, 921 | "_view_module": "@jupyter-widgets/controls", 922 | "_view_module_version": "1.5.0", 923 | "_view_name": "HTMLView", 924 | "description": "", 925 | "description_tooltip": null, 926 | "layout": "IPY_MODEL_1d5b2e090c51406e953b4eec4b0b91ad", 927 | "placeholder": "​", 928 | "style": "IPY_MODEL_3735627f227d4b4f927955113111409f", 929 | "value": " 40/40 [1:08:10<00:00, 102.17s/it]" 930 | } 931 | }, 932 | "f65eec1b45de42e59fb9e24b99aad917": { 933 | "model_module": "@jupyter-widgets/controls", 934 | "model_module_version": "1.5.0", 935 | "model_name": "HTMLModel", 936 | "state": { 937 | "_dom_classes": [], 938 | "_model_module": "@jupyter-widgets/controls", 939 | "_model_module_version": "1.5.0", 940 | "_model_name": "HTMLModel", 941 | "_view_count": null, 942 | "_view_module": "@jupyter-widgets/controls", 943 | "_view_module_version": "1.5.0", 944 | "_view_name": "HTMLView", 945 | "description": "", 946 | "description_tooltip": null, 947 | "layout": "IPY_MODEL_f67dc08a01ac40ad98ed553fe6b7e948", 948 | "placeholder": "​", 949 | "style": "IPY_MODEL_d7ed88f49793494bbdb3c2fffc01b216", 950 | "value": "100%" 951 | } 952 | }, 953 | "f67dc08a01ac40ad98ed553fe6b7e948": { 954 | "model_module": "@jupyter-widgets/base", 955 | "model_module_version": "1.2.0", 956 | "model_name": "LayoutModel", 957 | "state": { 958 | "_model_module": "@jupyter-widgets/base", 959 | "_model_module_version": "1.2.0", 960 | "_model_name": "LayoutModel", 961 | "_view_count": null, 962 | "_view_module": "@jupyter-widgets/base", 963 | "_view_module_version": "1.2.0", 964 | "_view_name": "LayoutView", 965 | "align_content": null, 966 | "align_items": null, 967 | "align_self": null, 968 | "border": null, 969 | "bottom": null, 970 | "display": null, 971 | "flex": null, 972 | "flex_flow": null, 973 | "grid_area": null, 974 | "grid_auto_columns": null, 975 | "grid_auto_flow": null, 976 | "grid_auto_rows": null, 977 | "grid_column": null, 978 | "grid_gap": null, 979 | "grid_row": null, 980 | "grid_template_areas": null, 981 | "grid_template_columns": null, 982 | "grid_template_rows": null, 983 | "height": null, 984 | "justify_content": null, 985 | "justify_items": null, 986 | "left": null, 987 | "margin": null, 988 | "max_height": null, 989 | "max_width": null, 990 | "min_height": null, 991 | "min_width": null, 992 | "object_fit": null, 993 | "object_position": null, 994 | "order": null, 995 | "overflow": null, 996 | "overflow_x": null, 997 | "overflow_y": null, 998 | "padding": null, 999 | "right": null, 1000 | "top": null, 1001 | "visibility": null, 1002 | "width": null 1003 | } 1004 | } 1005 | } 1006 | } 1007 | }, 1008 | "nbformat": 4, 1009 | "nbformat_minor": 5 1010 | } 1011 | -------------------------------------------------------------------------------- /week01_text_classification/lecture1.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ashaba1in/hse-nlp/ec90e3ea026aa44932d06c4f36c5df4779c4ca06/week01_text_classification/lecture1.pdf -------------------------------------------------------------------------------- /week02_generation/lecture2.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/ashaba1in/hse-nlp/ec90e3ea026aa44932d06c4f36c5df4779c4ca06/week02_generation/lecture2.pdf -------------------------------------------------------------------------------- /week02_generation/seminar2.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "markdown", 5 | "metadata": {}, 6 | "source": [ 7 | "## Cеминар 2. Генерация текста\n", 8 | "\n", 9 | "\n", 10 | "#### План\n", 11 | "\n", 12 | "1. Токенизация\n", 13 | "2. RNN\n", 14 | "3. Метрики качества генерации" 15 | ] 16 | }, 17 | { 18 | "cell_type": "code", 19 | "execution_count": 1, 20 | "metadata": {}, 21 | "outputs": [], 22 | "source": [ 23 | "%load_ext autoreload\n", 24 | "%autoreload 2" 25 | ] 26 | }, 27 | { 28 | "cell_type": "code", 29 | "execution_count": 2, 30 | "metadata": {}, 31 | "outputs": [ 32 | { 33 | "name": "stderr", 34 | "output_type": "stream", 35 | "text": [ 36 | "/home/echimbulatov/miniconda3/envs/cosmos/lib/python3.11/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n", 37 | " from .autonotebook import tqdm as notebook_tqdm\n" 38 | ] 39 | }, 40 | { 41 | "data": { 42 | "text/plain": [ 43 | "device(type='cuda')" 44 | ] 45 | }, 46 | "execution_count": 2, 47 | "metadata": {}, 48 | "output_type": "execute_result" 49 | } 50 | ], 51 | "source": [ 52 | "import re\n", 53 | "import pandas as pd\n", 54 | "import numpy as np\n", 55 | "import torch\n", 56 | "from tokenizers import Tokenizer, models, trainers\n", 57 | "from tokenizers.normalizers import Lowercase\n", 58 | "from tokenizers.pre_tokenizers import Whitespace\n", 59 | "from tokenizers.processors import TemplateProcessing\n", 60 | "from tokenizers.decoders import WordPiece as WordPieceDecoder\n", 61 | "import matplotlib.pyplot as plt\n", 62 | "from tqdm.auto import tqdm\n", 63 | "from functools import partial\n", 64 | "from collections import Counter\n", 65 | "\n", 66 | "\n", 67 | "device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')\n", 68 | "device" 69 | ] 70 | }, 71 | { 72 | "cell_type": "markdown", 73 | "metadata": {}, 74 | "source": [ 75 | "### Токенизация\n", 76 | "\n", 77 | "Токенизация – процесс разбиения текста на подстроки (токены). Токенизация в первую очередь нужна для уменьшения размера словаря. При этом при токенизации мы хотим, чтобы все токены были максимально репрезентативными. Таким образом, мы балансируем между размером словаря и репрезентативностью токенов." 78 | ] 79 | }, 80 | { 81 | "cell_type": "code", 82 | "execution_count": 3, 83 | "metadata": {}, 84 | "outputs": [], 85 | "source": [ 86 | "from tokenizers import Tokenizer, models\n", 87 | "\n", 88 | "tokenizer = Tokenizer(models.BPE())" 89 | ] 90 | }, 91 | { 92 | "cell_type": "markdown", 93 | "metadata": {}, 94 | "source": [ 95 | "Токенизация включает в себя несколько компонент:\n", 96 | "\n", 97 | "1. **Нормализация** - предварительную очистку текста (приведение к нижнему регистру, замена unicode символов на ascii и т.д.)" 98 | ] 99 | }, 100 | { 101 | "cell_type": "code", 102 | "execution_count": 4, 103 | "metadata": {}, 104 | "outputs": [ 105 | { 106 | "data": { 107 | "text/plain": [ 108 | "'hello how are u?'" 109 | ] 110 | }, 111 | "execution_count": 4, 112 | "metadata": {}, 113 | "output_type": "execute_result" 114 | } 115 | ], 116 | "source": [ 117 | "from tokenizers import normalizers\n", 118 | "from tokenizers.normalizers import NFD, StripAccents, Lowercase, Strip\n", 119 | "\n", 120 | "normalizer = normalizers.Sequence([NFD(), StripAccents(), Lowercase(), Strip()])\n", 121 | "normalizer.normalize_str(\" Héllò hôw are ü?\")" 122 | ] 123 | }, 124 | { 125 | "cell_type": "code", 126 | "execution_count": 5, 127 | "metadata": {}, 128 | "outputs": [], 129 | "source": [ 130 | "tokenizer.normalizer = normalizer" 131 | ] 132 | }, 133 | { 134 | "cell_type": "markdown", 135 | "metadata": {}, 136 | "source": [ 137 | "2. **Предварительная токенизация** — процесс разбиения текста на более мелкие фрагменты, задающие верхнюю границу того, какими будут токены в токенизации. Обычно предварительная токенизация разобивает текст на слова. Тогда итоговые токены будут частями этих слов." 138 | ] 139 | }, 140 | { 141 | "cell_type": "code", 142 | "execution_count": 6, 143 | "metadata": {}, 144 | "outputs": [ 145 | { 146 | "data": { 147 | "text/plain": [ 148 | "[('Hello', (0, 5)),\n", 149 | " ('!', (5, 6)),\n", 150 | " ('How', (7, 10)),\n", 151 | " ('are', (11, 14)),\n", 152 | " ('you', (15, 18)),\n", 153 | " ('?', (18, 19)),\n", 154 | " ('I', (20, 21)),\n", 155 | " (\"'\", (21, 22)),\n", 156 | " ('m', (22, 23)),\n", 157 | " ('fine', (24, 28)),\n", 158 | " (',', (28, 29)),\n", 159 | " ('thank', (30, 35)),\n", 160 | " ('you', (36, 39)),\n", 161 | " ('.', (39, 40))]" 162 | ] 163 | }, 164 | "execution_count": 6, 165 | "metadata": {}, 166 | "output_type": "execute_result" 167 | } 168 | ], 169 | "source": [ 170 | "from tokenizers.pre_tokenizers import Whitespace\n", 171 | "\n", 172 | "pre_tokenizer = Whitespace()\n", 173 | "pre_tokenizer.pre_tokenize_str(\"Hello! How are you? I'm fine, thank you.\")" 174 | ] 175 | }, 176 | { 177 | "cell_type": "markdown", 178 | "metadata": {}, 179 | "source": [ 180 | "Заметьте, что строка \"I'm\" разбилась на [\"I\", \"'\", \"m\"]. Это может быть не очень хорошо, учитывая, что \"'m\" – то же самое, что \"am\". Для более \"правильного\" разбиения можно использовать претокенизацию на основе правил. Самые популярные инструменты для этого – `spaCy` и `Moses`." 181 | ] 182 | }, 183 | { 184 | "cell_type": "code", 185 | "execution_count": 7, 186 | "metadata": {}, 187 | "outputs": [], 188 | "source": [ 189 | "tokenizer.pre_tokenizer = pre_tokenizer" 190 | ] 191 | }, 192 | { 193 | "cell_type": "markdown", 194 | "metadata": {}, 195 | "source": [ 196 | "3. **Модель** – главная часть токенизации. Модель необходимо обучать на корпусе текстов, чтобы получить словарь, подходящий под конкретные данные. Она применяется к результату претокенизации. И ее задача – разбить \"слова\" на более мелкие составляющие согласно выученным правилам.\n", 197 | "\n", 198 | "Наиболее распространенные виды моделей: `BPE`, `WordPiece`, `Unigram`." 199 | ] 200 | }, 201 | { 202 | "cell_type": "markdown", 203 | "metadata": {}, 204 | "source": [ 205 | "#### Byte-Pair Encoding (BPE)\n", 206 | "\n", 207 | "__Алгоритм обучения:__\n", 208 | "\n", 209 | "1. Считаем, сколько раз каждое слово встречается в корпусе\n", 210 | "2. Создаем словарь токенов, который пока что состоит из всех уникальных символов\n", 211 | "3. Находим пару токенов, которая чаще всего встречается вместе. Склеиваем ее в токен и добавляем в словарь.\n", 212 | "4. Повторяем 3, пока словарь не достигнет нужного размера.\n", 213 | "\n", 214 | "\n", 215 | "__Пример:__\n", 216 | "\n", 217 | "Корпус слов со встречаемостями: (`(\"hug\", 2)`, `(\"pug\", 1)`, `(\"pun\", 4)`, `(\"bun\", 3)`, `(\"hugs\", 1)`) \n", 218 | "Максимальный размер словаря – __9__.\n", 219 | "\n", 220 | "__Шаг 1.__ \n", 221 | "Словарь: [`\"b\"`, `\"g\"`, `\"h\"`, `\"n\"`, `\"p\"`, `\"s\"`, `\"u\"`], размер: __7__. \n", 222 | "Корпус: [`(\"h\" \"u\" \"g\", 3)`, `(\"p\" \"u\" \"g\", 1)`, `(\"p\" \"u\" \"n\", 3)`, `(\"b\" \"u\" \"n\", 3)`, `(\"h\" \"u\" \"g\" \"s\", 1)`]\n", 223 | "\n", 224 | "Чаще всего встречается пара (`\"u\" \"n\"`) – 6 раз. Добавляем ее в словарь и обновляем корпус.\n", 225 | "\n", 226 | "__Шаг 2.__ \n", 227 | "Словарь: [`\"b\"`, `\"g\"`, `\"h\"`, `\"n\"`, `\"p\"`, `\"s\"`, `\"u\"`, `\"un\"`], размер: __8__. \n", 228 | "Корпус: [`(\"h\" \"u\" \"g\", 3)`, `(\"p\" \"u\" \"g\", 1)`, `(\"p\" \"un\", 3)`, `(\"b\" \"un\", 3)`, `(\"h\" \"u\" \"g\" \"s\", 1)`]\n", 229 | "\n", 230 | "Чаще всего встречается пара (`\"u\" \"g\"`) – 5 раз. Добавляем ее в словарь и обновляем корпус.\n", 231 | "\n", 232 | "__Шаг 3.__ \n", 233 | "Словарь: [`\"b\"`, `\"g\"`, `\"h\"`, `\"n\"`, `\"p\"`, `\"s\"`, `\"u\"`, `\"un\"`, `\"ug\"`], размер: __9__. \n", 234 | "Корпус: [`(\"h\" \"ug\", 3)`, `(\"p\" \"ug\", 1)`, `(\"p\" \"un\", 3)`, `(\"b\" \"un\", 3)`, `(\"h\" \"ug\" \"s\", 1)`]\n", 235 | "\n", 236 | "\n", 237 | "__Процесс токенизации:__\n", 238 | "\n", 239 | "1. Нормализация\n", 240 | "1. Предварительная токенизация\n", 241 | "1. Разделение слов на отдельные символы\n", 242 | "1. Применение правил слияния (в порядке их появления в словаре) к разделенным словам \n" 243 | ] 244 | }, 245 | { 246 | "cell_type": "markdown", 247 | "metadata": {}, 248 | "source": [ 249 | "#### Byte-level BPE\n", 250 | "\n", 251 | "Если вы собираетесь обучать очень большую модель на всем интернете, то вы можете столкнуться с ситуацией, в которой на тестовой выборке попадаются токены не из словаря (например, эмоджи). В таком случае токены придется менять на UNK и терять эту информацию.\n", 252 | "\n", 253 | "Токенизаторы GPT-2 и RoBERTa (которые довольно похожи) имеют умный способ решения этой проблемы: они рассматривают слова не как символы Unicode, а как байты. Таким образом, базовый словарь имеет небольшой размер (256), но все символы, которые вы можете придумать, все равно будут включены и не будут преобразованы в неизвестный токен. Этот трюк называется byte-level BPE." 254 | ] 255 | }, 256 | { 257 | "cell_type": "markdown", 258 | "metadata": {}, 259 | "source": [ 260 | "#### WordPiece\n", 261 | "\n", 262 | "WordPiece работает точно так же, как и BPE, за исключением выбора токенов для слияния. BPE не учитывает частоту встречаемости каждого из токенов по отдельности. WordPiece же исправляет это и вводит score, по которому оценивает необходимоть слияния двух токенов\n", 263 | "\n", 264 | "$$\n", 265 | "\\operatorname{score}=\\frac{\\text{freq of pair}}{\\text{freq of first element}\\times \\text{freq of second element}}\n", 266 | "$$" 267 | ] 268 | }, 269 | { 270 | "cell_type": "code", 271 | "execution_count": 8, 272 | "metadata": {}, 273 | "outputs": [ 274 | { 275 | "name": "stdout", 276 | "output_type": "stream", 277 | "text": [ 278 | "\n", 279 | "\n", 280 | "\n" 281 | ] 282 | } 283 | ], 284 | "source": [ 285 | "from tokenizers import trainers\n", 286 | "\n", 287 | "texts = [\n", 288 | " \"An infinite number of mathematicians walk into a bar.\",\n", 289 | " \"The first one orders one beer. The second one - half a pint, the third one - a quarter.\",\n", 290 | " \"– Hey, hey, hey, stop! Here are two pints for everyone, and leave me alone!\"\n", 291 | "]\n", 292 | "\n", 293 | "trainer = trainers.BpeTrainer(\n", 294 | " vocab_size=128, min_frequency=1,\n", 295 | " special_tokens=['[BOS]', '[EOS]'],\n", 296 | " continuing_subword_prefix='##', # add special prefix to allow detokenization\n", 297 | ")\n", 298 | "tokenizer.train_from_iterator(texts, trainer)" 299 | ] 300 | }, 301 | { 302 | "cell_type": "code", 303 | "execution_count": 9, 304 | "metadata": {}, 305 | "outputs": [ 306 | { 307 | "name": "stdout", 308 | "output_type": "stream", 309 | "text": [ 310 | "Tokens: ['an', 'infi', '##ni', '##te', 'numb', '##er', 'of', 'mathem', '##atic', '##ian', '##s', 'wal', '##k', 'into', 'a', 'bar', '.']\n", 311 | "Ids: [58, 119, 96, 92, 123, 50, 81, 122, 108, 99, 43, 87, 48, 120, 6, 69, 5]\n" 312 | ] 313 | } 314 | ], 315 | "source": [ 316 | "tokenized = tokenizer.encode(\"An infinite number of mathematicians walk into a bar.\")\n", 317 | "print('Tokens:', tokenized.tokens)\n", 318 | "print('Ids:', tokenized.ids)" 319 | ] 320 | }, 321 | { 322 | "cell_type": "markdown", 323 | "metadata": {}, 324 | "source": [ 325 | "4. __Пост-обработка__ – последний шаг токенизации. Нужен для того, чтобы как-то изменить токенизированный текст. Например, чтобы добавить токены начала и конца последовательности." 326 | ] 327 | }, 328 | { 329 | "cell_type": "code", 330 | "execution_count": 10, 331 | "metadata": {}, 332 | "outputs": [], 333 | "source": [ 334 | "from tokenizers.processors import TemplateProcessing\n", 335 | "\n", 336 | "post_processor = TemplateProcessing(\n", 337 | " single=\"[BOS] $A [EOS]\",\n", 338 | " special_tokens=[(\"[BOS]\", 1), (\"[EOS]\", 2)],\n", 339 | ")" 340 | ] 341 | }, 342 | { 343 | "cell_type": "code", 344 | "execution_count": 11, 345 | "metadata": {}, 346 | "outputs": [ 347 | { 348 | "name": "stdout", 349 | "output_type": "stream", 350 | "text": [ 351 | "Tokens: ['[BOS]', 'an', 'infi', '##ni', '##te', 'numb', '##er', 'of', 'mathem', '##atic', '##ian', '##s', 'wal', '##k', 'into', 'a', 'bar', '.', '[EOS]']\n", 352 | "Ids: [1, 58, 119, 96, 92, 123, 50, 81, 122, 108, 99, 43, 87, 48, 120, 6, 69, 5, 2]\n" 353 | ] 354 | } 355 | ], 356 | "source": [ 357 | "processed = post_processor.process(tokenized)\n", 358 | "print('Tokens:', processed.tokens)\n", 359 | "print('Ids:', processed.ids)" 360 | ] 361 | }, 362 | { 363 | "cell_type": "code", 364 | "execution_count": 12, 365 | "metadata": {}, 366 | "outputs": [], 367 | "source": [ 368 | "tokenizer.decoder = WordPieceDecoder(prefix='##', cleanup=True)" 369 | ] 370 | }, 371 | { 372 | "cell_type": "code", 373 | "execution_count": 13, 374 | "metadata": {}, 375 | "outputs": [ 376 | { 377 | "data": { 378 | "text/plain": [ 379 | "'an infinite number of mathematicians walk into a bar.'" 380 | ] 381 | }, 382 | "execution_count": 13, 383 | "metadata": {}, 384 | "output_type": "execute_result" 385 | } 386 | ], 387 | "source": [ 388 | "tokenizer.decode(tokenized.ids)" 389 | ] 390 | }, 391 | { 392 | "cell_type": "markdown", 393 | "metadata": {}, 394 | "source": [ 395 | "### Обработка данных" 396 | ] 397 | }, 398 | { 399 | "cell_type": "code", 400 | "execution_count": 14, 401 | "metadata": {}, 402 | "outputs": [ 403 | { 404 | "name": "stderr", 405 | "output_type": "stream", 406 | "text": [ 407 | "/home/echimbulatov/miniconda3/envs/cosmos/lib/python3.11/site-packages/requests/__init__.py:86: RequestsDependencyWarning: Unable to find acceptable character detection dependency (chardet or charset_normalizer).\n", 408 | " warnings.warn(\n" 409 | ] 410 | } 411 | ], 412 | "source": [ 413 | "from datasets import load_from_disk\n", 414 | "\n", 415 | "dataset = load_from_disk('/home/echimbulatov/data/rocstories')\n", 416 | "dataset[\"train\"] = dataset[\"train\"][:5000]" 417 | ] 418 | }, 419 | { 420 | "cell_type": "code", 421 | "execution_count": 15, 422 | "metadata": {}, 423 | "outputs": [], 424 | "source": [ 425 | "train_texts = np.array(dataset['train']['target'])\n", 426 | "test_texts = np.array(dataset['test']['target'])" 427 | ] 428 | }, 429 | { 430 | "cell_type": "code", 431 | "execution_count": 16, 432 | "metadata": {}, 433 | "outputs": [], 434 | "source": [ 435 | "def print_texts(texts):\n", 436 | " for t in texts:\n", 437 | " print(t, end='\\n\\n')" 438 | ] 439 | }, 440 | { 441 | "cell_type": "code", 442 | "execution_count": 17, 443 | "metadata": {}, 444 | "outputs": [ 445 | { 446 | "name": "stdout", 447 | "output_type": "stream", 448 | "text": [ 449 | "Kelly was at home, trying to sleep. Suddenly, she heard footsteps in her kitchen. She grabbed a gun and stood at the top of the stairs. She warned whoever it was that she was armed. She heard them run out of the house and then called police.\n", 450 | "\n", 451 | "I bought a 1969 Mercury Montego with a loose front seat. The seat was loose because the car's floor had rusted through. I removed the seat and repaired the floor with pieces of sheet metal. My repair held the seat firmly in place after I reinstalled it. The car then successfully passed the safety inspection.\n", 452 | "\n" 453 | ] 454 | } 455 | ], 456 | "source": [ 457 | "idxs = [5, 9]\n", 458 | "print_texts(train_texts[idxs])" 459 | ] 460 | }, 461 | { 462 | "cell_type": "code", 463 | "execution_count": 18, 464 | "metadata": {}, 465 | "outputs": [], 466 | "source": [ 467 | "from my_tokenizers import *" 468 | ] 469 | }, 470 | { 471 | "cell_type": "code", 472 | "execution_count": 19, 473 | "metadata": {}, 474 | "outputs": [ 475 | { 476 | "name": "stdout", 477 | "output_type": "stream", 478 | "text": [ 479 | "Tokenized\n", 480 | "['[BOS]', 'k', 'e', 'l', 'l', 'y', ' ', 'w', 'a', 's', ' ', 'a', 't', ' ', 'h', 'o', 'm', 'e', ',', ' ', 't', 'r', 'y', 'i', 'n', 'g', ' ', 't', 'o', ' ', 's', 'l', 'e', 'e', 'p', '.', ' ', 's', 'u', 'd', 'd', 'e', 'n', 'l', 'y', ',', ' ', 's', 'h', 'e', ' ', 'h', 'e', 'a', 'r', 'd', ' ', 'f', 'o', 'o', 't', 's', 't', 'e', 'p', 's', ' ', 'i', 'n', ' ', 'h', 'e', 'r', ' ', 'k', 'i', 't', 'c', 'h', 'e', 'n', '.', ' ', 's', 'h', 'e', ' ', 'g', 'r', 'a', 'b', 'b', 'e', 'd', ' ', 'a', ' ', 'g', 'u', 'n', ' ', 'a', 'n', 'd', ' ', 's', 't', 'o', 'o', 'd', ' ', 'a', 't', ' ', 't', 'h', 'e', ' ', 't', 'o', 'p', ' ', 'o', 'f', ' ', 't', 'h', 'e', ' ', 's', 't', 'a', 'i', 'r', 's', '.', ' ', 's', 'h', 'e', ' ', 'w', 'a', 'r', 'n', 'e', 'd', ' ', 'w', 'h', 'o', 'e', 'v', 'e', 'r', ' ', 'i', 't', ' ', 'w', 'a', 's', ' ', 't', 'h', 'a', 't', ' ', 's', 'h', 'e', ' ', 'w', 'a', 's', ' ', 'a', 'r', 'm', 'e', 'd', '.', ' ', 's', 'h', 'e', ' ', 'h', 'e', 'a', 'r', 'd', ' ', 't', 'h', 'e', 'm', ' ', 'r', 'u', 'n', ' ', 'o', 'u', 't', ' ', 'o', 'f', ' ', 't', 'h', 'e', ' ', 'h', 'o', 'u', 's', 'e', ' ', 'a', 'n', 'd', ' ', 't', 'h', 'e', 'n', ' ', 'c', 'a', 'l', 'l', 'e', 'd', ' ', 'p', 'o', 'l', 'i', 'c', 'e', '.', '[EOS]']\n", 481 | "\n", 482 | "['[BOS]', 'i', ' ', 'b', 'o', 'u', 'g', 'h', 't', ' ', 'a', ' ', '1', '9', '6', '9', ' ', 'm', 'e', 'r', 'c', 'u', 'r', 'y', ' ', 'm', 'o', 'n', 't', 'e', 'g', 'o', ' ', 'w', 'i', 't', 'h', ' ', 'a', ' ', 'l', 'o', 'o', 's', 'e', ' ', 'f', 'r', 'o', 'n', 't', ' ', 's', 'e', 'a', 't', '.', ' ', 't', 'h', 'e', ' ', 's', 'e', 'a', 't', ' ', 'w', 'a', 's', ' ', 'l', 'o', 'o', 's', 'e', ' ', 'b', 'e', 'c', 'a', 'u', 's', 'e', ' ', 't', 'h', 'e', ' ', 'c', 'a', 'r', \"'\", 's', ' ', 'f', 'l', 'o', 'o', 'r', ' ', 'h', 'a', 'd', ' ', 'r', 'u', 's', 't', 'e', 'd', ' ', 't', 'h', 'r', 'o', 'u', 'g', 'h', '.', ' ', 'i', ' ', 'r', 'e', 'm', 'o', 'v', 'e', 'd', ' ', 't', 'h', 'e', ' ', 's', 'e', 'a', 't', ' ', 'a', 'n', 'd', ' ', 'r', 'e', 'p', 'a', 'i', 'r', 'e', 'd', ' ', 't', 'h', 'e', ' ', 'f', 'l', 'o', 'o', 'r', ' ', 'w', 'i', 't', 'h', ' ', 'p', 'i', 'e', 'c', 'e', 's', ' ', 'o', 'f', ' ', 's', 'h', 'e', 'e', 't', ' ', 'm', 'e', 't', 'a', 'l', '.', ' ', 'm', 'y', ' ', 'r', 'e', 'p', 'a', 'i', 'r', ' ', 'h', 'e', 'l', 'd', ' ', 't', 'h', 'e', ' ', 's', 'e', 'a', 't', ' ', 'f', 'i', 'r', 'm', 'l', 'y', ' ', 'i', 'n', ' ', 'p', 'l', 'a', 'c', 'e', ' ', 'a', 'f', 't', 'e', 'r', ' ', 'i', ' ', 'r', 'e', 'i', 'n', 's', 't', 'a', 'l', 'l', 'e', 'd', ' ', 'i', 't', '.', ' ', 't', 'h', 'e', ' ', 'c', 'a', 'r', ' ', 't', 'h', 'e', 'n', ' ', 's', 'u', 'c', 'c', 'e', 's', 's', 'f', 'u', 'l', 'l', 'y', ' ', 'p', 'a', 's', 's', 'e', 'd', ' ', 't', 'h', 'e', ' ', 's', 'a', 'f', 'e', 't', 'y', ' ', 'i', 'n', 's', 'p', 'e', 'c', 't', 'i', 'o', 'n', '.', '[EOS]']\n", 483 | "\n", 484 | "Detokenized\n", 485 | "kelly was at home, trying to sleep. suddenly, she heard footsteps in her kitchen. she grabbed a gun and stood at the top of the stairs. she warned whoever it was that she was armed. she heard them run out of the house and then called police.\n", 486 | "\n", 487 | "i bought a 1969 mercury montego with a loose front seat. the seat was loose because the car's floor had rusted through. i removed the seat and repaired the floor with pieces of sheet metal. my repair held the seat firmly in place after i reinstalled it. the car then successfully passed the safety inspection.\n", 488 | "\n", 489 | "Vocab size: 82\n" 490 | ] 491 | } 492 | ], 493 | "source": [ 494 | "tok = CharacterTokenizer(train_texts)\n", 495 | "\n", 496 | "tokenized = tok.encode(train_texts[idxs])\n", 497 | "print('Tokenized')\n", 498 | "print_texts(tokenized['tokens'])\n", 499 | "print('Detokenized')\n", 500 | "print_texts(tok.decode(tokenized['input_ids']))\n", 501 | "\n", 502 | "print(f'Vocab size: {len(tok.token2id)}')" 503 | ] 504 | }, 505 | { 506 | "cell_type": "code", 507 | "execution_count": 20, 508 | "metadata": {}, 509 | "outputs": [ 510 | { 511 | "data": { 512 | "image/png": "", 513 | "text/plain": [ 514 | "
" 515 | ] 516 | }, 517 | "metadata": {}, 518 | "output_type": "display_data" 519 | } 520 | ], 521 | "source": [ 522 | "tokenized_lengths = [len(t) for t in tok.encode(test_texts)['tokens']]\n", 523 | "plt.figure(figsize=(4, 2))\n", 524 | "plt.hist(tokenized_lengths, bins=50)\n", 525 | "plt.title('Character tokenizer sequence lengths')\n", 526 | "plt.show()" 527 | ] 528 | }, 529 | { 530 | "cell_type": "code", 531 | "execution_count": 21, 532 | "metadata": {}, 533 | "outputs": [ 534 | { 535 | "name": "stdout", 536 | "output_type": "stream", 537 | "text": [ 538 | "Tokenized\n", 539 | "['[BOS]', 'kelly', 'was', 'at', 'home', ',', 'trying', 'to', 'sleep', '.', 'suddenly', ',', 'she', 'heard', 'footsteps', 'in', 'her', 'kitchen', '.', 'she', 'grabbed', 'a', 'gun', 'and', 'stood', 'at', 'the', 'top', 'of', 'the', 'stairs', '.', 'she', 'warned', 'whoever', 'it', 'was', 'that', 'she', 'was', 'armed', '.', 'she', 'heard', 'them', 'run', 'out', 'of', 'the', 'house', 'and', 'then', 'called', 'police', '.', '[EOS]']\n", 540 | "\n", 541 | "['[BOS]', 'i', 'bought', 'a', '1969', 'mercury', 'montego', 'with', 'a', 'loose', 'front', 'seat', '.', 'the', 'seat', 'was', 'loose', 'because', 'the', 'car', \"'\", 's', 'floor', 'had', 'rusted', 'through', '.', 'i', 'removed', 'the', 'seat', 'and', 'repaired', 'the', 'floor', 'with', 'pieces', 'of', 'sheet', 'metal', '.', 'my', 'repair', 'held', 'the', 'seat', 'firmly', 'in', 'place', 'after', 'i', 'reinstalled', 'it', '.', 'the', 'car', 'then', 'successfully', 'passed', 'the', 'safety', 'inspection', '.', '[EOS]']\n", 542 | "\n", 543 | "Detokenized\n", 544 | "kelly was at home , trying to sleep . suddenly , she heard footsteps in her kitchen . she grabbed a gun and stood at the top of the stairs . she warned whoever it was that she was armed . she heard them run out of the house and then called police .\n", 545 | "\n", 546 | "i bought a 1969 mercury montego with a loose front seat . the seat was loose because the car ' s floor had rusted through . i removed the seat and repaired the floor with pieces of sheet metal . my repair held the seat firmly in place after i reinstalled it . the car then successfully passed the safety inspection .\n", 547 | "\n", 548 | "Vocab size: 11141\n" 549 | ] 550 | } 551 | ], 552 | "source": [ 553 | "tok = WordTokenizer(train_texts)\n", 554 | "\n", 555 | "tokenized = tok.encode(train_texts[idxs])\n", 556 | "print('Tokenized')\n", 557 | "print_texts(tokenized['tokens'])\n", 558 | "print('Detokenized')\n", 559 | "print_texts(tok.decode(tokenized['input_ids']))\n", 560 | "\n", 561 | "print(f'Vocab size: {len(tok.token2id)}')" 562 | ] 563 | }, 564 | { 565 | "cell_type": "code", 566 | "execution_count": 22, 567 | "metadata": {}, 568 | "outputs": [ 569 | { 570 | "data": { 571 | "image/png": "", 572 | "text/plain": [ 573 | "
" 574 | ] 575 | }, 576 | "metadata": {}, 577 | "output_type": "display_data" 578 | } 579 | ], 580 | "source": [ 581 | "tokenized_lengths = [len(t) for t in tok.encode(test_texts)['tokens']]\n", 582 | "plt.figure(figsize=(4, 2))\n", 583 | "plt.hist(tokenized_lengths, bins=50)\n", 584 | "plt.title('Word tokenizer sequence lengths')\n", 585 | "plt.show()" 586 | ] 587 | }, 588 | { 589 | "cell_type": "code", 590 | "execution_count": 23, 591 | "metadata": {}, 592 | "outputs": [ 593 | { 594 | "name": "stdout", 595 | "output_type": "stream", 596 | "text": [ 597 | "\n", 598 | "\n", 599 | "\n", 600 | "Tokenized\n", 601 | "['[BOS]', 'kelly', 'was', 'at', 'home', ',', 'trying', 'to', 'sleep', '.', 'suddenly', ',', 'she', 'heard', 'foot', '##st', '##ep', '##s', 'in', 'her', 'kitchen', '.', 'she', 'grabbed', 'a', 'gun', 'and', 'stood', 'at', 'the', 'top', 'of', 'the', 'stairs', '.', 'she', 'warned', 'who', '##ever', 'it', 'was', 'that', 'she', 'was', 'ar', '##med', '.', 'she', 'heard', 'them', 'run', 'out', 'of', 'the', 'house', 'and', 'then', 'called', 'police', '.', '[EOS]']\n", 602 | "\n", 603 | "['[BOS]', 'i', 'bought', 'a', '19', '##6', '##9', 'm', '##erc', '##ury', 'mo', '##nt', '##e', '##g', '##o', 'with', 'a', 'loose', 'front', 'seat', '.', 'the', 'seat', 'was', 'loose', 'because', 'the', 'car', \"'\", 's', 'floor', 'had', 'r', '##usted', 'through', '.', 'i', 'removed', 'the', 'seat', 'and', 'repair', '##ed', 'the', 'floor', 'with', 'pieces', 'of', 'she', '##et', 'metal', '.', 'my', 'repair', 'held', 'the', 'seat', 'fir', '##m', '##ly', 'in', 'place', 'after', 'i', 're', '##in', '##st', '##all', '##ed', 'it', '.', 'the', 'car', 'then', 'successfully', 'passed', 'the', 'sa', '##fet', '##y', 'insp', '##ection', '.', '[EOS]']\n", 604 | "\n", 605 | "Detokenized\n", 606 | "kelly was at home, trying to sleep. suddenly, she heard footsteps in her kitchen. she grabbed a gun and stood at the top of the stairs. she warned whoever it was that she was armed. she heard them run out of the house and then called police.\n", 607 | "\n", 608 | "i bought a 1969 mercury montego with a loose front seat. the seat was loose because the car ' s floor had rusted through. i removed the seat and repaired the floor with pieces of sheet metal. my repair held the seat firmly in place after i reinstalled it. the car then successfully passed the safety inspection.\n", 609 | "\n", 610 | "Vocab size: 4096\n" 611 | ] 612 | } 613 | ], 614 | "source": [ 615 | "tok = BPETokenizer(train_texts, vocab_size=4096)\n", 616 | "\n", 617 | "tokenized = tok.encode(train_texts[idxs])\n", 618 | "print('Tokenized')\n", 619 | "print_texts(tokenized['tokens'])\n", 620 | "\n", 621 | "print('Detokenized')\n", 622 | "print_texts(tok.decode(tokenized['input_ids']))\n", 623 | "\n", 624 | "print(f'Vocab size: {len(tok.token2id)}')" 625 | ] 626 | }, 627 | { 628 | "cell_type": "code", 629 | "execution_count": 24, 630 | "metadata": {}, 631 | "outputs": [ 632 | { 633 | "data": { 634 | "image/png": "", 635 | "text/plain": [ 636 | "
" 637 | ] 638 | }, 639 | "metadata": {}, 640 | "output_type": "display_data" 641 | } 642 | ], 643 | "source": [ 644 | "tokenized_lengths = [len(t) for t in tok.encode(train_texts)['tokens']]\n", 645 | "plt.figure(figsize=(4, 2))\n", 646 | "plt.hist(tokenized_lengths, bins=50)\n", 647 | "plt.title('BPE 1024 tokenizer sequence lengths')\n", 648 | "plt.show()" 649 | ] 650 | }, 651 | { 652 | "cell_type": "markdown", 653 | "metadata": {}, 654 | "source": [ 655 | "### Обучение RNN" 656 | ] 657 | }, 658 | { 659 | "cell_type": "code", 660 | "execution_count": 25, 661 | "metadata": {}, 662 | "outputs": [], 663 | "source": [ 664 | "import torch\n", 665 | "import torch.nn as nn\n", 666 | "from typing import Optional\n", 667 | "\n", 668 | "\n", 669 | "class RNN(nn.Module):\n", 670 | " def __init__(self, vocab_size, hidden_size):\n", 671 | " super().__init__()\n", 672 | " self.hidden_size = hidden_size\n", 673 | "\n", 674 | " self.embeddings = nn.Embedding(vocab_size, hidden_size)\n", 675 | "\n", 676 | " self.W = nn.Linear(hidden_size + hidden_size, hidden_size)\n", 677 | " self.O = nn.Linear(hidden_size, vocab_size)\n", 678 | "\n", 679 | " def forward(self, input_ids, h0: Optional[torch.Tensor] = None):\n", 680 | " batch_size, seq_len = input_ids.shape\n", 681 | " x = self.embeddings(input_ids)\n", 682 | "\n", 683 | " if h0 is None:\n", 684 | " h_t = torch.zeros(batch_size, self.hidden_size, device=x.device)\n", 685 | " else:\n", 686 | " h_t = h0\n", 687 | "\n", 688 | " outputs = []\n", 689 | " for t in range(seq_len):\n", 690 | " x_t = x[:, t, :]\n", 691 | "\n", 692 | " h_t = torch.tanh(\n", 693 | " self.W(torch.cat((x_t, h_t), dim=-1))\n", 694 | " )\n", 695 | "\n", 696 | " o_t = self.O(h_t)\n", 697 | " outputs.append(o_t)\n", 698 | "\n", 699 | " outputs = torch.stack(outputs, dim=1)\n", 700 | "\n", 701 | " return outputs, h_t" 702 | ] 703 | }, 704 | { 705 | "cell_type": "code", 706 | "execution_count": 26, 707 | "metadata": {}, 708 | "outputs": [], 709 | "source": [ 710 | "def train(model, dataloader, optimizer, loss_fn):\n", 711 | " model.train()\n", 712 | "\n", 713 | " accuracies = []\n", 714 | " for input_ids in dataloader:\n", 715 | " input_ids = input_ids.to(device)\n", 716 | "\n", 717 | " logits, _ = model(input_ids)\n", 718 | " \n", 719 | " shift_ids = input_ids[:, 1:]\n", 720 | " shift_logits = logits[:, :-1]\n", 721 | " loss = loss_fn(shift_logits.permute(0, 2, 1), shift_ids)\n", 722 | "\n", 723 | " optimizer.zero_grad()\n", 724 | " loss.backward()\n", 725 | " optimizer.step()\n", 726 | "\n", 727 | " accuracy = (shift_logits.argmax(-1) == shift_ids).float().mean().item()\n", 728 | " accuracies.append(accuracy)\n", 729 | " \n", 730 | " return np.mean(accuracies)\n", 731 | "\n", 732 | "\n", 733 | "@torch.no_grad()\n", 734 | "def evaluate(model, dataloader, loss_fn):\n", 735 | " model.eval()\n", 736 | "\n", 737 | " accuracies = []\n", 738 | " losses = []\n", 739 | " for input_ids in dataloader:\n", 740 | " input_ids = input_ids.to(device)\n", 741 | "\n", 742 | " logits, _ = model(input_ids)\n", 743 | " \n", 744 | " shift_ids = input_ids[:, 1:]\n", 745 | " shift_logits = logits[:, :-1]\n", 746 | " loss = loss_fn(shift_logits.permute(0, 2, 1), shift_ids)\n", 747 | "\n", 748 | " accuracies.append((shift_logits.argmax(-1) == shift_ids).float().mean().item())\n", 749 | " losses.append(loss.item())\n", 750 | "\n", 751 | " loss = np.mean(losses)\n", 752 | " accuracy = np.mean(accuracies)\n", 753 | "\n", 754 | " return accuracy, loss" 755 | ] 756 | }, 757 | { 758 | "cell_type": "code", 759 | "execution_count": 27, 760 | "metadata": {}, 761 | "outputs": [], 762 | "source": [ 763 | "from torch.distributions.categorical import Categorical\n", 764 | "\n", 765 | "\n", 766 | "@torch.inference_mode()\n", 767 | "def generate(tokenizer, model, batch_size=4, max_length=40):\n", 768 | " input_ids = torch.empty(size=(batch_size, 1), device=device).fill_(tokenizer.bos_token_id).int()\n", 769 | " h_t = torch.zeros(batch_size, model.hidden_size, device=device)\n", 770 | " gen_ids = []\n", 771 | " for i in range(max_length):\n", 772 | " logits, h_t = model(input_ids, h_t)\n", 773 | " input_ids = Categorical(logits=logits).sample()\n", 774 | " gen_ids.append(input_ids)\n", 775 | " \n", 776 | " return torch.cat(gen_ids, dim=1)" 777 | ] 778 | }, 779 | { 780 | "cell_type": "markdown", 781 | "metadata": { 782 | "tags": [] 783 | }, 784 | "source": [ 785 | "## Натренируем модели на разных токенизаторах" 786 | ] 787 | }, 788 | { 789 | "cell_type": "code", 790 | "execution_count": 28, 791 | "metadata": {}, 792 | "outputs": [], 793 | "source": [ 794 | "from torch.nn.utils.rnn import pad_sequence\n", 795 | "from torch.utils.data import DataLoader\n", 796 | "\n", 797 | "\n", 798 | "def train_rnn_model(tokenizer): \n", 799 | " def collate_fn(batch, max_length=None):\n", 800 | " tokens = tokenizer.encode(batch, max_length=max_length)['input_ids']\n", 801 | " return pad_sequence(tokens, padding_value=tokenizer.pad_token_id, batch_first=True)\n", 802 | " max_length = 150\n", 803 | " collate = partial(collate_fn, max_length=max_length)\n", 804 | " train_loader = DataLoader(train_texts, collate_fn=collate, shuffle=True, batch_size=256)\n", 805 | " test_loader = DataLoader(test_texts, collate_fn=collate, shuffle=False, batch_size=256)\n", 806 | " model = RNN(vocab_size=len(tokenizer), hidden_size=512).to(device)\n", 807 | "\n", 808 | " print('Number of parameters:', sum(p.numel() for p in model.parameters()))\n", 809 | "\n", 810 | " optimizer = torch.optim.Adam(model.parameters(), lr=4e-4, weight_decay=1e-3)\n", 811 | " loss_fn = nn.CrossEntropyLoss(ignore_index=tokenizer.pad_token_id)\n", 812 | " \n", 813 | " for epoch in tqdm(range(20)):\n", 814 | " train_accuracy = train(model, train_loader, optimizer, loss_fn)\n", 815 | " test_accuracy, test_loss = evaluate(model, test_loader, loss_fn)\n", 816 | " if epoch % 5 == 0:\n", 817 | " print(train_accuracy, test_accuracy, test_loss)\n", 818 | " \n", 819 | " _, test_loss = evaluate(model, test_loader, loss_fn)\n", 820 | " \n", 821 | " return model, test_loss" 822 | ] 823 | }, 824 | { 825 | "cell_type": "code", 826 | "execution_count": 29, 827 | "metadata": {}, 828 | "outputs": [ 829 | { 830 | "name": "stdout", 831 | "output_type": "stream", 832 | "text": [ 833 | "\n", 834 | "\n", 835 | "\n", 836 | "Number of parameters: 4723200\n" 837 | ] 838 | }, 839 | { 840 | "name": "stderr", 841 | "output_type": "stream", 842 | "text": [ 843 | " 5%|▌ | 1/20 [00:04<01:18, 4.12s/it]" 844 | ] 845 | }, 846 | { 847 | "name": "stdout", 848 | "output_type": "stream", 849 | "text": [ 850 | "0.05761686963851389 0.07558483742177487 6.160120987892151\n" 851 | ] 852 | }, 853 | { 854 | "name": "stderr", 855 | "output_type": "stream", 856 | "text": [ 857 | " 30%|███ | 6/20 [00:22<00:51, 3.71s/it]" 858 | ] 859 | }, 860 | { 861 | "name": "stdout", 862 | "output_type": "stream", 863 | "text": [ 864 | "0.11558546870946884 0.11518476940691472 5.2606532096862795\n" 865 | ] 866 | }, 867 | { 868 | "name": "stderr", 869 | "output_type": "stream", 870 | "text": [ 871 | " 55%|█████▌ | 11/20 [00:40<00:33, 3.69s/it]" 872 | ] 873 | }, 874 | { 875 | "name": "stdout", 876 | "output_type": "stream", 877 | "text": [ 878 | "0.1248983919620514 0.12248268499970436 5.065859866142273\n" 879 | ] 880 | }, 881 | { 882 | "name": "stderr", 883 | "output_type": "stream", 884 | "text": [ 885 | " 80%|████████ | 16/20 [00:59<00:14, 3.68s/it]" 886 | ] 887 | }, 888 | { 889 | "name": "stdout", 890 | "output_type": "stream", 891 | "text": [ 892 | "0.13106198459863663 0.12670493684709072 4.956925714015961\n" 893 | ] 894 | }, 895 | { 896 | "name": "stderr", 897 | "output_type": "stream", 898 | "text": [ 899 | "100%|██████████| 20/20 [01:13<00:00, 3.70s/it]\n" 900 | ] 901 | } 902 | ], 903 | "source": [ 904 | "bpe_tokenizer = BPETokenizer(corpus=train_texts, vocab_size=4096)\n", 905 | "bpe_rnn, bpe_test_loss = train_rnn_model(bpe_tokenizer)\n", 906 | "torch.save(bpe_rnn.state_dict(), 'checkpoints/bpe_rnn.pt')" 907 | ] 908 | }, 909 | { 910 | "cell_type": "code", 911 | "execution_count": 30, 912 | "metadata": {}, 913 | "outputs": [ 914 | { 915 | "name": "stdout", 916 | "output_type": "stream", 917 | "text": [ 918 | "Number of parameters: 4723200\n" 919 | ] 920 | }, 921 | { 922 | "name": "stderr", 923 | "output_type": "stream", 924 | "text": [ 925 | " 5%|▌ | 1/20 [00:03<01:01, 3.22s/it]" 926 | ] 927 | }, 928 | { 929 | "name": "stdout", 930 | "output_type": "stream", 931 | "text": [ 932 | "0.0742159198365698 0.1041804663836956 5.520843744277954\n" 933 | ] 934 | }, 935 | { 936 | "name": "stderr", 937 | "output_type": "stream", 938 | "text": [ 939 | " 30%|███ | 6/20 [00:19<00:45, 3.22s/it]" 940 | ] 941 | }, 942 | { 943 | "name": "stdout", 944 | "output_type": "stream", 945 | "text": [ 946 | "0.14468048140406609 0.1473691951483488 4.59027373790741\n" 947 | ] 948 | }, 949 | { 950 | "name": "stderr", 951 | "output_type": "stream", 952 | "text": [ 953 | " 55%|█████▌ | 11/20 [00:35<00:28, 3.22s/it]" 954 | ] 955 | }, 956 | { 957 | "name": "stdout", 958 | "output_type": "stream", 959 | "text": [ 960 | "0.15467707738280295 0.15559826269745827 4.412833058834076\n" 961 | ] 962 | }, 963 | { 964 | "name": "stderr", 965 | "output_type": "stream", 966 | "text": [ 967 | " 80%|████████ | 16/20 [00:51<00:12, 3.22s/it]" 968 | ] 969 | }, 970 | { 971 | "name": "stdout", 972 | "output_type": "stream", 973 | "text": [ 974 | "0.1624450169503689 0.16117852926254272 4.328227865695953\n" 975 | ] 976 | }, 977 | { 978 | "name": "stderr", 979 | "output_type": "stream", 980 | "text": [ 981 | "100%|██████████| 20/20 [01:04<00:00, 3.22s/it]\n" 982 | ] 983 | } 984 | ], 985 | "source": [ 986 | "word_tokenizer = WordTokenizer(corpus=train_texts, vocab_size=4096)\n", 987 | "word_rnn, word_test_loss = train_rnn_model(word_tokenizer)\n", 988 | "torch.save(bpe_rnn.state_dict(), 'checkpoints/word_rnn.pt')" 989 | ] 990 | }, 991 | { 992 | "cell_type": "code", 993 | "execution_count": 31, 994 | "metadata": {}, 995 | "outputs": [ 996 | { 997 | "name": "stdout", 998 | "output_type": "stream", 999 | "text": [ 1000 | "Number of parameters: 608850\n" 1001 | ] 1002 | }, 1003 | { 1004 | "name": "stderr", 1005 | "output_type": "stream", 1006 | "text": [ 1007 | " 5%|▌ | 1/20 [00:03<00:57, 3.04s/it]" 1008 | ] 1009 | }, 1010 | { 1011 | "name": "stdout", 1012 | "output_type": "stream", 1013 | "text": [ 1014 | "0.27662071837112306 0.32306850627064704 2.3889542520046234\n" 1015 | ] 1016 | }, 1017 | { 1018 | "name": "stderr", 1019 | "output_type": "stream", 1020 | "text": [ 1021 | " 30%|███ | 6/20 [00:18<00:42, 3.01s/it]" 1022 | ] 1023 | }, 1024 | { 1025 | "name": "stdout", 1026 | "output_type": "stream", 1027 | "text": [ 1028 | "0.4120487689971924 0.4215001069009304 1.9297221899032593\n" 1029 | ] 1030 | }, 1031 | { 1032 | "name": "stderr", 1033 | "output_type": "stream", 1034 | "text": [ 1035 | " 55%|█████▌ | 11/20 [00:33<00:27, 3.01s/it]" 1036 | ] 1037 | }, 1038 | { 1039 | "name": "stdout", 1040 | "output_type": "stream", 1041 | "text": [ 1042 | "0.4659665122628212 0.468839792907238 1.7640975922346116\n" 1043 | ] 1044 | }, 1045 | { 1046 | "name": "stderr", 1047 | "output_type": "stream", 1048 | "text": [ 1049 | " 80%|████████ | 16/20 [00:48<00:12, 3.01s/it]" 1050 | ] 1051 | }, 1052 | { 1053 | "name": "stdout", 1054 | "output_type": "stream", 1055 | "text": [ 1056 | "0.49858393222093583 0.5012813329696655 1.6595043033361434\n" 1057 | ] 1058 | }, 1059 | { 1060 | "name": "stderr", 1061 | "output_type": "stream", 1062 | "text": [ 1063 | "100%|██████████| 20/20 [01:00<00:00, 3.01s/it]\n" 1064 | ] 1065 | } 1066 | ], 1067 | "source": [ 1068 | "char_tokenizer = CharacterTokenizer(corpus=train_texts)\n", 1069 | "char_rnn, char_test_loss = train_rnn_model(char_tokenizer)\n", 1070 | "torch.save(bpe_rnn.state_dict(), 'checkpoints/char_rnn.pt')" 1071 | ] 1072 | }, 1073 | { 1074 | "cell_type": "code", 1075 | "execution_count": 32, 1076 | "metadata": {}, 1077 | "outputs": [], 1078 | "source": [ 1079 | "bpe_outputs = generate(bpe_tokenizer, bpe_rnn, batch_size=5000)\n", 1080 | "word_outputs = generate(word_tokenizer, word_rnn, batch_size=5000)\n", 1081 | "char_outputs = generate(char_tokenizer, char_rnn, batch_size=5000)" 1082 | ] 1083 | }, 1084 | { 1085 | "cell_type": "markdown", 1086 | "metadata": {}, 1087 | "source": [ 1088 | "# Метрики качества\n", 1089 | "\n", 1090 | "## Валидационная перплексия\n", 1091 | "NLL:\n", 1092 | "$$\n", 1093 | "\\text{NLL} = -\\frac{1}{N} \\sum_{i=1}^{N} \\log P(x_i \\mid x_{