├── script.py
├── README.md
├── feature_extraction.py
├── preprocessing.py
└── summary.ipynb
/script.py:
--------------------------------------------------------------------------------
1 | from preprocessing import normalize
2 | from feature_extraction import vectorize
3 | import pandas as pd
4 | from gensim.models import FastText
5 | import pickle
6 |
7 | test = pd.read_parquet('data/task1_test_for_user.parquet')
8 | pipe = pickle.load(open('clf_task1', 'rb'))
9 |
10 | test.item_name = normalize(test.item_name)
11 | X_wv = vectorize(test.item_name)
12 | pred = pipe.predict(X_wv)
13 |
14 | res = pd.DataFrame(pred, columns=['pred'])
15 | res['id'] = test['id']
16 |
17 | res[['id', 'pred']].to_csv('answers.csv', index=None)
18 |
--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | # GoodsClassifier
2 | Всем привет, в этом проекте я покажу, как я решал первую задачу в соревновании [Data Fusion Contest](https://boosters.pro/championship/data_fusion/overview), в которой необходимо было классифицировать товары по данным из чека. Данные представляют собой набор размеченных и неразмеченных чеков. Каждый чек имеет такую информацию как описание товара, его категорию, цена товара, количество и пр. Для предсказания категории мы будем пользоваться только описанием товара (item_name). [Приятного ресёрча!](https://github.com/gorodion/GoodsClassifier/blob/master/summary.ipynb)
3 |
--------------------------------------------------------------------------------
/feature_extraction.py:
--------------------------------------------------------------------------------
1 | import gensim
2 | import numpy as np
3 | import pandas as pd
4 |
5 | def word_averaging(wv, words):
6 | mean = np.zeros((wv.vector_size,))
7 |
8 | for word in words:
9 | mean += wv.get_vector(word)
10 |
11 | mean = gensim.matutils.unitvec(mean)
12 | return mean
13 |
14 | def word_averaging_list(wv, text_list):
15 | return np.vstack([word_averaging(wv, review) for review in text_list])
16 |
17 |
18 | def vectorize(test: pd.Series):
19 | test = test.apply(lambda x: [i for i in x.split() if len(i) > 1])
20 | model = FastText.load('ft.model', mmap='r')
21 | X_wv = word_averaging_list(model.wv, test)
22 | X_wv = X_wv.astype('float16')
23 | return X_wv
24 |
--------------------------------------------------------------------------------
/preprocessing.py:
--------------------------------------------------------------------------------
1 | import re
2 | import pandas as pd
3 |
4 | def make_trans():
5 | a = 'a b c d e f g h i j k l m n o p q r s t u v w x y z ё'.split()
6 | b = 'а в с д е ф г н и ж к л м н о р к р с т у в в х у з е'.split()
7 | trans_dict = dict(zip(a, b))
8 | trans_table = ''.join(a).maketrans(trans_dict)
9 | return trans_table
10 |
11 | def normalize(ser: pd.Series):
12 | # "СокДобрый" -> "Сок Добрый"
13 | camel_case_pat = re.compile(r'([а-яa-z])([А-ЯA-Z])')
14 | # "lmno" -> "лмно"
15 | trans_table = make_trans()
16 | # "14х15х30" -> "DxDxD"
17 | dxdxd_pat = re.compile(r'((?:\d+\s*[х\*]\s*){2}\d+)')
18 | # "1.2 15,5" -> "1p2 15p5"
19 | digit_pat = re.compile(r'(\d+)[\.,](\d+)')
20 | # "15 мл" -> "15мл"
21 | unit = 'мг|г|гр|кг|мл|л|шт'
22 | unit_pat = re.compile(fr'((?:\d+p)?\d+)\s*({unit})\b')
23 | # "ж/б ст/б" -> "жб стб"
24 | w_w_pat = re.compile(r'\b([а-я]{1,2})/([а-я]{1,2})\b')
25 | # "a b c d" -> "abcd"
26 | glue_pat = re.compile(r'(?<=(?\n",
219 | "\n",
232 | "
\n",
233 | " \n",
234 | " \n",
235 | " \n",
236 | " item_name \n",
237 | " \n",
238 | " \n",
239 | " \n",
240 | " \n",
241 | " 2437976 \n",
242 | " Сапоги школьные д/д Flois-Kids (Размер: 34) \n",
243 | " \n",
244 | " \n",
245 | " 882416 \n",
246 | " Шок.Озера Т/У 100г Молочный /малин шт \n",
247 | " \n",
248 | " \n",
249 | " 2297689 \n",
250 | " Кальмар в масле Щупальца \n",
251 | " \n",
252 | " \n",
253 | " 1742849 \n",
254 | " pellesana масло косметическое 100мл \n",
255 | " \n",
256 | " \n",
257 | " 780364 \n",
258 | " Обезжириватель Полихим 0,5л шт \n",
259 | " \n",
260 | " \n",
261 | " 1745151 \n",
262 | " 1 864 055 Обувь весна-лето-осень ABRICOT \n",
263 | " \n",
264 | " \n",
265 | " 1905276 \n",
266 | " Огурцы Луховицкие Россия 2.456кг*97.00 \n",
267 | " \n",
268 | " \n",
269 | " 1159080 \n",
270 | " Штуцер для шланга VALTEC 3/4 внутр. *20 мм \n",
271 | " \n",
272 | " \n",
273 | " 1733705 \n",
274 | " Лизун № \"Роза\" \n",
275 | " \n",
276 | " \n",
277 | " 583559 \n",
278 | " БЗМЖ Молоко пастеризов 3.7% 1400мл ПЭТ Домик в... \n",
279 | " \n",
280 | " \n",
281 | "
\n",
282 | ""
283 | ],
284 | "text/plain": [
285 | " item_name\n",
286 | "2437976 Сапоги школьные д/д Flois-Kids (Размер: 34)\n",
287 | "882416 Шок.Озера Т/У 100г Молочный /малин шт\n",
288 | "2297689 Кальмар в масле Щупальца\n",
289 | "1742849 pellesana масло косметическое 100мл\n",
290 | "780364 Обезжириватель Полихим 0,5л шт\n",
291 | "1745151 1 864 055 Обувь весна-лето-осень ABRICOT\n",
292 | "1905276 Огурцы Луховицкие Россия 2.456кг*97.00\n",
293 | "1159080 Штуцер для шланга VALTEC 3/4 внутр. *20 мм\n",
294 | "1733705 Лизун № \"Роза\"\n",
295 | "583559 БЗМЖ Молоко пастеризов 3.7% 1400мл ПЭТ Домик в..."
296 | ]
297 | },
298 | "execution_count": 6,
299 | "metadata": {},
300 | "output_type": "execute_result"
301 | }
302 | ],
303 | "source": [
304 | "df_full.sample(10)"
305 | ]
306 | },
307 | {
308 | "cell_type": "markdown",
309 | "id": "interstate-familiar",
310 | "metadata": {},
311 | "source": [
312 | "Посмотрим распределение классов"
313 | ]
314 | },
315 | {
316 | "cell_type": "code",
317 | "execution_count": 7,
318 | "id": "featured-smell",
319 | "metadata": {},
320 | "outputs": [
321 | {
322 | "data": {
323 | "text/plain": [
324 | "84 7070\n",
325 | "71 4760\n",
326 | "78 2866\n",
327 | "83 2856\n",
328 | "0 2352\n",
329 | " ... \n",
330 | "102 19\n",
331 | "101 16\n",
332 | "46 15\n",
333 | "100 14\n",
334 | "97 13\n",
335 | "Name: category_id, Length: 96, dtype: int64"
336 | ]
337 | },
338 | "execution_count": 7,
339 | "metadata": {},
340 | "output_type": "execute_result"
341 | }
342 | ],
343 | "source": [
344 | "df.category_id.value_counts()"
345 | ]
346 | },
347 | {
348 | "cell_type": "code",
349 | "execution_count": 8,
350 | "id": "adult-species",
351 | "metadata": {},
352 | "outputs": [
353 | {
354 | "data": {
355 | "image/png": "\n",
356 | "text/plain": [
357 | ""
358 | ]
359 | },
360 | "metadata": {
361 | "needs_background": "light"
362 | },
363 | "output_type": "display_data"
364 | }
365 | ],
366 | "source": [
367 | "df.category_id.value_counts().plot.bar(figsize=(20, 4))\n",
368 | "plt.title('Распределение по классам');"
369 | ]
370 | },
371 | {
372 | "cell_type": "markdown",
373 | "id": "freelance-capture",
374 | "metadata": {},
375 | "source": [
376 | "Посмотрим самые частые категории"
377 | ]
378 | },
379 | {
380 | "cell_type": "code",
381 | "execution_count": 9,
382 | "id": "aggressive-anthropology",
383 | "metadata": {},
384 | "outputs": [
385 | {
386 | "data": {
387 | "text/html": [
388 | "\n",
389 | "\n",
402 | "
\n",
403 | " \n",
404 | " \n",
405 | " \n",
406 | " item_name \n",
407 | " category_id \n",
408 | " \n",
409 | " \n",
410 | " \n",
411 | " \n",
412 | " 4 \n",
413 | " Хлеб на СЫВОРОТКЕ 350г \n",
414 | " 84 \n",
415 | " \n",
416 | " \n",
417 | " 5 \n",
418 | " Сосиска в тесте с сыром 1шт ГЕ \n",
419 | " 84 \n",
420 | " \n",
421 | " \n",
422 | " 13 \n",
423 | " Курник 1 шт. \n",
424 | " 84 \n",
425 | " \n",
426 | " \n",
427 | " 19 \n",
428 | " Вафли с топленым молоком вес. 1кг Тортугалия \n",
429 | " 84 \n",
430 | " \n",
431 | " \n",
432 | " 28 \n",
433 | " Кф.Золотой Степ 50г с орехом \n",
434 | " 84 \n",
435 | " \n",
436 | " \n",
437 | "
\n",
438 | "
"
439 | ],
440 | "text/plain": [
441 | " item_name category_id\n",
442 | "4 Хлеб на СЫВОРОТКЕ 350г 84\n",
443 | "5 Сосиска в тесте с сыром 1шт ГЕ 84\n",
444 | "13 Курник 1 шт. 84\n",
445 | "19 Вафли с топленым молоком вес. 1кг Тортугалия 84\n",
446 | "28 Кф.Золотой Степ 50г с орехом 84"
447 | ]
448 | },
449 | "execution_count": 9,
450 | "metadata": {},
451 | "output_type": "execute_result"
452 | }
453 | ],
454 | "source": [
455 | "samples(df, 84).head()"
456 | ]
457 | },
458 | {
459 | "cell_type": "code",
460 | "execution_count": 10,
461 | "id": "binary-velvet",
462 | "metadata": {},
463 | "outputs": [
464 | {
465 | "data": {
466 | "text/html": [
467 | "\n",
468 | "\n",
481 | "
\n",
482 | " \n",
483 | " \n",
484 | " \n",
485 | " item_name \n",
486 | " category_id \n",
487 | " \n",
488 | " \n",
489 | " \n",
490 | " \n",
491 | " 1 \n",
492 | " Компот из изюма, 114 ккал \n",
493 | " 71 \n",
494 | " \n",
495 | " \n",
496 | " 2 \n",
497 | " Макаронные изделия отварные (масло сливочное),... \n",
498 | " 71 \n",
499 | " \n",
500 | " \n",
501 | " 15 \n",
502 | " Филе бедра куриного жареное 3 \n",
503 | " 71 \n",
504 | " \n",
505 | " \n",
506 | " 30 \n",
507 | " МОРС 200 мл \n",
508 | " 71 \n",
509 | " \n",
510 | " \n",
511 | " 41 \n",
512 | " Kотлета Kуриная Домашняя 100 г \n",
513 | " 71 \n",
514 | " \n",
515 | " \n",
516 | "
\n",
517 | "
"
518 | ],
519 | "text/plain": [
520 | " item_name category_id\n",
521 | "1 Компот из изюма, 114 ккал 71\n",
522 | "2 Макаронные изделия отварные (масло сливочное),... 71\n",
523 | "15 Филе бедра куриного жареное 3 71\n",
524 | "30 МОРС 200 мл 71\n",
525 | "41 Kотлета Kуриная Домашняя 100 г 71"
526 | ]
527 | },
528 | "execution_count": 10,
529 | "metadata": {},
530 | "output_type": "execute_result"
531 | }
532 | ],
533 | "source": [
534 | "samples(df, 71).head()"
535 | ]
536 | },
537 | {
538 | "cell_type": "markdown",
539 | "id": "infrared-eight",
540 | "metadata": {},
541 | "source": [
542 | "## Preprocessing"
543 | ]
544 | },
545 | {
546 | "cell_type": "markdown",
547 | "id": "proud-dragon",
548 | "metadata": {},
549 | "source": [
550 | "Препроцессинг включает следующие шаги:\n",
551 | "* CamelCase сплиттинг: \"СокДобрый\" -> \"Сок Добрый\"\n",
552 | "* Нижний регистр\n",
553 | "* Транслитерация: \"lmnoё\" -> \"лмное\"\n",
554 | "* 50x30x45 -> DxDxD\n",
555 | "* [\"№\", \"%\"] -> ['NUM', 'PERC']\n",
556 | "* Замены величин: [\"1.5\", \"1,3 кг\" 3,5г -> [\"1p5\", \"1p3кг\" \"3p5г\"]\n",
557 | "* сокращения со слешами заменяются: [\"ж/б\", \"тп/р]->[\"жб\", тпр\"]\n",
558 | "* Не буквы и цифры заменяются на пробелы\n",
559 | "* Склейка одиночных символов: \"а б в\" -> \"абв\""
560 | ]
561 | },
562 | {
563 | "cell_type": "code",
564 | "execution_count": 11,
565 | "id": "magnetic-burke",
566 | "metadata": {},
567 | "outputs": [],
568 | "source": [
569 | "# функция для создания словаря транслитераций\n",
570 | "def make_trans():\n",
571 | " a = 'a b c d e f g h i j k l m n o p q r s t u v w x y z ё'.split()\n",
572 | " b = 'а в с д е ф г н и ж к л м н о р к р с т у в в х у з е'.split()\n",
573 | " trans_dict = dict(zip(a, b))\n",
574 | " trans_table = ''.join(a).maketrans(trans_dict)\n",
575 | " return trans_table\n",
576 | "\n",
577 | "def normalize(ser: pd.Series):\n",
578 | "# \"СокДобрый\" -> \"Сок Добрый\"\n",
579 | " camel_case_pat = re.compile(r'([а-яa-z])([А-ЯA-Z])')\n",
580 | "# \"lmno\" -> \"лмно\"\n",
581 | " trans_table = make_trans()\n",
582 | "# \"14х15х30\" -> \"DxDxD\"\n",
583 | " dxdxd_pat = re.compile(r'((?:\\d+\\s*[х\\*]\\s*){2}\\d+)')\n",
584 | "# \"1.2 15,5\" -> \"1p2 15p5\" \n",
585 | " digit_pat = re.compile(r'(\\d+)[\\.,](\\d+)')\n",
586 | "# \"15 мл\" -> \"15мл\"\n",
587 | " unit = 'мг|г|гр|кг|мл|л|шт'\n",
588 | " unit_pat = re.compile(fr'((?:\\d+p)?\\d+)\\s*({unit})\\b')\n",
589 | "# \"ж/б ст/б\" -> \"жб стб\"\n",
590 | " w_w_pat = re.compile(r'\\b([а-я]{1,2})/([а-я]{1,2})\\b')\n",
591 | "# \"a b c d\" -> \"abcd\"\n",
592 | " glue_pat = re.compile(r'(?<=(?\n",
638 | "\n",
651 | "\n",
652 | " \n",
653 | " \n",
654 | " \n",
655 | " item_name \n",
656 | " \n",
657 | " \n",
658 | " \n",
659 | " \n",
660 | " 2408405 \n",
661 | " мор эскимо мм 63г \n",
662 | " \n",
663 | " \n",
664 | " 461664 \n",
665 | " эфес пилснер 0p3 \n",
666 | " \n",
667 | " \n",
668 | " 2316442 \n",
669 | " хек тушка 1кг \n",
670 | " \n",
671 | " \n",
672 | " 344862 \n",
673 | " капучино бл \n",
674 | " \n",
675 | " \n",
676 | " 1178767 \n",
677 | " килька черноморская неразделанная в том соусе... \n",
678 | " \n",
679 | " \n",
680 | " 2832448 \n",
681 | " ментос лимонад 1шт \n",
682 | " \n",
683 | " \n",
684 | " 2710457 \n",
685 | " саморез универс 4p5 х20 оцинк \n",
686 | " \n",
687 | " \n",
688 | " 51850 \n",
689 | " фромилид уно таб пролонг дя по плен 500м... \n",
690 | " \n",
691 | " \n",
692 | " 513585 \n",
693 | " пивной нап амстердам навигатор 6p8 PERC 0... \n",
694 | " \n",
695 | " \n",
696 | " 2446381 \n",
697 | " семена укроп мамонт 2г \n",
698 | " \n",
699 | " \n",
700 | "
\n",
701 | ""
702 | ],
703 | "text/plain": [
704 | " item_name\n",
705 | "2408405 мор эскимо мм 63г \n",
706 | "461664 эфес пилснер 0p3 \n",
707 | "2316442 хек тушка 1кг \n",
708 | "344862 капучино бл\n",
709 | "1178767 килька черноморская неразделанная в том соусе...\n",
710 | "2832448 ментос лимонад 1шт \n",
711 | "2710457 саморез универс 4p5 х20 оцинк \n",
712 | "51850 фромилид уно таб пролонг дя по плен 500м...\n",
713 | "513585 пивной нап амстердам навигатор 6p8 PERC 0...\n",
714 | "2446381 семена укроп мамонт 2г "
715 | ]
716 | },
717 | "execution_count": 14,
718 | "metadata": {},
719 | "output_type": "execute_result"
720 | }
721 | ],
722 | "source": [
723 | "df_full.sample(10)"
724 | ]
725 | },
726 | {
727 | "cell_type": "markdown",
728 | "id": "pediatric-accordance",
729 | "metadata": {},
730 | "source": [
731 | "## Fasttext"
732 | ]
733 | },
734 | {
735 | "cell_type": "markdown",
736 | "id": "thermal-preparation",
737 | "metadata": {},
738 | "source": [
739 | "### Fitting"
740 | ]
741 | },
742 | {
743 | "cell_type": "markdown",
744 | "id": "southeast-model",
745 | "metadata": {},
746 | "source": [
747 | "Для извлечения фичей воспользуемся FastText. Изначально на его месте был Word2Vec, но позже благодаря [@dremovd](https://github.com/dremovd) осознал, что FastText справится здесь лучше. \n",
748 | "\n",
749 | "Обучать будем на всех неразмеченных данных, чтобы не было лишних утечек. Для начала сделаем сплиттинг строки на список слов, избавившися от однобуквенных слов"
750 | ]
751 | },
752 | {
753 | "cell_type": "code",
754 | "execution_count": 15,
755 | "id": "direct-heavy",
756 | "metadata": {},
757 | "outputs": [],
758 | "source": [
759 | "df_full.item_name = df_full.item_name.apply(lambda x: [i for i in x.split() if len(i) > 1])"
760 | ]
761 | },
762 | {
763 | "cell_type": "markdown",
764 | "id": "stainless-kelly",
765 | "metadata": {},
766 | "source": [
767 | "Метод построения векторов (sg), размер вектора (size) и минимальное количество слов в словаре (min_count) были подобраны эмпирическим путём. Стоит отметить, что sg=1 или Skip-Grams mode, когда fasttext (а изначально word2vec) пытается предсказать по слову остальной контент, работает значительно лучше, чем sg=0 или CBOW mode. В качестве аргумента window я поставил максимальную длину списка в корпусе. Для демонстрации я поставил количество эпох (iter) равным 10, хотя оптимальным является 30. Такой bucket выставил для экономии памяти на жёстком диске (и чтобы вместился в сабмит)). Последний параметр workers - это допустимое количество потоков, у меня это число 12. Из-за него кстати нет смысла выставлять seed, так как всё сбивается и воспроизвести решение можно только с workers=1 и seed=КАКОЕ-ТО_ЧИСЛО (конкретно в этой реализации от gensim)."
768 | ]
769 | },
770 | {
771 | "cell_type": "code",
772 | "execution_count": null,
773 | "id": "checked-triumph",
774 | "metadata": {
775 | "scrolled": true,
776 | "tags": []
777 | },
778 | "outputs": [],
779 | "source": [
780 | "model = FastText(df_full.item_name, size=200, window=35, min_count=3, workers=12, iter=10, sg=1, bucket=400_000)"
781 | ]
782 | },
783 | {
784 | "cell_type": "markdown",
785 | "id": "minus-cleaners",
786 | "metadata": {},
787 | "source": [
788 | "Сохраним модель"
789 | ]
790 | },
791 | {
792 | "cell_type": "code",
793 | "execution_count": 18,
794 | "id": "illegal-advocate",
795 | "metadata": {},
796 | "outputs": [
797 | {
798 | "name": "stderr",
799 | "output_type": "stream",
800 | "text": [
801 | "2021-03-22 14:05:18,005 : INFO : saving FastText object under ft.model, separately None\n",
802 | "2021-03-22 14:05:18,006 : INFO : storing np array 'vectors' to ft.model.wv.vectors.npy\n",
803 | "2021-03-22 14:05:18,826 : INFO : storing np array 'vectors_vocab' to ft.model.wv.vectors_vocab.npy\n",
804 | "2021-03-22 14:05:19,498 : INFO : storing np array 'vectors_ngrams' to ft.model.wv.vectors_ngrams.npy\n",
805 | "2021-03-22 14:05:21,723 : INFO : not storing attribute vectors_norm\n",
806 | "2021-03-22 14:05:21,724 : INFO : not storing attribute vectors_vocab_norm\n",
807 | "2021-03-22 14:05:21,724 : INFO : not storing attribute vectors_ngrams_norm\n",
808 | "2021-03-22 14:05:21,725 : INFO : not storing attribute buckets_word\n",
809 | "2021-03-22 14:05:21,726 : INFO : storing np array 'syn1neg' to ft.model.trainables.syn1neg.npy\n",
810 | "2021-03-22 14:05:22,500 : INFO : storing np array 'vectors_vocab_lockf' to ft.model.trainables.vectors_vocab_lockf.npy\n",
811 | "2021-03-22 14:05:23,187 : INFO : storing np array 'vectors_ngrams_lockf' to ft.model.trainables.vectors_ngrams_lockf.npy\n",
812 | "2021-03-22 14:05:25,274 : INFO : saved ft.model\n"
813 | ]
814 | }
815 | ],
816 | "source": [
817 | "model.save('ft.model')"
818 | ]
819 | },
820 | {
821 | "cell_type": "markdown",
822 | "id": "searching-encoding",
823 | "metadata": {},
824 | "source": [
825 | "### Model optimization"
826 | ]
827 | },
828 | {
829 | "cell_type": "markdown",
830 | "id": "brilliant-librarian",
831 | "metadata": {},
832 | "source": [
833 | "Больше всего в fasttext отнимается памяти из-за ngram, на данный момент модель занимает 1Гб (!) на жёстком диске. С этим надо было как-то бороться и первое что пришло в голову: заменить float32, в котором хранятся вектора на float16. Это сожмёт нашу модель как минимум в 2 раза. Можете убедиться: это не повлияет на качество классификатора"
834 | ]
835 | },
836 | {
837 | "cell_type": "markdown",
838 | "id": "figured-davis",
839 | "metadata": {},
840 | "source": [
841 | "Посмотрим на файлы, относящиеся к FastText"
842 | ]
843 | },
844 | {
845 | "cell_type": "code",
846 | "execution_count": 19,
847 | "id": "advanced-holiday",
848 | "metadata": {},
849 | "outputs": [
850 | {
851 | "data": {
852 | "text/plain": [
853 | "['ft.model.trainables.syn1neg.npy',\n",
854 | " 'ft.model.trainables.vectors_ngrams_lockf.npy',\n",
855 | " 'ft.model.trainables.vectors_vocab_lockf.npy',\n",
856 | " 'ft.model.wv.vectors.npy',\n",
857 | " 'ft.model.wv.vectors_ngrams.npy',\n",
858 | " 'ft.model.wv.vectors_vocab.npy']"
859 | ]
860 | },
861 | "execution_count": 19,
862 | "metadata": {},
863 | "output_type": "execute_result"
864 | }
865 | ],
866 | "source": [
867 | "list(map(str,Path('.').glob('*.npy')))"
868 | ]
869 | },
870 | {
871 | "cell_type": "code",
872 | "execution_count": 20,
873 | "id": "annual-hearing",
874 | "metadata": {},
875 | "outputs": [
876 | {
877 | "name": "stderr",
878 | "output_type": "stream",
879 | "text": [
880 | "2021-03-22 14:05:26,489 : INFO : ft.model.trainables.syn1neg.npy\n",
881 | "2021-03-22 14:05:26,565 : INFO : min/max values before: (-2.090169, 2.0418446)\n",
882 | "2021-03-22 14:05:27,033 : INFO : min/max values after: (-2.09, 2.041)\n",
883 | "2021-03-22 14:05:27,322 : INFO : __________________________________\n",
884 | "2021-03-22 14:05:27,323 : INFO : ft.model.trainables.vectors_ngrams_lockf.npy\n",
885 | "2021-03-22 14:05:27,500 : INFO : min/max values before: (1.0, 1.0)\n",
886 | "2021-03-22 14:05:28,249 : INFO : min/max values after: (1.0, 1.0)\n",
887 | "2021-03-22 14:05:29,133 : INFO : __________________________________\n",
888 | "2021-03-22 14:05:29,134 : INFO : ft.model.trainables.vectors_vocab_lockf.npy\n",
889 | "2021-03-22 14:05:29,220 : INFO : min/max values before: (1.0, 1.0)\n",
890 | "2021-03-22 14:05:29,518 : INFO : min/max values after: (1.0, 1.0)\n",
891 | "2021-03-22 14:05:29,820 : INFO : __________________________________\n",
892 | "2021-03-22 14:05:29,820 : INFO : ft.model.wv.vectors.npy\n",
893 | "2021-03-22 14:05:29,899 : INFO : min/max values before: (-2.720382, 2.59036)\n",
894 | "2021-03-22 14:05:30,374 : INFO : min/max values after: (-2.72, 2.59)\n",
895 | "2021-03-22 14:05:30,679 : INFO : __________________________________\n",
896 | "2021-03-22 14:05:30,680 : INFO : ft.model.wv.vectors_ngrams.npy\n",
897 | "2021-03-22 14:05:30,860 : INFO : min/max values before: (-9.1180725, 10.212996)\n",
898 | "2021-03-22 14:05:32,053 : INFO : min/max values after: (-9.12, 10.21)\n",
899 | "2021-03-22 14:05:33,198 : INFO : __________________________________\n",
900 | "2021-03-22 14:05:33,199 : INFO : ft.model.wv.vectors_vocab.npy\n",
901 | "2021-03-22 14:05:33,285 : INFO : min/max values before: (-11.192483, 12.355845)\n",
902 | "2021-03-22 14:05:33,753 : INFO : min/max values after: (-11.195, 12.36)\n",
903 | "2021-03-22 14:05:34,062 : INFO : __________________________________\n"
904 | ]
905 | }
906 | ],
907 | "source": [
908 | "for file in map(str,Path('.').glob('*.npy')):\n",
909 | " logging.info(file)\n",
910 | " spam = np.load(file)\n",
911 | " logging.info(f'min/max values before: {spam.min(), spam.max()}')\n",
912 | " spam = spam.astype('float16')\n",
913 | " logging.info(f'min/max values after: {spam.min(), spam.max()}')\n",
914 | " with open(file, 'wb') as f:\n",
915 | " np.save(f, spam)\n",
916 | " logging.info('__________________________________')"
917 | ]
918 | },
919 | {
920 | "cell_type": "markdown",
921 | "id": "conscious-bristol",
922 | "metadata": {},
923 | "source": [
924 | "После этих манипуляций файлы занимают 500Мб. Но этого всё-равно недостаточно: надо будет как-то уместить классификатор\n",
925 | "\n",
926 | "Видим, что у нас есть файлы целиком состоящие из единичек (минимальное и максимальное значения - это единицы). Взглянем на них разок"
927 | ]
928 | },
929 | {
930 | "cell_type": "code",
931 | "execution_count": 21,
932 | "id": "chief-healthcare",
933 | "metadata": {},
934 | "outputs": [],
935 | "source": [
936 | "spam = np.load('ft.model.trainables.vectors_ngrams_lockf.npy')"
937 | ]
938 | },
939 | {
940 | "cell_type": "code",
941 | "execution_count": 22,
942 | "id": "unlimited-prisoner",
943 | "metadata": {},
944 | "outputs": [
945 | {
946 | "data": {
947 | "text/plain": [
948 | "array([[1., 1., 1., ..., 1., 1., 1.],\n",
949 | " [1., 1., 1., ..., 1., 1., 1.],\n",
950 | " [1., 1., 1., ..., 1., 1., 1.],\n",
951 | " ...,\n",
952 | " [1., 1., 1., ..., 1., 1., 1.],\n",
953 | " [1., 1., 1., ..., 1., 1., 1.],\n",
954 | " [1., 1., 1., ..., 1., 1., 1.]], dtype=float16)"
955 | ]
956 | },
957 | "execution_count": 22,
958 | "metadata": {},
959 | "output_type": "execute_result"
960 | }
961 | ],
962 | "source": [
963 | "spam"
964 | ]
965 | },
966 | {
967 | "cell_type": "code",
968 | "execution_count": 23,
969 | "id": "revised-taylor",
970 | "metadata": {},
971 | "outputs": [
972 | {
973 | "data": {
974 | "text/plain": [
975 | "(400000, 200)"
976 | ]
977 | },
978 | "execution_count": 23,
979 | "metadata": {},
980 | "output_type": "execute_result"
981 | }
982 | ],
983 | "source": [
984 | "spam.shape"
985 | ]
986 | },
987 | {
988 | "cell_type": "markdown",
989 | "id": "postal-contamination",
990 | "metadata": {},
991 | "source": [
992 | "Ого, вы видели, сколько эта вещь занимает в памяти?! К счастью, архиваторы умеют грамотно сжимать такие файлы из повторяющихся элементов, так что можем быть уверены, что в итоге у нас останется память для классификатора"
993 | ]
994 | },
995 | {
996 | "cell_type": "markdown",
997 | "id": "wired-objective",
998 | "metadata": {},
999 | "source": [
1000 | "### Vector averaging"
1001 | ]
1002 | },
1003 | {
1004 | "cell_type": "markdown",
1005 | "id": "residential-kitty",
1006 | "metadata": {},
1007 | "source": [
1008 | "Извлечём фичи. Для этого получим вектора каждого слова из предложения, сложим их и отнормируем его, чтобы его размер был равен 1. "
1009 | ]
1010 | },
1011 | {
1012 | "cell_type": "code",
1013 | "execution_count": 24,
1014 | "id": "encouraging-football",
1015 | "metadata": {},
1016 | "outputs": [
1017 | {
1018 | "name": "stderr",
1019 | "output_type": "stream",
1020 | "text": [
1021 | "2021-03-22 14:05:41,479 : INFO : loading FastText object from ft.model\n",
1022 | "2021-03-22 14:05:41,690 : INFO : loading wv recursively from ft.model.wv.* with mmap=None\n",
1023 | "2021-03-22 14:05:41,691 : INFO : loading vectors from ft.model.wv.vectors.npy with mmap=None\n",
1024 | "2021-03-22 14:05:41,724 : INFO : loading vectors_vocab from ft.model.wv.vectors_vocab.npy with mmap=None\n",
1025 | "2021-03-22 14:05:41,760 : INFO : loading vectors_ngrams from ft.model.wv.vectors_ngrams.npy with mmap=None\n",
1026 | "2021-03-22 14:05:41,857 : INFO : setting ignored attribute vectors_norm to None\n",
1027 | "2021-03-22 14:05:41,857 : INFO : setting ignored attribute vectors_vocab_norm to None\n",
1028 | "2021-03-22 14:05:41,858 : INFO : setting ignored attribute vectors_ngrams_norm to None\n",
1029 | "2021-03-22 14:05:41,859 : INFO : setting ignored attribute buckets_word to None\n",
1030 | "2021-03-22 14:05:41,859 : INFO : loading vocabulary recursively from ft.model.vocabulary.* with mmap=None\n",
1031 | "2021-03-22 14:05:41,860 : INFO : loading trainables recursively from ft.model.trainables.* with mmap=None\n",
1032 | "2021-03-22 14:05:41,861 : INFO : loading syn1neg from ft.model.trainables.syn1neg.npy with mmap=None\n",
1033 | "2021-03-22 14:05:41,895 : INFO : loading vectors_vocab_lockf from ft.model.trainables.vectors_vocab_lockf.npy with mmap=None\n",
1034 | "2021-03-22 14:05:41,929 : INFO : loading vectors_ngrams_lockf from ft.model.trainables.vectors_ngrams_lockf.npy with mmap=None\n",
1035 | "2021-03-22 14:05:41,997 : INFO : loaded ft.model\n"
1036 | ]
1037 | }
1038 | ],
1039 | "source": [
1040 | "model = FastText.load('ft.model')"
1041 | ]
1042 | },
1043 | {
1044 | "cell_type": "code",
1045 | "execution_count": 25,
1046 | "id": "proper-married",
1047 | "metadata": {},
1048 | "outputs": [],
1049 | "source": [
1050 | "def word_averaging(wv, words):\n",
1051 | " mean = np.zeros((wv.vector_size,))\n",
1052 | " \n",
1053 | " for word in words:\n",
1054 | " mean += wv.get_vector(word)\n",
1055 | "\n",
1056 | " mean = gensim.matutils.unitvec(mean)\n",
1057 | " return mean\n",
1058 | "\n",
1059 | "def word_averaging_list(wv, text_list):\n",
1060 | " return np.vstack([word_averaging(wv, review) for review in text_list])"
1061 | ]
1062 | },
1063 | {
1064 | "cell_type": "markdown",
1065 | "id": "proof-disorder",
1066 | "metadata": {},
1067 | "source": [
1068 | "Также для ускорения алгоритмов классификации приведём полученную матрицу к типу float16"
1069 | ]
1070 | },
1071 | {
1072 | "cell_type": "code",
1073 | "execution_count": 31,
1074 | "id": "close-junction",
1075 | "metadata": {},
1076 | "outputs": [],
1077 | "source": [
1078 | "df.item_name = df.item_name.apply(lambda x: [i for i in x.split() if len(i) > 1])\n",
1079 | "X_wv = word_averaging_list(model.wv, df.item_name)\n",
1080 | "X_wv = X_wv.astype('float16')\n",
1081 | "\n",
1082 | "y = df.category_id"
1083 | ]
1084 | },
1085 | {
1086 | "cell_type": "markdown",
1087 | "id": "front-shareware",
1088 | "metadata": {},
1089 | "source": [
1090 | "Огромный плюс fasttext'а в том, что он может векторизовать слова, даже которых нет в словаре, благодаря ngram'ам"
1091 | ]
1092 | },
1093 | {
1094 | "cell_type": "markdown",
1095 | "id": "expected-think",
1096 | "metadata": {},
1097 | "source": [
1098 | "## Classification"
1099 | ]
1100 | },
1101 | {
1102 | "cell_type": "markdown",
1103 | "id": "approximate-palace",
1104 | "metadata": {},
1105 | "source": [
1106 | "Наконец-то перейдём к классификации. Будем использовать модель SVM для классификации. Она показала здесь лучшее качество. Также не забудем отнормировать данные перед подачей в классификатор: сделаем пайплайн"
1107 | ]
1108 | },
1109 | {
1110 | "cell_type": "code",
1111 | "execution_count": 32,
1112 | "id": "caring-armstrong",
1113 | "metadata": {},
1114 | "outputs": [],
1115 | "source": [
1116 | "pipe = make_pipeline(\n",
1117 | " StandardScaler(),\n",
1118 | " SVC(random_state=0),\n",
1119 | ")"
1120 | ]
1121 | },
1122 | {
1123 | "cell_type": "code",
1124 | "execution_count": 33,
1125 | "id": "editorial-federation",
1126 | "metadata": {},
1127 | "outputs": [
1128 | {
1129 | "name": "stdout",
1130 | "output_type": "stream",
1131 | "text": [
1132 | "Wall time: 5min 56s\n"
1133 | ]
1134 | },
1135 | {
1136 | "data": {
1137 | "text/plain": [
1138 | "array([0.86135208, 0.85232645, 0.85836571, 0.85216471, 0.86253755])"
1139 | ]
1140 | },
1141 | "execution_count": 33,
1142 | "metadata": {},
1143 | "output_type": "execute_result"
1144 | }
1145 | ],
1146 | "source": [
1147 | "%%time\n",
1148 | "cross_val_score(pipe, \n",
1149 | " X_wv, \n",
1150 | " y, \n",
1151 | " scoring='f1_weighted',\n",
1152 | " cv=StratifiedKFold(5, \n",
1153 | " shuffle=True, \n",
1154 | " random_state=0), \n",
1155 | " n_jobs=5\n",
1156 | ")"
1157 | ]
1158 | },
1159 | {
1160 | "cell_type": "markdown",
1161 | "id": "starting-mandate",
1162 | "metadata": {},
1163 | "source": [
1164 | "Итак, получили неплохое качество на крос-валидации. Обучим на всех данных и сохраним модель"
1165 | ]
1166 | },
1167 | {
1168 | "cell_type": "code",
1169 | "execution_count": null,
1170 | "id": "fifteen-sampling",
1171 | "metadata": {},
1172 | "outputs": [],
1173 | "source": [
1174 | "pipe.fit(X_wv, y)\n",
1175 | "pickle.dump(pipe, open(f'clf_task1', 'wb'))"
1176 | ]
1177 | },
1178 | {
1179 | "cell_type": "markdown",
1180 | "id": "young-speaker",
1181 | "metadata": {},
1182 | "source": [
1183 | "## Conclusion"
1184 | ]
1185 | },
1186 | {
1187 | "cell_type": "markdown",
1188 | "id": "weekly-possibility",
1189 | "metadata": {},
1190 | "source": [
1191 | "На тесте данное решение получило 0.865. Особую благодарность хотелось бы выразить [@dremovd](https://github.com/dremovd), с которым мы были в одной команде. Он направлял меня в нужную сторону, и без него мы бы не вышли в топ-10.\n",
1192 | "\n",
1193 | "Спасибо за ресёрч данного ноутбука, в нём я привёл в краткой форме решение задачи. Ждите более расширенного решения с анализом ошибок, стакингом и постпроцессингом :) \n",
1194 | "\n",
1195 | "До новых встреч!"
1196 | ]
1197 | }
1198 | ],
1199 | "metadata": {
1200 | "kernelspec": {
1201 | "display_name": "Python 3",
1202 | "language": "python",
1203 | "name": "python3"
1204 | },
1205 | "language_info": {
1206 | "codemirror_mode": {
1207 | "name": "ipython",
1208 | "version": 3
1209 | },
1210 | "file_extension": ".py",
1211 | "mimetype": "text/x-python",
1212 | "name": "python",
1213 | "nbconvert_exporter": "python",
1214 | "pygments_lexer": "ipython3",
1215 | "version": "3.9.1"
1216 | }
1217 | },
1218 | "nbformat": 4,
1219 | "nbformat_minor": 5
1220 | }
1221 |
--------------------------------------------------------------------------------