├── README.md ├── projects.md ├── roadmap ├── README.md └── Road_map.png ├── summer_internships.md └── test_task.md /README.md: -------------------------------------------------------------------------------- 1 | Main 2 | 3 | # Кратко 4 | 5 | Это небольшое сообщество ребят с ИСа, объединённое желанием + возможностью развиваться в машинном обучении. Мы помогаем получить опыт разработки и исследований и расширить знания по классическому обучению и deep learning'у путём менторства, участия в ML контестах и внутренних проектах 6 | 7 | Мы не заставим что-то делать или в чём-то участвовать, а лишь ответим на вопросы и дадим направления развития 8 | 9 | # Зачем тебе к нам? 10 | 11 | 1. Поможем не оказаться один на один с трудностями, которые так или иначе возникнут на пути 12 | 1. Предложим полезные ресурсы для обучения, проекты для обучения настоящей ml разработки и соревнования для повышения своего уровня 13 | 1. Вместе всегда веселее 14 | 15 | # Не настолько кратко 16 | 17 | [Наши проекты](https://github.com/Mashin-Lyorning/Main/blob/master/projects.md) 18 | 19 | [Как вступить](https://github.com/Mashin-Lyorning/Main/blob/master/test_task.md) 20 | 21 | [Roadmap](https://github.com/Mashin-Lyorning/Main/blob/master/roadmap/) 22 | 23 | [Куда подавать на летнюю стажку](https://github.com/Mashin-Lyorning/Main/blob/master/summer_internships.md) 24 | -------------------------------------------------------------------------------- /projects.md: -------------------------------------------------------------------------------- 1 | 2 | ## Интенсив «Цифровые сервисы для персональных ассистентов» 3 | 4 | Участие в школе-интенсиве, организованной Лабораторией Финансовых Технологий Университета ИТМО 5 | 6 | Разработка моделей для предсказания психотипа покупателя по музыке на его странице. Разработка моделей рекомендации брендов покупателям по их психотипам 7 | 8 | [Ссылка](https://github.com/mlsect-dojo/Intense) на репозиторий проекта 9 | 10 | ## Хакатон Райффайзен DS 11 | 12 | Участие в хакатоне по предсказанию цен на аренду коммерческой недвижимости Райффайзен Банка 13 | 14 | [Ссылка](https://github.com/mlsect-dojo/RaifhackDS)на репозиторий проекта 15 | 16 | ## Автоматическая проверка плагиата исходного кода 17 | 18 | Проблема списывания актуальна в любом университете. Проверить на списывание программы ещё сложнее, потому что языки программирования более формальны, чем естественные. Мы решили взяться за эту проблему 19 | [Ссылка](https://github.com/mlsect-dojo/plagchecker) на репозиторий проекта 20 | 21 | ## Название проекта, которым займёшься ты 22 | 23 | Обсудим интересные тебе темы, распланируем разработку и будем делать что-то интересное и технологичное 24 | -------------------------------------------------------------------------------- /roadmap/README.md: -------------------------------------------------------------------------------- 1 | # Дорожная карта 2 | Тут представлен один из возможных путей развития в МЛ. Карта со временем дополняется. 3 | После карты можно посмотреть на описание и ссылки для каждого листа дерева. 4 | 5 | ![alt text](Road_map.png "Дорожная карта") 6 | 7 | 8 | 9 | Есть полезный и понятный материал - скинь в беседу 10 | 11 | 12 | 13 | ## Python 14 | 15 | Для ленивых: 16 | - [Базовый](https://stepik.org/course/67/syllabus) курс 17 | - [Продвинутый](https://stepik.org/course/512/syllabus) курс 18 | - [Базовые штуки в pandas](https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html) 19 | - [Паттерны проектирования](https://refactoring.guru/ru/design-patterns) для маленьких 20 | 21 | Для целеустремлённых: 22 | - [Python Object oriented Programming](https://www.amazon.com/Python-Object-oriented-Programming-Building-maintainable/dp/1784398780) по сути практический гайд по тому, как писать не отвратительный код [pdf](https://vk.com/proglib/books?w=wall-54530371_323883) 23 | - [High performance Python](https://www.amazon.com/High-Performance-Python-Performant-Programming/dp/1492055026) про оптимизации кода, параллельность и экономию железа. [фулл](https://vk.com/doc22120388_437615949?hash=a7d8affb64ea7f0e2a&dl=7b70932342fb19bf5d) 24 | 25 | 26 | ## Pytorch 27 | - [Кишки torch.Tensor и autograd](http://blog.ezyang.com/2019/05/pytorch-internals/) 28 | - [Дока](https://pytorch.org/docs/stable/index.html) 29 | - [Dataset и DataLoader](https://pytorch.org/tutorials/beginner/basics/data_tutorial.html) 30 | - [Сохранение весов](https://pytorch.org/tutorials/beginner/basics/saveloadrun_tutorial.html) 31 | 32 | 33 | ## Математика 34 | 35 | Ознакомительно: 36 | - Матан: [ФНП](http://mathprofi.ru/funkcija_dvuh_peremennyh_oblast_opredelenija_linii_urovnja.html) [Градиент](http://mathprofi.ru/proizvodnaja_po_napravleniju_i_gradient.html), [Экстремумы ФНП](http://mathprofi.ru/extremumy_funkcij_dvuh_i_treh_peremennyh.html). 37 | - Линал: [Лекция DLS](https://www.youtube.com/watch?v=MJlNjtwzgH4&ab_channel=DeepLearningSchool), [Семинар DLS](https://www.youtube.com/watch?v=8dQacKEwLCQ&ab_channel=DeepLearningSchool) 38 | - [Deeplearning Book](https://github.com/janishar/mit-deep-learning-book-pdf/blob/master/complete-book-bookmarked-pdf/deeplearningbook.pdf) главы 2-5, базовый линал для ML, методы оптимизации и категории ML алгоритмов 39 | - Курс по теорверу [часть 1](https://stepik.org/course/3089), [часть 2](https://stepik.org/course/57281/promo?search=726745642) 40 | 41 | Фундаментально: 42 | - Теория Графов: Шевелев/Харари 43 | - Теория множеств: Шевелев, 1 семестр дискретки(вполне хватает, если хорошо учить) 44 | - Основные понятия мат.статистики: Гмурман: Выборка, Оценки, Доверительные интервалы, Корреляция и лин.регрессия, Бутстрэп 45 | 46 | 47 | ## Классический ML 48 | 49 | Ознакомительно: 50 | - [Курс](https://youtu.be/OBG6EUSRC9g?list=PLEqoHzpnmTfDwuwrFHWVHdr1-qJsfqCUX) от ФКН ВШЭ. Линейные и нелинейные модели, метрики, деревья решений, ансамбирование, кластеризация, уменьшение размерности 51 | - [Курс](https://www.youtube.com/channel/UCMtArJYNAfheQ56AtjBj_SA) от Лаборатории машинного обучения ИТМО, лекции 1-6 52 | - [Регуляризация(см L1, L2, ElastikNet)](https://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F), [ещё 7 глава тут](https://github.com/janishar/mit-deep-learning-book-pdf/blob/master/complete-book-bookmarked-pdf/deeplearningbook.pdf) 53 | - [Кластеризация](https://neerc.ifmo.ru/wiki/index.php?title=%D0%9A%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F), Понижение размерности: PCA, SVD 54 | - [Старт в компьютерное зрение](https://courses.openedu.ru/courses/course-v1:ITMOUniversity+IMAGPROC+fall_2021_ITMO/courseware) 55 | - [Компьютерное зрение (нет, не нейросети)](youtube.com/playlist?list=PLcsjsqLLSfND4bGJH6vZ9Xs2rhPbmH946) 56 | - [Книга по компьютерному зрению (опять не нейросети)](https://www.combook.ru/product/11307454/?gclid=Cj0KCQjw_8mHBhClARIsABfFgpihRKPhW6dQoX3c1UAdT29mKNfpXxCvE64K3lWSKwzOM_i6NJLLsfIaAmMvEALw_wcB) 57 | 58 | Фундаментально: 59 | - [Книжка Яндекс ШАДа](https://ml-handbook.ru/) по основам ML алгоритмов 60 | - Книжка [Hands-On Machine Learning](https://www.oreilly.com/library/view/hands-on-machine-learning/9781492032632/) 3-8 главы, фулл [здесь](https://t.me/machinelearningtoday), rus вариант есть в чате 61 | 62 | 63 | ## Нейронные сети и deep learning 64 | 65 | Ознакомительно: 66 | - [Курс](https://stepik.org/course/50352/syllabus) Samsung AI Center 67 | - [Deep Learning School NLP course](https://www.youtube.com/watch?v=d0oV1MZ_KdE&list=PL0Ks75aof3Ti1GDgeePUkCJWn02c0VDA5) 68 | 69 | Фундаментально: 70 | - [Deeplearning Book](https://github.com/janishar/mit-deep-learning-book-pdf/blob/master/complete-book-bookmarked-pdf/deeplearningbook.pdf) 8 глава подробнее про методы оптимизации 71 | - [Deeplearning Book](https://github.com/janishar/mit-deep-learning-book-pdf/blob/master/complete-book-bookmarked-pdf/deeplearningbook.pdf) 6, 9-11 главы - DL архитектуры для работы с разными видами данных 72 | - Deep Learning School 73 | 74 | 75 | ## Development 76 | 77 | - [JupyterLab](http://jupyterlab.io/install) 78 | - PyCharm 79 | - [Методология git flow](https://www.gitkraken.com/learn/git/git-flow) 80 | - TensorBoard, Weights&Biases 81 | 82 | 83 | ## Выжимки информации, собеседования 84 | 85 | - [Data science cheetsheet](https://github.com/aaronwangy/Data-Science-Cheatsheet/blob/main/Data_Science_Cheatsheet.pdf) 86 | - [Краткая теория на английском про классический ML](https://github.com/alexeygrigorev/data-science-interviews/blob/master/theory.md) 87 | 88 | 89 | ## Резюме 90 | 91 | - [Тут](https://www.overleaf.com) можно натехать что-то красивое 92 | - Минималистичный [пример](https://github.com/zachscrivena/simple-resume-cv) 93 | - Чуть менее минималистичный [пример](https://github.com/dcetin/Simple-CV) 94 | -------------------------------------------------------------------------------- /roadmap/Road_map.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/mlsect-dojo/Main/32439ca454ef030e5a4f78a453b4e866652212cc/roadmap/Road_map.png -------------------------------------------------------------------------------- /summer_internships.md: -------------------------------------------------------------------------------- 1 | # Летние ML стажировки 2 | 3 | Заявки можно подавать в компании с русскоязычными стажками вроде этих 4 | 5 | | Компания | Начало подачи заявок | Дедлайн подачи заявок | Тестовое при подаче | Примеры прошлых тестовых | Описание | 6 | | -------- | -------------------- | --------------------- | ------------------- | ---------------- | -------- | 7 | | [ВКонтакте](vk.com/edu) | 02.04 | 14.06 | Реализация ML алгоритмов | доступны | Рекомендации, голосовые сервисы | 8 | | [Тинькофф Банк](https://fintech.tinkoff.ru/study/start/ml_engineer/) | 12.03 | 15.04 | Контенст по матеше и проге | хз | Рекомендации, чат-боты, NLP, лучший банк, лучший ментор | 9 | | [Яндекс](https://yandex.ru/yaintern/int_03) | сейчас | середина апреля? | Алгоритмические и ML собесы | Нет | ML/DL 10 | | [JetBrains](https://internship.jetbrains.com/) | 29.03 | 11.04 | Зависит от проекта | Нет | Умные плагины, либо исследования | 11 | | [NCCR ITMO](https://actcognitive.org/posts/91/letnyaya-stazhirovka-v-natsionalnom-tsentre-kognitivnykh-razrabotok-itmo/) | сейчас | 21.06 | мотивационное письмо | Нет | ФинТех лаборатория. ML, CV | 12 | | [МТС](https://job.mts.ru/youth#vacancies) | хз | май? | Интервью | Нет | ML, Audio DL, Chat-bots | 13 | | [Huawei](https://career.huawei.ru/rri/) | хз | хз | хз | нет | ML/DL | 14 | | [Альфа Банк](https://alfabanklive.ru/ichoosealfa) | сейчас | 30.04 | хз | Нет | хз | 15 | | [Mail.ru Group](https://team.mail.ru/vacancy/?specialty=&town=&tag=&search=intern) | В течение года | В течение года | Нет | Нет | DS, RecSys, CV, NLP(?) | 16 | 17 | Международные стажки(не делал проверку на возможность работы из России/выдачу рабочих виз) 18 | 19 | | Компания | Начало подачи заявок | Дедлайн подачи заявок | Тестовое при подаче | Примеры прошлых тестовых | Описание | 20 | | -------- | -------------------- | --------------------- | ------------------- | ---------------- | -------- | 21 | | [IMC Trading](https://careers.imc.com/us/en/job/REQ-01307/Quantitative-Researcher-Intern) | хз | хз | хз | хз | Quantitative Researcher Intern(ну а вдруг кто захочет) | 22 | | [eBay](https://jobs.ebayinc.com/job/netanya/jr-analyst-intern-seller-insights/403/6488828560) | хз | хз | хз | хз | research in the fields of Recommendation Systems, Machine Learning, NLP and Information Retrieval + Аналитика| 23 | | [VISA](https://jobs.smartrecruiters.com/Visa/743999750412049-associate-new-graduate-development-program-for-fresh-graduates-english-application-required-?trid=623f64f4-c657-499b-989f-16ab0ccee0d9) | Сейчас(?) | хз | хз | хз | DS | 24 | | [Akuna Capital](https://akunacapital.com/careers#careers) | хз | стажка на лето 2022, хз | хз | хз | Quantitave | 25 | | [Fidelity](https://jobs.fidelity.com/students/) | хз | хз | хз | хз | DS | 26 | | [JP Morgan Chase](https://careers.jpmorgan.com/us/en/students/programs/data-analytics-opportunities) | хз | хз | хз | хз | machine learning and deep learning models to solve problems in areas like Speech Recognition, Natural Language Processing and Time Series predictions | 27 | | [Microsoft](https://careers.microsoft.com/us/en/search-results?keywords=intern) | хз | хз | хз | хз | Reseach, AI, ML | 28 | | [Apple](https://jobs.apple.com/en-us/details/200253211/machine-learning-ai-internship?team=STDNT) | хз | хз | хз | хз | research & development in the areas of machine learning (ML) with particular focus on deep learning (DL), computer vision (CV), Natural Language Processing (NLP), optimization, and reinforcement learning (RL) | 29 | | [Facebook](https://www.facebook.com/careers/jobs/?roles%5B0%5D=intern) | хз | хз | хз | хз | нашел только PhD программы, но мб потом что-то появится(вряд ли)| 30 | | [Dropbox](https://www.dropbox.com/jobs/teams/eng_university_grads#open-positions) | конец августа 2021 | хз | хз | хз | хз | 31 | | [Twitch](https://www.twitch.tv/jobs/internships) | сейчас | хз | хз | хз | ml, но хз про возможность для бакалавров | 32 | | [Amazon](https://www.amazon.jobs/en/search?offset=0&result_limit=10&sort=relevant&category%5B%5D=machine-learning-science&category_type=studentprograms&distanceType=Mi&radius=24km&latitude=&longitude=&loc_group_id=&loc_query=&base_query=&city=&country=®ion=&county=&query_options=&) | хз | хз | хз | хз | ML, CV, other, но вроде как тоже не для бакалавров | 33 | | [Qualcomm](https://qualcomm.wd5.myworkdayjobs.com/External/2/refreshFacet/318c8bb6f553100021d223d9780d30be) | хз | хз | хз | хз | DL | 34 | | [Atlassian](https://www.atlassian.com/company/careers/students?tab=interns) | хз | хз | хз | хз | ML etc | 35 | | [Twitter](https://internshipprogram.splashthat.com/) | хз | хз | хз | хз | хз | 36 | | [Google](https://careers.google.com/jobs/results/?company=Google&company=YouTube&employment_type=INTERN&jlo=en_US&q=Information%20Technology%20Intern&skills=Bachelor&src=Online%2FTOPS%2FTOPS_site&utm_campaign=IT&utm_medium=site&utm_source=TOPS) | хз | хз | хз | хз | ML, Reseach, SWE | 37 | | []() | хз | хз | хз | хз | | 38 | | []() | хз | хз | хз | хз | | 39 | | []() | хз | хз | хз | хз | | 40 | 41 | 42 | 43 | Или воспользоваться [опытом](https://telegra.ph/Kak-projti-na-stazhirovku-v-Bloomberg-02-02) tg@VeriuMaxon о процессе подачи на стажки в зарубежных компаниях. Список компаний не про ML, но с большой вероятностью ML/Data Science стажки там есть 44 | 45 | Табличка будет обновляться 46 | -------------------------------------------------------------------------------- /test_task.md: -------------------------------------------------------------------------------- 1 | # Как попасть к нам 2 | 3 | Чтобы не создавать текучку, мы отбираем мотивированных ребят с помощью тестовых заданий. Требуется выполнить **одно** из приведённых в списке ниже. Если у тебя нет знаний и опыта в ML, то мы всё равно рады тебе. Если ты пока не знаком с языком Python, то можешь выбрать книжки или курсы из roadmap, после чего точно справишься с заданием 4 | 5 | Приведённые ниже задачи непростые, они требуют времени и сил, чтобы разобраться в теме и написать решение. Однако качественное выполнение такого задания будет хорошим первым пунктом в твоём резюме ML специалиста. На любом этапе можно задавать вопросы по возникающим трудностям 6 | 7 | Решение предлагается оформить в виде github репозитория и прислать ссылку. 8 | 9 | # Задания 10 | 11 | ## 1. Natural Language Processing 12 | 13 | Обработка естественного языка - это область, благодаря которой сейчас есть отличные поисковики, чат-боты, хороший Т9, фильтрация спама и рекомендации в соц сетях. В качестве несложного задания предлагается ознакомиться с [датасетом](https://www.kaggle.com/c/sect-test-ml-task) на соревновательной платформе kaggle. 14 | 15 | В нём представлено около 10 категорий профессий, для каждой из которых приведено 30-50 конкретных специальностей и их описаний. Но у части данных не размечена категория профессии. Тебе нужно написать модель, которая будет автоматически подбирать наиболее подходящую под описание категорию. Больше подробностей есть на странице с датасетом 16 | 17 | ## 2. Classic ML 18 | Часто машинное обучение воспринимают как множество подходов для предсказания простых численных данных. Не всегда нужно закапываться в картинки или разгребать гигабайты аудио датасетов, чтобы заниматься машинным обучением. 19 | 20 | В качестве тестового предлагается предсказать популярность песни на Spotify по её характеристикам c помощью [этого датасета](https://www.kaggle.com/zaheenhamidani/ultimate-spotify-tracks-db). Можно начать с модели линейной регрессии 21 | 22 | ## 3. Computer Vision 23 | 24 | Компьюетрное зрение - это область, благодаря которой сейчас можно искать в интернете по картинке, улучшать качество фотографий, раскрашивать старые чёрно-белые фото, за доли секунды находить иголки в стоге сена, отслеживать положение предметов в пространстве и многое другое. 25 | 26 | В качестве задания предлагается реализовать модель классификации изображений рукописных цифр. По этой задаче написано немало постов, которые могут помочь разобраться в библиотеках и подходах решений. Работу реализованной модели нужно продемонстрировать на [похожем на MNIST датасете](https://www.kaggle.com/c/ml-sect-contest-hahaha-classic/data) 27 | 28 | ## 4. Voice Processing 29 | 30 | Обработка голоса позволяет нам слушать как голосовые ассистенты отвечают за нас на звонки спамеров и троллят их, автоматизировать работу огромных колл-центров, подтверждать свою личность по голосу, распознавать речь и синтезировать её голосом другого человека. 31 | 32 | В качестве задания предлагается найти или создать самостоятельно небольшой датасет с короткими записями голосов 3-5 человек, реализовать несложную модель для создания эмбеддингов голоса и показать качество работы этой модели. Прочитать подробнее про эмбеддинги можно в первой половине [этого поста](https://habr.com/ru/company/ods/blog/329410/). В качестве основы модели создания эмбеддингов звука рекомендуется брать результаты [процедуры mfcc](https://pytorch.org/audio/stable/transforms.html#mfcc). Для отображения эмбеддингов графически рекомендуется использовать [t-SNE](https://www.machinelearningmastery.ru/visualize-high-dimensional-data-fast-watson-studio-ebad7e7e1b6a/). 33 | 34 | ## 5. Reinforcement Learning 35 | 36 | Обучение с подкреплением позволяет создавать ботов для игры в человеческие игры - от змейки до DoTA 2. В этой области модели выступают в роли игроков и обучаются достигать в своём симулированном мире наибольшей награды за свои действия. 37 | 38 | В качестве тестового задания предлагается посадить ракету на луну... в [LunarLander](https://gym.openai.com/envs/LunarLander-v2/). Для этого нужно будет познакомиться с библиотекой openAI Gym и разобраться в подходе Deep Q Network 39 | 40 | ## 6. Recommendations 41 | 42 | Рекомендаци преследуют нас повсюда - от рекламы до песен и новостей. Рекомендовать можно изображения, тексты, музыку - что угодно. В качестве тестового задания предлагается разобраться в [датасете Movielens](https://grouplens.org/datasets/movielens/20m/) и простых моделях рекомендаций. Реализуй одну из моделей из проверь качество рекомендаций с помощью [рекомендательных метрик](https://habr.com/ru/company/lanit/blog/420499/). 43 | 44 | 45 | # Заманчиво... 46 | 47 | Тогда пиши в тг @arqtty 48 | --------------------------------------------------------------------------------