├── data ├── data_machine_learning.md ├── data_geospatial.md ├── data_finance.md ├── data_computer_vision.md ├── data_data_science.md └── data_nlp.md ├── courses ├── courses_finance.md ├── courses_big_data.md ├── courses_geospatial.md ├── courses_computer_vision.md ├── courses_nlp.md ├── courses_neural_networks.md ├── courses_machine_learning.md └── courses_data_science.md ├── social ├── social_big_data.md ├── social_computer_vision.md ├── social_neural_networks.md ├── social_nlp.md ├── social_geospatial.md ├── social_machine_learning.md └── social_data_science.md ├── .gitignore ├── software ├── software_neural_networks.md ├── software_machine_learning.md ├── software_data_science.md ├── software_nlp.md ├── software_big_data.md ├── software_geospatial.md └── software_computer_vision.md ├── .claude ├── claude.json ├── commands │ ├── add-resource.md │ ├── update-readme.md │ └── check-links.md └── skills │ ├── add-book.md │ ├── rebuild-readme.md │ ├── add-dataset.md │ ├── add-course.md │ ├── add-software.md │ ├── add-article.md │ └── validate-links.md ├── books ├── books_geospatial.md ├── books_finance.md ├── books_big_data.md ├── books_neural_networks.md ├── books_computer_vision.md ├── books_nlp.md ├── books_machine_learning.md └── books_data_science.md ├── LICENSE ├── README.md └── main_readme_constructor.ipynb /data/data_machine_learning.md: -------------------------------------------------------------------------------- 1 | # Открытые данные для оценки качества моделей машинного обучения 2 | 3 | - [Репозиторий UC Irvine Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets.php) – около 500 датасетов для проверки моделей машинного обучения -------------------------------------------------------------------------------- /courses/courses_finance.md: -------------------------------------------------------------------------------- 1 | ## Курсы по анализу финансовых данных 2 | - [Курс по эконометрике ВШЭ](https://www.coursera.org/learn/ekonometrika) 3 | - [Applying Data Analytics in Finance](https://www.coursera.org/learn/applying-data-analytics-business-in-finance) ― Coursera, требуется знание R 4 | - [Python and Statistics for Financial Analysis](https://www.coursera.org/learn/python-statistics-financial-analysis) – курс Гонконгского университета науки и технологии -------------------------------------------------------------------------------- /courses/courses_big_data.md: -------------------------------------------------------------------------------- 1 | # Курсы по Big Data 2 | 3 | - [Hadoop. Система для обработки больших объемов данных](https://stepik.org/course/150/) (Stepik, ★4.8) 4 | - [Материалы курса «Масштабируемое машинное обучение и анализ больших данных с Apache Spark»](https://github.com/a4tunado/lectures-hse-spark) 5 | - [Технологии хранения и обработки больших объемов данных](https://www.youtube.com/watch?v=PukjnXwGDaE&list=PLlb7e2G7aSpS_tveNoxgn1Zqmg-VhD95i) (YouTube, Computer Science Center) 6 | -------------------------------------------------------------------------------- /social/social_big_data.md: -------------------------------------------------------------------------------- 1 | # Источники, прицельно посвященные вопросам Big Data 2 | 3 | ## Reddit 4 | 5 | - [/bigdata](https://www.reddit.com/r/bigdata) 6 | - [/bigdatajobs](https://www.reddit.com/r/bigdatajobs) 7 | 8 | ## Telegram 9 | 10 | - [Чат Big Data на русском](https://t.me/bigdata_ru) 11 | - [Чат Big Data на английском](https://t.me/bigdata_en) 12 | 13 | 14 | ## Хабы Habr 15 | 16 | - [Big Data](https://habr.com/ru/hub/bigdata/) 17 | - [Hadoop](https://habr.com/ru/hub/Hadoop/) 18 | -------------------------------------------------------------------------------- /social/social_computer_vision.md: -------------------------------------------------------------------------------- 1 | # Блоги, соцсети и другие издания, прицельно посвященные вопросам компьютерного зрения 2 | 3 | ## Reddit 4 | - [/computervision](https://www.reddit.com/r/computervision) 5 | 6 | ## YouTube 7 | - Записи с соревнований по [компьютерному зрению](https://www.youtube.com/watch?v=RUfmEj1MC3k&list=PLTlO6nV_TaGAErLwfEvkll-_tzMjYteYu), [распознаванию изображений](https://www.youtube.com/watch?v=DZIlnmbAnqc&list=PLTlO6nV_TaGD8-uScRs0ko4wfadIwUrML) 8 | 9 | ## Хабы Habr 10 | - [Обработка изображений](https://habr.com/ru/hub/image_processing/) 11 | -------------------------------------------------------------------------------- /.gitignore: -------------------------------------------------------------------------------- 1 | # General 2 | .DS_Store 3 | .AppleDouble 4 | .LSOverride 5 | 6 | # Icon must end with two \r 7 | Icon 8 | 9 | # Thumbnails 10 | ._* 11 | 12 | # Files that might appear in the root of a volume 13 | .DocumentRevisions-V100 14 | .fseventsd 15 | .Spotlight-V100 16 | .TemporaryItems 17 | .Trashes 18 | .VolumeIcon.icns 19 | .com.apple.timemachine.donotpresent 20 | 21 | # Directories potentially created on remote AFP share 22 | .AppleDB 23 | .AppleDesktop 24 | Network Trash Folder 25 | Temporary Items 26 | .apdisk 27 | 28 | # Claude Code 29 | .link-check-cache.json 30 | -------------------------------------------------------------------------------- /courses/courses_geospatial.md: -------------------------------------------------------------------------------- 1 | # Курсы по анализу геоданных 2 | - [Онлайн-курс «Визуализация геоданных»](https://github.com/minikarma/geotalk) (видео и блокноты Jupyter) 3 | - [Kaggle: Geospatial Analysis](https://www.kaggle.com/learn/geospatial-analysis) 4 | - [Maps and the Geospatial Revolution](https://class.coursera.org/maps-002) — курс на Coursera про картографию 5 | - [From GPS and Google Maps to Spatial Computing](https://www.coursera.org/course/spatialcomputing)(Coursera) 6 | - [Специализация по ГИС от Coursera и Калифорнийского университета в Девисе](https://ru.coursera.org/specializations/gis) -------------------------------------------------------------------------------- /software/software_neural_networks.md: -------------------------------------------------------------------------------- 1 | # Библиотеки и другие готовые решения для работы с нейросетями и глубоким обучением 2 | 3 | - [thinc](https://github.com/explosion/thinc) – легкая библиотека глубокого обучения c API функционального программирования с проверкой типов для создания моделей с поддержкой слоев, определенных в других средах, таких как PyTorch, TensorFlow и MXNet 4 | - [Keras](https://keras.io/): [документация по API](https://keras.io/api/), [руководства](https://keras.io/guides/), 5 | - [TensorFlow](https://www.tensorflow.org/): [документация по API](https://www.tensorflow.org/api_docs) 6 | - [PyTorch](https://pytorch.org/) 7 | - [Caffe](http://caffe.berkeleyvision.org/) 8 | 9 | # GPT-подобные нейросети 10 | - [YaLM 100B](https://github.com/yandex/YaLM-100B) -------------------------------------------------------------------------------- /.claude/claude.json: -------------------------------------------------------------------------------- 1 | { 2 | "project": { 3 | "name": "Data Science Resources", 4 | "description": "Коллекция бесплатных ресурсов по Data Science и Machine Learning", 5 | "version": "1.0.0", 6 | "repository": "https://github.com/matyushkin/ds", 7 | "author": "Leo Matyushkin", 8 | "license": "MIT", 9 | "topics": [ 10 | "data-science", 11 | "machine-learning", 12 | "neural-networks", 13 | "computer-vision", 14 | "geospatial", 15 | "nlp", 16 | "finance", 17 | "big-data" 18 | ] 19 | }, 20 | "skills": { 21 | "directory": ".claude/skills" 22 | }, 23 | "commands": { 24 | "directory": ".claude/commands" 25 | }, 26 | "settings": { 27 | "language": "ru", 28 | "autoCommit": false, 29 | "defaultBranch": "main" 30 | } 31 | } 32 | -------------------------------------------------------------------------------- /courses/courses_computer_vision.md: -------------------------------------------------------------------------------- 1 | ## Курсы по компьютерному зрению 2 | - [Нейронные сети и компьютерное зрение](https://stepik.org/course/50352) (Stepik, ★4.9) 3 | - [Учебный план по основам компьютерного зрения](https://proglib.io/p/cv-plan) 4 | - [Факультатив "Введение в компьютерное зрение" (по материалам CS131)](https://github.com/ml-dafe/cv_mipt_minor) (блокноты Jupyter) 5 | - [Видеокурс компьютерного зрения в ВМК МГУ](https://vk.com/mrzaur?w=wall114127459_2065%2Fall) 6 | - [OpenCV шаг за шагом](http://robocraft.ru/page/opencv/) – надо знать С++ 7 | - [Анализ изображений и видео](https://www.youtube.com/watch?v=zNCvTcoM1I4&list=PLlb7e2G7aSpR6L3pqVh8124ZITsmWckQZ) (YouTube, Computer Science Center), ([вторая часть](https://www.youtube.com/watch?v=azkzDWi8X64&list=PLlb7e2G7aSpQ4C5ykr2Ce1mfxM01l6_HV)) 8 | - [Kaggle: Computer Vision](https://www.kaggle.com/learn/computer-vision) -------------------------------------------------------------------------------- /social/social_neural_networks.md: -------------------------------------------------------------------------------- 1 | # Блоги, каналы и паблики, посвященные вопросам нейронных сетей и глубокого обучения 2 | 3 | ## Telegram 4 | 5 | - [Канал сообщества DeepLearning](https://t.me/deeplearning_ru) 6 | 7 | ## VK 8 | 9 | - [Deep Learning](https://vk.com/deeplearning) 10 | - [DeepLearning (Глубокие нейронные сети)](https://vk.com/deeplearning_ru) 11 | 12 | ## Отдельные статьи 13 | 14 | - 🤼 [Генеративно-состязательная нейросеть: ваша первая GAN-модель на PyTorch](https://proglib.io/p/generativno-sostyazatelnaya-neyroset-vasha-pervaya-gan-model-na-pytorch-2020-08-11) ([Jupyter](https://github.com/matyushkin/lessons/blob/master/neural_networks/GAN_intro.ipynb)) ([ист.](https://realpython.com/generative-adversarial-networks/)) 15 | - [Иллюстрированный туториал о BERT](http://jalammar.github.io/a-visual-guide-to-using-bert-for-the-first-time/) (англ.) 16 | -------------------------------------------------------------------------------- /books/books_geospatial.md: -------------------------------------------------------------------------------- 1 | ## Книги по обработке геоданных 2 | 3 | - Joel Lawhead. QGIS Python Programming Cookbook. Packt Publishing, 2017 (рецепты по работе с QGIS Python API) 4 | - Silas Toms, Dara O'Beirne. ArcPy and ArcGIS. Automating ArcGIS for Desktop and ArcGIS Online with Python. Packt Publishing, 2017 5 | - Westra E. Python Geospatial Development, Third Edition. Packt Publishing, 2016 6 | - Michael Diener. Python Geospatial Analysis Cookbook. Packt Publishing, 2015 7 | - Joel Lawhead. Learning GeoSpatial Analysis with Python, 2nd Edition. Packt Publishing, 2015 8 | - Michael Dorman. Learning R for Geospatial Analysis. Packt Publishing, 2014 9 | 10 | ### На русском языке 11 | 12 | - Нинчуань Сяо. Алгоритмы ГИС. Теория и применение геоинформационных систем и технологий. ДМК Пресс, 2021 13 | - Вестра Э. Разработка геоприложений на языке Python / пер. с англ. А. В. Логунова. – М.: ДМК Пресс, 2017 14 | -------------------------------------------------------------------------------- /LICENSE: -------------------------------------------------------------------------------- 1 | MIT License 2 | 3 | Copyright (c) 2020 Leo Matyushkin 4 | 5 | Permission is hereby granted, free of charge, to any person obtaining a copy 6 | of this software and associated documentation files (the "Software"), to deal 7 | in the Software without restriction, including without limitation the rights 8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell 9 | copies of the Software, and to permit persons to whom the Software is 10 | furnished to do so, subject to the following conditions: 11 | 12 | The above copyright notice and this permission notice shall be included in all 13 | copies or substantial portions of the Software. 14 | 15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR 16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, 17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE 18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER 19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, 20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE 21 | SOFTWARE. 22 | -------------------------------------------------------------------------------- /software/software_machine_learning.md: -------------------------------------------------------------------------------- 1 | # Репозитории и программное обеспечение для машинного обучения 2 | 3 | - [100 репозиториев по машинному обучению](http://meta-guide.com/software-meta-guide/100-best-github-machine-learning) 4 | - [Awesome Machine Learning](https://github.com/josephmisiti/awesome-machine-learning) — тщательно подобранный список фреймворков, библиотек и программного обеспечения для машинного обучения 5 | 6 | # Библиотеки машинного обучения 7 | 8 | - [MLflow](https://github.com/mlflow/mlflow) – платформа для оптимизации разработки приложений машинного обучения, предоставляющая набор облегченных API-интерфейсов к TensorFlow, PyTorch, XGBoost и т. д. 9 | - [scikit-learn](https://scikit-learn.org/stable/) – алгоритмы машинного обучения 10 | - [xgboost](https://xgboost.readthedocs.io/en/latest/) 11 | - [statsmodels](https://www.statsmodels.org/stable/index.html) 12 | - [lightgbm](https://lightgbm.readthedocs.io/en/latest/) 13 | - [catboost](https://catboost.ai/) 14 | - [Hnswlib](https://github.com/nmslib/hnswlib) – библиотека быстрого приближенного поиска ближайших соседей 15 | - [Non-Metric Space Library](https://github.com/nmslib/nmslib) – библиотека поиска подобия и набор инструментов для оценки поиска 16 | - [Faiss](https://github.com/facebookresearch/faiss) – библиотека для поиска сходства и кластеризации плотных векторов 17 | 18 | # Обертки высокого уровня абстракции 19 | 20 | - [pycaret](https://pycaret.gitbook.io/docs/) 21 | -------------------------------------------------------------------------------- /courses/courses_nlp.md: -------------------------------------------------------------------------------- 1 | # Курсы по обработке естественного языка 2 | 3 | - [Введение в обработку естественного языка"](https://stepik.org/course/1233/promo) (Stepik) 4 | - [Автоматическая обработка естественного языка для студентов 3-4 курсов Школы лингвистики НИУ ВШЭ (1-2 модули 2020)](https://github.com/named-entity/hse-nlp)- [NYU NLP course](http://www.cs.nyu.edu/courses/spring12/CSCI-GA.2590-001/) 5 | - [Нейронные сети и обработка текста](https://stepik.org/course/54098) (Stepik, ★4.6), [материалы курса на GitHub](https://github.com/Samsung-IT-Academy/stepik-dl-nlp) 6 | - [CS224n: Natural Language Processing with Deep Learning](hhttp://web.stanford.edu/class/cs224n/) 7 | - [Материалы курса по глубокому обучению в обработке естественных языков для магистров компьютерной лингвистики ВШЭ](https://github.com/BobaZooba/HSE-Deep-Learning-in-NLP-Course) 8 | - [Kaggle: Natural Language Processing](https://www.kaggle.com/learn/natural-language-processing) 9 | - [YSDA Natural Language Processing course](https://github.com/yandexdataschool/nlp_course) 10 | - Coursera: ["Обработка текстов, написанных на естественных языках"](https://www.coursera.org/learn/language-processing) 11 | - Fast.ai: [YouTube](https://www.youtube.com/playlist?list=PLtmWHNX-gukKocXQOkQjuVxglSDYWsSh9), [блог-пост](https://www.fast.ai/2019/07/08/fastai-nlp/), [репозиторий github](https://github.com/fastai/course-nlp) 12 | - Microsoft edX: ["Natural Language Processing"](https://www.edx.org/course/natural-language-processing-nlp) 13 | - Udacity: ["Become a Natural Language Processing Expert"](https://www.udacity.com/course/natural-language-processing-nanodegree--nd892) 14 | -------------------------------------------------------------------------------- /books/books_finance.md: -------------------------------------------------------------------------------- 1 | # Книги по анализу финансовых и инвестиционных данных 2 | 3 | ## На английском языке 4 | 5 | - Tshepo Chris Nokeri. Econometrics and Data Science. Apply Data Science Techniques to Model Complex Problems and Implement Solutions for Economic Problems. 2021. 6 | - Yves Hilpisch. Python for Algorithmic Trading. 2021. 7 | - Lewinson E. Python for Finance Cookbook. Packt Publishing, 2020. (Есть перевод) 8 | - Hilpisch Yves. Python for Finance: Mastering Data-Driven Finance. O'Reilly Media, 2019. 9 | - Yoon Hyup Hwang. Hands-On Data Science for Marketing. Improve your marketing strategies with machine learning using Python and R. Packt, 2019. 10 | - Mark J. Bennet, Dirk L. Hugen. Financial Analytics with R: Building a Laptop Laboratory for Data. 2016. 11 | - Игорь Гальперин, Мэттью Ф. Диксон, и Пол Белоконь. Machine Learning in Finance: From Theory to Practice 12 | - Hilpisch Yves. Derivatives Analytics with Python. Wiley, 2015. 13 | 14 | 15 | ## На русском языке 16 | - Хилпиш Ив. Python для финансистов. Базовые концепции, Питер, 2023 (пока не проверял, как пересекается концептуально со следующей книгой) 17 | - Хилпиш Ив. Python для финансовых расчетов. Искусство работы с финансовыми данными. Диалектика-Вильямс, 2021. 18 | - Янсен Стефан. Машинное обучение для алгоритмической торговли на финансовых рынках. Практикум. БХВ-Петербург, 2020. 19 | - Джон Дж. Мэрфи. Технический анализ фьючерсных рынков: Теория и практика. 2020. 20 | - Бенджамин Грэхем, Дэвид Додд. Анализ ценных бумаг. 2016. 21 | - Садовникова Н. А., Шмойлова Р. А. Анализ временных рядов и прогнозирование. 22 | - Плотников А. Н. Элементарная теория анализа и статистическое моделирование временных рядов. 23 | -------------------------------------------------------------------------------- /software/software_data_science.md: -------------------------------------------------------------------------------- 1 | # Программное обеспечение, библиотеки и другие готовы решения для общих задач Data Science 2 | 3 | - [Docker-образы для Data Science](https://github.com/yang-zhang/docker-setup) 4 | 5 | ## Классические библиотеки 6 | 7 | - [NumPy](https://numpy.org/) – работа с многомерными массивами 8 | - [SciPy](https://www.scipy.org/) – научные вычисления 9 | - [SymPy](http://sympy.org/) – символьные вычисления 10 | - [Pandas](pandas) – табличное представление данных и работа с датафреймами 11 | 12 | ## Библиотеки визуализации 13 | 14 | - [Matplotlib](http://matplotlib.org/) – визуализация, преимущественно 2D 15 | - [Seaborn](https://seaborn.pydata.org/) – базируется на Matplotlib, но оптимизирована под визуализацию задач Data Science 16 | - [Bokeh](https://bokeh.org/) – визуализация данных для веба 17 | - [Plotly](https://plotly.com/python/) – онлайн-инструмент интерактивной визуализации данных на серверной стороне (публикация в интернете) 18 | - [K3D](https://github.com/K3D-tools/K3D-jupyter) – работа с трехмерными графиками и изображениями в Jupyter Notebook 19 | - [tqdm](https://github.com/tqdm/tqdm) - визуализация прогресса выполняемого процесса (например, перебор в цикле) 20 | 21 | ## Контроль версий 22 | 23 | - [DVC](https://dvc.org/): система контроля версий, позволяющая использовать механику Git для датасетов [туториал на русском](https://proglib.io/p/git-dlya-data-science-kontrol-versiy-modeley-i-datasetov-s-pomoshchyu-dvc-2020-12-02) 24 | 25 | ## Блокноты Jupyter 26 | 27 | - [Practical pandas projects](https://github.com/schlende/practical-pandas-projects) – 5 идей для совершенствования навыков Data Science 28 | - [Ветка Reddit JupyterNotebooks](https://www.reddit.com/r/JupyterNotebooks) 29 | -------------------------------------------------------------------------------- /social/social_nlp.md: -------------------------------------------------------------------------------- 1 | # Блоги, соцсети и другие издания, прицельно посвященные вопросам обработки естественного языка 2 | 3 | ## Reddit 4 | 5 | - [/LanguageTechnology](https://www.reddit.com/r/LanguageTechnology) 6 | - [/textdatamining](https://www.reddit.com/r/textdatamining) 7 | 8 | ## Отдельные статьи 9 | 10 | - 💬 [Голосовой DeepFake, или Как работает технология клонирования голоса]( 11 | 12 | ## Блокноты Jupyter 13 | 14 | - [Анализ эмоциональной окраски текста с помощью spaCy на основе отзывов IMDB](https://github.com/matyushkin/lessons/blob/master/nlp/sentiment_analysis.ipynb) ([в форме статьи](https://proglib.io/p/lyublyu-i-nenavizhu-analiz-emocionalnoy-okraski-teksta-s-pomoshchyu-python-2020-11-13)) 15 | 16 | ## Сообщество 17 | 18 | - [https://nlpwithfriends.com/](https://nlpwithfriends.com/) – PhD рассказывают о своих проектах / статьях 19 | - [Вики ACL Anthology](https://aclweb.org/aclwiki/Main_Page) 20 | - Вики ACL:[раздел с задачами](https://aclweb.org/aclwiki/State_of_the_art) 21 | - [NLP Highlights](https://soundcloud.com/nlp-highlights) – подкаст про новые статьи 22 | - [NLPub](https://nlpub.mipt.ru/) 23 | - [NeuroNuggets](https://medium.com/neuromation-blog/neuronuggets-acl-in-review-iv-596c6bcce65f) 24 | - [distill.pub](https://distill.pub/) 25 | 26 | ## YouTube 27 | 28 | - Записи с ML-соревнований по [обработке естественного языка](https://www.youtube.com/watch?v=XYw0OOnS8GM&list=PLTlO6nV_TaGBEBYaaO5rMl0XCunOzR8S7) 29 | 30 | ## Разделы с научными статьями на arXiv.org 31 | 32 | - **cs.CL - Computation and Language** ([new](https://arxiv.org/list/cs.CL/new), [recent](https://arxiv.org/list/cs.CL/recent), [current month](https://arxiv.org/list/cs.CL/current)) 33 | -------------------------------------------------------------------------------- /data/data_geospatial.md: -------------------------------------------------------------------------------- 1 | # Источники геоданных 2 | 3 | [OpenStreetMap](https://www.openstreetmap.org/) позволяет легально использовать картографическую информацию. Еженедельно делается XML-снимок базы данных в виде файла [planet.osm](http://planet.openstreetmap.org/) ([карта базы данных](https://wiki.openstreetmap.org/wiki/Database)). На момент публикации размер bz2-архива составлял 100 Гб. Данные также разрезаются по регионам и выкладываются в форматах PBF- и XML-файлов на [GeoFabrik](http://download.geofabrik.de/). Примеры работы с такими файлами описаны в публикации [OpenStreetMap как источник геоданных](https://habr.com/ru/post/270513/). 4 | 5 | Также можно выгрузить подмножество данных, которыми вы интересуетесь с помощью [API OpenStreetMap](https://wiki.openstreetmap.org/wiki/RU:API_v0.6). 6 | 7 | ## Другие источники данных 8 | 9 | - [Геоданные веб-сайта Natural Earth](https://www.naturalearthdata.com/) – публично доступные векторные и растровые данные географических карт с высоким, средним и низким разреше­ниями 10 | - [Географическая база данных GSHHG](https://www.soest.hawaii.edu/pwessel/gshhg/) – высококачественные векторные данные береговых линий всего мира в виде базы данных 11 | - [National Geospatial Program](https://www.usgs.gov/core-science-systems/national-geospatial-program/national-map) 12 | - [Открытый геопространственный консорциум](https://www.ogc.org/) – организация, которая занимается стандартизацией протоколов совместного использования и хранения геоданных: GML, KML, GeoRSS и др. 13 | - [Набор данных государственных границ](http://thematicmapping.org/downloads/world_borders.php) 14 | - Набор данных [Blue Marble Next Generation] – синтезированные NASA безоблачные снимки земной поверхности 15 | - Данные съёмок SRTM --- [srtm.csi.cgiar.org](http://srtm.csi.cgiar.org/). [Что это такое](http://gis-lab.info/qa/srtm.html) 16 | 17 | ### Проекции 18 | 19 | - [Сводная таблица по картографическим проекциям](http://www.radicalcartography.net/?projectionref) -------------------------------------------------------------------------------- /software/software_nlp.md: -------------------------------------------------------------------------------- 1 | # Библиотеки и другие готовы решения задач обработки естественного языка 2 | 3 | ## WorldWide 4 | 5 | - [Hugging Face](https://huggingface.co/) – библиотека предобученных моделей на базе архитектуры «трансформер» 6 | 7 | ## Русский язык 8 | 9 | - [pymorphy2](https://pymorphy2.readthedocs.io/en/stable/) – морфологический анализатор для русского языка на основе словаря OpenCorpora 10 | - [youtokentome](https://github.com/VKCOM/YouTokenToMe): инструмент для быстрой токенизации текста от команды ВК 11 | - [ruGPT-3 – вариант Сбербанка](https://github.com/sberbank-ai/ru-gpts) ([статья на Хабре о процессе обучения](https://habr.com/ru/company/sberbank/blog/524522/?fbclid=IwAR2E3gx2MgZggqtMdD_5t7j333tAdz24VJXLxQX1zDqSo5GcYVj89ONV-18)) 12 | 13 | ## Библиотеки и фреймворки 14 | 15 | - [gensim](https://radimrehurek.com/gensim/) библиотека обработки естественного языка предназначения для «тематического моделирования» 16 | - [NLTK](http://nltk.org/) – пакет библиотек и программ для символьной и статистической обработки естественного языка ([вики](https://ru.wikipedia.org/wiki/Natural_Language_Toolkit)) 17 | - [deepPavlov](https://deeppavlov.ai/) – фреймворк для разговорных систем 18 | - [spaCy](https://spacy.io/usage/models), [spacy-ru](https://github.com/buriy/spacy-ru) – репозиторий моделей spaCy для русского языка 19 | - [thinc](https://github.com/explosion/thinc) – легкая библиотека глубокого обучения c API функционального программирования с проверкой типов для создания моделей с поддержкой слоев, определенных в других средах, таких как PyTorch, TensorFlow и MXNet 20 | - [fastText](https://github.com/facebookresearch/fastText) 21 | 22 | ## GPT 23 | 24 | - [GPT-2 with Javascript Interface](https://colab.research.google.com/github/gpt2ent/gpt2colab-js/blob/master/GPT2_with_Javascript_interface_POC.ipynb) 25 | - [web-implementation of GPT-2](https://talktotransformer.com/) 26 | 27 | ## Jupyter и Colab 28 | 29 | - [Colab Notebook by Max Woolf](https://colab.research.google.com/drive/1VLG8e7YSEwypxU-noRNhsv5dW4NfTGce) 30 | -------------------------------------------------------------------------------- /books/books_big_data.md: -------------------------------------------------------------------------------- 1 | # Книги по Big Data 2 | 3 | - Алекс Горелик. Корпоративное озеро больших данных. Новый подход к использованию Big Data и Data Science в бизнесе. Бомбора, 2023. 4 | - Высоконагруженные приложения. Программирование, масштабирование, поддержка. Питер, 2022. 5 | - Су К., Ын А. Теоретический минимум по Big Data. Всё что нужно знать о больших данных. Питер, 2019. 6 | - Ульман Д. Д., Раджараман А., Лесковец Ю. Анализ больших наборов данных. ДМК Пресс, 2016. 7 | 8 | 9 | ## Python 10 | - Big Data Analysis with Python. Packt Publishing, 2019. Рассматривается связка Python + Spark для больших данных 11 | - Wolohan J. T. Mastering Large Datasets with Python. Parallelize and Distribute Your Python Code-Manning. Manning, 2020. 12 | 13 | ## Hadoop 14 | - Garry Turkington. Hadoop Beginner's Guide. Packt Publishing, 2024. 15 | - Лэм Чак. Hadoop в действии. ДМК Пресс, 2019. 16 | - Sridhar Alla. Big Data Analytics with Hadoop 3. Packt`, 2018. 17 | - Pro Hadoop Data Analytics: Designing and Building Big Data Systems using the Hadoop Ecosystem. Apress, 2017. 18 | - Dipayan Dev. Deep Learning with Hadoop. Packt Publishing, 2017. 19 | - Hadoop Big Data Interview Questions You'll Most Likely Be Asked. 2017. 20 | - Bengfort, Kim. Data Analytics with Hadoop. 2016. 21 | - Antony B., Boudnik K., Adams C., Shao B., Lee C., Sasaki K`. Professional Hadoop. Wrox, 2017 22 | - White T. Hadoop: The Definitive Guide. Четвертое издание 2015 г. есть в русском переводе под названием [«Hadoop: Подробное руководство»](https://grut-computing.com/HadoopBook.pdf). 23 | 24 | ## Spark 25 | - Тандон А. и др. Расширенная аналитика с PySpark. БХВ, 2023. 26 | - Jean-Georges Perrin. Spark in Action, Second Edition. 2020. Переводное издание: Перрен Жан. Spark в действии. ДМК Пресс, 2021. 27 | - Rachel Warren, Holden Karau. High Performance Spark 28 | - Сэнди Риза, Ури Лезерсон, Шон Оуэн, Джош Уиллс. Spark для профессионалов. Современные паттерны обработки больших данных. Питер, 2017 29 | - Карау Х., Захария М., Венделл П., Конвински Э. Изучаем Spark. Молниеносный анализ данных. ДМК Пресс, 2015. 30 | -------------------------------------------------------------------------------- /software/software_big_data.md: -------------------------------------------------------------------------------- 1 | # Программы и библиотеки для BigData 2 | 3 | - [Hadoop](https://hadoop.apache.org/) – набор утилит, библиотек и фреймворк для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов 4 | - [Hive](https://hive.apache.org/) – система управления базами данных на основе платформы Hadoop 5 | - [Spark](https://spark.apache.org/) – фреймворк с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных, входящий в экосистему проектов Hadoop 6 | - [HBase](http://hbase.apache.org/) – СУБД класса NoSQL с открытым исходным кодом, проект экосистемы Hadoop 7 | - [Airflow](https://airflow.apache.org/) – инструмент, позволяющий удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных ([введение от Адиля Хаштамова](https://khashtamov.com/ru/apache-airflow-introduction/)) 8 | - [Kafka](https://kafka.apache.org/) – распределённая, горизонтально масштабируемая система, обеспечивающая наращивание пропускной способности как при росте числа и нагрузки со стороны источников, так и количества систем-подписчиков ([конспект](https://habr.com/ru/post/354486/)) 9 | - [Cassandra](http://cassandra.apache.org/) – распределённая система управления базами данных, относящаяся к классу NoSQL-систем и рассчитанная на создание высокомасштабируемых и надёжных хранилищ огромных массивов данных, представленных в виде хэша 10 | - [BigQuery](https://cloud.google.com/bigquery/) – RESTful веб-сервис для интерактивного широкомасштабного анализа больших наборов данных, расположенных в Google Storage ([вики](https://ru.wikipedia.org/wiki/BigQuery)) 11 | - [Vertica](https://www.vertica.com/) – аналитическая колоночная СУБД, которая эффективно сжимает, хранит, быстро отдает данные ([конспект](https://habr.com/ru/company/sberbank/blog/414895/)) 12 | - [InfluxDB](https://www.influxdata.com/) – программное обеспечение с открытым исходным кодом для хранения временных рядов ([конспект](https://tproger.ru/translations/influxdb-guide/)) 13 | - [h5py](https://www.h5py.org/) – Python-интерфейс для двоичного формата данных HDF5. 14 | -------------------------------------------------------------------------------- /software/software_geospatial.md: -------------------------------------------------------------------------------- 1 | # Библиотеки для обработки и визуализации геоданных 2 | 3 | - [GDAL](http://www.gdal.org/) – библиотека с открытым исходным кодом (X/MIT) для растровых и векторных форматов геоданных. 4 | - [GEOS](https://libgeos.org/) — C/C++ библиотека для вычислительной геометрии с упором на алгоритмы, используемые в программном обеспечении географических информационных систем. Реализует геометрическую модель OGC Simple Features и предоставляет функции этого стандарта. 5 | - [Proj](https://proj.org/) – программное обеспечение для преобразования геопространственных координат в различных системы отсчета. 6 | - [Mapnik](https://mapnik.org/) – вывод изображений с использованием картографических алгоритмов, интерфейсы на C++, Python и Node. 7 | 8 | ## Python 9 | 10 | - [Geoviews](https://github.com/holoviz/geoviews) 11 | - [Folium](https://python-visualization.github.io/folium/) 12 | - [KeplerGL](https://kepler.gl/) 13 | - [Plotly/Plotly Express](https://plotly.com/python/mapbox-layers/) 14 | - [IpyLeaflet](https://ipyleaflet.readthedocs.io/en/latest/) 15 | - [Geopandas](https://geopandas.org/) 16 | - [Shapely](https://shapely.readthedocs.io/en/stable/manual.html) 17 | - [pyproj](https://pyproj4.github.io/pyproj/stable/) 18 | - [GeoDjango](https://docs.djangoproject.com/en/4.0/ref/contrib/gis/) 19 | - ArcGIS API – библиотека для визуализации и анализа геоданных, а также для управления корпоративной ГИС ([руководство на Хабре](https://habr.com/ru/company/technoserv/blog/324124/)) 20 | 21 | ## R 22 | 23 | - геопроекции: [PROJ.4](http://trac.osgeo.org/proj/) 24 | - [Leaflet for R](https://rstudio.github.io/leaflet/) – пакет для интеграция популярной JavaScript-библиотеки 25 | 26 | ## JavaScript 27 | 28 | - [Leaflet.js](http://leafletjs.com/) – популярная open source библиотека для создания интерактивных карт 29 | - [OpenLayers](https://openlayers.org/) – библиотека с открытым исходным кодом на JavaScript, предназначенная для создания карт на базе API 30 | 31 | ## Коммерческие программы 32 | 33 | - [GlobalMapper](https://www.bluemarblegeo.com/global-mapper/) – «славится поддержкой внушительного списка систем координат» (рекомендовал [Moskus](https://habr.com/ru/users/Moskus/) в [посте на Хабре](https://habr.com/ru/post/235283/)), есть триальный период 34 | -------------------------------------------------------------------------------- /.claude/commands/add-resource.md: -------------------------------------------------------------------------------- 1 | --- 2 | description: Interactively add a new resource (book, course, dataset, software, or article) to the repository 3 | --- 4 | 5 | # Add Resource Command 6 | 7 | You are helping the user add a new resource to the Data Science resources repository. 8 | 9 | ## Steps to Follow 10 | 11 | 1. **Ask what type of resource** they want to add: 12 | - Book 13 | - Course 14 | - Dataset 15 | - Software (library/framework/tool) 16 | - Article/Blog Post 17 | 18 | 2. **Ask for the topic category:** 19 | - Data Science (general) 20 | - Machine Learning 21 | - Neural Networks 22 | - Computer Vision 23 | - Geospatial Data 24 | - Natural Language Processing 25 | - Financial Data Analysis 26 | - Big Data 27 | 28 | 3. **Collect required information** based on resource type: 29 | 30 | **For Books:** 31 | - Title (English and/or Russian) 32 | - Author(s) 33 | - Publication year 34 | - Link (if freely available) 35 | - Brief description in Russian 36 | - Difficulty level 37 | 38 | **For Courses:** 39 | - Course title 40 | - Platform (Coursera, Stepik, YouTube, edX, etc.) 41 | - Instructor 42 | - Language 43 | - Link 44 | - Description in Russian 45 | - Difficulty level 46 | - Free or paid 47 | 48 | **For Datasets:** 49 | - Dataset name 50 | - Source/Platform 51 | - Link 52 | - Description in Russian 53 | - Size and format 54 | - License (if relevant) 55 | 56 | **For Software:** 57 | - Name 58 | - Programming language 59 | - GitHub/Official site link 60 | - Documentation link 61 | - Description in Russian 62 | - Main features 63 | 64 | **For Articles:** 65 | - Title 66 | - Author 67 | - Source (Medium, Habr, etc.) 68 | - Link 69 | - Description in Russian 70 | - Language 71 | - Publication date (if relevant) 72 | 73 | 4. **Read the appropriate file** using the Read tool to understand the existing format 74 | 75 | 5. **Add the resource** using the Edit tool, maintaining the existing format and structure 76 | 77 | 6. **Confirm with the user** what was added and to which file 78 | 79 | ## Important Notes 80 | - Always read the target file first to understand the format 81 | - Descriptions should be in Russian (repository content language) 82 | - Maintain consistent formatting with existing entries 83 | - Ask for clarification if any required information is missing 84 | -------------------------------------------------------------------------------- /.claude/commands/update-readme.md: -------------------------------------------------------------------------------- 1 | --- 2 | description: Update the main README.md file to reflect current repository structure 3 | --- 4 | 5 | # Update README Command 6 | 7 | You are helping update the main README.md file to reflect the current state of the Data Science resources repository. 8 | 9 | ## Steps to Follow 10 | 11 | 1. **Check for automated tool:** 12 | - Look for `main_readme_constructor.ipynb` in the root directory 13 | - If it exists, ask the user if they want to use it or do a manual update 14 | 15 | 2. **If using the Jupyter notebook:** 16 | - Read the notebook to understand its logic 17 | - Execute it: `jupyter nbconvert --to notebook --execute main_readme_constructor.ipynb` 18 | - Verify the output 19 | - Ask user to confirm before applying changes 20 | 21 | 3. **If doing manual update:** 22 | 23 | a. **Read current README.md** to understand the structure 24 | 25 | b. **Scan all resource directories:** 26 | - Use Glob to find all files in: `books/`, `courses/`, `data/`, `social/`, `software/` 27 | - Organize by category 28 | 29 | c. **Build the resource table:** 30 | - Create markdown table with Topics as rows and Resource Types as columns 31 | - Each cell should link to the corresponding markdown file 32 | - Topics: Data Science, ML, Neural Networks, CV, Geospatial, NLP, Finance, Big Data 33 | - Resource Types: Courses, Books, Data, Social, Software 34 | 35 | d. **Preserve existing sections:** 36 | - Introduction/Welcome message 37 | - How to contribute guidelines 38 | - Community links (Telegram, etc.) 39 | - License information 40 | - Author/Maintainer information 41 | 42 | e. **Update the README:** 43 | - Use Write tool to update README.md 44 | - Maintain Russian language for text 45 | - Keep existing style and emojis if present 46 | 47 | 4. **Verify the result:** 48 | - Read the updated README.md 49 | - Check that all links are correctly formatted 50 | - Ensure table renders properly 51 | 52 | 5. **Inform the user:** 53 | - Show a summary of what was updated 54 | - Highlight any new resources added to the table 55 | 56 | ## Important Notes 57 | - Preserve the existing writing style and tone 58 | - Maintain Russian language throughout 59 | - Ensure all internal links work correctly 60 | - Keep the table structure clear and readable 61 | - Don't remove any existing sections without user confirmation 62 | -------------------------------------------------------------------------------- /software/software_computer_vision.md: -------------------------------------------------------------------------------- 1 | # Библиотеки и другие программные решения для задач компьютерного зрения 2 | 3 | - [Pillow](https://pillow.readthedocs.io/en/stable) -- работа со всеми популярными форматами изображений 4 | - [OpenCV](https://opencv.org/) – множество различных алгоритмов для работы с изображениями 5 | - [scikit-image](https://scikit-image.org/) – продвинутая обработка изображений 6 | - [torchvision](https://pytorch.org/vision/stable/index.html) – часть проекта PyTorch для работы с изображениями, `torchvision.datasets` содержит множество популярных датасетов для тестирования алгоритмов computer vision 7 | 8 | # Jupyter and Colab Notebooks о задачах компьютерного зрения 9 | 10 | - [Google Deep Dream](https://colab.research.google.com/github/tensorflow/docs/blob/master/site/en/tutorials/generative/deepdream.ipynb), [GitHub](https://github.com/tensorflow/docs/blob/master/site/en/tutorials/generative/deepdream.ipynb), [пост Александра Мордвинцева](https://ai.googleblog.com/2015/06/inceptionism-going-deeper-into-neural.html) 11 | - [BigGAN](https://colab.research.google.com/github/tensorflow/hub/blob/master/examples/colab/biggan_generation_with_tf_hub.ipynb) [Large Scale GAN Training for High Fidelity Natural Image Synthesis](https://arxiv.org/abs/1809.11096) 12 | - [StyleTransfer](https://colab.research.google.com/github/tensorflow/lucid/blob/master/notebooks/differentiable-parameterizations/style_transfer_2d.ipynb) 13 | - [_C0D32_ Colab Notebook (trained on 24k Artworks)](https://colab.research.google.com/drive/1cFKK0CBnev2BF8z9BOHxePk7E-f7TtUi) 14 | - [WikiART StyleGAN2 Colab Notebook](https://colab.research.google.com/github/Norod/my-colab-experiments/blob/master/WikiArt_Example_Generation_By_Peter_Baylies.ipynb) 15 | - [StyleGAN2](https://colab.research.google.com/drive/1ShgW6wohEFQtqs_znMna3dzrcVoABKIH) 16 | - DeOldify -- колоризация фото и видео: [GitHub](https://github.com/jantic/DeOldify), [DeOldify for images](https://colab.research.google.com/github/jantic/DeOldify/blob/master/ImageColorizerColab.ipynb), [DeOldify for videos](https://colab.research.google.com/github/jantic/DeOldify/blob/master/VideoColorizerColab.ipynb) 17 | - [First Order Motion model](https://colab.research.google.com/github/AliaksandrSiarohin/first-order-model/blob/master/demo.ipynb#scrollTo=UCMFMJV7K-ag), [Project page](https://aliaksandrsiarohin.github.io/first-order-model-website/), [GitHub](https://github.com/AliaksandrSiarohin/first-order-model), [paper](http://papers.nips.cc/paper/8935-first-order-motion-model-for-image-animation) 18 | -------------------------------------------------------------------------------- /courses/courses_neural_networks.md: -------------------------------------------------------------------------------- 1 | ## Курсы по нейросетям и глубокому обучению 2 | - [Deep Learning на пальцах](https://www.youtube.com/watch?v=_q46x0tq2FQ&list=PL5FkQ0AF9O_o2Eb5Qn8pwCDg7TniyV1Wb) – курс Семена Козлова, разработчика стартапа Instrumental, бывшего сотрудника Dropbox и Microsoft. 3 | - [Нейронные сети, Институт биоинформатики, Stepik](https://stepik.org/course/401), [студенческие материалы на GitHub](https://github.com/stacymiller/stepic_neural_networks_public) 4 | - [Нейронные сети и компьютерное зрение, Samsung Research Russia Open Education](https://stepik.org/course/50352), [студенческие файлы семинаров](https://github.com/smartsinovich/Stepik_NeuralNetworks_and_ComputerVision), [студенческий финальный проект](https://github.com/ValentinKovalev/Samsung-stepik-cv-course-final-task) 5 | - [Нейронные сети и обработка текста, Samsung Research Russia Open Education, Stepik ★4.6](https://stepik.org/course/54098), [материалы курса на GitHub](https://github.com/Samsung-IT-Academy/stepik-dl-nlp) 6 | - [Deep Learning (семестр 1, весна 2020): базовый поток, Stepik](https://stepik.org/course/65388/) 7 | - [Материалы летней школы по глубокому обучению](https://github.com/olferuk/MLSummerSchool) (в форме презентаций и блокнотов Jupyter) 8 | - [Курс "Современные методы машинного обучения" ВШЭ](https://github.com/hse-ds/iad-deep-learning) (блокноты Jupyter) 9 | - [Видеокурс о генеративно-состязательных нейросетях](https://www.youtube.com/watch?v=SlJgPIOlpiI&list=PL-_cKNuVAYAVA2LtnKTukF6nKGnXhk0OB) (YouTube, Лекториум) 10 | - [Курс MIT по Deep Learning](https://www.youtube.com/watch?v=njKP3FqW3Sk&list=PLtBw6njQRU-rwp5__7C0oIVt26ZgjG9NI) под руководством Александра Амини содержит 30 часовых лекций об архитектурах нейронных сетей и их ограничениях 11 | - [Kaggle: Intro to Deep Learning](https://www.kaggle.com/learn/intro-to-deep-learning) 12 | - [Practical RL](https://github.com/yandexdataschool/Practical_RL) 13 | - [Practical DL](https://github.com/yandexdataschool/Practical_DL) 14 | - [Practical Deep Learning for Coders](https://course.fast.ai/) – развернутое введение в глубокое обучение от fast.ai 15 | - [d2l.ai](https://d2l.ai/) ([GitHub](https://github.com/d2l-ai/d2l-en)) 16 | - [YouTube курс Deep Learning](https://www.youtube.com/watch?v=0bMe_vCZo30&list=PLLHTzKZzVU9eaEyErdV26ikyolxOsz6mq&index=1) – курс от Яна Лекуна и пр., более 30 ч. Весна 2020. 17 | - [YouTube курс UC Berkeley](https://www.youtube.com/playlist?list=PLuv1FSpHurUevSXe_k0S7Onh6ruL-_NNh), 66 занятий 18 | - [ШАДовский курс по глубокому обучению «Practical_DL»](github.com/yandexdataschool/Practical_DL) -------------------------------------------------------------------------------- /.claude/skills/add-book.md: -------------------------------------------------------------------------------- 1 | # Add Book Skill 2 | 3 | ## Description 4 | This skill helps add a new book to the appropriate section of the repository. 5 | 6 | ## Instructions for Claude 7 | 8 | When a user wants to add a book, follow these steps: 9 | 10 | 1. **Determine the book category:** 11 | - Data Science (general) → `books/books_data_science.md` 12 | - Machine Learning → `books/books_machine_learning.md` 13 | - Neural Networks → `books/books_neural_networks.md` 14 | - Computer Vision → `books/books_computer_vision.md` 15 | - Geospatial Data → `books/books_geospatial.md` 16 | - Natural Language Processing → `books/books_nlp.md` 17 | - Financial Data Analysis → `books/books_finance.md` 18 | - Big Data → `books/books_big_data.md` 19 | 20 | 2. **Collect book information:** 21 | - Title (in English and Russian if available) 22 | - Author(s) 23 | - Publication year 24 | - Link to the book (if freely available) 25 | - Brief description (in Russian - repository language) 26 | - Difficulty level (beginner/intermediate/advanced) 27 | 28 | 3. **Read the existing file:** 29 | Use the Read tool to read the corresponding file in the `books/` directory 30 | 31 | 4. **Check for duplicates:** 32 | - Search the file content for the book title or author 33 | - If a similar entry is found, inform the user 34 | - Ask if they want to: update the existing entry, skip, or add anyway 35 | - If no duplicate found, proceed to the next step 36 | 37 | 5. **Identify the format:** 38 | Study the existing entry format in the file and use a similar format 39 | 40 | 6. **Add the book:** 41 | - Use the Edit tool to add the book to the appropriate section 42 | - Maintain consistent formatting 43 | - Add the book to a logical section (by level or topic) 44 | 45 | 7. **Inform the user:** 46 | Show what was added and to which file 47 | 48 | ## Usage Example 49 | 50 | User: "Add the book 'Python for Data Analysis' by Wes McKinney to the Data Science section" 51 | 52 | You should: 53 | 1. Read `books/books_data_science.md` 54 | 2. Add the book in the correct format 55 | 3. Save the changes 56 | 4. Inform the user about the result 57 | 58 | ## Important Notes 59 | - Descriptions should be in Russian (repository content language) 60 | - Maintain the existing structure and formatting 61 | - Ensure the book is added to the correct category 62 | 63 | ## Format Examples 64 | 65 | Common formats found in book files: 66 | 67 | **Simple list format:** 68 | ```markdown 69 | - Автор. Название книги. Издательство, год. 70 | ``` 71 | 72 | **With link:** 73 | ```markdown 74 | - [Название книги](https://example.com/book.pdf) (автор, год) 75 | ``` 76 | 77 | **With description:** 78 | ```markdown 79 | - Автор. Название книги. Издательство, год (краткое описание). 80 | ``` 81 | 82 | **Always match the existing format in the target file.** 83 | -------------------------------------------------------------------------------- /.claude/skills/rebuild-readme.md: -------------------------------------------------------------------------------- 1 | # Rebuild README Skill 2 | 3 | ## Description 4 | This skill helps rebuild the main README.md file from individual markdown files, creating a comprehensive table of contents. 5 | 6 | ## Instructions for Claude 7 | 8 | When a user wants to rebuild the README, follow these steps: 9 | 10 | 1. **Understand the structure:** 11 | The repository uses a matrix structure: 12 | - **Rows (Topics)**: Data Science, Machine Learning, Neural Networks, Computer Vision, Geospatial, NLP, Finance, Big Data 13 | - **Columns (Resource Types)**: Courses, Books, Data, Social, Software 14 | - Each cell contains a link to a corresponding markdown file (e.g., `courses/courses_machine_learning.md`) 15 | 16 | 2. **Check for the Jupyter notebook tool:** 17 | Look for `main_readme_constructor.ipynb` in the root directory: 18 | - If it exists, this notebook may be used to auto-generate the README 19 | - Read the notebook to understand its logic 20 | - Consider running it if appropriate: `jupyter nbconvert --to notebook --execute main_readme_constructor.ipynb` 21 | 22 | 3. **Read existing README.md:** 23 | Use the Read tool to understand the current structure and format 24 | 25 | 4. **Gather all resource files:** 26 | - Use Glob tool to find all markdown files in: `books/`, `courses/`, `data/`, `social/`, `software/` 27 | - Organize them by category 28 | 29 | 5. **Build the table structure:** 30 | Create a markdown table with: 31 | - Header row: | Topic | Courses | Books | Data | Social | Software | 32 | - One row per topic area 33 | - Each cell contains a link to the corresponding markdown file 34 | - Use emojis or icons if present in the original README 35 | 36 | 6. **Add additional sections:** 37 | - Introduction/description 38 | - How to contribute 39 | - License information 40 | - Contact information (Telegram, GitHub) 41 | - Any other sections from the original README 42 | 43 | 7. **Write the new README:** 44 | - Use the Write tool to update `README.md` 45 | - Ensure proper markdown formatting 46 | - Maintain the existing style and tone 47 | 48 | 8. **Inform the user:** 49 | Show what was updated and provide a summary of changes 50 | 51 | ## Usage Example 52 | 53 | User: "Rebuild the README to reflect all current resources" 54 | 55 | You should: 56 | 1. Read `main_readme_constructor.ipynb` if it exists 57 | 2. Scan all resource directories 58 | 3. Create updated table with all categories and links 59 | 4. Update README.md 60 | 5. Inform the user about the result 61 | 62 | ## Important Notes 63 | - Preserve the existing style and formatting 64 | - Maintain Russian language for descriptions 65 | - Ensure all links are correctly formatted 66 | - Keep the matrix/table structure 67 | - Include all metadata (license, contribution guidelines, etc.) 68 | - If using the Jupyter notebook, verify its output before applying 69 | -------------------------------------------------------------------------------- /data/data_finance.md: -------------------------------------------------------------------------------- 1 | # Базы данных и источники информации по финансам и имуществу 2 | 3 | - [Seldon](https://basis.myseldon.com/ru/) – сервис для анализа сведений о компаниях и предпринимателях. 4 | - [Банк России](https://www.cbr.ru/) – информация Банка России по бюро кредитных историй, внесенных в государственный реестр. Для аналитиков данных интересны разделы [базы данных](https://www.cbr.ru/hd_base/), [аналитика](https://www.cbr.ru/analytics/) (финансовых потоков), [исследования](https://www.cbr.ru/ec_research/), [статистика](hthttp://188.254.71.82/rds_ts_pub/tps://www.cbr.ru/statistics/) 5 | - [Предоставление данных бухгалтерской отчетности по запросам пользователей](https://rosstat.gov.ru/accounting_report) – страница Федеральной службы государственной статистики. Достаточно указать год и ИНН. Отчет можно выгрузить в xlsx. 6 | - [Базы данных TKS](https://www.tks.ru/db/) – таможня и логистика, банки, СВХ, МДП, брокеры, перевозчики. 7 | - [Организации России](http://www.catalogfactory.org/) – финансовые результаты, справочные данные и отзывы. 8 | - [Реестр организаций](http://www.reestrtpprf.ru/), включенных в системы Торгово-промышленных палат РФ. 9 | - [Информационная система в сфере закупок](https://zakupki.gov.ru/epz/main/public/home.html). 10 | - [BiCoTender](https://www.bicotender.ru/), [Magelan](https://magelan.pro/) – поисковики по государственными и коммерческим тендерам России и СНГ. 11 | - [Федресурс](https://fedresurs.ru/) – федеральный реестр сведений о фактах деятельности юридических лиц. 12 | - [Декларатор](https://declarator.org/) — база данных о российских публичных должностных лицах. 13 | - [Quandl](https://www.quandl.com/) — источник экономических и финансовых данных, полезный при построении моделей прогнозирования экономических показателей и цен на акции. 14 | - [World Bank Open Data](https://data.worldbank.org/) — наборы данных, охватывающих демографию, экономические показатели и индикаторы развития. 15 | - [IMF Data](https://www.imf.org/en/Data) — данные Международного валютного фонда о международных финансах, показателях долга, валютных резервах, инвестициях и ценах на сырьевые товары. 16 | - [Financial Times Market Data](https://markets.ft.com/data/) — актуальная информация о финансовых рынках: индексы цен на акции, товары и валюту. 17 | - [American Economic Association (AEA)](https://www.aeaweb.org/resources/data/us-macro-regional) – источник данных о макроэкономике США. 18 | 19 | ## Базы данных и источники правовой информации 20 | 21 | - [Право](https://pravo.ru/) – судебная база, [досье судей](https://pravo.ru/judges_search/) и [информация о судах](https://pravo.ru/courts_search/). 22 | - [Федеральные арбитражные суды РФ](http://arbitr.ru/) – [картотека арбитражных дел](http://kad.arbitr.ru/), [решения арбитражных судов](http://ras.arbitr.ru/). 23 | - [Государственная система правовой информации](http://pravo.gov.ru/). 24 | - [Реестр деклараций РФ](http://188.254.71.82/rds_ts_pub/). 25 | - [Судебные и нормативные акты РФ](https://sudact.ru/). 26 | - [Портал правовой статистики](http://www.crimestat.ru/opendata). 27 | -------------------------------------------------------------------------------- /.claude/skills/add-dataset.md: -------------------------------------------------------------------------------- 1 | # Add Dataset Skill 2 | 3 | ## Description 4 | This skill helps add a new dataset or data source to the appropriate section of the repository. 5 | 6 | ## Instructions for Claude 7 | 8 | When a user wants to add a dataset, follow these steps: 9 | 10 | 1. **Determine the dataset category:** 11 | - Data Science (general) → `data/data_data_science.md` 12 | - Machine Learning → `data/data_machine_learning.md` 13 | - Computer Vision → `data/data_computer_vision.md` 14 | - Geospatial Data → `data/data_geospatial.md` 15 | - Natural Language Processing → `data/data_nlp.md` 16 | - Financial Data Analysis → `data/data_finance.md` 17 | 18 | Note: There may not be separate data files for Neural Networks and Big Data 19 | 20 | 2. **Collect dataset information:** 21 | - Dataset name 22 | - Source/Platform (Kaggle, UCI ML Repository, Google Dataset Search, etc.) 23 | - Link to the dataset 24 | - Brief description (in Russian): what it contains, what tasks it's suitable for 25 | - Dataset size (if known) 26 | - Data format (CSV, JSON, Images, etc.) 27 | - License (if important) 28 | - Application area 29 | 30 | 3. **Read the existing file:** 31 | Use the Read tool to read the corresponding file in the `data/` directory 32 | 33 | 4. **Check for duplicates:** 34 | - Search the file content for the dataset name or similar datasets 35 | - If a similar entry is found, inform the user 36 | - Ask if they want to: update the existing entry, skip, or add anyway 37 | - If no duplicate found, proceed to the next step 38 | 39 | 5. **Identify the format:** 40 | Study the existing entry format in the file and use a similar format 41 | 42 | 6. **Add the dataset:** 43 | - Use the Edit tool to add the dataset to the appropriate section 44 | - Group by data type or application area 45 | - Maintain consistent formatting 46 | 47 | 7. **Inform the user:** 48 | Show what was added and to which file 49 | 50 | ## Usage Example 51 | 52 | User: "Add the MNIST dataset to the Computer Vision section" 53 | 54 | You should: 55 | 1. Read `data/data_computer_vision.md` 56 | 2. Add the dataset with description and link 57 | 3. Save the changes 58 | 4. Inform the user about the result 59 | 60 | ## Important Notes 61 | - Descriptions should be in Russian (repository content language) 62 | - Maintain the existing structure and formatting 63 | - Include relevant metadata (size, format, license) 64 | - Ensure the dataset link is accessible 65 | 66 | ## Format Examples 67 | 68 | Common formats found in data files: 69 | 70 | **Simple list with link:** 71 | ```markdown 72 | - [Dataset Name](https://kaggle.com/dataset) – описание датасета, для каких задач подходит 73 | ``` 74 | 75 | **With metadata:** 76 | ```markdown 77 | - [Dataset Name](https://url) (формат: CSV, размер: 100MB) – описание 78 | ``` 79 | 80 | **With source:** 81 | ```markdown 82 | - [Dataset Name](https://url) от Source/Organization – описание 83 | ``` 84 | 85 | **Always match the existing format in the target file.** 86 | -------------------------------------------------------------------------------- /.claude/skills/add-course.md: -------------------------------------------------------------------------------- 1 | # Add Course Skill 2 | 3 | ## Description 4 | This skill helps add a new online course to the appropriate section of the repository. 5 | 6 | ## Instructions for Claude 7 | 8 | When a user wants to add a course, follow these steps: 9 | 10 | 1. **Determine the course category:** 11 | - Data Science (general) → `courses/courses_data_science.md` 12 | - Machine Learning → `courses/courses_machine_learning.md` 13 | - Neural Networks → `courses/courses_neural_networks.md` 14 | - Computer Vision → `courses/courses_computer_vision.md` 15 | - Geospatial Data → `courses/courses_geospatial.md` 16 | - Natural Language Processing → `courses/courses_nlp.md` 17 | - Financial Data Analysis → `courses/courses_finance.md` 18 | - Big Data → `courses/courses_big_data.md` 19 | 20 | 2. **Collect course information:** 21 | - Course title (in English and/or Russian) 22 | - Platform (Coursera, Stepik, YouTube, edX, etc.) 23 | - Instructor/Author 24 | - Course language (Russian/English) 25 | - Link to the course 26 | - Brief description (in Russian - repository language) 27 | - Difficulty level 28 | - Rating (if available) 29 | - Is the course free 30 | 31 | 3. **Read the existing file:** 32 | Use the Read tool to read the corresponding file in the `courses/` directory 33 | 34 | 4. **Check for duplicates:** 35 | - Search the file content for the course title or instructor 36 | - If a similar entry is found, inform the user 37 | - Ask if they want to: update the existing entry, skip, or add anyway 38 | - If no duplicate found, proceed to the next step 39 | 40 | 5. **Identify the format:** 41 | Study the existing entry format in the file and use a similar format 42 | 43 | 6. **Add the course:** 44 | - Use the Edit tool to add the course to the appropriate section 45 | - Group by platform or difficulty level if the file is organized that way 46 | - Maintain consistent formatting 47 | 48 | 7. **Inform the user:** 49 | Show what was added and to which file 50 | 51 | ## Usage Example 52 | 53 | User: "Add the course 'Machine Learning' by Andrew Ng on Coursera to the Machine Learning section" 54 | 55 | You should: 56 | 1. Read `courses/courses_machine_learning.md` 57 | 2. Add the course in the correct format 58 | 3. Save the changes 59 | 4. Inform the user about the result 60 | 61 | ## Important Notes 62 | - Descriptions should be in Russian (repository content language) 63 | - Maintain the existing structure and formatting 64 | - Ensure the course is added to the correct category 65 | - Indicate if the course is free or paid 66 | 67 | ## Format Examples 68 | 69 | Common formats found in course files: 70 | 71 | **With platform and rating:** 72 | ```markdown 73 | - [Название курса](https://stepik.org/course/123) (Stepik, ★4.9) 74 | ``` 75 | 76 | **With description:** 77 | ```markdown 78 | - [Название курса](https://url) (платформа) – краткое описание курса 79 | ``` 80 | 81 | **With instructor:** 82 | ```markdown 83 | - [Курс Автора "Название"](https://url) (YouTube, Организация) 84 | ``` 85 | 86 | **Always match the existing format in the target file.** 87 | -------------------------------------------------------------------------------- /social/social_geospatial.md: -------------------------------------------------------------------------------- 1 | # Публикации по геоданным 2 | 3 | ## Ветки Reddit 4 | 5 | - [geospatial](https://www.reddit.com/r/geospatial/) 6 | - [gis](https://www.reddit.com/r/gis/) 7 | 8 | ## Визуализация 9 | 10 | - [Визуализация результатов выборов в Москве на карте в Jupyter Notebook](https://habr.com/ru/company/ods/blog/338554/) 11 | 12 | ## Проекции 13 | 14 | - [xkcd.com/977/](https://xkcd.com/977/) 15 | - [Ликбез по картографическим проекциям с картинками](https://habr.com/ru/post/235283/) 16 | - [YouTube-ролик о типах проекций разъясняющий типы проекций](http://www.youtube.com/watch?v=2lR7s1Y6Zig#t=305) 17 | 18 | ## Отдельные посты 19 | 20 | - Андрей Кармацкий. [Дизайн Яндекс.Карт как наука и увлечение](https://habr.com/ru/company/yandex/blog/185952/) 21 | 22 | ## Telegram-группы Telegram по тематике ГИС 23 | 24 | - [t.me/gislab](https://t.me/gislab) 25 | - [t.me/QGIS_mutual_aid](https://t.me/QGIS_mutual_aid) 26 | - [t.me/nextgis_chat](https://t.me/nextgis_chat) 27 | - [t.me/spbgeotex](https://t.me/spbgeotex) 28 | - [t.me/postgis](https://t.me/postgis) 29 | - [t.me/vsevstok_chat](https://t.me/vsevstok_chat) 30 | - [t.me/geoserver_ru](https://t.me/geoserver_ru) 31 | - [t.me/UAVPro](https://t.me/UAVPro) 32 | - [t.me/bygis](https://t.me/bygis) 33 | - [t.me/gisconf](https://t.me/gisconf) 34 | - [t.me/geofludilka](https://t.me/geofludilka) 35 | - [Сообщество природоохранных ГИС](https://t.me/joinchat/Fc0NIRIxIU1Pvx9iRPEipQ) 36 | - [QGIS Community](https://t.me/joinchat/Aq2V5RPoxYYhXqUPoxRWPQ) (eng) 37 | 38 | ## Telegram-каналы по тематике ГИС 39 | 40 | - [t.me/geomess](https://t.me/geomess) 41 | - [t.me/geosemantica](https://t.me/geosemantica) 42 | - [t.me/nextgis_ru](https://t.me/nextgis_ru) 43 | - [t.me/rusgisnews](https://t.me/rusgisnews) 44 | - [t.me/geoentelegram](https://t.me/geoentelegram) (eng, esp) 45 | - [t.me/gistipsITA](https://t.me/gistipsITA) (eng) 46 | - [t.me/georg_chronicles](https://t.me/georg_chronicles) 47 | 48 | ## Telegram-группы по тематике географических карт 49 | 50 | - [t.me/locus_rus](https://t.me/locus_rus) 51 | - [t.me/mapbox_ru](https://t.me/mapbox_ru) 52 | - [t.me/mapillary_ru](https://t.me/mapillary_ru) 53 | - [t.me/ruosmand](https://t.me/ruosmand) 54 | - [t.me/tilerendering](https://t.me/tilerendering) 55 | - [t.me/navikey](https://t.me/navikey) 56 | - [t.me/ru_localguides](https://t.me/ru_localguides) 57 | - [t.me/yndx_mapeditor](https://t.me/yndx_mapeditor) 58 | - [t.me/heredev](https://t.me/heredev) 59 | - [t.me/SAS_Planet](https://t.me/SAS_Planet) 60 | - [ActiveTrip chat](https://t.me/activetripme_community_ru) ([eng](https://t.me/activetripme_community), [CEO](https://t.me/shirokolobovchat)) 61 | 62 | ## Telegram-каналы по тематике географических карт 63 | 64 | - [t.me/mapsanddata](https://t.me/mapsanddata) 65 | - [t.me/sputnik_maps](https://t.me/sputnik_maps) 66 | - [t.me/gizhru](https://t.me/gizhru) 67 | - [t.me/rumapporn](https://t.me/rumapporn) 68 | - [t.me/zbikemap_ru](https://t.me/zbikemap_ru) 69 | - [ActiveTrip.me](https://t.me/activetripme_ru) ([eng](https://t.me/activetripme), [CEO](https://t.me/shirokolobov)) 70 | 71 | ## Хабы 72 | - [Геоинформационные сервисы](https://habr.com/ru/hub/geo/) 73 | - [OpenStreetMap](https://habr.com/ru/hub/openstreetmap/) 74 | -------------------------------------------------------------------------------- /.claude/skills/add-software.md: -------------------------------------------------------------------------------- 1 | # Add Software Skill 2 | 3 | ## Description 4 | This skill helps add a new library, framework, or tool to the appropriate section of the repository. 5 | 6 | ## Instructions for Claude 7 | 8 | When a user wants to add software, follow these steps: 9 | 10 | 1. **Determine the software category:** 11 | - Data Science (general) → `software/software_data_science.md` 12 | - Machine Learning → `software/software_machine_learning.md` 13 | - Neural Networks → `software/software_neural_networks.md` 14 | - Computer Vision → `software/software_computer_vision.md` 15 | - Geospatial Data → `software/software_geospatial.md` 16 | - Natural Language Processing → `software/software_nlp.md` 17 | - Big Data → `software/software_big_data.md` 18 | 19 | 2. **Collect software information:** 20 | - Library/framework/tool name 21 | - Programming language (Python, R, Julia, etc.) 22 | - Link to GitHub or official website 23 | - Link to documentation 24 | - Brief description of purpose (in Russian - repository language) 25 | - Main features/capabilities 26 | - Popularity (GitHub stars, if relevant) 27 | - Dependencies or requirements 28 | - Usage examples (if available) 29 | 30 | 3. **Read the existing file:** 31 | Use the Read tool to read the corresponding file in the `software/` directory 32 | 33 | 4. **Check for duplicates:** 34 | - Search the file content for the software/library name 35 | - If a similar entry is found, inform the user 36 | - Ask if they want to: update the existing entry, skip, or add anyway 37 | - If no duplicate found, proceed to the next step 38 | 39 | 5. **Identify the format:** 40 | Study the existing entry format in the file and use a similar format 41 | 42 | 6. **Add the software:** 43 | - Use the Edit tool to add to the appropriate section 44 | - Group by type (libraries, frameworks, tools) 45 | - Maintain consistent formatting 46 | - Ensure links are working 47 | 48 | 7. **Inform the user:** 49 | Show what was added and to which file 50 | 51 | ## Usage Example 52 | 53 | User: "Add the scikit-learn library to the Machine Learning section" 54 | 55 | You should: 56 | 1. Read `software/software_machine_learning.md` 57 | 2. Add the library with description, links to GitHub and documentation 58 | 3. Save the changes 59 | 4. Inform the user about the result 60 | 61 | ## Important Notes 62 | - Descriptions should be in Russian (repository content language) 63 | - Maintain the existing structure and formatting 64 | - Include links to both repository and documentation 65 | - Mention the programming language 66 | - Add relevant metadata (popularity, license) 67 | 68 | ## Format Examples 69 | 70 | Common formats found in software files: 71 | 72 | **Simple library entry:** 73 | ```markdown 74 | - [Library Name](https://github.com/user/repo) – описание библиотеки (Python) 75 | ``` 76 | 77 | **With documentation:** 78 | ```markdown 79 | - [Library Name](https://github.com/user/repo) ([docs](https://docs.url)) – описание 80 | ``` 81 | 82 | **With metadata:** 83 | ```markdown 84 | - [Library Name](https://github.com/user/repo) (Python, ⭐15k) – описание возможностей 85 | ``` 86 | 87 | **Always match the existing format in the target file.** 88 | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # ds 2 | 👨‍🔬 In Russian: Обновляемая структурированная подборка бесплатных ресурсов по тематикам Data Science и Machine Learning: курсы, открытые базы данных и датасеты, источники информации и т. д. В таблице строки соответствуют различным областям Data Science, столбцы – источникам информации, на пересечении – ссылки на внутренние README-файлы. Чтобы дополнить подборку делайте пул-реквесты или пишите в телеграм-чат ([@matyushkin_chat](https://t.me/matyushkin_chat)). 3 | 4 | ## Сводная таблица 5 | Разделы | 👨‍🏫 Курсы | 📚 Книги | 📊 Данные | 🙋‍♂️ Посты | ✊ Софт 6 | --- | --- | --- | --- | --- | --- 7 | Общие вопросы Data Science | [Курсы по общим вопросам Data Science](courses/courses_data_science.md) | [Подборки книг по различным тематикам Data Science](books/books_data_science.md) | [Открытые данные](data/data_data_science.md) | [Издания, посвященные общим вопросам Data Science](social/social_data_science.md) | [Программное обеспечение для общих задач Data Science](software/software_data_science.md) 8 | Машинное обучение | [Курсы по машинному обучению](courses/courses_machine_learning.md) | [Книги по машинному обучению](books/books_machine_learning.md) | [Данные для оценки моделей машинного обучения](data/data_machine_learning.md) | [Другие источники по классическому Machine Learning](social/social_machine_learning.md) | [Библиотеки и репозитории для машинного обучения](software/software_machine_learning.md) 9 | Нейронные сети | [Курсы по нейронным сетям](courses/courses_neural_networks.md) | [Книги по нейронным сетям](books/books_neural_networks.md) | + | [Источники, посвященные вопросам нейронных сетей и глубокого обучения](social/social_neural_networks.md) | [Библиотеки и фреймворки для нейросетей](software/software_neural_networks.md) 10 | Компьютерное зрение | [Курсы по компьютерному зрению](courses/courses_computer_vision.md) | [Книги по компьютерному зрению](books/books_computer_vision.md) | [Открытые данные для задач компьютерного зрения](data/data_computer_vision.md) | [Источники, посвященные вопросам компьютерного зрения](social/social_computer_vision.md) | [Библиотеки по Computer Vision](software/software_computer_vision.md) 11 | Геоданные | [Курсы по анализу геоданных](courses/courses_geospatial.md) | [Книги по обработке геоданных](books/books_geospatial.md) | [Источники геоданных](data/data_geospatial.md) | [Публикации, посвященные геоданным](social/social_geospatial.md) | [Библиотеки для работы с геоданными](software/software_geospatial.md) 12 | Обработка естеств. языка | [Курсы по обработке ОЕЯ](courses/courses_nlp.md) | [Книги по ОЕЯ](books/books_nlp.md) | [Данные по филологии и лингвистике](data/data_nlp.md) | [Источники, посвященные вопросам ОЕЯ](social/social_nlp.md) | [Библиотеки для ОЕЯ](software/software_nlp.md) 13 | Анализ финансовых данных | [Курсы по анализу финансовых данных](courses/courses_finance.md) | [Книги по анализу финансовых данных](books/books_finance.md) | [Открытые источники и базы данных с экономической и правовой информацией](data/data_finance.md) | + | + 14 | Big Data | [Курсы по Big Data](courses/courses_big_data.md) | [Книги по Big Data](books/books_big_data.md) | + | [Источники, посвященные Big Data](social/social_big_data.md) | [Программы и библиотеки для работы с большими данными](software/software_big_data.md) 15 | -------------------------------------------------------------------------------- /.claude/skills/add-article.md: -------------------------------------------------------------------------------- 1 | # Add Article Skill 2 | 3 | ## Description 4 | This skill helps add a new article, blog post, or online publication to the appropriate section of the repository. 5 | 6 | ## Instructions for Claude 7 | 8 | When a user wants to add an article, follow these steps: 9 | 10 | 1. **Determine the article category:** 11 | - Data Science (general) → `social/social_data_science.md` 12 | - Machine Learning → `social/social_machine_learning.md` 13 | - Neural Networks → `social/social_neural_networks.md` 14 | - Computer Vision → `social/social_computer_vision.md` 15 | - Geospatial Data → `social/social_geospatial.md` 16 | - Natural Language Processing → `social/social_nlp.md` 17 | - Big Data → `social/social_big_data.md` 18 | 19 | 2. **Collect article information:** 20 | - Article title (in original language) 21 | - Author(s) 22 | - Publication source (Medium, Habr, personal blog, etc.) 23 | - Publication date (if relevant) 24 | - Link to the article 25 | - Brief description (in Russian - repository language) 26 | - Article language (Russian/English) 27 | - Main topics covered 28 | - Difficulty level (beginner/intermediate/advanced) 29 | 30 | 3. **Read the existing file:** 31 | Use the Read tool to read the corresponding file in the `social/` directory 32 | 33 | 4. **Check for duplicates:** 34 | - Search the file content for the article title or URL 35 | - If a similar entry is found, inform the user 36 | - Ask if they want to: update the existing entry, skip, or add anyway 37 | - If no duplicate found, proceed to the next step 38 | 39 | 5. **Identify the format:** 40 | Study the existing entry format in the file and use a similar format 41 | 42 | 6. **Add the article:** 43 | - Use the Edit tool to add the article to the appropriate section 44 | - Group by topic, source, or date if the file is organized that way 45 | - Maintain consistent formatting 46 | 47 | 7. **Inform the user:** 48 | Show what was added and to which file 49 | 50 | ## Usage Example 51 | 52 | User: "Add an article about neural network optimization from Habr to the Neural Networks section" 53 | 54 | You should: 55 | 1. Read `social/social_neural_networks.md` 56 | 2. Add the article in the correct format with title, author, link, and description 57 | 3. Save the changes 58 | 4. Inform the user about the result 59 | 60 | ## Important Notes 61 | - Descriptions should be in Russian (repository content language) 62 | - Maintain the existing structure and formatting 63 | - Include the article language indicator if different from description 64 | - Ensure the article link is accessible 65 | - Add publication date if it's relevant for time-sensitive content 66 | 67 | ## Format Examples 68 | 69 | Common formats found in social/article files: 70 | 71 | **Simple article entry:** 72 | ```markdown 73 | - [Название статьи](https://habr.com/article) – краткое описание 74 | ``` 75 | 76 | **With author and source:** 77 | ```markdown 78 | - [Название статьи](https://medium.com/article) by Author Name (Medium) – описание 79 | ``` 80 | 81 | **With date:** 82 | ```markdown 83 | - [Название статьи](https://url) (автор, 2023) – описание статьи 84 | ``` 85 | 86 | **Always match the existing format in the target file.** 87 | -------------------------------------------------------------------------------- /.claude/commands/check-links.md: -------------------------------------------------------------------------------- 1 | --- 2 | description: Validate all links in markdown files to check for broken or inaccessible URLs 3 | --- 4 | 5 | # Check Links Command 6 | 7 | You are helping validate links in the Data Science resources repository to identify broken or inaccessible URLs. 8 | 9 | ## Steps to Follow 10 | 11 | 1. **Determine scope:** 12 | Ask the user what they want to check: 13 | - All files in the repository 14 | - Specific directory (books, courses, data, social, software) 15 | - Specific topic (Data Science, ML, CV, NLP, etc.) 16 | - Specific file 17 | 18 | 2. **Find target files:** 19 | - Use Glob tool to locate markdown files based on scope 20 | - Example: `books/*.md` for all books, or `**/*.md` for all files 21 | 22 | 3. **Extract links:** 23 | - Read each file using Read tool 24 | - Extract all URLs matching patterns: 25 | - `http://...` and `https://...` 26 | - Markdown links: `[text](url)` 27 | - Create a deduplicated list of URLs to check 28 | - Keep track of which file(s) contain each URL 29 | 30 | 4. **Validate links:** 31 | For each unique URL: 32 | - Use `curl -I -L --max-time 10 ` to check HTTP status 33 | - Or use `wget --spider --timeout=10 ` 34 | - Categorize results: 35 | - ✓ Working (HTTP 200) 36 | - ⚠ Redirected (HTTP 301/302) 37 | - ✗ Broken (HTTP 4xx/5xx) 38 | - ⏱ Timeout 39 | - 🚫 Blocked/Other error 40 | 41 | Important: Add small delays between requests to avoid rate limiting 42 | 43 | 5. **Generate validation report:** 44 | Create a structured report with: 45 | 46 | ``` 47 | Link Validation Report 48 | ====================== 49 | Generated: [timestamp] 50 | Scope: [what was checked] 51 | 52 | Summary: 53 | - Total unique URLs: X 54 | - Working: X (XX%) 55 | - Redirected: X (XX%) 56 | - Broken: X (XX%) 57 | - Timeout/Error: X (XX%) 58 | 59 | Broken Links: 60 | [For each broken link:] 61 | - URL: 62 | Status: 63 | Found in: : (if available) 64 | 65 | Redirected Links: 66 | [For each redirected link:] 67 | - Original: 68 | Redirects to: 69 | Found in: 70 | 71 | Timeout/Blocked: 72 | [List of URLs that couldn't be checked] 73 | ``` 74 | 75 | 6. **Suggest actions:** 76 | - For broken links: suggest removal or finding alternatives 77 | - For redirects: suggest updating to final URL 78 | - For timeouts: suggest manual review 79 | 80 | 7. **Ask user about fixes:** 81 | - Do they want to update redirected links? 82 | - Do they want to remove broken links? 83 | - Do they want to save the report to a file? 84 | 85 | ## Important Notes 86 | - Respect rate limits - add delays between checks (e.g., 1-2 seconds) 87 | - Some sites may block automated requests - document these 88 | - Don't modify files without explicit user confirmation 89 | - Save the validation report for future reference 90 | - Consider checking in batches to avoid overwhelming servers 91 | - HEAD requests are more efficient than GET requests 92 | 93 | ## Implementation Tips 94 | - Use a bash loop with curl for link checking 95 | - Cache results to avoid rechecking the same URL 96 | - Consider creating a `.link-check-cache.json` file 97 | - Provide progress updates for large validation runs 98 | -------------------------------------------------------------------------------- /books/books_neural_networks.md: -------------------------------------------------------------------------------- 1 | # Книги по нейронным сетям и глубокому обучению 2 | 3 | - Шолле Ф. Глубокое обучение на Python, 2-е издание, 2023 (советую читать именно 2-е издание, так как область быстро развивается и книга была в значительной мере переработана) 4 | - Коул Анирад, Ганджу Сидха, Казам Мехер. Искусственный интеллект и компьютерное зрение. Реальные проекты на Python, Keras и TensorFlow. Питер, 2023. 5 | - Грессер Лаура, Кенг Ван Лун. Глубокое обучение с подкреплением: теория и практика на языке Python. Питер, 2022. 6 | - Гуггер Сильвейн, Ховард Джереми. Глубокое обучение с fastai и PyTorch. Питер, 2022. 7 | - Постолит А. В.Основы искусственного интеллекта в примерах на Python. БХВ-Петербург, 2021. 8 | - Вейдман Сет. Глубокое обучение. Легкая разработка проектов на Python. Питер, 2021. 9 | - [A Brief Introduction to Neural Networks](http://www.dkriesel.com/en/science/neural_networks) 10 | - [Neural Networks and Deep Learning](http://neuralnetworksanddeeplearning.com/) – введение в нейронные сети и глубокое обучение с кодом на Python 11 | - [Reinforcement Learning: An Introduction](https://web.archive.org/web/20161120043347/http://webdocs.cs.ualberta.ca:80/~sutton/book/ebook/the-book.html) 12 | - Теофили Томмазо. Глубокое обучение для поисковых систем. ДМК Пресс, 2020. 13 | - Микелуччи Умберто. Прикладное глубокое обучение. Подход к пониманию глубоких нейронных сетей на основе метода кейсов. БХВ-Петербург, 2020. 14 | - Макс Памперла, Кевин Фергюсон. Глубокое обучение и игра в го. ДМК Пресс, 2020. 15 | - Евгений Черняк. Введение в глубокое обучение. Диалектика, 2020. 16 | - Дэвид Фостер. Генеративное глубокое обучение. Творческий потенциал нейронных сетей. Питер, 2020. 17 | - [Dive Into Deep Learning](https://d2l.ai/) — интерактивная книга по глубокому обучению с кодом, математикой и комментариями. Показаны реализации на NumPy, MXNet, PyTorch и TensorFlow. 18 | - Крон Джон, Бейлевельд Грант. Глубокое обучение в картинках. Визуальный гид по искусственному интеллекту. Питер, 2020 (в отзывах пишут, что захватывающая). 19 | - Эндрю Гласснер. Глубокое обучение без математики. Два тома: 1. Основы, 2. Практика. ДМК Пресс, 2019. 20 | - Николенко С., Кадурин А., Архангельская Е. Глубокое обучение. Погружение в мир нейронных сетей 21 | - Хайкин. Нейронные сети. Полный курс 22 | - [Goodfellow, Bengio, Courville. Deep Learning](https://www.deeplearningbook.org/) 23 | - Гибсон, Паттерсон. Глубокое обучение с точки зрения практика, 2018 24 | - Гудфеллоу Я., Курвилль А., Бенджио И. Глубокое обучение. ДМК Пресс, 2018. 25 | - Траск Э. Грокаем глубокое обучение. Питер, 2019. 26 | - Хайкин С. Нейронные сети. Полный курс. Вильямс, 2019. 27 | - Будума Н. Основы глубокого обучения. Создание алгоритмов для искусственного интеллекта следующего поколения. Манн, Иванов, Фербер, 2019. 28 | - Осинга Д. Глубокое обучение. Готовые решения. Диалектика-Вильямс, 2019. 29 | - Шолле Ф. Глубокое обучение на R, 2018. 30 | 31 | ## Применение глубокого обучения для отдельных областей 32 | 33 | - Рамсундар Б., Истман П., Уолтерс П., Панде В. Глубокое обучение в биологии и медицине. ДМК Пресс, 2020. 34 | - Терренс Сейновски. Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет. Эксмо, 2022. 35 | - JаvaScript для глубокого обучения: TensorFlow.js. Питер, 2021. 36 | 37 | ## Глубокое обучение на Hadoop 38 | 39 | - Dipayan Dev. Deep Learning with Hadoop. Packt, 2017. 40 | -------------------------------------------------------------------------------- /.claude/skills/validate-links.md: -------------------------------------------------------------------------------- 1 | # Validate Links Skill 2 | 3 | ## Description 4 | This skill helps validate all links in the markdown files to ensure they are accessible and not broken. 5 | 6 | ## ⚠️ Performance Warning 7 | 8 | **This skill may take a long time to complete** (minutes to hours) depending on the number of links to check: 9 | - A single file: ~1-5 minutes 10 | - One directory (e.g., `books/`): ~5-15 minutes 11 | - All files in repository: ~30-60+ minutes 12 | 13 | **Recommendations:** 14 | - Start with a smaller scope (single file or directory) for testing 15 | - Run during off-hours if checking the entire repository 16 | - Be patient - the tool adds delays between requests to respect rate limits 17 | - Consider saving the report for future reference 18 | 19 | ## Instructions for Claude 20 | 21 | When a user wants to validate links, follow these steps: 22 | 23 | 1. **Determine scope:** 24 | Ask the user if they want to check: 25 | - All files in the repository 26 | - Specific category (books, courses, data, social, software) 27 | - Specific topic (Data Science, ML, CV, NLP, etc.) 28 | - Specific file 29 | 30 | 2. **Find all relevant markdown files:** 31 | - Use Glob tool to find markdown files: `**/*.md` 32 | - Filter based on the chosen scope 33 | 34 | 3. **Extract links from markdown files:** 35 | - Read each file using the Read tool 36 | - Extract all URLs (http:// and https://) 37 | - Parse markdown link syntax: `[text](url)` 38 | - Create a list of unique URLs to check 39 | 40 | 4. **Validate links:** 41 | For each URL: 42 | - Use WebFetch tool to check if the URL is accessible 43 | - Note: Some URLs may block automated requests, so handle failures gracefully 44 | - Track: accessible, broken (4xx/5xx errors), redirected, timeout 45 | - Consider rate limiting to avoid being blocked 46 | 47 | 5. **Generate report:** 48 | Create a summary with: 49 | - Total links checked 50 | - Number of working links 51 | - List of broken links with file locations 52 | - List of redirected links 53 | - List of timeouts or inaccessible links 54 | 55 | 6. **Suggest fixes:** 56 | For broken links: 57 | - Try to find alternatives (Internet Archive, updated URLs) 58 | - Suggest removing if permanently dead 59 | - Flag for manual review if uncertain 60 | 61 | 7. **Inform the user:** 62 | Provide the validation report and suggested actions 63 | 64 | ## Usage Example 65 | 66 | User: "Check all links in the courses directory" 67 | 68 | You should: 69 | 1. Find all files: `courses/*.md` 70 | 2. Extract all URLs from these files 71 | 3. Validate each URL 72 | 4. Generate a report showing working and broken links 73 | 5. Suggest fixes for broken links 74 | 75 | ## Important Notes 76 | - Be respectful of rate limits - add delays between checks if needed 77 | - Some sites may block automated requests - document these separately 78 | - Don't modify files without user confirmation 79 | - Provide clear file paths and line numbers for broken links 80 | - Consider using HEAD requests instead of GET to be more efficient 81 | - Handle authentication-required links appropriately 82 | - Document the validation timestamp 83 | 84 | ## Implementation Tips 85 | - Use bash `curl` or `wget` for link checking if WebFetch has limitations 86 | - Consider checking in batches to avoid overwhelming servers 87 | - Cache results to avoid rechecking the same URL multiple times 88 | - Create a validation log file for future reference 89 | -------------------------------------------------------------------------------- /data/data_computer_vision.md: -------------------------------------------------------------------------------- 1 | # Открытые данные для компьютерного зрения 2 | 3 | - [VisualData](https://www.visualdata.io/). Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск. 4 | - [xView](http://xviewdataset.org/#dataset). Один из самых больших общедоступных наборов воздушных снимков земли. Он содержит изображения различных сцен со всего мира, аннотированных с помощью ограничительных рамок. 5 | - [Labelme](http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php). Большой датасет аннотированных изображений. 6 | - [ImageNet](http://image-net.org/). Датасет изображений для новых алгоритмов, организованный в соответствии с иерархией WordNet, в которой сотни и тысячи изображений представляют каждый узел иерархии. 7 | - [LSUN](https://www.yf.io/p/lsun). Датасет изображений, разбитых по сценам и категориям с частичной разметкой данных. 8 | - [MS COCO](http://cocodataset.org/#home). Крупномасштабный датасет для обнаружения и сегментации объектов. 9 | - [COIL100](https://www.kaggle.com/jessicali9530/coil100). 100 разных объектов, изображённых под каждым углом в круговом обороте. 10 | - [Visual Genome](http://visualgenome.org/). Датасет с ~100 тыс. подробно аннотированных изображений. 11 | - [Google's Open Images](https://ai.googleblog.com/2016/09/introducing-open-images-dataset.html). Коллекция из 9 миллионов URL-адресов к изображениям, «которые были помечены метками, охватывающими более 6000 категорий» под лицензией Creative Commons. 12 | - [Labelled Faces in the Wild](http://vis-www.cs.umass.edu/lfw/). Набор из 13 000 размеченных изображений лиц людей для использования приложений, которые предполагают использование технологии распознавания лиц. 13 | - [Stanford Dogs Dataset](http://vision.stanford.edu/aditya86/ImageNetDogs/). Содержит 20 580 изображений из 120 пород собак. 14 | - [Indoor Scene Recognition](http://web.mit.edu/torralba/www/indoor.html). Датасет для распознавания интерьера зданий. Содержит 15 620 изображений и 67 категорий. 15 | 16 | ## Автопилоты 17 | 18 | - [Berkeley DeepDrive BDD100k](https://bdd-data.berkeley.edu/). На данный момент это самый большой датасет для автопилотов. Он содержит более 100 000 видео с более чем 1100 часами записей вождения в разное время дня и в различных погодных условиях. 19 | - [Baidu Apolloscapes](http://apolloscape.auto/). Большой датасет для распознавания 26 семантически разных объектов вроде машин, велосипедов, пешеходов, зданий, уличных фонарей и т. д. 20 | - [Comma.ai](https://archive.org/details/comma-dataset). Более семи часов езды по шоссе. Датасет включает информацию о скорости машины, ускорении, угле поворота руля и GPS-координатах. 21 | - [Oxford's Robotic Car](https://robotcar-dataset.robots.ox.ac.uk/). Более ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасет попали разные комбинации погодных условий, трафика и пешеходов, а также более длительные изменения вроде дорожных работ. 22 | - [Cityscape Dataset](https://www.cityscapes-dataset.com/). Большой датасет, содержащий записи ста уличных сцен в 50 городах. 23 | - [KUL Belgium Traffic Sign Dataset](http://www.vision.ee.ethz.ch/~timofter/traffic_signs/). Более 10 000 аннотаций тысяч разных светофоров в Бельгии. 24 | - [LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets](http://cvrr.ucsd.edu/LISA/datasets.html). Датасет с дорожными знаками, светофорами, распознанными средствами передвижения и траекториями движения. 25 | - [Bosch Small Traffic Light Dataset](https://hci.iwr.uni-heidelberg.de/node/6132). Датасет с 24 000 аннотированных светофоров. 26 | - [LaRa Traffic Light Recognition](http://www.lara.prd.fr/benchmarks/trafficlightsrecognition). Ещё один датасет для распознавания светофоров. 27 | - [WPI datasets](http://computing.wpi.edu/dataset.html). Датасет для распознавания светофоров, пешеходов и дорожной разметки. -------------------------------------------------------------------------------- /books/books_computer_vision.md: -------------------------------------------------------------------------------- 1 | # Книги по компьютерному (машинному) зрению (Computer Vision) 2 | - Клетте Р. Компьютерное зрение: теория и алгоритмы. 2019 (обработка и анализ изображений, сегментация, реконструкция, обнаружение объектов; есть цветные иллюстрации, упражнения, нужно владеть математическим аппаратом). 3 | - Justin Solomon. Numerical Algorithms. Methods for Computer Vision, Machine learning and Graphics. 2015 (очень емкое, но при этом практичное введение в те части линейной алгебры, оптимизационных методов, матанализа и дифференциальных, которые пригождаются в компьютерном зрении и машинном обучении). 4 | - Шапиро Л., Стокман Дж. Компьютерное зрение. 2015 (основные аспекты алгоритмического распознавания образов: базовый анализ изображений, фильтрация, цвет, текстура, восприятие движения и трехмерных сцен; алгоритмы даны на псевдокоде; качественный перевод Богуславского, достойные иллюстрации) 5 | - Гонсалес Р. Вудс Р. Цифровая обработка изображений. 2012 (введение в основные понятия и методы цифровой обработки изображений, большое количество примеров и иллюстраций, упраженния). 6 | - Szeliski R. Computer Vision: Algorithms and Applications. 2010 (обработка, сегментация, выравнивание, движение, вычислительная фотография, 3D-реконструкция, рендеринг, детектирование). 7 | - Hartley R. Zisserman A. Multiple View Geometry in Computer Vision. 2004 (о работе с объектами, распознаваемыми с разных точек наблюдения, примеры кода даны на Matlab). 8 | - Бишоп К. М. Распознавание образов и машинное обучение. Вильямс, 2020. (недостаток в русскоязычном издании — ч/б рисунки) 9 | 10 | ## Книги по Computer Vision на Python 11 | - Modern Computer Vision with PyTorch. Packt Publishing, 2024 12 | - Коул Анирад, Ганджу Сидха, Казам Мехер. Искусственный интеллект и компьютерное зрение. Реальные проекты на Python, Keras и TensorFlow. Питер, 2023. 13 | - Шакирьянов Э. Д. Компьютерное зрение на Python. Первые шаги, 2021 — учебный курс для школьников, есть цветные иллюстрации и проекты 14 | - Joseph Howse, Joe Minichino. Learning OpenCV 4 Computer Vision with Python. Pack Publising, 2020. 15 | - V Kishore Ayyadevara, Yeshwanth Reddy. Modern Computer Vision with PyTorch. Explore deep learning concepts and implement over 50 real-world image applications. Pack Publising, 2020. 16 | - Dr. Benjamin Planche, Eliot Andres. Hands-On Computer Vision with TensorFlow 2. Leverage deep learning to create powerful image processing apps with TensorFlow 2.0 and Keras. Pack Publising, 2019. 17 | - Solem J. E. [Programming Computer Vision with Python](http://programmingcomputervision.com/). На русском издана под названием «Программирование компьютерного зрения на языке Python», во многом устарела, так как прибегает в основном к использованию PIL, а не OpenCV; однако теория и алгоримы поданы понятно, много примеров, цветные иллюстрации. 18 | - Bryan WC Chung. Pro Processing for Images and Computer Vision with OpenCV. Apress Media, 2017. 19 | - Computer Vision with Python 3. Packt Publishing, 2017. 20 | - Laganiere R. - OpenCV 3 Computer Vision Application Programming Cookbook. Packt, 2017. 21 | 22 | ## Книги по Computer Vision на C++ 23 | 24 | - Гарсия, Саурес, Аранда и др. Обработка изображений с помощью OpenCV. 2016. 25 | - Kaehler A., Bradski G. Learning OpenCV 3. O'Reilly Media, 2017. 26 | 27 | ## Книги по Computer Vision на Java 28 | 29 | - Klevis Ramo. Hands-On Java Deep Learning for Computer Vision. Packt Publishing, 2019. 30 | - Прохоренок Н. А. OpenCV и Java. Обработка изображений и компьютерное зрение. БХВ-Петербург, 2018. 31 | - Baggio D. L. OpenCV 3.0 Computer Vision with Java. 2015. 32 | 33 | ## Книги по Computer Vision на LabVIEW 34 | 35 | - Белиовская Л. Г., Белиовский Н.А. Основы машинного зрения в среде LabVIEW (предназначена для школьного учебного курса). ДМК Пресс, 2017. 36 | 37 | ## Научно популярные книги о биологическом и компьютерном зрении 38 | 39 | - Крейман Г. Биологическое и компьютерное зрение. ДМК Пресс, 2022. 40 | -------------------------------------------------------------------------------- /social/social_machine_learning.md: -------------------------------------------------------------------------------- 1 | # Источники по классической статистике и машинному обучению 2 | 3 | ## Чтобы понять – интересно вам это или нет 4 | 5 | - [Про машинное обучение простым языком](https://vas3k.ru/blog/machine_learning/) 6 | 7 | ## Ветки Reddit 8 | 9 | - [/learnmachinelearning](https://www.reddit.com/r/learnmachinelearning) 10 | - [/MachineLearning](https://www.reddit.com/r/MachineLearning) 11 | - [/rstats](https://www.reddit.com/r/rstats) 12 | - [/probabilitytheory](https://www.reddit.com/r/probabilitytheory) 13 | - [/pystats](https://www.reddit.com/r/pystats) 14 | - [/statistics](https://www.reddit.com/r/statistics) 15 | 16 | ## Блокноты Jupyter 17 | 18 | - 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks)) 19 | 20 | ## Публикации по метрикам 21 | 22 | - [Метрики в задачах машинного обучения](https://habr.com/en/company/ods/blog/328372/) 23 | - [Анализ с помощью ROC-кривой](https://wiki.loginom.ru/articles/roc-analysis.html?_ga=2.70714516.50663422.1603560142-625801188.1603560142) 24 | 25 | ## Публикации по несбалансированным данным 26 | 27 | Можно считать, что выборка несбалансирована, когда размеры классов отличаются более, чем в 10 раз. Больший класс называют доминирующим, меньший класс называется минорным. Качество можно повысить с помощью корректировки весов объектов, искусственной модификации датасета. Accuracy и AUC слабо изменяются при изменении модели, более чувствительна метрика F-Score. 28 | 29 | - [https://www.kaggle.com/mlg-ulb/creditcardfraud](https://www.kaggle.com/mlg-ulb/creditcardfraud) 30 | - [http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf](http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf) 31 | - [Презентация Богдана Мельника (ld86) про обучение на несбалансированных выборках](https://ld86.github.io/ml-slides/unbalanced.html#/22) 32 | 33 | ## YouTube-каналы, посвященные общим вопросам машинного обучения 34 | 35 | - [What's AI](https://www.youtube.com/channel/UCUzGQrN-lyyc0BWTYoJM_Sg) 36 | - [Daniel Bourke](https://www.youtube.com/channel/UCr8O8l5cCX85Oem1d18EezQ) 37 | - [Mark Saroufim](https://www.youtube.com/user/marksaroufim) 38 | - [Nicholas Renotte](https://www.youtube.com/c/NicholasRenotte) 39 | - [Abhishek Thakur](https://www.youtube.com/c/AbhishekThakurAbhi) 40 | - [Aladdin Persson](https://www.youtube.com/c/AladdinPersson) 41 | - [CodeEmporium](https://www.youtube.com/c/CodeEmporium/featured) 42 | - [Jay Alammar](https://www.youtube.com/channel/UCmOwsoHty5PrmE-3QhUBfPQ) 43 | - [Yacine Mahdid](https://www.youtube.com/c/CodeThisCodeThat/featured) 44 | - [Henry AI Labs](https://www.youtube.com/channel/UCHB9VepY6kYvZjj0Bgxnpbw/featured) 45 | - [Smitha Kolan - Machine Learning Engineer](https://www.youtube.com/channel/UCsh8qhZ4Wm2IJDRsNr_5Z0A) 46 | - [AI Coffee Break with Letitia](https://www.youtube.com/c/aicoffeebreak) 47 | - [deeplizard](https://www.youtube.com/channel/UC4UJ26WkceqONNF5S26OiVw) 48 | - [The Independent Code](https://www.youtube.com/channel/UC1OLIHvAKBQy3o5LcbbxUSg) 49 | - [Alfredo Canziani](https://www.youtube.com/c/AlfredoCanziani/featured) 50 | - [Cassie Kozyrkov](https://www.youtube.com/channel/UCbOX--VOebPe-MMRkatFRxw/featured) 51 | - [AIEngineering](https://www.youtube.com/c/AIEngineeringLife/featured) 52 | - [Kapil Sachdeva](https://www.youtube.com/channel/UCk1u5_qq_nrdz13-o5K6beQ) 53 | - [AI Coding](https://www.youtube.com/c/AICoding/featured) 54 | - [Valerio Velardo - The Sound of AI](https://www.youtube.com/channel/UCZPFjMe1uRSirmSpznqvJfQ) 55 | - [mildlyoverfitted](https://www.youtube.com/c/mildlyoverfitted) 56 | 57 | ### YouTube-каналы, посвященные публикациям в области машинного обучения и ИИ 58 | 59 | - [AI Journal](https://www.youtube.com/c/AIJournal) 60 | - [Arxiv Insights](https://www.youtube.com/channel/UCNIkB2IeJ-6AmZv7bQ1oBYg) 61 | - [Yannic Kilcher](https://www.youtube.com/c/YannicKilcher/featured) 62 | - [Two Minute Papers](https://www.youtube.com/c/K%C3%A1rolyZsolnai/featured) 63 | - [bycloud](https://www.youtube.com/channel/UCgfe2ooZD3VJPB6aJAnuQng) 64 | 65 | ## Разделы с научными статьями на arXiv.org 66 | 67 | - cs.LG - Machine Learning: ([new](https://arxiv.org/list/cs.LG/new), [recent](https://arxiv.org/list/cs.LG/recent), [current month](https://arxiv.org/list/cs.LG/current)) 68 | - [stat.ML](https://arxiv.org/list/stat.ML/recent) 69 | -------------------------------------------------------------------------------- /data/data_data_science.md: -------------------------------------------------------------------------------- 1 | # Источники открытых данных для Data Science 2 | 3 | ## Global 4 | 5 | - [Google Dataset Search](https://datasetsearch.research.google.com/) 6 | - [Датасеты Kaggle](https://www.kaggle.com/datasets) 7 | - [Global Open Data Index](https://index.okfn.org/) ― отслеживание открытых данных правительств различных стран 8 | - [наборы данных AWS в Amazon](https://registry.opendata.aws/) 9 | - [Data Portals](https://dataportals.org/search) 10 | - [Open Data Monitor](https://www.opendatamonitor.eu/) 11 | - [Quandl](https://www.quandl.com/) Financial, Economic and Alternative Data 12 | - [Wikipedia: List of datasets for machine-learning research](https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research) 13 | - сабреддит [Datasets](https://www.reddit.com/r/datasets/) 14 | - [Датасеты проекта Papers with Code](https://paperswithcode.com/datasets?q=&v=lst&o=newest) 15 | - [DataHub](https://datahub.io/) 16 | 17 | ## Россия 18 | 19 | - [Российский федеральный портал открытых данных](http://data.gov.ru/) 20 | - [Мультистат](http://multistat.ru/) 21 | - [Открытые НКО](https://openngo.ru/) 22 | - [Хаб открытых данных](https://hubofdata.ru/) – каталог открытых данных русскоязычных пользователей. Данные государства, НКО и коммерческих компаний 23 | - [Архив](http://sophist.hse.ru/) экономических и социологических данных по российской Федерации от НИУ ВШЭ 24 | - [Росстат](https://rosstat.gov.ru/) – Федеральная служба государственной статистики 25 | - [ВЦИОМ](https://wciom.ru/), их [базы данных](https://bd.wciom.ru/) 26 | - [ФОМ](https://fom.ru/) – Фонд «Общественное мнение», российская организация, занимающаяся проведением социологических исследований 27 | - [Официальные статистические показатели](https://www.fedstat.ru/) 28 | - [Открытые данные Министерства финансов](https://minfin.gov.ru/opendata/) 29 | - [Открытые данные Министерства культуры](https://opendata.mkrf.ru/) 30 | 31 | ## Открытые данные отдельных городов России 32 | 33 | - [Портал открытых данных правительства Москвы](https://data.mos.ru/) 34 | - [Открытые данные Санкт-Петербурга](https://data.gov.spb.ru/) 35 | - [Каталог государственных сайтов Санкт-Петербурга](https://esir.gov.spb.ru/) 36 | - [Анапа](ttp://www.anapa-official.ru/opendata/) 37 | - [Георгиевск](http://www.georgievsk.ru/about/opendata/) 38 | - [Зеленоград](http://www.zelao.ru/opendata/) 39 | - [Йошкар-Ола](http://www.i-ola.ru/opendata/) 40 | - [Казань](http://data.kzn.ru/) 41 | - [Краснодар](https://www.krd.ru/opendata/) 42 | - [Ставрополь](http://www.stavadm.ru/opendata/) 43 | - [Тула](http://opendata71.ru) 44 | - [Челябинск](http://socchel.ru/otkrytye-dannye) 45 | - [Южно-Сахалинск](http://yuzhno-sakh.ru/dirs/1462) 46 | 47 | ## Открытые данные отдельных регионов России 48 | 49 | - [Астраханская область]( http://egov.astrobl.ru/opendata/nabory-otkrytyh-dannyh) 50 | - [Волгоградская область](http://old.volganet.ru/files/opendata/) 51 | - [Вологодсая область](http://opendata.gov35.ru/) 52 | - [Курганская область](http://kurganobl.ru/otkrytye-dannye) 53 | - [Нерюнгринский район](http://www.neruadmin.ru/opendata/) 54 | - [Пермский край](http://opendata.permkrai.ru/opendata/) 55 | - [Ставропольский край](http://www.stavregion.ru/open/otkrytye-dannye/) 56 | - [Томская область](http://tomsk.gov.ru/ru/otkrytyy-region/otkrytye-dannye/otkrytye-dannye-tomskoy-oblasti/) 57 | - [Татарстан](https://open.tatarstan.ru/data/dataset) 58 | - [Тыва](http://www.opentuva.ru/) 59 | - [Тюменская область]( https://www.admtyumen.ru/ogv_ru/gov/open-gov/opendata.htm) 60 | - [Ульяновская область](http://data.ulgov.ru/) 61 | - [Хабаровский край](http://www.khv.gov.ru/ODOpenData/ChooseData) 62 | - [Ярославская область](http://www.yarregion.ru/opendata/default.aspx) 63 | 64 | ## Открытые данные других стран 65 | 66 | - [Data.gov](https://www.data.gov/) – данные государственных учреждений США 67 | - [Великобритания](data.gov.uk) 68 | 69 | ## Медицинские данные 70 | 71 | - [MIMIC-III](https://mimic.physionet.org/). Датасет с обезличенными данными о состоянии здоровья 40 тыс. пациентов, находящихся на интенсивной терапии. Он включает демографические данные, показатели жизнедеятельности, лабораторные анализы 72 | 73 | ## Научные статьи 74 | 75 | - [scholar.google.com](https://scholar.google.com/) 76 | - [arxiv.org](https://arxiv.org/) 77 | - [arxiv-sanity.org](https://arxiv-sanity.org/) 78 | - [paperswithcode.com](https://paperswithcode.com/) 79 | 80 | ## Открытые API 81 | 82 | - [GitHub-подборка открытых API различного назначения](https://github.com/public-apis/public-apis) -------------------------------------------------------------------------------- /books/books_nlp.md: -------------------------------------------------------------------------------- 1 | # Книги по обработке естественного языка 2 | 3 | ## Книги для работы с английским языком и книги для разных языков 4 | 5 | - Masato Hagiwara. Real-World Natural Language Processing. Practical applications with Deep Learning. 2021. 6 | - Azunre P. Transfer Learning for Natural Language Processing. 2021. 7 | - Bansal A. Advanced Natural Language Processing with TensorFlow 2. 2021. 8 | - Rotman D. Transformers for Natural Language Processing. 2021. 9 | - [Jurafsky D., Martin J. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition](https://web.stanford.edu/~jurafsky/slp3/). 2020. 10 | - Vajjala S., Majumder B., Gupta A., Surana H. Practical Natural Language Processing. A Comprehensive Guide to Building Real-World NLP Systems. 2020. 11 | - Alex Tomas. Natural Language Processing with Spark NLP. 2020. 12 | - Mathangi Sri. Practical Natural Language Processing with Python. 2020. 13 | - [Bird, Klein, Loper. Natural Language Processing with Python](http://www.datascienceassn.org/sites/default/files/Natural%20Language%20Processing%20with%20Python.pdf) (PDF). Переведена на русский под названием «Берд, Кляйн и Лопер. Обработка естественного языка с Python» 14 | - Kulkarni A, Shivananda A. Natural Language Processing Recipes Unlocking Text Data with Machine Learning and Deep Learning using Python. 2019. 15 | - Sohom Ghosh, Dwight Gunning. Natural Language Processing Fundamentals. Packt Publishing. 2019. 16 | - Dipanjan Sarkar. Text Analytics with Python. A Practitioners Guide to Natural Language Processing. Second Edition. 2019. 17 | - Hobson Lane, Cole Howard, Hannes Max Hapke. Natural Language Processing in Action: Understanding, analyzing, and generating text with Python. 2019. 18 | - Goldberg Y. Neural Network Methods for Natural Language Processing. 2017. (Переведена на русский язык: Гольдберг. Нейросетевые методы в обработке естественного языка. 2019) 19 | - Mihalcea R., Radev D. Graph-based Natural Language Processing and Information Retrieval. 2011. 20 | - C. D. Manning, P. Raghavan, H. Schütze. Introduction to Information Retrieval (переведена на русский язык: Маннинг К., Рагхаван П., Шютце Х. «Введение в информационный поиск»2011) 21 | - Perkins J. Python Text Processing with NLTK 2.0 Cookbook. 2010. 22 | - Dr. Peter Jackson, Isabelle Moulinier. Natural Language Processing for Online Applications: Text Retrieval, Extraction and Categorization. 2007. 23 | - C. D. Manning, H. Schütze. Foundations of Statistical Natural Language Processing 24 | - [Probabilistic Models in the Study of Language](http://idiom.ucsd.edu/~rlevy/pmsl_textbook/text.html) 25 | - Abduction, belief and context in dialogue: studies in computational pragmatics. Edited by Harry Bunt, William Black. 2000. 26 | - C. В. Manning, H. Schütze (1999) [Statistical Natural Language Processing](https://nlp.stanford.edu/fsnlp/). 27 | 28 | ## Большие языковые модели 29 | - Келен Оливье, Блете Мари-Алис.Разработка приложений на базе GPT-4 и ChatGPT. Sprint Book, 2024 30 | - Aymen El Amri. OpenAI GPT For Python Developers Аймен Эль Амри. Leanpub. Перевод на русский: GPT-3: программирование на Python в примерах. ДМК Пресс, 2023. — Книга грешит повторяющимся кодом, но можно использовать для ознакомления с устройством OpenAI API для разных GPT-моделей. 31 | 32 | ## Книги по обработке естественного языка для русского языка 33 | 34 | - Большакова Е.И., Клышинский Э.С. [Автоматическая обработка текстов на естественном языке и компьютерная лингвистика](http://clschool.miem.edu.ru/uploads/swfupload/files/011a69a6f0c3a9c6291d6d375f12aa27e349cb67.pdf) (pdf) 35 | 36 | ## Для разных языков на русском языке 37 | 38 | - Васильев Ю. Обработка естественного языка. Python и spaCy на практике. Питер, 2021. 39 | - Хобсон, Ханнес, Коул. Обработка естественного языка в действии. Питер, 2020. 40 | - Ганегедара Т. Обработка естественного языка с TensorFlow. ДМК, 2020. 41 | - Макмахан Б. , Рао Д. Знакомство с PyTorch. Прогресс книга, 2020. 42 | - Бенгфорт Б. Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка. Питер, 2019. 43 | - Гольдберг. Нейросетевые методы в обработке естественного языка. 2019 44 | - Ричард Риз. Обработка естественного языка на Java. ДМК Пресс, 2016. 45 | 46 | ## Периодика 47 | 48 | - [ACL Anthology](http://www.aclweb.org/anthology/) - материалы основных конференций по NLP (полезно следить за ACL, EACL, NAACL, RANLP, EMNLP) 49 | - [Computational Linguistics](https://www.mitpressjournals.org/loi/coli) 50 | - [Natural Language Engineering](https://www.cambridge.org/core/journals/natural-language-engineering) 51 | - Материалы [конференции “Диалог”](http://www.dialog-21.ru/digests) 52 | -------------------------------------------------------------------------------- /courses/courses_machine_learning.md: -------------------------------------------------------------------------------- 1 | ## Курсы по машинному обучению 2 | - [Введение в Data Science и машинное обучение](https://stepik.org/course/4852) (Stepik, ★4.9) 3 | - [Курс лекций К.В.Воронцова](http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29). На YouTube-канале Яндекса [Компьютерные науки](https://www.youtube.com/channel/UCKFojzto0n4Ab3CRQRZ2zYA/playlists) можно прослушать [курс К.В. Воронцова](https://www.youtube.com/watch?v=SZkrxWhI5qM&list=PLJOzdkh8T5krxc4HsHbB8g8f0hu7973fK), прочитанный в 2019 г. 4 | - [Материалы курсов Дьяконова "Введение в машинное обучение"](https://github.com/Dyakonov/IML) 5 | - [Машинное обучение](https://stepik.org/course/8057/) (Stepik, ★4.9) 6 | - [Записи семинаров Евгения Соколова по машинному обучению, ВМК МГУ](https://github.com/esokolov/ml-course-msu) 7 | - [Курс Евгения Соколова "Машинное обучение" на ФКН ВШЭ](https://github.com/esokolov/ml-course-hse) (блокноты Jupyter), [видео на YouTube](https://www.youtube.com/watch?v=OBG6EUSRC9g&list=PLEqoHzpnmTfDwuwrFHWVHdr1-qJsfqCUX) 8 | - [Курс по науке о данных Open Source Society University (OSSU)](https://github.com/ossu/data-science) – в виде GitHub-репозитория 9 | - [Материалы курса "Машинное обучение" на ФАЛТ МФТИ](https://github.com/ml-dafe/ml_mipt_dafe_major) 10 | - [Материалы курса от ВШЭ и ШАД на coursera.org "Введение в машинное обучение"](https://github.com/tyz910/hse-shad-ml) 11 | - [Репозиторий курса "Введение в машинное обучение" в Техносфере](https://github.com/shestakoff/sphere-ml-intro) 12 | - [Введение в анализ данных и машинное обучение](https://github.com/agzamovr/ml-course-uz) (блокноты Jupyter) 13 | - [Курс по машинному обучению для магистров компьютерной лингвистики 1-го курса в Высшей Школе Экономики](https://github.com/mannefedov/hse_ml_m1) 14 | - [YouTube-курс по машинному обучению Computer Science Center](https://www.youtube.com/watch?v=pkI64ocefFU&list=PLlb7e2G7aSpSWVExpq74FnwFnWgLby56L) ([вторая часть](https://www.youtube.com/watch?v=TEyEWTYII64&list=PLlb7e2G7aSpSSsCeUMLN-RxYOLAI9l2ld)) 15 | -  [Байесовские методы в машинном обучении](https://www.youtube.com/watch?v=Ejsr3S79gcQ&list=PLEqoHzpnmTfCiJpMPccTWXD9DB4ERQkyw) (YouTube, ФКН ВШЭ) 16 | -  [Анализ сетевых структур](https://www.youtube.com/watch?v=JPLl72fRb80&list=PLEqoHzpnmTfABLQAiiRHGsYHexERVoEb7) (YouTube, ФКН ВШЭ, последний на английском) 17 | -  [Курс Сергея Николенко о машинном обучении](https://www.youtube.com/watch?v=BPcicsBuRdc&list=PL-_cKNuVAYAWXoVzVEDCT-usTEBHUf4AF) (YouTube, Лекториум) 18 | -  [Курс о байесовском выводе](https://www.youtube.com/watch?v=dVm6LKr9rLY&list=PL-_cKNuVAYAU0vPERG07V2B_fykSxiL7z) (YouTube, Лекториум) 19 | -  [Курс о коммуникационной сложности](https://www.youtube.com/watch?v=-s3kucJIawo&list=PL-_cKNuVAYAUhvlUfW7P2cdhWCRDWs0pG) (YouTube, Лекториум) 20 | -  Лекции Евгения Соколова о [рекомендательных системах](https://www.youtube.com/watch?v=ZyRJ9EMWztg&list=PL-_cKNuVAYAWkYunGd6zKk7UxmExS-GHl) 21 | -  Лекции Александра Дайняка о [математических методах визуализации данных](https://www.youtube.com/watch?v=qhNkjC_Yjag&list=PL-_cKNuVAYAXCa4FxPy9oi3_76gjSqacM) 22 | -  [Kaggle: Intro to Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning) 23 | -  [Kaggle: Intermediate Machine Learning](https://www.kaggle.com/learn/intermediate-machine-learning) 24 | -  [Kaggle: Machine Learning Explainability](https://www.kaggle.com/learn/machine-learning-explainability) 25 | -  [Kaggle: Microchallenges](https://www.kaggle.com/learn/microchallenges) 26 | -  [Kaggle: Feature Engineering](https://www.kaggle.com/learn/feature-engineering) 27 | - [Introduction to Machine Learning for Coders](http://course18.fast.ai/ml) – курс fast.ai 28 | - [Machine Learning Crash Course with TensorFlow APIs](https://developers.google.com/machine-learning/crash-course) – курс Google 29 | - [Coursera: Introduction to Statistics](https://www.coursera.org/learn/stanford-statistics) – приятный курс Стэнфорда 30 | - [Seeing Theory](https://seeing-theory.brown.edu/) – короткий курс по теории вероятностей и математической статистике 31 | - [Machine Learning with Python: A Practical Introduction](https://www.edx.org/course/machine-learning-with-python-a-practical-introduct) – бесплатный курс IBM на EDX 32 | 33 | ## Вебинары 34 | 35 | - [Введение в анализ данных. Основные инструменты](https://live.skillbox.ru/webinars/code/vvedenie-v-analiz-dannykh-osnovnye-instrumenty261222/) 36 | - [Просто о сложной математике в Data Science](https://live.skillbox.ru/webinars/code/prosto-o-slozhnoi-matematike-v-data-science281222/) 37 | -------------------------------------------------------------------------------- /books/books_machine_learning.md: -------------------------------------------------------------------------------- 1 | # Книги по статистике машинному обучению 2 | 3 | ## Статистика 4 | 5 | - Брюс П., Брюс Э. Практическая статистика для специалистов Data Science. 50 важнейших понятий. БХВ-Петербург, 2018. — В качестве основного языка используется R. 6 | - Illowsky B., Dean S. [Introductory Statisctics](https://openstax.org/details/introductory-statistics). OpenStax, 2021. 7 | - Kormanik K. A. [Statistics Fundamentals Succinctly](https://www.syncfusion.com/succinctly-free-ebooks/statistics-fundamentals-succinctly). 2016 – введение в статистику с практической точки зрения 8 | - Shafer D. S., Zhang Z. [Introductory Statistics](https://open.umn.edu/opentextbooks/textbooks/introductory-statistics). University of North Carolina, 2012. – большое количество примеров и иллюстраций 9 | - Lane D. etc. [OnlineStatBook](http://onlinestatbook.com/). Rice University 10 | - James G., Witen D., Hastie T., Tibshirani R. [An Introduction to Statistical Learning](https://www.ime.unicamp.br/~dias/Intoduction%20to%20Statistical%20Learning.pdf) — введение в методы статистического обучения с лабораторными работами на языке R 11 | - Dekking F.M., Kraaikamp C., Lopuhaa H.P., Meester L.E. [A Modern Introduction to 12 | Probability and Statistics](https://cis.temple.edu/~latecki/Courses/CIS2033-Spring13/Modern_intro_probability_statistics_Dekking05.pdf). 2005. – подробный ясный учебник по теории вероятностей и математической статистике с большим количеством примеров и упражнений 13 | 14 | ## Машинное обучение для новичков 15 | 16 | - Бурков А. Машинное обучение без лишних слов. Питер, 2020. — простое и весьма короткое введение в область. 17 | 18 | ## Машинное обучение 19 | - Прозис Джеф. Прикладное машинное обучение и искусственный интеллект для инженеров. Алист, 2024 20 | - Григорьев Алексей. Машинное обучение. Портфолио реальных проектов. Питер, 2023. - практическое введение в базовое машинное обучение, NumPy, scikit-learn, pandas, TensorFlow, обучение с развертыванием в Kubernetes на AWS 21 | - Лакшманан Валиаппа. Машинное обучение. Паттерны проектирования. БХВ-Петербург, 2022. 22 | - Hal Daume III. [A Course in Machine Learning](http://ciml.info/dl/v0_9/ciml-v0_9-all.pdf). 2015 – прекрасно оформленный вводный курс в машинное обучение (PDF) 23 | - Hastie T., Tibshirani R., Friedman J.. The elements of statistical learning. 2009. — классический способ начать знакомиться с машинным обучением, если вас не пугает математика 24 | - [Bayesian Reasoning and Machine Learning](http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.HomePage) – качественный, прекрасно оформленный и регулярно обновляемый курс David Barber 25 | - [A First Encounter with Machine Learning](https://www.ics.uci.edu/~welling/teaching/ICS273Afall11/IntroMLBook.pdf) – курс Max Welling, 2011 г. (PDF) 26 | - [Gaussian Processes for Machine Learning](http://www.gaussianprocess.org/gpml/) 27 | - [Introduction to Machine Learning](https://arxiv.org/abs/0904.3664v1) – конспект лекций по машинному обучению Амнона Шашуа (Amnon Shashua), охватывающий темы статистического вывода 28 | - [Machine Learning, Neural and Statistical Classification](http://www1.maths.leeds.ac.uk/~charles/statlog/) – книга 1994 г. Michie, Spiegelhalter, Taylor, основана на проекте StatLog ЕС (ESPRIT), в котором сравниваются и оцениваются методы классификации с оценкой их достоинств, недостатков и диапазонов применения 29 | - [The Elements of Statistical Learning](https://web.archive.org/web/20131027220938/http://www-stat.stanford.edu/~tibs/ElemStatLearn//) 30 | - Mastering Machine Learning Algorithms, Second Edition 31 | - Murphy. Machine learning a probabilistic perspective — объемная и содержательная книга из MIT 32 | - Нильсен Э. Практический анализ временных рядов: прогнозирование со статистикой и машинное обучение. 2021 33 | - Richert, Coelho. Building Machine Learning Systems with Python. Packt Publishing, 2015. — доступное изложение задач машинного обучения (анализ изображений, текстов, звука) с описанием того, как это сделать в Python 34 | - Harrington P. Machine Learning in Action. Manning, 2012. — базовое знакомство с методами машинного обучения, без перегрузки математическими деталями 35 | - Marshland S. Machine Learning: An Algorithmic Perspective. CRC Press, 2015. — приводятся и объясняются реализации разных методов машинного обучения на Python 36 | - Шай Бен-Давид и Шай Шалев-Шварц. Understanding Machine Learning: From Theory to Algorithms 37 | - Machine Learning Refined Foundations, Algorithms, and Applications by Jeremy Watt Reza Borhani Aggelos Katsaggelos 38 | - Кристоф Мольнар. [Interpretable Machine Learning](https://christophm.github.io/interpretable-ml-book/) фокусируется на моделях машинного обучения для табличных данных 39 | - Кэмерон Дэвидсон. [Bayesian Methods for Hackers](https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers) — всё о байесовском выводе 40 | 41 | ### Рецепты машинного обучения 42 | 43 | - Чжен Э. Машинное обучение: Конструирование признаков. Принципы и техники для аналитиков. Бомбора, 2021. 44 | - Галлатин К., Элбон К. Машинное обучение с использованием Python. Сборник рецептов. 2 изд. Алист, 2024 45 | 46 | ### Архитектура систем машинного обучения 47 | 48 | - Чип Хьюен. Проектирование систем машинного обучения. 2023 49 | - Монарх Роберт (Манро) . Машинное обучение с участием человека. ДМК Пресс, 2022 50 | -------------------------------------------------------------------------------- /courses/courses_data_science.md: -------------------------------------------------------------------------------- 1 | # Курсы по общим вопросам Data Science 2 | 3 | ## Если просто хочется понять, интересно вам это или нет 4 | 5 | - [Аналитик данных](https://praktikum.yandex.ru/data-analyst) (Яндекс.Практикум, бесплатен первый курс) 6 | - [Специалист по Data Science](https://praktikum.yandex.ru/data-scientist) (Яндекс.Практикум, бесплатен первый курс) 7 | - [Data Science: будущее для каждого](https://netology.ru/programs/dsfuture) (Нетология, 3 занятия) 8 | 9 | ## Курсы и специализации по Data Science в целом 10 | 11 | - [Доска в Trello, с разбиением по различным тематикам Data Science](https://trello.com/b/rbpEfMld/data-science) 12 | - [Открытый курс по машинному обучению](https://www.youtube.com/playlist?list=PLVlY_7IJCMJdgcCtQfzj5j8OVB_Y0GJCl) (Юрий Кашницкий) 13 | - [Введение в Data Science и машинное обучение](https://stepik.org/course/4852) (Stepik ★4.9, Институт Биоинформатики, Анатолий Карпов): pandas, решающие деревья, random forest 14 | - [Демо KarpovCourses Аналитик данных](https://stepik.org/course/74457) (Stepik ★4.9, Анатолий Карпов и Ко) (первые три урока платного курса, много полезного для понимания сферы) 15 | - [Материалы специализации на Coursera от МФТИ и Yandex Data Factory Машинное обучение и анализ данных](https://github.com/demidovakatya/mashinnoye-obucheniye/), [другой студенческий репозиторий](https://github.com/Coursera-machine-learning-data-analysis/course-materials) 16 | - Cognitive Class: курсы по [статистике](https://www.youtube.com/watch?v=7rKQBKQOIQw&list=PL-XeOa5hMEYxprJm93wFRM49E5V0ffsfY), [построению чат-ботов](https://www.youtube.com/watch?v=6_l9Zxt4UL4&list=PL-XeOa5hMEYwOlGWMx-uVUpcKeJRggiv5), [Data Science](https://www.youtube.com/watch?v=z1kPKBdYks4&list=PL-XeOa5hMEYz5U0wAu1EvOuG-ndOEoaQr), [методологии науки о данных](https://www.youtube.com/watch?v=gE6Ya-8OB78&list=PL-XeOa5hMEYzF11WYSfDnaiSJIFY5zttH), глубокому обучению с [TensorFlow](https://www.youtube.com/watch?v=MrijcdNl_U4&list=PL-XeOa5hMEYxNzHM7YLRjIwE1k3VQpqEh), [PytTorch](https://www.youtube.com/watch?v=AIVtAiK7Thc&list=PL-XeOa5hMEYw3O0nbqiPagDnWaMSvd-Y0) и [Keras](https://www.youtube.com/watch?v=X1NkMZ5euFw&list=PL-XeOa5hMEYzE-0Om7as8e5dJmSTAS2tm) 17 | - [Data Science Tutorials](https://www.youtube.com/channel/UCk5tiFqPvdjsl7yT4mmokmg/playlists) -- небольшие занятия-инструкции по языкам Python, R и их библиотекам 18 | - [Kaggle: Pandas](https://www.kaggle.com/learn/pandas) 19 | - [Kaggle: Data Cleaning](https://www.kaggle.com/learn/data-cleaning) 20 | - Coursera: ["Графические вероятностные модели"](https://www.coursera.org/specializations/probabilistic-graphical-models) 21 | - [CS109b: Advanced Topics in Data Science](https://harvard-iacs.github.io/2020-CS109B/) -- гарвардский курс 22 | 23 | ## Курсы по математике для Data Science 24 | 25 | ### Всего понемногу 26 | 27 | - [Практикум по математике и Python](https://stepik.org/3356) (Stepik ★4.8, Алексей Задойный) 28 | - [Компьютерное моделирование](https://stepik.org/61480) (Stepik ★4.5, КНИТУ-КАИ им. А. Н. Туполева) 29 | 30 | ### Курсы по статистике 31 | 32 | - [Основы статистики](https://stepik.org/76) (Stepik ★4.9, Институт Биоинформатики, Анатолий Карпов и Ко), [Часть 2](https://stepik.org/course/524), [Часть 3](https://stepik.org/course/2152) 33 | - [Анализ данных, Stepik](https://stepik.org/57623) (Stepik ★4.9, Кафедра статистики РЭУим.Г.В.Плеханова) – несмотря на название, курс в большей мере посвящен статистике 34 | 35 | ## Курсы по языкам программирования и другим инструментам Data Science 36 | 37 | ### Python 38 | - [Программирование на Python](https://stepik.org/67) (Stepik ★4.8, Институт Биоинформатики) 39 | - [Основы Python](https://ru.hexlet.io/courses/js-basics) (Hexlet) 40 | 41 | ### R 42 | 43 | - [Анализ данных в R](https://stepik.org/129) (Stepik ★4.9, Институт Биоинформатики, Анатолий Карпов и Ко), [вторая часть](https://stepik.org/course/724/): предобработка данных, статистика, функции семейства apply, dplyr, Data.table, ggplot 44 | - [Основы программирования на R](https://stepik.org/497) (Stepik ★4.9, Институт Биоинформатики, Антон Антонов) – для тех, кто хочет укрепить свои знания в R 45 | - [Базовый курс R на Codecademy](https://www.codecademy.com/learn/learn-r) 46 | 47 | ### Julia 48 | 49 | - [Курс про основы Julia для применения в Data Science проектах](https://github.com/JuliaEvangelists/Julia-in-DS) 50 | 51 | ## Курсы по базам данных 52 | 53 | ### SQL 54 | 55 | - [Интерактивный тренажер по SQL](https://stepik.org/course/63054) (Stepik ★5.0, ДВФУ)– один из лучших курсов по введению в SQL на практических примерах 56 | - [Введение в базы данных](https://stepik.org/551) (Stepik, Александр Мяснов, Иван Савин) 57 | - [Базы данных](https://stepik.org/2614) (Stepik, СПбГУ) 58 | - [Kaggle: Intro to SQL](https://www.kaggle.com/learn/intro-to-sql) 59 | - [Kaggle: Advanced SQL](https://www.kaggle.com/learn/advanced-sql) 60 | - [Вводный курс в SQL на Codecademy](https://www.codecademy.com/learn/learn-sql) 61 | 62 | ## Курсы по визуализации данных 63 | 64 | - [Kaggle: Data Visualization](https://www.kaggle.com/learn/data-visualization) 65 | 66 | ## Бесплатные курсы по смежным дисциплинам Computer Science 67 | 68 | ### Linux 69 | - [Основы командной строки](https://ru.hexlet.io/courses/cli-basics) (Hexlet) 70 | - [Операционные системы](https://ru.hexlet.io/courses/operating_systems) (Hexlet) 71 | 72 | ### Протоколы 73 | - [Введение в интернет](https://ru.hexlet.io/courses/internet-fundamentals) (Hexlet) 74 | 75 | ### Frontend 76 | - [Основы современной верстки](https://ru.hexlet.io/courses/layout-designer-basics) (Hexlet) 77 | - [Основы JavaScript](https://ru.hexlet.io/courses/js-basics) (Hexlet) 78 | 79 | ### Backend 80 | - [Основы Go](https://ru.hexlet.io/courses/go-basics) (Hexlet) -------------------------------------------------------------------------------- /data/data_nlp.md: -------------------------------------------------------------------------------- 1 | # Лингвистические и филологические данные 2 | 3 | - [Национальный корпус русского языка](https://ruscorpora.ru/), [другие корпусы](https://ruscorpora.ru/new/corpora-other.html) 4 | - Предобученные вектора для русского языка и интерактивные примеры [RusVectōrēs](https://rusvectores.org/ru/) 5 | 6 | ## Параллельные корпуса 7 | - [Parallel corpora](https://www.clarin.eu/resource-families/parallel-corpora) 8 | - [Europarl](https://www.statmt.org/europarl/) 9 | - [UN Corpus](https://conferences.unite.un.org/UNCorpus/) 10 | - [LDC Un Parallel text](https://catalog.ldc.upenn.edu/LDC94T4A) 11 | - [Opus](http://opus.nlpl.eu/) 12 | 13 | ### Международные базы данных, корпусы и датасеты 14 | 15 | - [Список популярных датасетов](https://github.com/niderhoff/nlp-datasets) 16 | - [NLPub](https://nlpub.ru/) – русскоязычный каталог ресурсов для обработки естественного языка 17 | - [Brown corpus](http://icame.uib.no/brown/bcm.html) 18 | - [Корпуса для английского](https://aclweb.org/aclwiki/Corpora_for_English) 19 | - [HotspotQA Dataset](https://hotpotqa.github.io/) – датасет вопросов-ответов 20 | - [Amazon Reviews](https://snap.stanford.edu/data/web-Amazon.html) – около 35 млн отзывов на Amazon за 18 лет: информация о продукте и пользователе, оценки и сам текст отзыва 21 | - [Google Books Ngrams](https://aws.amazon.com/ru/datasets/google-books-ngrams/) – коллекция слов из Google Книги 22 | - [Blogger Corpus](http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm) – коллекция из 600 тыс. постов с Blogger 23 | - [Wikipedia Links data](https://code.google.com/archive/p/wiki-links/downloads) – каждая из страниц содержит хотя бы одну ссылку на Википедию и текст якоря совпадает или похож на заголовок целевой страницы 24 | - [Gutenberg eBooks List](https://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs) – аннотированный список электронных книг проекта «Гутенберг» 25 | - [Hansards text chunks of Canadian Parliament](https://www.isi.edu/natural-language/download/hansard/) – датасет 1.3 млн пар текстовых файлов, записанных на дебатах 36-го Канадского Парламента 26 | - [Jeopardy](https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/) – архив 200 тыс. вопросов телевикторины Jeopardy 27 | - [Rotten Tomatoes Reviews](https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view) – архив 480 тыс. рецензий на фильмы 28 | - [SMS Spam Collection in English](http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) – 5574 спам-смс на английском 29 | - [Yelp Reviews](https://www.yelp.com/dataset) – датасет от Yelp из 5 млн отзывов 30 | - [UCI’s Spambase](https://archive.ics.uci.edu/ml/datasets/Spambase) – датасет спам-писем 31 | - [Apache Software Foundation Public Mail Archives](https://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/) – архив открытых писем, связанных с поддержкой программного обеспечения Apache 32 | 33 | ## Обработка естественного языка 34 | 35 | - [HotspotQA Dataset](https://hotpotqa.github.io/). Датасет с вопросами-ответами, позволяющий создавать системы для ответов на вопросы более понятным способом. 36 | - [Enron Dataset](https://www.cs.cmu.edu/~./enron/). Данные электронной почты от высшего руководства Enron. 37 | - [Amazon Reviews](https://snap.stanford.edu/data/web-Amazon.html). Содержит около 35 млн отзывов с Amazon за 18 лет. Данные включают информацию о продукте и пользователе, оценки и сам текст отзыва. 38 | - [Google Books Ngrams](https://aws.amazon.com/ru/datasets/google-books-ngrams/). Коллекция слов из Google Книги. 39 | - [Blogger Corpus](http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm). Коллекция из 681 288 постов с Blogger. Каждый блог содержит как минимум 200 вхождений часто используемых английских слов. 40 | - [Wikipedia Links data](https://code.google.com/archive/p/wiki-links/downloads). Датасет, состоящий из веб-страниц, которые удовлетворяют следующим двум условиям: каждая из них содержит хотя бы одну ссылку на Википедию и текст её якоря совпадает или похож на заголовок целевой страницы. 41 | - [Gutenberg eBooks List](https://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs). Аннотированный список электронных книг проекта «Гутенберг». 42 | - [Hansards text chunks of Canadian Parliament](https://www.isi.edu/natural-language/download/hansard/). Датасет с 1.3 миллионами пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента. 43 | - [Jeopardy](https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/). Архив с более чем 200 000 вопросов с телевикторины Jeopardy. 44 | - [Rotten Tomatoes Reviews](https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view). Архив из более чем 480 000 рецензий с Rotten Tomatoes. 45 | - [SMS Spam Collection in English](http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/). Датасет, состоящий из 5574 спам-смс на английском. 46 | - [Yelp Reviews](https://www.yelp.com/dataset). Датасет от Yelp, содержащий более 5 млн отзывов. 47 | - [UCI's Spambase](https://archive.ics.uci.edu/ml/datasets/Spambase). Большой датасет спам-писем. 48 | 49 | ### Синтаксический анализ 50 | 51 | - [Penn Treebank](https://catalog.ldc.upenn.edu/LDC99T42) 52 | - [SynTagRus](https://ru.wikipedia.org/wiki/%D0%A1%D0%B8%D0%BD%D0%A2%D0%B0%D0%B3%D0%A0%D1%83%D1%81) -- корпус синтаксической разметки для русского языка, есть [версия с разметкой для универсальных зависимостей](https://github.com/UniversalDependencies/UD_Russian-SynTagRus) 53 | 54 | ## Анализ тональности текста 55 | 56 | - [Multidomain sentiment analysis dataset](http://www.cs.jhu.edu/~mdredze/datasets/sentiment/). Немного устаревший датасет, который содержит отзывы на товары с Amazon. 57 | - [IMDB reviews](http://ai.stanford.edu/~amaas/data/sentiment/). Староватый, относительной небольшой (25 000 отзывов к фильмам) датасет для бинарного анализа тональности. 58 | - [Stanford Sentiment Treebank](http://nlp.stanford.edu/sentiment/code.html). Стэнфордский датасет для анализа тональности. 59 | - [Sentiment140](http://help.sentiment140.com/for-students/). Популярный датасет с 160 000 твитов с удалёнными смайликами. 60 | - [Twitter US Airline Sentiment](https://www.kaggle.com/crowdflower/twitter-airline-sentiment). Набор данных из Twitter об авиакомпаниях США, датируемый февралём 2015 года, разделённый на положительные, негативные и нейтральные твиты. 61 | - [WordNet-Affect](https://wndomains.fbk.eu/wnaffect.html) – семантический тезаурус, в котором понятия, связанные с эмоциями («эмоциональные концепты», англ. «affective concepts»), представлены с помощью слов, обладающих эмоциональной составляющей («эмоциональные слова», англ. «affective words») ([вики](https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%82%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0#%D0%A1%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D1%82%D0%B5%D0%B7%D0%B0%D1%83%D1%80%D1%83%D1%81%D1%8B)) 62 | - [SenticNet](https://sentic.net/) – семантический тезаурус для работы с наборами эмоциональных понятий ([вики](https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%82%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0#%D0%A1%D0%B5%D0%BC%D0%B0%D0%BD%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D1%82%D0%B5%D0%B7%D0%B0%D1%83%D1%80%D1%83%D1%81%D1%8B)) 63 | -------------------------------------------------------------------------------- /books/books_data_science.md: -------------------------------------------------------------------------------- 1 | # Книги по общим вопросам Data Science 2 | 3 | ## Смешанные подборки книг по различным тематикам Data Science 4 | 5 | - [100 бесплатных книг по Data Science](https://www.learndatasci.com/free-data-science-books/) (англ.) 6 | - [Бесплатные электронные книги по Data Science издательства O'Reilly](https://www.oreilly.com/data/free/archive.html) 7 | 8 | ## Научно-популярные книги о Data Science (и просто около) 9 | 10 | - Сейновски Т. Антология машинного обучения: важнейшие исследования в области ИИ за последние 60 лет. Бомбора (Эксмо). 2022. 11 | - Шумский С. А. Воспитание машин. Новая история разума. 2021. 12 | - Фрай Х. Hello World. Как быть человеком в эпоху машин. АСТ: CORPUS, 2021. 13 | - Рассел С. Совместимость. как контролировать искусственный интеллект. Альпина Диджитал, 2021. 14 | - Лекун Я. Как учится машина: Революция в области нейронных сетей и глубокого обучения. Альпина PRO, 2021. 15 | - Хэнд Д. Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных. Альпина Паблишер, 2021 (хорошие отзывы). 16 | - Келлехер Джон Д., Тирни Брендан. Наука о данных. Базовый курс. Альпина Паблишер, 2021. 17 | - Зыков Р. В. Роман с Data Science. Как монетизировать большие данные. 2021 (для менеджеров). 18 | - Еременко К. Работа с данными в любой сфере. Альпина Паблишер, 2021 (без формул и алгоритом, для руководителей малых и средних предприятий, пожалели на красках, в итоге цветовые схемы не работают в оттенках серого). 19 | - Жаклин Нолис и Эмили Робинсон. Data Science для карьериста (в оригинале Build a Career in Data Science). Питер, 2021. 20 | - Хэнд Дэвид. Темные данные: Практическое руководство по принятию правильных решений в мире недостающих данных, 2021. 21 | - Бруссард М. Искусственный интеллект: пределы возможного. Альпина нон-фикшн, 2020. 22 | - Агравал Аджей, Ганс Джошуа, Голдфарб Ави. Искусственный интеллект на службе бизнеса. МИФ, 2019. 23 | - Кэтрин О'Нил. Убийственные большие данные. АСТ, 2018. 24 | - Шваб К. Четвертая промышленная революция. 2017 (о будущем: новые устройства, умные города, бизнес, медицина, государство). 25 | - Педро Домингос. Верховный алгоритм. Как машинное обучение изменит наш мир. 2016. 26 | - Дэвенпорт Томас. Внедрение искусственного интеллекта в бизнес-практику. Альпина Паблишер, 2020. 27 | - Форд Мартин. Роботы наступают: развитие технологий и будущее без работы. Альпина Паблишер, 2019. 28 | - Big Data. Вся технология в одной книге. Вайгенд Андреас. Эксмо, 2018. 29 | 30 | ## Книги по Data Science начального уровня 31 | 32 | - Математика для Data Science. Управляем данными с помощью линейной алгебры, теории вероятностей и статистики. SprintBook. 2025. 33 | - Апельцин Л. Data Science в действии. Питер, 2023. 34 | - Дейтел Пол, Дейтел Харви. Python: Искусственный интеллект, большие данные и облачные вычисления. Прогресс книга, 2022. 35 | - Келлехер Джон Д. Наука о данных. Базовый курс. 2021 (совсем азбука, чтобы понять, о чем речь). 36 | - Стивен Скиена: Наука о данных. Учебный курс. Вильямс, 2020. Базовый курс от автора популярного учебника по алгоритмам. Нет ориентации на отдельные языки. Есть сопроводительные материалы в виде [слайдов и видеолекций](http://www.data-manual.com) и ссылки на подходящие конкурсы Kaggle. 37 | - О'Нил, Шатт. Data Science. Инсайдерская информация для новичков. Питер. 2019 (используется язык R). 38 | - Prevos P. Principles of Strategic Data Science. Packt, 2019. 39 | - Брюс П., Брюс Э., Гедек П. Практическая статистика для специалистов Data Science. 50+ важнейших понятий с использованием R и Python. БХD, 2021. — 2-е издание (в первом используется только R). 40 | - Силен, Мейсман, Али – Основы Data Science и Big Data. Python и наука о данных. Питер, 2018 41 | - Alex Galea. Applied Data Science with Python and Jupyter. Packt, 2018. 42 | - Грас Д. Наука о данных с нуля. БХВ-Петербург. 2021 (2-е издание). — лучше читать второе издание, в нём чище код и более реалистичные примеры, книга рассматривает всё «галопом по европам», лучше использовать как дополнение. 43 | - Силен Дэви, Мейсман Арно. Основы Data Science и Big Data. Python и наука о данных. Питер, 2018. 44 | - Пасквинелли М. Машины, формирующие(ся в) логику: нейронные сети и искаженная автоматизация интеллекта в качестве статистического вывода. 45 | 46 | ## Книги по языкам программирования с упором на Data Science 47 | 48 | ### Учебники по Python и библиотекам Python для Data Science 49 | 50 | - Постолит А. В. Основы искусственного интеллекта в примерах на Python. БХВ-Петербург, 2021. 51 | - Маккини Уэс. Python и анализ данных. ДМК Пресс, 2020. 52 | - Себастьян Рашка, Вахид Мирджалили. Python и машинное обучение. Диалектика, 2020. 53 | - Пратик Дж. Искусственный интеллект с примерами на Python, 2019. 54 | - Micha Gorelick, Ian Ozsvald. High Performance Python: Practical Performant Programming for Humans. 2020. (объясняется работа интерпретатора и механик кода, способов взаимодействия с памятью) 55 | - Дэвидсон-Пайлон К. Вероятностное программирование на Python: байесовский вывод и алгоритмы. Питер, 2019. 56 | - Элбон Крис. Машинное обучение с использованием Python. Сборник рецептов. БХВ-Петербург, 2019 57 | - Andriy Burkov. The Hundred-Page Machine Learning Book. 2019. 58 | - Aurelien Geron. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media, 2019. 59 | - Python Machine Learning. Third edition: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow 2. Packt, 2019. 60 | - Вандер Плас Дж. Python для сложных задач. Наука о данных и машинное обучение. Питер, 2018. 61 | - Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python. Вильямс, 2017. 62 | - Свейгарт Эл. Автоматизация рутинных задач с помощью Python. Вильямс, 2016. 63 | - Boschetti A. Python Data Science Essentials. Packt Publishing, 2015. 64 | 65 | ### Книги по Python, не относящиеся напрямую к Data Science, но полезные для создания DS-продуктов 66 | 67 | - Патрик Виафоре. Надежный Python. БХВ, 2023 68 | - Matthew Fowler. Python Concurrency with asyncio. Manning, 2022 69 | - Любанович Б. Простой Python. Современный стиль программирования. 2-е изд. 2022. 70 | - Гифт Ной. Python и DevOps: Ключ к автоматизации Linux. Прогресс книга, 2022 71 | 72 | ### Учебники по R 73 | 74 | - Zumel N., Mount J. Practical Data Science with R, 2nd edition. 2020. 75 | - Мэтлофф Норман. Искусство программирования на R. Питер, 2019. 76 | - Yves Croissant, Giovanni Millo. Panel Data Econometrics with R. Wiley, 2019. 77 | - Wiley M., Wiley J.F. Advanced R Statistical Programming and Data Models: Analysis, Machine Learning, and Visualization. Apress, 2019 78 | - [Advanced R](http://adv-r.had.co.nz/) 79 | - [Learning Statistics with R](https://web.archive.org/web/20170319021353/http://health.adelaide.edu.au:80/psychology/ccs/teaching/lsr/) 80 | - Роберт И. Кабаков. R в действии.Анализ и визуализация данных на языке R. 3-е издание. ДМК Пресс, 2023. 81 | - Togo L. Data Mining with R: Learning with Case Studies, 2nd Edition. 2017. 82 | - Hadley Wickham and Garrett Grolemund. R for Data Science. O’Reilly Media, 2017. 83 | - Norman Matloff. Parallel Computing for Data Science: With Examples in R, C++ and CUDA. Chapman and Hall/CRC. 2015 84 | - Long J.D., Teetor P. R Cookbook Proven Recipes for Data Analysis, Statistics, and Graphics (на русском в переводе: Лонг Дж.Д., Титор П. R. Книга рецептов. ДМК Пресс, 2009) 85 | 86 | ### Учебники по Julia 87 | - Эрик Энгхейм. Julia в качестве второго языка. ДМК Пресс, 2023. 88 | - Kalicharan N. Julia — Bit by Bit. Programming for Beginners. Springer, 2021. 89 | - Julia 1.0 Programming Complete Reference Guide. Packt Publishing, 2019. 90 | - McNicholas P.D., Tait P. Data Science with Julia. CRC Press, 2019. 91 | - Шеррингтон М.: Осваиваем язык Julia. Совершенствование мастерства в области аналитики и программирования. ДМК-Пресс, 2017. 92 | - Белов Г.В. Краткое описание языка программирования Julia с примерами использования для решения задач аппроксимации и оптимизации [pdf](http://ihed.ras.ru/~thermo/Julia/Brief%20description%20of%20Julia%20language.pdf) 93 | 94 | ### Учебники по Data Science на Java 95 | 96 | - R. Shams. Java Data Science Cookbook. Packt, 2017. 97 | - Reese J., Reese R. Java for Data Science. Packt, 2017. 98 | - Reese R.M., Reese J.L., Grigorev A. Java: Data Science Made Easy. Packt, 2017. 99 | 100 | ## Визуализация данных 101 | - Основы визуализации данных. Пособие по эффективной и убедительной подаче информации. Бомбора, 2024 102 | - Molin S. Hands-On Data Analysis with Pandas: Efficiently perform data collection, wrangling, analysis, and visualization using Python. Packt, 2019. 103 | - Базалева О. И. Мастерство визуализации данных. Диалектика-Вильямс, 2018. 104 | - Kieran Healy. Data Visualization: A Practical Introduction. Princeton University Press, 2018. 105 | - Cole Nussbaumer Knaflic. Storytelling with Data: A Data Visualization Guide for Business Professionals – как качественно визуализировать результаты 106 | - Steve Wexler, Jeffrey Shaffer, Andy Cotgreave. The Big Book of Dashboards. Visualizing Your Data Using Real-World Business Scenarios 107 | 108 | ## Подготовка к собеседованиям 109 | 110 | - Zack Austin. RocketPrep Ace Your Data Science Interview 300 Practice Questions and Answers 111 | 112 | ## Разделы с научными статьями на arXiv.org 113 | 114 | - cs.AI - Artificial Intelligence ([new](https://arxiv.org/list/cs.AI/new), [recent](https://arxiv.org/list/cs.AI/recent), [current month](https://arxiv.org/list/cs.AI/current)) 115 | - cs.DS - Data Structures and Algorithms([new](https://arxiv.org/list/cs.DS/new), [recent](https://arxiv.org/list/cs.DS/recent), [current month](https://arxiv.org/list/cs.DS/current)) 116 | -------------------------------------------------------------------------------- /social/social_data_science.md: -------------------------------------------------------------------------------- 1 | # Блоги, соцсети и другие издания, посвященные общим вопросам Data Science 2 | 3 | ## Блоги, посвященные Data Science 4 | - [Список публикаций matyushkin/lessons](https://github.com/matyushkin/lessons) 5 | - [distill.pub](https://distill.pub/) 6 | - [inference.vc](https://www.inference.vc/) 7 | - [karpathy.github.io](https://karpathy.github.io/) 8 | - [deliprao.com](http://deliprao.com/) 9 | - [fastml.com](https://fastml.com/) 10 | - [timvieira.github.io](https://timvieira.github.io/) 11 | - [blogs.princeton.edu](https://blogs.princeton.edu/) 12 | - [offconvex.org](https://www.offconvex.org/) 13 | - [ruder.io](http://ruder.io/) 14 | - [argmin.net](https://www.argmin.net/) 15 | - [nlpers.blogspot.ru](https://nlpers.blogspot.com/) 16 | - [blog.shakirm.com](http://blog.shakirm.com/) 17 | - [blog.paralleldots.com](https://blog.paralleldots.com) 18 | - [alexanderdyakonov.wordpress.com](https://dyakonov.org/) 19 | - [OpenAI блог](https://openai.com/blog/) 20 | - [Google AI блог](https://ai.googleblog.com/) 21 | - [Facebook AI Research (FAIR) блог](https://ai.facebook.com/blog/) 22 | 23 | 24 | ## Сайты с соревнованиями по Data Science 25 | - [Kaggle](https://www.kaggle.com/) 26 | - [TopCoder](https://www.topcoder.com/) 27 | - [DrivenData](https://www.drivendata.org/) 28 | - [Zindi](https://zindi.africa/) 29 | - [CodaLab](https://competitions.codalab.org/) 30 | - [AI Challenger](http://challenge.ai.iqiyi.com/) 31 | - [Signate](https://signate.jp/) 32 | - [CrowdAI](https://www.aicrowd.com/) 33 | - [CrowdAnalytix](https://www.crowdanalytix.com/) 34 | 35 | ## Ветки Reddit 36 | - [/analyzit](https://www.reddit.com/r/analyzit) 37 | - [/datascience](https://www.reddit.com/r/datascience) 38 | - [/datacleaning](https://www.reddit.com/r/datacleaning) 39 | - [/datagangsta](https://www.reddit.com/r/datagangsta) 40 | - [/dataisbeautiful](https://www.reddit.com/r/dataisbeautiful) 41 | - [/dataisugly](https://www.reddit.com/r/dataisugly) 42 | - [/datasets](https://www.reddit.com/r/datasets) 43 | - [/dataviz](https://www.reddit.com/r/dataviz) 44 | - [/JupyterNotebooks](https://www.reddit.com/r/JupyterNotebooks) 45 | - [/opendata](https://www.reddit.com/r/opendata) 46 | 47 | ## Разделы StackExchange 48 | - [Data Science](https://datascience.stackexchange.com/) 49 | - [Cross Validated](https://stats.stackexchange.com/) 50 | 51 | ## Блокноты Jupyter 52 | - 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks)) 53 | - [Добавляем в Jupyter Notebooks красоту и интерактивность](https://habr.com/ru/post/485318/) (Хабр, OvkHabr) 54 | - 🌟 [maelfabien/Machine_Learning_Tutorials](https://github.com/maelfabien/Machine_Learning_Tutorials) 55 | 56 | ## Slack 57 | - [Open Data Science](http://ods.ai) – то, с чего вообще стоит начинать – самое крупное мировое сообщество 58 | - [Slack Томской группы по ML](https://tomskml.slack.com/) ([анкета для регистрации](https://docs.google.com/forms/d/e/1FAIpQLSdYpgm7T80JpyBPt6NMgRP_4jne7v_qaGFjy8wDrS4fNajMDA/viewform?c=0&w=1)) 59 | 60 | ## Telegram-каналы о Data Science 61 | - [Новостной канал сообщества Open Data Science](https://t.me/opendatascience) 62 | - [Data Science Info (англ.)](https://t.me/data_science_info) 63 | - [Small Data Science for Russian Adventures](https://t.me/smalldatascience) – канал Александра Дьяконова (dyakonov.org) о машинном обучении, глубоком обучении, анализе данных, науке о данных и математике 64 | - [ODS Ru](https://t.me/ods_ru) другой канал, в основном информация о мероприятиях 65 | - [Чат по большим данным, обработке и машинному обучению](https://t.me/bigdata_ru) 66 | - [Чат по Data Science](https://t.me/datasciencechat) 67 | - [Spark in me: Internet, statistics, data science, philosophy](https://t.me/snakers4), [чат канала](https://t.me/joinchat/AAAAAEH9JHYBvaPLvaWPGg) 68 | - [Канал с постами с Reddit на DS-тематику](https://t.me/datascientology) 69 | - [Библиотека Data Scientist (proglib)](https://t.me/dsproglib) 70 | - [Чат ODS Pet Projects](https://t.me/ods_pet_projects) 71 | - [Denis Sexy IT](https://t.me/denissexy) – простым языком о нейронных сетях, виртуальной реальности и технологиях 72 | - [Machine Learning](https://t.me/ai_machinelearning_big_data) – преимущественно статьи и ссылки на репозитории 73 | - [ML p(r)ior](https://t.me/mlprior) – новости из мира ИИ 74 | - [gonzo-обзоры ML статей](https://t.me/gonzo_ML) – Канал о AI/ML/DL, биоинформатике, discrete domain, NLP, RL 75 | - [Power of data](https://t.me/powerofdata) – канал Петра Ермакова про Data Science и BigData 76 | 77 | ### VK-группы о Data Science 78 | - [Python, Data Science, нейросети, ИИ](https://vk.com/python_ds) — группа автора этой подборки 79 | - [Data Mining Labs](https://vk.com/datamininglabs) 80 | - [Группа вк про тренировки по машинному обучению](https://vk.com/mltrainings) 81 | - [Томская группа по машинному обучению](https://vk.com/tomskml) 82 | - [Мемы про машинное обучение для юных леди](https://vk.com/weirdreparametrizationtrick) 83 | - [Машинное обучение, AI, нейронные сети, Big Data](https://vk.com/mashinnoe_obuchenie_ai_big_data) 84 | - [Группа со ссылками на статьи ArXiv](https://vk.com/datascience_ai) 85 | - [Cсылки на статьи и новости](https://vk.com/datascience) 86 | - [Группа слушателей онлайн-курсов Института биоинформатики](https://vk.com/introstats) 87 | - [Deep Learning School](https://vk.com/dlschool_mipt) - Глубокое обучение от Физтех-школы Прикладной Математики и Информатики МФТИ (ГУ) 88 | - [Deep Learning](https://vk.com/deeplearning) 89 | - [Neurohive](https://vk.com/neurohive) - новости из мира Data Science и Machine Learning 90 | 91 | ## Facebook-страницы по Data Science 92 | - [ML-тренировки в Москве](https://www.facebook.com/groups/1413405125598651/) 93 | 94 | ## ▶️ YouTube и другие видеоплатформы с информацией о Data Science 95 | - [Computer Science Center](https://www.youtube.com/channel/UC0YHNueF-3Nh3uQT0P4YQZw) -- видеозаписи лекций и докладов преподавателей Computer Science Center, короткие тематические записи на интересные темы в компьютерных науках или программировании. Видео удобно организованы в плейлисты: [машинное обучение](https://www.youtube.com/watch?v=pkI64ocefFU&list=PLlb7e2G7aSpSWVExpq74FnwFnWgLby56L) ([вторая часть](https://www.youtube.com/watch?v=TEyEWTYII64&list=PLlb7e2G7aSpSSsCeUMLN-RxYOLAI9l2ld)), [анализ изображений и видео](https://www.youtube.com/watch?v=zNCvTcoM1I4&list=PLlb7e2G7aSpR6L3pqVh8124ZITsmWckQZ) ([вторая часть](https://www.youtube.com/watch?v=azkzDWi8X64&list=PLlb7e2G7aSpQ4C5ykr2Ce1mfxM01l6_HV)), [введение в обработку естественного языка](https://www.youtube.com/watch?v=1lICvMHJ8RE&list=PLlb7e2G7aSpRTcBciP6VBJJPvdH_DXRXQ), [анализ данных на Python в примерах и задачах](https://www.youtube.com/watch?v=enpPFqcIFj8&list=PLlb7e2G7aSpRb95_Wi7lZ-zA6fOjV3_l7) ([продолжение](https://www.youtube.com/watch?v=enpPFqcIFj8&list=PLlb7e2G7aSpRb95_Wi7lZ-zA6fOjV3_l7)), [анализ данных на R](https://www.youtube.com/watch?v=8mwJ3mEjdIg&list=PLlb7e2G7aSpSSa_PlFEwnd6-3gzAa08_m), [технологии хранения и обработки больших объемов данных](https://www.youtube.com/watch?v=PukjnXwGDaE&list=PLlb7e2G7aSpS_tveNoxgn1Zqmg-VhD95i), [математическая статистика](https://www.youtube.com/watch?v=n_F5V3Bdywk&list=PLlb7e2G7aSpRG_Ve6kuxc9Biuwyf42kJx) 96 | - [Open Data Science Video](https://www.youtube.com/channel/UCM9ECBAZtlLeEr-m3ldZ7Tw/videos) -- видео сообщества ods.ai о карьере в Data Science, записи выступлений по специальным вопросам и соревнованиям. 97 | - [30 YouTube-каналов и плейлистов о Data Science](https://proglib.io/p/30-youtube-kanalov-i-pleylistov-o-data-science-2020-06-17) 98 | - [7 лучших видео TED по тематике Data Science](https://proglib.io/p/7-luchshih-video-ted-po-tematike-data-science-2020-01-20) ([ист.](https://towardsdatascience.com/best-ted-talks-for-data-science-11b699544f)) 99 | - [Денис Ширяев](https://www.youtube.com/user/shirman88/videos) с помощью нейросетей «улучшает» качество видео: Москва, Париж, Нью-Йорк и Англия времен Прекрасной эпохи, Луна и Марс начала космических путешествий. Как это работает, мы описали в статье [просто добавь нейросеть: 7 исторических фильмов в 4K и 60 FPS](https://proglib.io/p/prosto-dobav-neyroset-7-istoricheskih-filmov-v-4k-i-60-fps-2020-03-15) 100 | - [AI Community](https://www.youtube.com/channel/UCv9uq004VYU_NHUJoW2I0mQ/videos) -- YouTube-канал сообщества людей, заинтересованных в коммерциализации искусственного интеллекта. В рамках проекта [AI Heroes](https://www.youtube.com/watch?v=njuWHbrDlNY&list=PL-NwL8FKfZWf7CwhlyAT9OVWfLMnx9t2n) проводятся регулярные вебинары с ведущими экспертами Data Science 101 | - На канале сообщества Open Data Science [ML Trainings](https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w/playlists) хранятся записи тренировок с соревнований Kaggle, X5, соревнований по [компьютерному зрению](https://www.youtube.com/watch?v=RUfmEj1MC3k&list=PLTlO6nV_TaGAErLwfEvkll-_tzMjYteYu), [распознаванию изображений](https://www.youtube.com/watch?v=DZIlnmbAnqc&list=PLTlO6nV_TaGD8-uScRs0ko4wfadIwUrML), [обработке естественного языка](https://www.youtube.com/watch?v=XYw0OOnS8GM&list=PLTlO6nV_TaGBEBYaaO5rMl0XCunOzR8S7), [AutoML](https://www.youtube.com/watch?v=t-7Cd4q2eu4&list=PLTlO6nV_TaGAUwdAmW0_QkdTGJv7ZgMEJ), [рекомендательным системам ](https://www.youtube.com/watch?v=-eCr1K9lKxg&list=PLTlO6nV_TaGASWow5ETo-fdC3KzqWb0se) и др. 102 | - [Плейлист конференции Data&Science](https://www.youtube.com/watch?v=gE2UqbtZPAc&list=PLJOzdkh8T5ko3zzRRwhowooIqnp58jq1b) -- 95 видео о различных аспектах приложения анализа данных в науке 103 | - В записях летних школ [Института биоинформатики](https://www.youtube.com/user/bioinforussia/playlists) встречаются интересные видео [о машинном обучении](https://www.youtube.com/watch?v=qr4plSNW4mk&list=PLjKdf6AHvR-FCfH7b2ADGIqCAeQLDZY_y&index=8), анализе генетических и медицинских данных, [статистике](https://www.youtube.com/watch?v=ykr3X8-thv8) 104 | - [Data Science UA](https://www.youtube.com/channel/UCtMLt48fRjCqiUvKemsDzMw/playlists) - записи украинской конференции по Data Science 105 | - [Gomel Data Science Community](https://www.youtube.com/channel/UCK3ShrERfCvOGPSG1X9TV9g/videos) -- записи митапов и докладов Data Science-сообщества Гомеля 106 | - [TensorFlow](https://www.youtube.com/channel/UC0rqucBdTuFTjJiefW5t-IQ/playlists) -- канал популярного фреймворка глубокого обучения. Записи с [конференции разработчиков](https://www.youtube.com/watch?v=P4_rJfHpr7k&list=PLQY2H8rRoyvzoUYI26kHmKSJBedn3SQuB), [работа в Colab](https://www.youtube.com/watch?v=inN8seMm7UI&list=PLQY2H8rRoyvyK5aEDAI3wUUqC_F0oEroL), [обработка естественного языка](https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S). Есть [небольшой курс на русском языке](https://www.youtube.com/watch?v=qu_WEHvGXWk&list=PLQY2H8rRoyvzTo1p5Hs6hidZHEpx23qtD) 107 | - На [YouTube-канале сообщества Towards Data Science](https://www.youtube.com/channel/UCuHZ1UYfHRqk3-5N5oc97Kw/playlists) есть интересная подборка [лучших YouTube-видео по тематикам вблизи Data Science](https://www.youtube.com/watch?v=7R52wiUgxZI&list=PLNj7wSZTYzhlFa9MRiNdmoKNJwj5gjHEg) 108 | - На канале freeCodeCamp есть плейлист, посвященный [Deep Learning c PyTorch](https://www.youtube.com/watch?v=vo_fUOk-IKk&list=PLWKjhJtqVAbm3T2Eq1_KgloC7ogdXxdRa). Последнее время вместо плейлистов сообщество предпочитает выпускать длительные (иногда многочасовые) ролики, размеченные тайм-кодами: [анализ данных с Python](https://www.youtube.com/watch?v=r-uOLxNrNk8), [TensorFlow 2.0](https://www.youtube.com/watch?v=tPYj3fFJGjk), [NumPy](https://www.youtube.com/watch?v=QUT1VHiLmmI), [как работают глубокие нейросети](https://www.youtube.com/watch?v=dPWYUELwIdM) 109 | - Другое популярное сообщество – DataCamp – преимущественно публикует [видеопособия по языку R](https://www.youtube.com/channel/UC79Gv3mYp6zKiSwYemEik9A/playlists) 110 | - Официальный канал самой крупной соревновательной площадки [Kaggle](https://www.youtube.com/channel/UCSNeZleDn9c74yQc-EKnVTA) содержит [видеоуроки для начинающих кэгглеров](https://www.youtube.com/watch?v=GJBOMWpLpTQ&list=PLqFaTIg4myu8gbDh6oBl7XRYNBlthpDEW), записи вебинаров [с чтением интересных научных статей, связанных с алгоритмами науки о данных](https://www.youtube.com/watch?v=PhTF7yJNR70&list=PLqFaTIg4myu8t5ycqvp7I07jTjol3RCl9) и [сессии живого кодинга](https://www.youtube.com/watch?v=uhbWCrXIvqI&list=PLqFaTIg4myu9f21aM1POYVeoaHbFf1hMc) 111 | - На канале популярного питониста-обзорщика [sentdex](https://www.youtube.com/user/sentdex/playlists) есть плейлисты о [машинном обучении с использованием Python](https://www.youtube.com/watch?v=OGxgnH8y2NM&list=PLQVvvaa0QuDfKTOs3Keq_kaG2P55YRn5v), [нейронных сетях с нуля на Python](https://www.youtube.com/watch?v=Wo5dMEP_BbI&list=PLQVvvaa0QuDcjD5BAw2DxE6OF2tius3V3), [глубоком обучении с TensorFlow и Keras](https://www.youtube.com/watch?v=wQ8BIBpya2k&list=PLQVvvaa0QuDfhTox0AjmQ6tvTgMBZBEXN), [распознавании лиц](https://www.youtube.com/watch?v=535acCxjHCI&list=PLQVvvaa0QuDcDqgpLLJJM15NpIGNfrKY5) 112 | - [DeepMind](https://www.youtube.com/channel/UCP7jMXSY2xbc3KCAE0MHQ-A/playlists) -- канал британской компании, занимающейся искусственным интеллектом, содержит качественные лекции по различным аспектам глубокого обучения 113 | - [Springboard](https://www.youtube.com/channel/UCqd6TofKNjqagInm5Waeu7w) публикует [интервью с дата-сайентистами из топовых компаний](https://www.youtube.com/watch?v=qdjR9eAuHDw&list=PLjKxfZpleE6AffdA6XkPZItzcRH7HPqq4) 114 | - [Karpov.Courses](https://www.youtube.com/channel/UCiZtj9HjyudBwC2TywG0GzQ/videos) – интервью с представителями русскогоязычного Data Science 115 | - [3Blue1Brown](https://www.youtube.com/channel/UCYO_jab_esuFRV4b17AJtAw) – анимации, посвященные математике и ее наглядным математическим представлениям 116 | - [Data Science Guy](https://www.youtube.com/c/DataScienceGuy/) 117 | - [Ken Jee](https://www.youtube.com/channel/UCiT9RITQ9PW6BhXK0y2jaeg) 118 | - [Tina Huang](https://www.youtube.com/channel/UC2UXDak6o7rBm23k3Vv5dww) 119 | - [Data Professor](https://www.youtube.com/channel/UCV8e2g4IWQqK71bbzGDEI4Q) 120 | - [Krish Naik](https://www.youtube.com/user/krishnaik06) 121 | - [Imaad Mohamed Khan](https://www.youtube.com/channel/UC6VPXglDoZYMOj2kr-flNJQ) 122 | - [Import Data](https://www.youtube.com/c/ImportData1/featured) 123 | - [James Briggs](https://www.youtube.com/channel/UCv83tO5cePwHMt1952IVVHw) 124 | - [Shashank Kalanithi](https://www.youtube.com/user/95shawshankk19) 125 | - [Alex The Analyst](https://www.youtube.com/channel/UC7cs8q-gJRlGwj4A8OmCmXg) 126 | - [How to Get an Analytics Job](https://www.youtube.com/channel/UC7T_528unh2ZgnVcx1sl7oA/channels) 127 | - [Chris Lovejoy](https://www.youtube.com/channel/UCDoIFHMTKsgIweO-OZt1ecw) 128 | - [Anastasia K](https://www.youtube.com/channel/UCbWVgqVWcthADXHgxXJn1bA) 129 | - [Data Science Jay](https://www.youtube.com/channel/UCcQx1UnmorvmSEZef4X7-6g) 130 | - [Nate at StrataScratch](https://www.youtube.com/channel/UCW8Ews7tdKKkBT6GdtQaXvQ) 131 | - [Luke Barousse](https://www.youtube.com/channel/UCLLw7jmFsvfIVaUFsLs8mlQ) 132 | - [Madhav Thaker](https://www.youtube.com/user/inferno0709) 133 | - [Damsel in Data](https://www.youtube.com/channel/UCenqe6Cvfd47aHAOb9Qe8yA/featured) 134 | - [RichardOnData](https://www.youtube.com/channel/UCKPyg5gsnt6h0aA8EBw3i6A) 135 | - [Part Time Larry](https://www.youtube.com/channel/UCY2ifv8iH1Dsgjrz-h3lWLQ) 136 | - [The High ROI Data Scientist](https://www.youtube.com/channel/UCkYooZtwK_RJAd9SdL1jfeA/featured) 137 | - [dataslice](https://www.youtube.com/channel/UCBV194XNr6CIQCCuw1v2rMQ) 138 | - [Data Interview Pro](https://www.youtube.com/channel/UCAWsBMQY4KSuOuGODki-l7A) 139 | - [Data School](https://www.youtube.com/c/dataschool/featured) 140 | - [DataInterview](https://www.youtube.com/channel/UCQSMCVUX1HgrwxJhO_7VrJQ/featured) 141 | - [365 Data Science](https://www.youtube.com/c/365DataScience/videos) 142 | - [Data Science Society](https://www.youtube.com/channel/UC5Uikv2NXsZ4ZEWOGyW__3A) 143 | 144 | ## Twitter 145 | - [Мой список для чтения](https://twitter.com/i/lists/1333460025780658177) 146 | 147 | ## Хабы Habr 148 | - [Data Engineering](https://habr.com/ru/hub/data_engineering/) – вопросы сбора и подготовки данных 149 | - [Машинное обучение](https://habr.com/ru/hub/machine_learning/) 150 | - [Искусственный интеллект](https://habr.com/ru/hub/artificial_intelligence/) 151 | - [Data Mining](https://habr.com/ru/hub/data_mining/) 152 | - [Открытые данные](https://habr.com/ru/hub/opendata/) 153 | - [Визуализация данных](https://habr.com/ru/hub/data_visualization/) 154 | - [Хранилища данных](https://habr.com/ru/hub/data_warehouse/) 155 | - [R](https://habr.com/ru/hub/r/) 156 | - [Julia](https://habr.com/ru/hub/julia/) 157 | 158 | 159 | ### Подкасты, посвященные Data Science и родственным вопросам 160 | - [Lex Fridman](https://www.youtube.com/user/lexfridman) 161 | - [bitgrit_official](https://www.youtube.com/channel/UCsEdlkbxrAH93NVGFgGtgdA) 162 | - [Machine Learning Street Talk](https://www.youtube.com/c/MachineLearningStreetTalk/videos) 163 | - [Weights & Biases](https://www.youtube.com/c/WeightsBiases) 164 | - [Chai Time Data Science](https://www.youtube.com/c/ChaiTimeDataScience/featured) 165 | - [Data Skeptic](https://www.youtube.com/channel/UC60gRMJRjTuTskBnl-LkPAg) 166 | - [Data Futurology](https://www.youtube.com/c/datafuturology) 167 | - [O'Reilly](https://www.youtube.com/oreilly/featured) 168 | - [Towards Data Science](https://www.youtube.com/c/TowardsDataScience/videos) 169 | - [Open Data Science](https://www.youtube.com/c/OpenDataScienceCon/videos) 170 | - [Springboard](https://www.youtube.com/c/springboard/featured) 171 | - [Data Science Salon](https://www.youtube.com/c/DataScienceSalon/featured) 172 | - [DeepLearningAI](https://www.youtube.com/c/Deeplearningai) 173 | - [The Ravit Show](https://www.youtube.com/channel/UC4yopSSlBfw2WAykLPTYH-w/featured) 174 | 175 | 176 | ## YouTube-каналы организаций, связанных с развитием Data Science 177 | - [DeepMind](https://www.youtube.com/c/DeepMind/videos) 178 | - [TensorFlow](https://www.youtube.com/c/TensorFlow/featured) 179 | - [Google Cloud Tech](https://www.youtube.com/user/googlecloudplatform/featured) 180 | - [TensorFlow](https://www.youtube.com/channel/UC0rqucBdTuFTjJiefW5t-IQ) 181 | - [HuggingFace](https://www.youtube.com/channel/UCHlNU7kIZhRgSbhHvFoy72w) 182 | - [OpenAI](https://www.youtube.com/channel/UCXZCJLdBC09xxGZ6gcdrc6A) 183 | - [PyTorch](https://www.youtube.com/channel/UCWXI5YeOsh03QvJ59PMaXFw) 184 | - [Kaggle](https://www.youtube.com/user/kaggledotcom) 185 | - [H2O.ai](https://www.youtube.com/user/0xdata) 186 | - [DataCamp](https://www.youtube.com/c/Datacamp/featured) -------------------------------------------------------------------------------- /main_readme_constructor.ipynb: -------------------------------------------------------------------------------- 1 | { 2 | "cells": [ 3 | { 4 | "cell_type": "markdown", 5 | "metadata": {}, 6 | "source": [ 7 | "# Конструктор главного README-файла репозитория\n", 8 | "\n", 9 | "Цель – в дополнение к таблице собрать оставшуюся часть страницы, вставив содержимое остальных страниц. Для этого необходимо:\n", 10 | "1. Считать содержимое таблицы\n", 11 | "2. Для страниц, содержащих ссылки, скопировать и объединить содержимое README-файлов\n", 12 | "3. Вывести суммарное содержимое в порядке, соответствующем таблице" 13 | ] 14 | }, 15 | { 16 | "cell_type": "code", 17 | "execution_count": 119, 18 | "metadata": {}, 19 | "outputs": [ 20 | { 21 | "name": "stdout", 22 | "output_type": "stream", 23 | "text": [ 24 | "# Общие вопросы Data Science\n", 25 | "## Курсы по общим вопросам Data Science\n", 26 | "\n", 27 | "### Если просто хочется понять, интересно вам это или нет\n", 28 | "- [Аналитик данных](https://praktikum.yandex.ru/data-analyst) (Яндекс.Практикум, бесплатен первый курс)\n", 29 | "- [Специалист по Data Science](https://praktikum.yandex.ru/data-scientist) (Яндекс.Практикум, бесплатен первый курс)\n", 30 | "\n", 31 | "### Курсы и специализации по Data Science в целом\n", 32 | "- [Доска в Trello, с разбиением по различным тематикам Data Science](https://trello.com/b/rbpEfMld/data-science)\n", 33 | "- [Материалы специализации на Coursera от МФТИ и Yandex Data Factory Машинное обучение и анализ данных](https://github.com/demidovakatya/mashinnoye-obucheniye/), [другой студенческий репозиторий](https://github.com/Coursera-machine-learning-data-analysis/course-materials)\n", 34 | "\n", 35 | "### Курсы по языкам программирования и другим инструментам Data Science\n", 36 | "\n", 37 | "#### SQL\n", 38 | "- [Интерактивный тренажер по SQL на Stepik](https://stepik.org/course/63054) – один из лучших курсов по введению в SQL на практических примерах\n", 39 | "\n", 40 | "#### Julia\n", 41 | "- [Курс про основы Julia для применения в Data Science проектах](https://github.com/JuliaEvangelists/Julia-in-DS)\n", 42 | "\n", 43 | "## Книги по общим вопросам Data Science\n", 44 | "### Смешанные подборки книг по различным тематикам Data Science\n", 45 | "- [100 бесплатных книг по Data Science ](https://www.learndatasci.com/free-data-science-books/) (англ.)\n", 46 | "- [Бесплатные электронные книги по Data Science издательства O'Reilly](https://www.oreilly.com/data/free/archive.html)\n", 47 | "\n", 48 | "### Книги по Data Science начального уровня\n", 49 | "- Грас Дж. Наука о данных с нуля\n", 50 | "\n", 51 | "### Книги по языкам программирования с упором на Data Science\n", 52 | "#### Учебники по Python\n", 53 | "- Вандер Плас Дж. Python для сложных задач. Наука о данных и машинное обучение\n", 54 | "- Маккини Уэс. Python и анализ данных\n", 55 | "- Свейгарт Эл. Автоматизация рутинных задач с помощью Python\n", 56 | "- Дэвидсон-Пайлон К. Вероятностное программирование на Python: байесовский вывод и алгоритмы\n", 57 | "- Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python\n", 58 | "\n", 59 | "#### Учебники по R\n", 60 | "- [Advanced R](http://adv-r.had.co.nz/)\n", 61 | "- [Learning Statistics with R](https://web.archive.org/web/20170319021353/http://health.adelaide.edu.au:80/psychology/ccs/teaching/lsr/)\n", 62 | "- Кабаков. R в действии. Анализ и визуализация данных на языке R\n", 63 | "\n", 64 | "#### Учебники по Julia\n", 65 | "- Шеррингтон М.: Осваиваем язык Julia. Совершенствование мастерства в области\n", 66 | "\n", 67 | "## Источники открытых данных для Data Science\n", 68 | "\n", 69 | "### Global\n", 70 | "- [Google Dataset Search](https://datasetsearch.research.google.com/)\n", 71 | "- [Датасеты Kaggle](https://www.kaggle.com/datasets)\n", 72 | "- [Global Open Data Index](https://index.okfn.org/)\n", 73 | "\n", 74 | "### Россия\n", 75 | "- [Мультистат](http://multistat.ru/)\n", 76 | "- [Хаб открытых данных](https://www.hubofdata.ru/) – каталог открытых данных русскоязычных пользователей. Данные государства, НКО и коммерческих компаний\n", 77 | "- [Архив](http://sophist.hse.ru/) экономических и социологических данных по российской Федерации от НИУ ВШЭ\n", 78 | "- [Портал открытых данных правительства Москвы](https://data.mos.ru/)\n", 79 | "- [Открытые данные Санкт-Петербурга](https://data.gov.spb.ru/)\n", 80 | "- [Росстат](https://rosstat.gov.ru/) – Федеральная служба государственной статистики\n", 81 | "- [ВЦИОМ](https://wciom.ru/), их [базы данных](https://bd.wciom.ru/)\n", 82 | "- [ФОМ](https://fom.ru/) – Фонд «Общественное мнение», российская организация, занимающаяся проведением социологических исследований\n", 83 | "\n", 84 | "### США\n", 85 | "- [Data.gov](https://www.data.gov/) – данные государственных учреждений США\n", 86 | "\n", 87 | "## Блоги, соцсети и другие издания, посвященные общим вопросам Data Science\n", 88 | "\n", 89 | "### Блоги, посвященные Data Science\n", 90 | "- [Список публикаций matyushkin/lessons](https://github.com/matyushkin/lessons)\n", 91 | "- [distill.pub](https://distill.pub/)\n", 92 | "- [inference.vc](https://www.inference.vc/)\n", 93 | "- [karpathy.github.io](https://karpathy.github.io/)\n", 94 | "- [deliprao.com](http://deliprao.com/)\n", 95 | "- [fastml.com](https://fastml.com/)\n", 96 | "- [timvieira.github.io](https://timvieira.github.io/)\n", 97 | "- [blogs.princeton.edu](https://blogs.princeton.edu/)\n", 98 | "- [offconvex.org](https://www.offconvex.org/)\n", 99 | "- [ruder.io](http://ruder.io/)\n", 100 | "- [argmin.net](https://www.argmin.net/)\n", 101 | "- [nlpers.blogspot.ru](https://nlpers.blogspot.com/)\n", 102 | "- [blog.shakirm.com](http://blog.shakirm.com/)\n", 103 | "- [blog.paralleldots.com](https://blog.paralleldots.com)\n", 104 | "- [alexanderdyakonov.wordpress.com](https://dyakonov.org/)\n", 105 | "\n", 106 | "### Ветки Reddit\n", 107 | "- [/analyzit](https://www.reddit.com/r/analyzit)\n", 108 | "- [/datascience](https://www.reddit.com/r/datascience)\n", 109 | "- [/datacleaning](https://www.reddit.com/r/datacleaning)\n", 110 | "- [/datagangsta](https://www.reddit.com/r/datagangsta)\n", 111 | "- [/dataisbeautiful](https://www.reddit.com/r/dataisbeautiful)\n", 112 | "- [/dataisugly](https://www.reddit.com/r/dataisugly)\n", 113 | "- [/datasets](https://www.reddit.com/r/datasets)\n", 114 | "- [/dataviz](https://www.reddit.com/r/dataviz)\n", 115 | "- [/JupyterNotebooks](https://www.reddit.com/r/JupyterNotebooks)\n", 116 | "- [/opendata](https://www.reddit.com/r/opendata)\n", 117 | "\n", 118 | "\n", 119 | "### Блокноты Jupyter\n", 120 | "- 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks))\n", 121 | "\n", 122 | "### Slack\n", 123 | "- [Open Data Science](http://ods.ai) – то, с чего вообще стоит начинать – самое крупное мировое сообщество \n", 124 | "- [Slack Томской группы по ML](https://tomskml.slack.com/) ([анкета для регистрации](https://docs.google.com/forms/d/e/1FAIpQLSdYpgm7T80JpyBPt6NMgRP_4jne7v_qaGFjy8wDrS4fNajMDA/viewform?c=0&w=1))\n", 125 | "\n", 126 | "### Telegram-каналы о Data Science\n", 127 | "- [Новостной канал Open Data Science](https://t.me/opendatascience)\n", 128 | "- [Чат по большим данным, обработке и машинному обучению](https://t.me/bigdata_ru)\n", 129 | "- [Чат по Data Science](https://t.me/datasciencechat)\n", 130 | "- - [Spark in me: Internet, statistics, data science, philosophy](https://t.me/snakers4), [чат канала](https://t.me/joinchat/AAAAAEH9JHYBvaPLvaWPGg)\n", 131 | "- [Канал с постами с Reddit на DS-тематику](https://t.me/datascientology)\n", 132 | "\n", 133 | "### VK-группы о Data Science\n", 134 | "- [Data Science](https://vk.com/datascience)\n", 135 | "- [Data Mining Labs](https://vk.com/datamininglabs)\n", 136 | "- [Группа вк про тренировки по машинному обучению](https://vk.com/mltrainings)\n", 137 | "- [Томская группа по машинному обучению](https://vk.com/tomskml)\n", 138 | "- [Мемы про машинное обучение для юных леди](https://vk.com/weirdreparametrizationtrick)\n", 139 | "- [Python, Data Science, нейросети, ИИ](https://vk.com/python_ds)\n", 140 | "\n", 141 | "### Facebook-страницы по Data Science\n", 142 | "- [ML-тренировки в Москве](https://www.facebook.com/groups/1413405125598651/)\n", 143 | "\n", 144 | "### ▶️ YouTube и другие видеоплатформы с информацией о Data Science\n", 145 | "- [30 YouTube-каналов и плейлистов о Data Science](https://proglib.io/p/30-youtube-kanalov-i-pleylistov-o-data-science-2020-06-17)\n", 146 | "- [7 лучших видео TED по тематике Data Science](https://proglib.io/p/7-luchshih-video-ted-po-tematike-data-science-2020-01-20) ([ист.](https://towardsdatascience.com/best-ted-talks-for-data-science-11b699544f))\n", 147 | "\n", 148 | "# Программное обеспечение, библиотеки и другие готовы решения для общих задач Data Science\n", 149 | "\n", 150 | "- [Docker-образы для Data Science](https://github.com/yang-zhang/docker-setup)\n", 151 | "\n", 152 | "## Блокноты Jupyter\n", 153 | "- [Practical pandas projects](https://github.com/schlende/practical-pandas-projects) – 5 идей для совершенствования навыков Data Science\n", 154 | "- [Ветка Reddit JupyterNotebooks](https://www.reddit.com/JupyterNotebooks)\n", 155 | "\n", 156 | "\n", 157 | "# Машинное обучение\n", 158 | "# Курсы по статистике\n", 159 | "- [Основы статистики на Stepik](https://stepik.org/course/76), [Часть 2](https://stepik.org/course/524), [Часть 3](https://stepik.org/course/2152)\n", 160 | "- [Анализ данных в R](https://stepik.org/course/129) (от той же команды, Stepik, ★4.9), [часть 2](https://stepik.org/course/724)\n", 161 | "\n", 162 | "# Курсы по машинному обучению\n", 163 | "- [Введение в Data Science и машинное обучение](https://stepik.org/course/4852) (Stepik, ★4.9)\n", 164 | "- [Курс лекций К.В.Воронцова](http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29)\n", 165 | "- [Материалы курсов Дьяконова \"Введение в машинное обучение\"](https://github.com/Dyakonov/IML)\n", 166 | "- [Машинное обучение](https://stepik.org/course/8057/) (Stepik, ★4.9)\n", 167 | "- [Записи семинаров Евгения Соколова по машинному обучению, ВМК МГУ](https://github.com/esokolov/ml-course-msu)\n", 168 | "- [Курс Евгения Соколова \"Машинное обучение\" на ФКН ВШЭ](https://github.com/esokolov/ml-course-hse) (блокноты Jupyter)\n", 169 | "- [Курс по науке о данных Open Source Society University (OSSU)](https://github.com/ossu/data-science) – в виде GitHub-репозитория\n", 170 | "- [Материалы курса \"Машинное обучение\" на ФАЛТ МФТИ](https://github.com/ml-dafe/ml_mipt_dafe_major)\n", 171 | "- [Материалы курса от ВШЭ и ШАД на coursera.org \"Введение в машинное обучение\"](https://github.com/tyz910/hse-shad-ml)\n", 172 | "- [Репозиторий курса \"Введение в машинное обучение\" в Техносфере](https://github.com/shestakoff/sphere-ml-intro)\n", 173 | "- [Введение в анализ данных и машинное обучение](https://github.com/agzamovr/ml-course-uz) (блокноты Jupyter)\n", 174 | "- [Курс по машинному обучению для магистров компьютерной лингвистики 1-го курса в Высшей Школе Экономики](https://github.com/mannefedov/hse_ml_m1)\n", 175 | "# Книги по статистике машинному обучению\n", 176 | "## Статистика\n", 177 | "- Брюс П., Брюс Э. Практическая статистика для специалистов Data Science \n", 178 | "\n", 179 | "\n", 180 | "## Машинное обучение\n", 181 | "- [A Course in Machine Learning](http://ciml.info/dl/v0_9/ciml-v0_9-all.pdf) – прекрасный вводный курс в машинное обучение Hal Daume III (PDF)\n", 182 | "- [Bayesian Reasoning and Machine Learning](http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.HomePage) – качественный, прекрасно оформленный и регулярно обновляемый курс David Barber\n", 183 | "- [A First Encounter with Machine Learning](https://www.ics.uci.edu/~welling/teaching/ICS273Afall11/IntroMLBook.pdf) – курс Max Welling, 2011 г. (PDF)\n", 184 | "- [Gaussian Processes for Machine Learning](http://www.gaussianprocess.org/gpml/)\n", 185 | "- [Introduction to Machine Learning](https://arxiv.org/abs/0904.3664v1) – конспект лекций по машинному обучению Амнона Шашуа (Amnon Shashua), охватывающий темы статистического вывода\n", 186 | "- [Machine Learning, Neural and Statistical Classification](http://www1.maths.leeds.ac.uk/~charles/statlog/) – книга 1994 г. Michie, Spiegelhalter, Taylor, основана на проекте StatLog ЕС (ESPRIT), в котором сравниваются и оцениваются методы классификации с оценкой их достоинств, недостатков и диапазонов применения\n", 187 | "- [The Elements of Statistical Learning](https://web.archive.org/web/20131027220938/http://www-stat.stanford.edu/~tibs/ElemStatLearn//)\n", 188 | "- Murphy. Machine learning a probabilistic perspective — очень объемная и содержательная книга из MIT (~1000 страниц), освещена большая часть мейнстримовых методов машинного обучения\n", 189 | "- Hastie, Tibshirani, Friedman. The elements of statistical learning — классический способ начать знакомиться с машинным обучением, если вас не пугает математика\n", 190 | "- Richert, Coelho. Building Machine Learning Systems with Python — доступное изложение задач машинного обучения (анализ изображений, текстов, звука) с описанием того, как это сделать в Python\n", 191 | "- Harrington. Machine Learning in Action — базовое знакомство с методами машинного обучения, без перегрузки математическими деталями\n", 192 | "- Marshland. Machine Learning: An Algorithmic Perspective — приводятся и объясняются реализации разных методов машинного обучения на Python\n", 193 | "\n", 194 | "# Источники по классической статистике и машинному обучению\n", 195 | "\n", 196 | "\n", 197 | "## Ветки Reddit\n", 198 | "- [/learnmachinelearning](https://www.reddit.com/r/learnmachinelearning)\n", 199 | "- [/MachineLearning](https://www.reddit.com/r/MachineLearning)\n", 200 | "- [/rstats](https://www.reddit.com/r/rstats)\n", 201 | "- [/probabilitytheory](https://www.reddit.com/r/probabilitytheory)\n", 202 | "- [/pystats](https://www.reddit.com/r/pystats)\n", 203 | "- [/statistics](https://www.reddit.com/r/statistics)\n", 204 | "\n", 205 | "## Чтобы понять – интересно вам это или нет\n", 206 | "- [Про машинное обучение простым языком](https://vas3k.ru/blog/machine_learning/)\n", 207 | "\n", 208 | "## Блокноты Jupyter\n", 209 | "- 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks))\n", 210 | "\n", 211 | "## Публикации по метрикам\n", 212 | "- [Метрики в задачах машинного обучения](https://habr.com/en/company/ods/blog/328372/)\n", 213 | "- [Анализ с помощью ROC-кривой](https://wiki.loginom.ru/articles/roc-analysis.html?_ga=2.70714516.50663422.1603560142-625801188.1603560142)\n", 214 | "\n", 215 | "## Публикации по несбалансированным данным\n", 216 | "Можно считать, что выборка несбалансирована, когда размеры классов отличаются более, чем в 10 раз. Больший класс называют доминирующим, меньший класс называется минорным. Качество можно повысить с помощью корректировки весов объектов, искусственной модификации датасета. Accuracy и AUC слабо изменяются при изменении модели, более чувствительна метрика F-Score.\n", 217 | "\n", 218 | "- [https://www.kaggle.com/mlg-ulb/creditcardfraud](https://www.kaggle.com/mlg-ulb/creditcardfraud)\n", 219 | "- [http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf](http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf)\n", 220 | "- [Презентация Богдана Мельника (ld86) про обучение на несбалансированных выборках](https://ld86.github.io/ml-slides/unbalanced.html#/22)\n", 221 | "- [](https://habr.com/ru/post/349078/)\n", 222 | "# Репозитории и программное обеспечение\n", 223 | "- [100 репозиториев по машинному обучению](http://meta-guide.com/software-meta-guide/100-best-github-machine-learning)\n", 224 | "- [Awesome Machine Learning](https://github.com/josephmisiti/awesome-machine-learning) — тщательно подобранный список фреймворков, библиотек и программного обеспечения для машинного обучения\n", 225 | "\n", 226 | "# Нейронные сети\n", 227 | "# Курсы по нейросетям и глубокому обучению\n", 228 | "\n", 229 | "- [Нейронные сети, Институт биоинформатики, Stepik](https://stepik.org/course/401), [студенческие материалы на GitHub](https://github.com/stacymiller/stepic_neural_networks_public)\n", 230 | "- [Нейронные сети и компьютерное зрение, Samsung Research Russia Open Education](https://stepik.org/course/50352), [студенческие файлы семинаров](https://github.com/smartsinovich/Stepik_NeuralNetworks_and_ComputerVision), [студенческий финальный проект](https://github.com/ValentinKovalev/Samsung-stepik-cv-course-final-task)\n", 231 | "- [Нейронные сети и обработка текста, Samsung Research Russia Open Education, Stepik ★4.6](https://stepik.org/course/54098), [материалы курса на GitHub](https://github.com/Samsung-IT-Academy/stepik-dl-nlp)\n", 232 | "- [Deep Learning (семестр 1, весна 2020): базовый поток, Stepik](https://stepik.org/course/65388/)\n", 233 | "- [Материалы летней школы по глубокому обучению](https://github.com/olferuk/MLSummerSchool) (в форме презентаций и блокнотов Jupyter)\n", 234 | "- [Курс \"Современные методы машинного обучения\" ВШЭ](https://github.com/hse-ds/iad-deep-learning) (блокноты Jupyter)\n", 235 | "# Книги по нейронным сетям и глубокому обучению\n", 236 | "- [A Brief Introduction to Neural Networks](http://www.dkriesel.com/en/science/neural_networks)\n", 237 | "- [Neural Networks and Deep Learning](http://neuralnetworksanddeeplearning.com/) – введение в нейронные сети и глубокое обучение с кодом на Python\n", 238 | "- [Reinforcement Learning: An Introduction](https://web.archive.org/web/20161120043347/http://webdocs.cs.ualberta.ca:80/~sutton/book/ebook/the-book.html)\n", 239 | "- Хайкин. Нейронные сети. Полный курс\n", 240 | "- Goodfellow, Bengio, Courville. Deep Learning \n", 241 | "# Блоги, каналы и паблики, посвященные вопросам нейронных сетей и глубокого обучения\n", 242 | "## Telegram\n", 243 | "- [Канал сообщества DeepLearning](https://t.me/deeplearning_ru)\n", 244 | "\n", 245 | "## VK\n", 246 | "- [Deep Learning](https://vk.com/deeplearning)\n", 247 | "- [DeepLearning (Глубокие нейронные сети)](https://vk.com/deeplearning_ru)\n", 248 | "\n", 249 | "## Отдельные статьи\n", 250 | "- 🤼 [Генеративно-состязательная нейросеть: ваша первая GAN-модель на PyTorch](https://proglib.io/p/generativno-sostyazatelnaya-neyroset-vasha-pervaya-gan-model-na-pytorch-2020-08-11) ([Jupyter](https://github.com/matyushkin/lessons/blob/master/neural_networks/GAN_intro.ipynb)) ([ист.](https://realpython.com/generative-adversarial-networks/))\n", 251 | "- \n", 252 | "# Компьютерное зрение\n", 253 | "# Курсы по компьютерному зрению\n", 254 | "- [Нейронные сети и компьютерное зрение](https://stepik.org/course/50352) (Stepik, ★4.9)\n", 255 | "- [Учебный план по основам компьютерного зрения](https://proglib.io/p/cv-plan)\n", 256 | "- [Факультатив \"Введение в компьютерное зрение\" (по материалам CS131)](https://github.com/ml-dafe/cv_mipt_minor) (блокноты Jupyter)\n", 257 | "# Книги по компьютерному зрению\n", 258 | "- [Programming Computer Vision with Python](http://programmingcomputervision.com/)\n", 259 | "# Открытые данные для компьютерного зрения\n", 260 | "\n", 261 | "- [VisualData](https://www.visualdata.io/). Датасеты для компьютерного зрения, разбитые по категориям. Доступен поиск.\n", 262 | "# Блоги, соцсети и другие издания, прицельно посвященные вопросам компьютерного зрения\n", 263 | "\n", 264 | "## Reddit\n", 265 | "- [/computervision](https://www.reddit.com/r/computervision)\n", 266 | "\n", 267 | "\n", 268 | "# Геоданные\n", 269 | "# Курсы по анализу геоданных\n", 270 | "\n", 271 | "- [Онлайн-курс «Визуализация геоданных»](https://github.com/minikarma/geotalk) (видео и блокноты Jupyter)\n", 272 | "# Книги по обработке геоданных\n", 273 | "\n", 274 | "## Переведенные на русский язык\n", 275 | "- Вестра Э. Разработка геоприложений на языке Python / пер. с англ. А. В. Логунова. – М.: ДМК Пресс, 2017\n", 276 | "# Источники геоданных\n", 277 | "\n", 278 | "[OpenStreetMap](https://www.openstreetmap.org/) позволяет легально использовать картографическую информацию. Еженедельно делается XML-снимок базы данных в виде файла [planet.osm](http://planet.openstreetmap.org/) ([карта базы данных](https://wiki.openstreetmap.org/wiki/Database)). На момент публикации размер bz2-архива составлял 100 Гб. Данные также разрезаются по регионам и выкладываются в форматах PBF- и XML-файлов на [GeoFabrik](http://download.geofabrik.de/). Примеры работы с такими файлами описаны в публикации [OpenStreetMap как источник геоданных](https://habr.com/ru/post/270513/).\n", 279 | "\n", 280 | "## Другие источники данных\n", 281 | "- [Открытый геопространственный консорциум](https://www.ogc.org/) – организация, которая занимается стандартизацией протоколов совместного использования и хранения геоданных: GML, KML, GeoRSS и др.\n", 282 | "- [Набор данных государственных границ](http://thematicmapping.org/downloads/world_borders.php)\n", 283 | "- Набор данных [Blue Marble Next Generation] – синтезированные NASA безоблачные снимки земной поверхности \n", 284 | "\n", 285 | "## Проекции\n", 286 | "- [Сводная таблица по картографическим проекциям](http://www.radicalcartography.net/?projectionref)\n", 287 | "# Публикации по геоданным\n", 288 | "\n", 289 | "## Визуализация\n", 290 | "- [Визуализация результатов выборов в Москве на карте в Jupyter Notebook](https://habr.com/ru/company/ods/blog/338554/)\n", 291 | "\n", 292 | "## Проекции\n", 293 | "- [https://xkcd.com/977/](https://xkcd.com/977/)\n", 294 | "- [Ликбез по картографическим проекциям с картинками](https://habr.com/ru/post/235283/)\n", 295 | "- [YouTube-ролик о типах проекций разъясняющий типы проекций](http://www.youtube.com/watch?v=2lR7s1Y6Zig#t=305)\n", 296 | "# Библиотеки для обработки и визуализации геоданных\n", 297 | "\n", 298 | "- GDAL – библиотека с открытым исходным кодом (X/MIT) для растровых и векторных форматов геоданных: [сайт](http://www.gdal.org/), [GitHub](https://github.com/OSGeo/gdal)\n", 299 | "- GEOS\n", 300 | "- Proj\n", 301 | "- Mapnik\n", 302 | "\n", 303 | "## Python\n", 304 | "- [Geoviews](https://github.com/holoviz/geoviews)\n", 305 | "- [Folium](https://python-visualization.github.io/folium/)\n", 306 | "- [KeplerGL](https://kepler.gl/)\n", 307 | "- [Plotly/Plotly Express](https://plotly.com/python/mapbox-layers/)\n", 308 | "- [IpyLeaflet](https://ipyleaflet.readthedocs.io/en/latest/)\n", 309 | "- [Geopandas](https://geopandas.org/)\n", 310 | "- Shapely\n", 311 | "- pyproj\n", 312 | "- GeoDjango\n", 313 | "\n", 314 | "## R\n", 315 | "- геопроекции: [PROJ.4](http://trac.osgeo.org/proj/)\n", 316 | "\n", 317 | "## JavaScript\n", 318 | "- [Leaflet.js](http://leafletjs.com/)\n", 319 | "- OpenLayers\n", 320 | "\n", 321 | "# Коммерческие программы\n", 322 | "- GlobalMapper – «славится поддержкой внушительного списка систем координат» (рекомендовал [Moskus](https://habr.com/ru/users/Moskus/) в [посте на Хабре](https://habr.com/ru/post/235283/))\n", 323 | "\n", 324 | "# Обработка естественного языка\n", 325 | "# Курсы по обработке естественного языка\n", 326 | "- [Автоматическая обработка естественного языка для студентов 3-4 курсов Школы лингвистики НИУ ВШЭ (1-2 модули 2020)](https://github.com/named-entity/hse-nlp) - [NYU NLP course](http://www.cs.nyu.edu/courses/spring12/CSCI-GA.2590-001/) \n", 327 | "- [Нейронные сети и обработка текста](https://stepik.org/course/54098) (Stepik, ★4.6), [материалы курса на GitHub](https://github.com/Samsung-IT-Academy/stepik-dl-nlp)\n", 328 | "[Stanford NLP course](https://www.youtube.com/playlist?list=PLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z)\n", 329 | "- [Материалы курса по глубокому обучению в обработке естественных языков для магистров компьютерной лингвистики ВШЭ](https://github.com/BobaZooba/HSE-Deep-Learning-in-NLP-Course)\n", 330 | "# Книги по обработке естественного языка\n", 331 | "- [Jurafsky D., Martin J. Speech and Language Processing](https://web.stanford.edu/~jurafsky/slp3/)\n", 332 | "- Goldberg Y. Neural Network Methods for Natural Language Processing\n", 333 | "- Natural Language Processing in Action: Understanding, analyzing, and generating text with Python\n", 334 | "- [Probabilistic Models in the Study of Language](http://idiom.ucsd.edu/~rlevy/pmsl_textbook/text.html)\n", 335 | "- C. Manning, H. Schutze (1999) [Statistical Natural Language Processing](https://nlp.stanford.edu/fsnlp/) \n", 336 | "\n", 337 | "# Переводные\n", 338 | "- Хобсон Лейн, Коул Ховард, Ханнес Хапке «Обработка естественного языка в действии»\n", 339 | "\n", 340 | "\n", 341 | "# Периодика \n", 342 | "- [ACL Anthology](http://www.aclweb.org/anthology/) - материалы основных конференций по NLP (полезно следить за ACL, EACL, NAACL, RANLP, EMNLP)\n", 343 | "- [Computational Linguistics](https://www.mitpressjournals.org/loi/coli) \n", 344 | "- [Natural Language Engineering](https://www.cambridge.org/core/journals/natural-language-engineering)\n", 345 | "- Материалы [конференции “Диалог”](http://www.dialog-21.ru/digests) \n", 346 | "\n", 347 | "# Лингвистические и филологические данные\n", 348 | "- [Национальный корпус русского языка](https://ruscorpora.ru/), [другие корпусы](https://ruscorpora.ru/new/corpora-other.html)\n", 349 | "\n", 350 | "## Параллельные корпуса \n", 351 | "- [Europarl](https://www.statmt.org/europarl/) \n", 352 | "- [UN Corpus](https://conferences.unite.un.org/UNCorpus/) \n", 353 | "- [Opus](http://opus.nlpl.eu/) \n", 354 | "\n", 355 | "## Международные базы данных, корпусы и датасеты\n", 356 | "- [Brown corpus](http://icame.uib.no/brown/bcm.html) \n", 357 | "- [Корпуса для английского](https://aclweb.org/aclwiki/Corpora_for_English) \n", 358 | "- [HotspotQA Dataset](https://hotpotqa.github.io/) – датасет вопросов-ответов\n", 359 | "- [Amazon Reviews](https://snap.stanford.edu/data/web-Amazon.html) – около 35 млн отзывов на Amazon за 18 лет: информация о продукте и пользователе, оценки и сам текст отзыва\n", 360 | "- [Google Books Ngrams](https://aws.amazon.com/ru/datasets/google-books-ngrams/) – коллекция слов из Google Книги\n", 361 | "- [Blogger Corpus](http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm) – коллекция из 600 тыс. постов с Blogger\n", 362 | "- [Wikipedia Links data](https://code.google.com/archive/p/wiki-links/downloads) – каждая из страниц содержит хотя бы одну ссылку на Википедию и текст якоря совпадает или похож на заголовок целевой страницы\n", 363 | "- [Gutenberg eBooks List](https://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs) – аннотированный список электронных книг проекта «Гутенберг»\n", 364 | "- [Hansards text chunks of Canadian Parliament](https://www.isi.edu/natural-language/download/hansard/) – датасет 1.3 млн пар текстовых файлов, записанных на дебатах 36-го Канадского Парламента\n", 365 | "- [Jeopardy](https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/) – архив 200 тыс. вопросов телевикторины Jeopardy\n", 366 | "- [Rotten Tomatoes Reviews](https://drive.google.com/file/d/1w1TsJB-gmIkZ28d1j7sf1sqcPmHXw352/view) – архив 480 тыс. рецензий на фильмы\n", 367 | "- [SMS Spam Collection in English](http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/) – 5574 спам-смс на английском\n", 368 | "- [Yelp Reviews](https://www.yelp.com/dataset) – датасет от Yelp из 5 млн отзывов\n", 369 | "- [UCI’s Spambase](https://archive.ics.uci.edu/ml/datasets/Spambase) – датасет спам-писем\n", 370 | "# Блоги, соцсети и другие издания, прицельно посвященные вопросам обработки естественного языка\n", 371 | "\n", 372 | "## Reddit\n", 373 | "- [/LanguageTechnology](https://www.reddit.com/r/LanguageTechnology)\n", 374 | "- [/textdatamining](https://www.reddit.com/r/textdatamining)\n", 375 | "\n", 376 | "## Отдельные статьи\n", 377 | "- 💬 [Голосовой DeepFake, или Как работает технология клонирования голоса](https://proglib.io/p/golosovoy-deepfake-ili-kak-rabotaet-tehnologiya-klonirovaniya-golosa-2019-12-11\n", 378 | "\n", 379 | "### Курсы, лекции, комьюнити \n", 380 | "- [https://nlpwithfriends.com/](https://nlpwithfriends.com/) – PhD рассказывают о своих проектах / статьях\n", 381 | " - [NLP Highlights](https://soundcloud.com/nlp-highlights) – подкаст про новые статьи\n", 382 | "\n", 383 | "# Анализ финансовых данных\n", 384 | "# Базы данных и источники информации по финансам и имуществу\n", 385 | "- [Seldon](https://basis.myseldon.com/ru/) – сервис для анализа сведений о компаниях и предпринимателях из официальных источников\n", 386 | "- [Банк России](https://www.cbr.ru/) – информация ЦБ по бюро кредитных историй, внесенных в государственный реестр. Для аналитиков данных интересны разделы [базы данных](https://www.cbr.ru/hd_base/), [аналитика](https://www.cbr.ru/analytics/) (финансовых потоков), [исследования](https://www.cbr.ru/ec_research/), [статистика](hthttp://188.254.71.82/rds_ts_pub/tps://www.cbr.ru/statistics/)\n", 387 | "- [Предоставление данных бухгалтерской отчетности по запросам пользователей](https://rosstat.gov.ru/accounting_report) – страница Федеральной службы государственной статистики. Достаточно указать год и ИНН. Отчет можно выгрузить в xlsx\n", 388 | "- [Базы данных TKS](https://www.tks.ru/db/): таможня и логистика, банки, СВХ, МДП, брокеры, перевозчики и др.\n", 389 | "- [Организации России](http://www.catalogfactory.org/) – финансовые результаты, справочные данные и отзывы\n", 390 | "- [Реестр организаций](http://www.reestrtpprf.ru/), включенных в системы Торгово-промышленных палат РФ\n", 391 | "- [Информационная система в сфере закупок](https://zakupki.gov.ru/epz/main/public/home.html)\n", 392 | "- [BiCoTender](https://www.bicotender.ru/), [Magelan](https://magelan.pro/) – поисковики по государственными и коммерческим тендерам России и СНГ \n", 393 | "- [Федресурс](https://fedresurs.ru/) – федеральный реестр сведений о фактах деятельности юридических лиц\n", 394 | "- [Декларатор](https://declarator.org/)\n", 395 | "\n", 396 | "# Базы данных и источники правовой информации\n", 397 | "- [Право](https://pravo.ru/) – судебная база, есть [досье судей](https://pravo.ru/judges_search/) и [информация о судах](https://pravo.ru/courts_search/)\n", 398 | "- [Федеральные арбитражные суды РФ](http://arbitr.ru/) – [картотека арбитражных дел](http://kad.arbitr.ru/), [решения арбитражных судов](http://ras.arbitr.ru/)\n", 399 | "- [Государственная система правовой информации](http://pravo.gov.ru/)\n", 400 | "- [Реестр деклараций РФ](http://188.254.71.82/rds_ts_pub/)\n", 401 | "- [Судебные и нормативные акты РФ](https://sudact.ru/)\n", 402 | "- [Портал правовой статистики](http://www.crimestat.ru/opendata)\n", 403 | "\n", 404 | "# Big Data\n", 405 | "# Курсы по Big Data\n", 406 | "- [Hadoop. Система для обработки больших объемов данных](https://stepik.org/course/150/) (Stepik, ★4.8)\n", 407 | "- [Материалы курса \"Масштабируемое машинное обучение и анализ больших данных с Apache Spark\"](https://github.com/a4tunado/lectures-hse-spark)\n", 408 | "## Блоги, соцсети и другие издания, посвященные общим вопросам Data Science\n", 409 | "\n", 410 | "### Блоги, посвященные Data Science\n", 411 | "- [Список публикаций matyushkin/lessons](https://github.com/matyushkin/lessons)\n", 412 | "- [distill.pub](https://distill.pub/)\n", 413 | "- [inference.vc](https://www.inference.vc/)\n", 414 | "- [karpathy.github.io](https://karpathy.github.io/)\n", 415 | "- [deliprao.com](http://deliprao.com/)\n", 416 | "- [fastml.com](https://fastml.com/)\n", 417 | "- [timvieira.github.io](https://timvieira.github.io/)\n", 418 | "- [blogs.princeton.edu](https://blogs.princeton.edu/)\n", 419 | "- [offconvex.org](https://www.offconvex.org/)\n", 420 | "- [ruder.io](http://ruder.io/)\n", 421 | "- [argmin.net](https://www.argmin.net/)\n", 422 | "- [nlpers.blogspot.ru](https://nlpers.blogspot.com/)\n", 423 | "- [blog.shakirm.com](http://blog.shakirm.com/)\n", 424 | "- [blog.paralleldots.com](https://blog.paralleldots.com)\n", 425 | "- [alexanderdyakonov.wordpress.com](https://dyakonov.org/)\n", 426 | "\n", 427 | "### Ветки Reddit\n", 428 | "- [/analyzit](https://www.reddit.com/r/analyzit)\n", 429 | "- [/datascience](https://www.reddit.com/r/datascience)\n", 430 | "- [/datacleaning](https://www.reddit.com/r/datacleaning)\n", 431 | "- [/datagangsta](https://www.reddit.com/r/datagangsta)\n", 432 | "- [/dataisbeautiful](https://www.reddit.com/r/dataisbeautiful)\n", 433 | "- [/dataisugly](https://www.reddit.com/r/dataisugly)\n", 434 | "- [/datasets](https://www.reddit.com/r/datasets)\n", 435 | "- [/dataviz](https://www.reddit.com/r/dataviz)\n", 436 | "- [/JupyterNotebooks](https://www.reddit.com/r/JupyterNotebooks)\n", 437 | "- [/opendata](https://www.reddit.com/r/opendata)\n", 438 | "\n", 439 | "\n", 440 | "### Блокноты Jupyter\n", 441 | "- 🌟 [Jupyter Notebook: галерея блокнотов по ML и Data Science](https://proglib.io/p/jupyter-notebook-best) ([ист.](https://github.com/jupyter/jupyter/wiki/A-gallery-of-interesting-Jupyter-Notebooks))\n", 442 | "\n", 443 | "### Slack\n", 444 | "- [Open Data Science](http://ods.ai) – то, с чего вообще стоит начинать – самое крупное мировое сообщество \n", 445 | "- [Slack Томской группы по ML](https://tomskml.slack.com/) ([анкета для регистрации](https://docs.google.com/forms/d/e/1FAIpQLSdYpgm7T80JpyBPt6NMgRP_4jne7v_qaGFjy8wDrS4fNajMDA/viewform?c=0&w=1))\n", 446 | "\n", 447 | "### Telegram-каналы о Data Science\n", 448 | "- [Новостной канал Open Data Science](https://t.me/opendatascience)\n", 449 | "- [Чат по большим данным, обработке и машинному обучению](https://t.me/bigdata_ru)\n", 450 | "- [Чат по Data Science](https://t.me/datasciencechat)\n", 451 | "- - [Spark in me: Internet, statistics, data science, philosophy](https://t.me/snakers4), [чат канала](https://t.me/joinchat/AAAAAEH9JHYBvaPLvaWPGg)\n", 452 | "- [Канал с постами с Reddit на DS-тематику](https://t.me/datascientology)\n", 453 | "\n", 454 | "### VK-группы о Data Science\n", 455 | "- [Data Science](https://vk.com/datascience)\n", 456 | "- [Data Mining Labs](https://vk.com/datamininglabs)\n", 457 | "- [Группа вк про тренировки по машинному обучению](https://vk.com/mltrainings)\n", 458 | "- [Томская группа по машинному обучению](https://vk.com/tomskml)\n", 459 | "- [Мемы про машинное обучение для юных леди](https://vk.com/weirdreparametrizationtrick)\n", 460 | "- [Python, Data Science, нейросети, ИИ](https://vk.com/python_ds)\n", 461 | "\n", 462 | "### Facebook-страницы по Data Science\n", 463 | "- [ML-тренировки в Москве](https://www.facebook.com/groups/1413405125598651/)\n", 464 | "\n", 465 | "### ▶️ YouTube и другие видеоплатформы с информацией о Data Science\n", 466 | "- [30 YouTube-каналов и плейлистов о Data Science](https://proglib.io/p/30-youtube-kanalov-i-pleylistov-o-data-science-2020-06-17)\n", 467 | "- [7 лучших видео TED по тематике Data Science](https://proglib.io/p/7-luchshih-video-ted-po-tematike-data-science-2020-01-20) ([ист.](https://towardsdatascience.com/best-ted-talks-for-data-science-11b699544f))\n", 468 | "\n" 469 | ] 470 | } 471 | ], 472 | "source": [ 473 | "import re\n", 474 | "\n", 475 | "with open('README.md', mode='r') as file:\n", 476 | " lines = file.readlines()\n", 477 | " \n", 478 | "# cоставляем дерево ссылок\n", 479 | "tree = dict()\n", 480 | "for line in lines:\n", 481 | " path_list = re.findall(r'(?<=\\()[\\w/]*\\.md(?=\\))', line)\n", 482 | " if path_list:\n", 483 | " section = re.findall(r'^[\\w\\s]*(?= \\|)', line)[0]\n", 484 | " tree[section] = path_list\n", 485 | "\n", 486 | "# выводим содержимое\n", 487 | "for key in tree:\n", 488 | " print(f'# {key}')\n", 489 | " for path in tree[key]:\n", 490 | " with open(path) as f:\n", 491 | " print(f.read())" 492 | ] 493 | }, 494 | { 495 | "cell_type": "code", 496 | "execution_count": null, 497 | "metadata": {}, 498 | "outputs": [], 499 | "source": [] 500 | } 501 | ], 502 | "metadata": { 503 | "kernelspec": { 504 | "display_name": "Python 3", 505 | "language": "python", 506 | "name": "python3" 507 | }, 508 | "language_info": { 509 | "codemirror_mode": { 510 | "name": "ipython", 511 | "version": 3 512 | }, 513 | "file_extension": ".py", 514 | "mimetype": "text/x-python", 515 | "name": "python", 516 | "nbconvert_exporter": "python", 517 | "pygments_lexer": "ipython3", 518 | "version": "3.7.3" 519 | } 520 | }, 521 | "nbformat": 4, 522 | "nbformat_minor": 4 523 | } 524 | --------------------------------------------------------------------------------