├── I - Revue Litterature ├── Articles │ ├── .DS_Store │ ├── Clickbait │ │ ├── Stop Clickbait- Detecting and preventing clickbaits in online news media.pdf │ │ └── The_Good_the_Bad_and_the_Bait_Detecting_and_Characterizing_Clickbait_on_YouTube.pdf │ ├── Explicabilité - Machine Behaviour │ │ └── machine_behaviour.pdf │ ├── Fonctionnement technique RS Ytb │ │ ├── .DS_Store │ │ ├── Deepneuralnetworkforyoutuberecommendations.pdf │ │ ├── The YouTube video recommendation system.pdf │ │ ├── acloserlookatviralvideosonyoutube.pdf │ │ ├── recommendingwhattowatchnext.pdf │ │ └── sampling-bias-corrected neural modeling.pdf │ ├── Modération difficile │ │ ├── .DS_Store │ │ ├── A longitudinal analysis of YouTube’s promotion of conspiracy videos.pdf │ │ ├── Auditing radicalization pathways on YouTube. In Proceedings of the 2020 Conference on Fairness.pdf │ │ └── echo_chambers.pdf │ ├── Presentation1FramesYouTube.pdf │ ├── Régulation │ │ └── reglementationDSA.pdf │ └── Valeur crée par les RS │ │ ├── Measuring the Business Value of Recommender Systems.pdf │ │ └── recommendersystemsthevalueofdata.pdf ├── EXERCICE1_FINAL.pdf └── Images │ ├── .DS_Store │ ├── borderline3.jpeg │ ├── conspirationist_graph.png │ ├── network.png │ └── presentation.png ├── II - Problématique et protocole ├── .DS_Store ├── EMMA_BOURDIT_SOUTENANCE1_MEMOIRE.pdf └── README-II.md ├── III - Analyse quantitative ├── .DS_Store ├── 2. Récupérer les données │ └── README-III-2.md └── 4. Analyser les données │ └── README-III-4.md ├── Presentation1FramesYouTube.pdf └── README.md /I - Revue Litterature/Articles/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/.DS_Store -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Clickbait/Stop Clickbait- Detecting and preventing clickbaits in online news media.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Clickbait/Stop Clickbait- Detecting and preventing clickbaits in online news media.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Clickbait/The_Good_the_Bad_and_the_Bait_Detecting_and_Characterizing_Clickbait_on_YouTube.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Clickbait/The_Good_the_Bad_and_the_Bait_Detecting_and_Characterizing_Clickbait_on_YouTube.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Explicabilité - Machine Behaviour/machine_behaviour.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Explicabilité - Machine Behaviour/machine_behaviour.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/.DS_Store -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/Deepneuralnetworkforyoutuberecommendations.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/Deepneuralnetworkforyoutuberecommendations.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/The YouTube video recommendation system.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/The YouTube video recommendation system.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/acloserlookatviralvideosonyoutube.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/acloserlookatviralvideosonyoutube.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/recommendingwhattowatchnext.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/recommendingwhattowatchnext.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/sampling-bias-corrected neural modeling.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Fonctionnement technique RS Ytb/sampling-bias-corrected neural modeling.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Modération difficile/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Modération difficile/.DS_Store -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Modération difficile/A longitudinal analysis of YouTube’s promotion of conspiracy videos.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Modération difficile/A longitudinal analysis of YouTube’s promotion of conspiracy videos.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Modération difficile/Auditing radicalization pathways on YouTube. In Proceedings of the 2020 Conference on Fairness.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Modération difficile/Auditing radicalization pathways on YouTube. In Proceedings of the 2020 Conference on Fairness.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Modération difficile/echo_chambers.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Modération difficile/echo_chambers.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Presentation1FramesYouTube.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Presentation1FramesYouTube.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Régulation/reglementationDSA.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Régulation/reglementationDSA.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Valeur crée par les RS/Measuring the Business Value of Recommender Systems.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Valeur crée par les RS/Measuring the Business Value of Recommender Systems.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Articles/Valeur crée par les RS/recommendersystemsthevalueofdata.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Articles/Valeur crée par les RS/recommendersystemsthevalueofdata.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/EXERCICE1_FINAL.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/EXERCICE1_FINAL.pdf -------------------------------------------------------------------------------- /I - Revue Litterature/Images/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Images/.DS_Store -------------------------------------------------------------------------------- /I - Revue Litterature/Images/borderline3.jpeg: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Images/borderline3.jpeg -------------------------------------------------------------------------------- /I - Revue Litterature/Images/conspirationist_graph.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Images/conspirationist_graph.png -------------------------------------------------------------------------------- /I - Revue Litterature/Images/network.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Images/network.png -------------------------------------------------------------------------------- /I - Revue Litterature/Images/presentation.png: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/I - Revue Litterature/Images/presentation.png -------------------------------------------------------------------------------- /II - Problématique et protocole/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/II - Problématique et protocole/.DS_Store -------------------------------------------------------------------------------- /II - Problématique et protocole/EMMA_BOURDIT_SOUTENANCE1_MEMOIRE.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/II - Problématique et protocole/EMMA_BOURDIT_SOUTENANCE1_MEMOIRE.pdf -------------------------------------------------------------------------------- /II - Problématique et protocole/README-II.md: -------------------------------------------------------------------------------- 1 | #### 1. Comprendre les métriques Youtube 2 | [Documentation Youtube sur les données](https://support.google.com/youtube/topic/9257532?hl=fr&ref_topic=9257610) 3 | 4 | - Sources de trafic 5 | 6 | | Donnée | Explication | 7 | |----------|-------| 8 | |Fonctionnalités de navigation| Trafic généré par la page d'accueil, le flux "Abonnements", la playlist "À regarder plus tard", les onglets "Tendances" et "Découvrir" ainsi que d'autres fonctionnalités de navigation. | 9 | |Suggestion de vidéos| Trafic généré par les suggestions qui s'affichent à côté ou après d'autres vidéos, et par les liens inclus dans les descriptions de vidéos.| 10 | |Pages de chaîne| Trafic généré par votre chaîne ou d'autres chaînes YouTube.| 11 | |Autres fonctionnalités YouTube|Trafic généré par YouTube qui ne rentre pas dans les autres catégories.| 12 | |*Pourcentage des impressions issues des recommandations de YouTube* (pas indiqué dans les stats, prélevable à la main)| Par exemple : 85,4 % suite aux recommandations de votre contenu par YouTube. Sur la page d'accueil + sur la page de lecture (Le reste, pas contenu dans ce pourcentage c'est "les spectateurs à la recherche de votre contenu") | 13 | 14 | 15 | - Impressions 16 | 17 | | Donnée | Explication | 18 | |----------|-------| 19 | |*Impressions* | Nombre de fois où vos miniatures ont été présentées aux spectateurs sur YouTube grâce aux impressions enregistrées.| 20 | |*Taux de clics par impression* | Nombre de fois où les spectateurs ont regardé une vidéo après avoir vu sa miniature. Vues par impression. Mesure la fréquence à laquelle les spectateurs regardent une vidéo après avoir vu une impression. Sachant que plus la vidéo est recommandée, plus ce taux baisse | 21 | 22 | | Donnée | Explication | 23 | |----------|-------| 24 | |*Vues générées par les impressions*| Nombre de vues générées par les impressions pour la plage de dates sélectionnée. (car les impressions ne comptabilisent par exemple pas le Site Web mobile YouTube, l'application Youtube Music...)| 25 | |*Durée de visionnage générées par les impressions*|Durée de visionnage générée par les impressions pour la plage de dates sélectionnée.| 26 | |Vues|Nombre de vues légitimes pour vos chaînes ou vidéos.| 27 | 28 | - Revenus 29 | 30 | | Donnée | Explication | 31 | |----------|-------| 32 | |CPM| désigne le coût pour mille impressions basé sur les lectures. Indique combien les annonceurs ont payé pour 1 000 lectures monétisées. Le CPM est calculé en divisant le total des revenus générés par les annonces par le nombre estimé de lectures monétisées. Une lecture monétisée est enregistrée lorsqu'un spectateur voit au moins une impression d'annonce pendant qu'il regarde l'une de vos vidéos (il s'agit d'une estimation).| 33 | |RPM| Le revenu pour mille vues, représente la somme d'argent générée par millier de vues d'une vidéo (comprend les annonces, les souscriptions aux chaînes, YouTube Premium, les Super Chats et les Super Stickers.)| 34 | |Revenus estimés|| 35 | 36 | - Autres métriques 37 | 38 | | Donnée | Explication | 39 | |----------|-------| 40 | |Spectateurs uniques | Estimation du nombre de spectateurs ayant regardé votre contenu pendant la plage de dates sélectionnée.| 41 | |*Durée de visionnage (heures)* | Durée pendant laquelle les spectateurs ont regardé votre vidéo.| 42 | |Pourcentage moyen de vidéo regardé|Pourcentage moyen de visionnage d'une vidéo par votre audience.| 43 | 44 | - Monétisation 45 | 46 | | Donnée | Explication | 47 | |----------|-------| 48 | | démonétisé (rouge) = 1 | Réclamation pour atteinte aux droits d'auteur| 49 | | démonétisé par choix = 0 || 50 | | monétisation limité (jaune) = 2| Pas conforme à l'ensemble de nos consignes relatives aux contenus adaptés aux annonceurs, certaines marques peuvent choisir de bloquer la diffusion de leurs annonces sur le contenu. Vidéo moins adaptée aux annonceurs, moins de revenus générés.| 51 | |monétisé sans mid-roll = 3| Soit mid-roll désactivé à la main, soit la vidéo fait moins de 8min| 52 | |monétisé avec mid-roll = 4| | 53 | 54 | 55 | #### 2. Choisir ses métriques 56 | | Objectif | Explication | 57 | |----------|-------| 58 | |Pour savoir à quel point une vidéo a été recommandée | le rapport entre le pourcentage des impressions issues des recommandations de YouTube et le nombre total d'impressions (Par exemple vidéo hacker une caméra 8 600 000 impressions et 85,4 % issus des recommandations Youtube. Soit 7 344 400 impressions générées par les recommandations)| 59 | |Pour savoir à quel point une vidéo fait cliquer | le rapport entre le taux de clics par impression et le nombre total d'impressions. + J'ai la possibilité d'avoir l'évolution du taux de clics par impression, on peut voir comment il était au moment de la sortie de la vidéo et plus tard pour pouvoir comparer entre les vidéos.| 60 | |Pour savoir à quel point la vidéo est regardée | rapport entre la durée de la vidéo et le pourcentage moyen de vidéo regardé (plus la vidéo est longue, plus c'est dur que la personne regarde tout)| 61 | |Pour savoir à quel point la vidéo rapporte de l'argent à Youtube | Etat de la monétisation | 62 | 63 | - pourcentage des impressions issues des recommandations de YouTube + le nombre total d'impressions 64 | - l'évolution du nombre d'impression + l'évolution du taux de clics par impression + le taux de clics par impression général 65 | - la durée de la vidéo + pourcentage moyen de vidéo regardé 66 | - état de la monétisation 67 | -------------------------------------------------------------------------------- /III - Analyse quantitative/.DS_Store: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/III - Analyse quantitative/.DS_Store -------------------------------------------------------------------------------- /III - Analyse quantitative/2. Récupérer les données/README-III-2.md: -------------------------------------------------------------------------------- 1 | ### 3. Télécharger les données : API RESTS 2 | #### 3.1 Connaissances générales 3 | API = Application Programming Interface 4 | - Les API peuvent communiquer par l'utilisation de requetes et réponses : d’un logiciel à un logiciel ; d’un client à un serveur ; ou d’un logiciel à des développeurs (par ex quand on s'identifie avec le compte facebook sans mettre mdp). 5 | 6 | | type | def | 7 | |----------|-------| 8 | | API privées | utilisables seulement par ceux qui ont un accès et y sont autorisés | 9 | | API publiques | utilisables par tous sans restriction | 10 | 11 | - principalement 2 types d'API web : API soap, API rest 12 | 13 | | type | def | 14 | |----------|-------| 15 | | API soap | = Simple Object Access Protocol | 16 | | API rest | = restfull = Representational State Transfer. Se basent sur le protocole HTTP pour transférer les informations. Six lignes directrices architecturales clés pour les API REST (Client-serveur separation, Stateless, Cacheable...) | 17 | 18 | 19 | #### 3.2 S'initier au fonctionnement des API Rest 20 | 21 | | terme | def | 22 | |----------|-------| 23 | | une ressource | Les données REST sont représentées dans des ressources. Chaque ressource comporte des informations supplémentaires sur les données contenues. | 24 | | une collection | groupe dans lequel sont regroupées les ressources. En général le nom de collection est le pluriel du nom de la ressource| 25 | | URI | Pour récupérer les données d'une ressource il faut l'URI (Uniform Resource Identifier) = moyen d’identifier la ressource. Par exemple : /characters ou /characters/123 pour avoir le character à l'id 123| 26 | | endpoints | Il suffit d’ajouter votre nom de domaine au début de votre URI, et vous avez un endpoint. Par exemple : https://gameofthrones-informations.com/characters | 27 | | URL de la requete | est l’endpoint complet que vous utilisez pour votre requête| 28 | 29 | 30 | - Les données des API REST peuvent utiliser deux langages : XML et JSON 31 | - Postman = interface pour formuler des requetes 32 | - Pour formuler une requête = Verbe HTTP + URI + Version HTTP + Headers + Body (facultatif) 33 | 34 | | type | def | 35 | |----------|-------| 36 | | Verbe HTTP | différents types d’actions que vous pouvez accomplir avec votre requête (GET (obtenir), PUT (mettre), POST (publier), et DELETE (supprimer)...) | 37 | | Headers | Permet de faire passer des infos. (De quel langage s’agit-il ? À quelle date l’envoyez-vous ? Quelle est votre clé d’authentification...) | 38 | | Le body | n’est utilisé qu’avec PUT (mise à jour) ou POST, contient les données réelles de la ressource que vous essayez de créer ou de mettre à jour (pour ajouter des datas) | 39 | 40 | - Le format du message de réponse : Version HTTP + Code de réponse HTTP + Headers + Body 41 | 42 | | type | def | 43 | |----------|-------| 44 | | Le body | contient l’information que vous avez demandée, et que l’API vous renvoie | 45 | | code de réponse HTTP | aide le développeur et/ou le client à comprendre le statut de la réponse (genre le 404 not found etc permet de savoir c'est quoi l'erreur | 46 | 47 | #### 3.3 Formuler une requêtes sur une API rest 48 | 49 | - Consulter la documentation de l'API, et la section qui nous intéresse. C’est comme ça qu'on va trouverer les ressources, URI et endpoints que vous pouvez utiliser pour récupérer des données. 50 | 51 | | type | def | 52 | |----------|-------| 53 | | Applications | Toutes les apps | 54 | 55 | 56 | [télécharger les données - openclassroom](https://openclassrooms.com/fr/courses/4525266-decrivez-et-nettoyez-votre-jeu-de-donnees/4726171-telechargez-les-donnees) 57 | 58 | #### 4.2 Installer les outils 59 | La distribution Anaconda (une distribution c'est un langage de programmation + certaines librairies et autres fonctionnalités): 60 | - Python (fichiers en .py) 61 | - les librairies de Data Science : Matplotlib (créer des graphiques sous python), Scipy, Numpy, Pandas 62 | - le notebook Jupyter (fichiers en .ipynb, permet de travailler dans un navigateur web, on peut facilement revenir en arrière sans tout relancer) 63 | 64 | ```` 65 | Jupyter Notebook : 66 | # a = créer une celule 67 | # m = créer un markdown 68 | ```` 69 | [installation et tests](https://openclassrooms.com/fr/courses/4525266-decrivez-et-nettoyez-votre-jeu-de-donnees/4927821-installez-r-ou-python) 70 | 71 | ### 3. Récupérer les données 72 | Utiliser la méthode read_csv pour charger votre fichier csv 73 | 74 | ``` 75 | import pandas as pd 76 | import os 77 | df = pd.read_csv('all_videos.tsv', sep='\t') 78 | print(df) #pour imprimer tout df 79 | df.columns #pour vérifier les colonnes 80 | ``` 81 | -------------------------------------------------------------------------------- /III - Analyse quantitative/4. Analyser les données/README-III-4.md: -------------------------------------------------------------------------------- 1 | #### 4.1 Vocabulaire 2 | 3 | | Domaine | Définition | 4 | |----------|-------| 5 | |Statistiques |on ne fait qu’observer et décrire objectivement un phénomène (par ex dans ce pays il y a 55% de femmes et 45% d'hommes)| 6 | |Statistiques inférentielles | dès lors que l'on modélise, cad qu'on essaye de trouver les lois mathématiques qui régissent les données observées (par ex dans ce pays, un enfant qui naît a une probabilité de 55% d’être une fille| 7 | |Statistiques descriptives|présenter, décrire et résumer le jeu de données, à l’aide de graphiques et de mesures (moyenne, écart-type, etc.). Chaque graphique (ou chaque mesure) est calculé(e) sur 1 ou 2 variables à la fois, pas plus.| 8 | |Analyse de données| Là, on étudie plutôt les relations entre 3 variables ou plus. Représenter des graphiques avec 3, 4, 5 ou 100 dimensions n’est plus possible sur du papier à 2 dimensions. Il faut donc utiliser des techniques spéciales pour continuer à décrire et explorer les données| 9 | 10 | | Terme | Définition | 11 | |----------|-------| 12 | |individus| ce qu'on étudie en statistiques (objets, des personnes, des animaux, des mesures physiques, etc.)| 13 | |variables/caractères | caractéristiques des individus| 14 | |population|ensemble des individus| 15 | |un échantillon|quand on sélectionne certains individus d’une population| 16 | |jeu de données/data set | équivalents à échantillon| 17 | 18 | On représente en général un échantillon sous forme de tableau, où chaque ligne correspond à un individu, et chaque colonne représente une variable 19 | 20 | # III - Explorez vos données 21 | 22 | [Analysez la corrélation entre deux variables quantitatives](https://openclassrooms.com/fr/courses/4525266-decrivez-et-nettoyez-votre-jeu-de-donnees/4725622-analysez-la-correlation-entre-deux-variables-quantitatives) 23 | 24 | [Analysez deux variables quantitatives par régression](https://openclassrooms.com/fr/courses/4525266-decrivez-et-nettoyez-votre-jeu-de-donnees/4774671-analysez-deux-variables-quantitatives-par-regression-lineaire) 25 | 26 | - Analyse en Composantes Principales (ACP) 27 | permet de dégager rapidement les principales tendances de l'échantillon, en diminuant le nombre de variables nécessaires à la représentation de vos données 28 | - Le clustering (2 Méthodes : algorithme k-means et classification hiérarchique) 29 | Permet de regrouper individus selon leurs similarités 30 | - Data visualisation 31 | 32 | # IV - Modélisez vos données 33 | Un modèle = représentation mathématique d’un problème donné 34 | - outils d'IA 35 | - première phase : apprentissage 36 | - deuxième phase : prédiction 37 | # V - Évaluez et interprétez vos données 38 | On va tester le modèle pour voir s’il est pertinent 39 | # VI - Mettez votre système en production 40 | 41 | - [librairies python pour la data science - openclassroom](https://openclassrooms.com/fr/courses/4452741-decouvrez-les-librairies-python-pour-la-data-science) 42 | - [initiez-vous à python pour l’analyse de données - openclassroom](https://openclassrooms.com/fr/courses/6204541-initiez-vous-a-python-pour-lanalyse-de-donnees) 43 | - [initiez-vous au langage R pour analyser vos données - openclassroom](https://openclassrooms.com/fr/courses/4525256-initiez-vous-au-langage-r-pour-analyser-vos-donnees) 44 | - [initiez-vous à l’IA (etapes d’un projet IA, machine learning, deep learning) - openclassroom](https://openclassrooms.com/fr/courses/6417031-objectif-ia-initiez-vous-a-lintelligence-artificielle) 45 | -------------------------------------------------------------------------------- /Presentation1FramesYouTube.pdf: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/iciamyplant/Youtube_algorithm_analyse/6ed920d15348b9c2a18ff8ad05bb28fb38361c2f/Presentation1FramesYouTube.pdf -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | NO CODE HERE BECAUSE DATAS CAN NOT BE PUBLIC 2 | 3 | ## Plan 4 | ### I - Exercice 1 : Revue de Littérature 5 | ### II - Exercice 2 : Problématique et protocole 6 | ### III - Exercice 3 : Analyse quantitative 7 | 8 | 9 | # I - Exercice 1 : Revue de Littérature 10 | 11 | ```` 12 | ./Youtube_algorithm_analyse/"I - Revue Litterature"/EXERCICE1_FINAL.pdf //document complet 13 | ```` 14 | 15 | #### 1. Fonctionnement des systèmes de recommandations 16 | - 1.1 Typologie des systèmes de recommandation 17 | - 1.2 Application d’un système de recommandation collaborative-filtered 18 | - 1.3 Application d’un système de recommandation content-based 19 | #### 2. Fonctionnement du système de recommandations de YouTube 20 | - 2.1 Présentation du système de recommandation YouTube 21 | - 2.2 Un système de recommandation des plus sophistiqués 22 | - 2.3 Focus sur le Up Next Panel 23 | #### 3. Valeur crée par les systèmes de recommandations 24 | - 3.1 La valeur perçue par l’utilisateur 25 | - 3.2 La valeur économique des RS 26 | #### 4. La difficile modération des plateformes 27 | - 4.1 Le sensationnalisme stimulerait l’engagement des utilisateurs 28 | - 4.2 Le conspirationnisme, et les echo chambers sur YouTube 29 | - 4.3 La modération de YouTube 30 | #### 5. Transparence et Régulation 31 | - 5.1 La régulation européenne des services en ligne 32 | - 5.2 Le projet européen de régulation sur les systèmes de recommandation 33 | - 5.3 La régulation chinoise des systèmes de recommandation 34 | 35 | 36 | # II - Exercice 2 : Problématique et protocole 37 | 38 | **Problématique** : YouTube recommande-t-il davantage les vidéos rémunératrices ? 39 | Est-ce qu’une vidéo rapportant plus d’argent est susceptible d’être davantage recommandée ? 40 | 41 | ```` 42 | //NON PUBLIC ./Youtube_algorithm_analyse/"II - Problématique et protocole"/EXERCICE2_FINAL.pdf //document complet 43 | ./Youtube_algorithm_analyse/"II - Problématique et protocole"/EMMA_BOURDIT_SOUTENANCE1_MEMOIRE.pdf //Soutenance 1 44 | ```` 45 | 46 | #### 1. Problématique 47 | #### 2. Fonctionnement de la monétisation 48 | - 2.1 Grades de monétisation : vidéos monétisées (1-3 pubs), limitées, inéligibles, et démonétisées 49 | - 2.2 Le CPM 50 | - 2.3 Le RPM 51 | #### 3. Présentation des données 52 | - 3.1 Quelques données fournies par Youtube pour chaque vidéo 53 | - 3.2 Exemple sur la vidéo “Je crack l’algorithme YouTube” 54 | - 3.3 Comment connaître le taux de recommandation d’une vidéo ? 55 | #### 4. Protocole de récupération des données 56 | - 4.1 Méthodologie de contact 57 | - 4.2 Confidentialité 58 | 59 | 60 | # III - Exercice 3 : Analyse quantitative 61 | 62 | #### 1. Préparer le protocole 63 | #### 2. Récupérer données 64 | 65 | ##### 2.1 Savoir quelle API utiliser + créer un projet 66 | 67 | deux APIs permettent aux développeurs de récupérer des données YouTube Analytics : YouTube Analytics API & YouTube Reporting API 68 | 69 | |YouTube Analytics API|YouTube Reporting API| 70 | |------|------| 71 | | = prend en charge les requêtes ciblées en temps réel pour générer des rapports YouTube Analytics personnalisés, chaque demande de l'API spécifie la plage de dates pour laquelle les données seront renvoyées | = récupère des rapports groupés contenant des données YouTube Analytics, Chaque rapport contient un ensemble prédéfini de champs. Chaque rapport contient des données pour une période unique de 24 heures.| 72 | 73 | Les rapports que renvoient les APIs contiennent deux types de données : 74 | - dimensions = critère qui permet d'agréger les données (date, country...) 75 | - métriques = mesure l'activité (nombre de j'aime, performances des annonces pub...) 76 | 77 | Créer un projet dans Google Cloud 78 | 79 | ##### 2.2 S'authentifier 80 | Aller dans credentials [ici](https://console.cloud.google.com/apis/credentials?project=youtube-research-dissertation) 81 | - create a credential 82 | - OAuth Client ID 83 | - copier le client_secrets.json dans mon directory où je travaille 84 | 85 | OAuth consent screen > + ADD USERs : [ici](https://console.cloud.google.com/apis/credentials/consent?project=youtube-research-dissertation) ==> ajouter l'adresse mail avec laquelle on va se connecter 86 | 87 | ##### 2.3 lancer une query test 88 | 89 | ```` 90 | pip install --upgrade google-api-python-client 91 | pip install --upgrade google-auth google-auth-oauthlib google-auth-httplib2 92 | sudo pip install google-auth-oauthlib 93 | python yt_analytics_v2.py 94 | ==> copier coller l'URL > cliquer sur le compte YouTube > continuer > autoriser > copier le code autorisation > le rentrer dans la console 95 | ==> le json s'imprime dans le terminal 96 | 97 | ```` 98 | Tutoriel pour faire la première query : [ici](https://developers.google.com/youtube/analytics/reference/reports/query?apix_params=%7B%22dimensions%22%3A%22video%22%2C%22endDate%22%3A%222018-05-01%22%2C%22ids%22%3A%22channel%3D%3DMINE%22%2C%22maxResults%22%3A10%2C%22metrics%22%3A%22estimatedMinutesWatched%2Cviews%2Clikes%2CsubscribersGained%22%2C%22sort%22%3A%22-estimatedMinutesWatched%22%2C%22startDate%22%3A%222017-01-01%22%7D#python) 99 | 100 | ##### 2.4 Créer la bonne query 101 | Channel_id ? 102 | YouTube Studio > Paramètres > Chaîne > Paramètres avancés > Gérer votre compte YouTube > Paramètres avancés 103 | 104 | Pour récupérer des metrics par jour pour une video : 105 | ````` 106 | dimensions="day", 107 | endDate="2021-01-27", 108 | filters="video==pzXOgXmO3Tw", # faire défiler les videos 109 | ids="channel==MINE", 110 | metrics="views", 111 | startDate="2021-01-01", 112 | alt="json" 113 | ````` 114 | 115 | 116 | 117 | 118 | 119 | Pour convertir json en csv : 120 | ```` 121 | import json 122 | import pandas as pd 123 | from pandas import json_normalize 124 | 125 | with open('test.json') as json_file: 126 | data = json.load(json_file) 127 | #print (data) 128 | 129 | df = pd.DataFrame(data['rows'],columns=['video','estimatedMinutesWatched','views','likes','subscribersGained']) 130 | 131 | print(df) 132 | ```` 133 | 134 | 135 | 136 | #### 3. Nettoyer données 137 | #### 4. Analyser 138 | --------------------------------------------------------------------------------