├── __init__.py
├── c_Pandas
    ├── __init.py
    ├── elpais_2020_05_08_articles.csv
    ├── eluniversal_2020_05_08_articles.csv
    ├── newspaper.py
    └── elpais_2020_05_08_articles_cleaned.csv
├── b_Web_scraping
    ├── __init__.py
    ├── web_scrapper
    │   ├── __init__.py
    │   ├── elpais_2020_05_08_articles.csv
    │   ├── __pycache__
    │   │   ├── __init__.cpython-37.pyc
    │   │   ├── common.cpython-37.pyc
    │   │   ├── common.cpython-38.pyc
    │   │   ├── news_page_objects.cpython-37.pyc
    │   │   └── news_page_objects.cpython-38.pyc
    │   ├── eluniversal_2020_05_08_articles.csv
    │   ├── config.yaml
    │   ├── common.py
    │   ├── news_page_objects.py
    │   └── main.py
    ├── .ipynb_checkpoints
    │   ├── Web_scraping1-checkpoint.ipynb
    │   ├── Web_scraping2-checkpoint.ipynb
    │   └── Web_scraping3-checkpoint.ipynb
    ├── __pycache__
    │   └── __init__.cpython-37.pyc
    ├── Web_scraping2.ipynb
    └── Web_scraping3.ipynb
├── d_Data_systems
    ├── __init.py
    ├── newspaper.db
    ├── __pycache__
    │   ├── base.cpython-37.pyc
    │   └── article.cpython-37.pyc
    ├── base.py
    ├── article.py
    ├── main.py
    └── elpais_2020_05_08_articles_cleaned.csv
├── e_Final_Project
    ├── __init__.py
    ├── load
    │   ├── __init__.py
    │   ├── newspaper.db
    │   ├── __pycache__
    │   │   ├── base.cpython-37.pyc
    │   │   └── article.cpython-37.pyc
    │   ├── base.py
    │   ├── article.py
    │   └── main.py
    ├── extract
    │   ├── __init__.py
    │   ├── elpais_2020_05_09_articles.csv
    │   ├── __pycache__
    │   │   ├── common.cpython-37.pyc
    │   │   └── news_page_objects.cpython-37.pyc
    │   ├── eluniversal_2020_05_09_articles.csv
    │   ├── config.yaml
    │   ├── common.py
    │   ├── news_page_objects.py
    │   └── main.py
    ├── transform
    │   ├── __init__.py
    │   └── main.py
    └── pipeline.py
├── .gitignore
├── a_Introduction
    ├── ExampleJSON.png
    ├── html_markup_example.png
    ├── mysql_table_example.png
    └── Platzi data live.ipynb
├── README.md
└── .idea
    ├── encodings.xml
    ├── misc.xml
    ├── vcs.xml
    ├── modules.xml
    ├── Ingenieria_datos_python.iml
    ├── inspectionProfiles
        └── Project_Default.xml
    └── workspace.xml


/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/c_Pandas/__init.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/b_Web_scraping/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/d_Data_systems/__init.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/e_Final_Project/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/e_Final_Project/load/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/e_Final_Project/extract/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/e_Final_Project/transform/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/.gitignore:
--------------------------------------------------------------------------------
1 | Slides_Ingenieria_de_datos.pdf


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/__init__.py:
--------------------------------------------------------------------------------
1 | 


--------------------------------------------------------------------------------
/d_Data_systems/newspaper.db:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/d_Data_systems/newspaper.db


--------------------------------------------------------------------------------
/a_Introduction/ExampleJSON.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/a_Introduction/ExampleJSON.png


--------------------------------------------------------------------------------
/e_Final_Project/load/newspaper.db:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/e_Final_Project/load/newspaper.db


--------------------------------------------------------------------------------
/a_Introduction/html_markup_example.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/a_Introduction/html_markup_example.png


--------------------------------------------------------------------------------
/a_Introduction/mysql_table_example.png:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/a_Introduction/mysql_table_example.png


--------------------------------------------------------------------------------
/c_Pandas/elpais_2020_05_08_articles.csv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/c_Pandas/elpais_2020_05_08_articles.csv


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
1 | # Data_engineering_python
2 | 
3 | This repository contains examples to learn to create and to automate a ETL (Extract, Transform and Load) flow).
4 | 


--------------------------------------------------------------------------------
/b_Web_scraping/.ipynb_checkpoints/Web_scraping1-checkpoint.ipynb:
--------------------------------------------------------------------------------
1 | {
2 |  "cells": [],
3 |  "metadata": {},
4 |  "nbformat": 4,
5 |  "nbformat_minor": 4
6 | }
7 | 


--------------------------------------------------------------------------------
/b_Web_scraping/.ipynb_checkpoints/Web_scraping2-checkpoint.ipynb:
--------------------------------------------------------------------------------
1 | {
2 |  "cells": [],
3 |  "metadata": {},
4 |  "nbformat": 4,
5 |  "nbformat_minor": 4
6 | }
7 | 


--------------------------------------------------------------------------------
/b_Web_scraping/.ipynb_checkpoints/Web_scraping3-checkpoint.ipynb:
--------------------------------------------------------------------------------
1 | {
2 |  "cells": [],
3 |  "metadata": {},
4 |  "nbformat": 4,
5 |  "nbformat_minor": 4
6 | }
7 | 


--------------------------------------------------------------------------------
/c_Pandas/eluniversal_2020_05_08_articles.csv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/c_Pandas/eluniversal_2020_05_08_articles.csv


--------------------------------------------------------------------------------
/.idea/encodings.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="Encoding" addBOMForNewFiles="with NO BOM" />
4 | </project>


--------------------------------------------------------------------------------
/d_Data_systems/__pycache__/base.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/d_Data_systems/__pycache__/base.cpython-37.pyc


--------------------------------------------------------------------------------
/b_Web_scraping/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/b_Web_scraping/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/d_Data_systems/__pycache__/article.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/d_Data_systems/__pycache__/article.cpython-37.pyc


--------------------------------------------------------------------------------
/e_Final_Project/load/__pycache__/base.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/e_Final_Project/load/__pycache__/base.cpython-37.pyc


--------------------------------------------------------------------------------
/e_Final_Project/extract/elpais_2020_05_09_articles.csv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/e_Final_Project/extract/elpais_2020_05_09_articles.csv


--------------------------------------------------------------------------------
/e_Final_Project/load/__pycache__/article.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/e_Final_Project/load/__pycache__/article.cpython-37.pyc


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/elpais_2020_05_08_articles.csv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/b_Web_scraping/web_scrapper/elpais_2020_05_08_articles.csv


--------------------------------------------------------------------------------
/e_Final_Project/extract/__pycache__/common.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/e_Final_Project/extract/__pycache__/common.cpython-37.pyc


--------------------------------------------------------------------------------
/e_Final_Project/extract/eluniversal_2020_05_09_articles.csv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/e_Final_Project/extract/eluniversal_2020_05_09_articles.csv


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/__pycache__/__init__.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/b_Web_scraping/web_scrapper/__pycache__/__init__.cpython-37.pyc


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/__pycache__/common.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/b_Web_scraping/web_scrapper/__pycache__/common.cpython-37.pyc


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/__pycache__/common.cpython-38.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/b_Web_scraping/web_scrapper/__pycache__/common.cpython-38.pyc


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/eluniversal_2020_05_08_articles.csv:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/b_Web_scraping/web_scrapper/eluniversal_2020_05_08_articles.csv


--------------------------------------------------------------------------------
/.idea/misc.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="JavaScriptSettings">
4 |     <option name="languageLevel" value="ES6" />
5 |   </component>
6 | </project>


--------------------------------------------------------------------------------
/e_Final_Project/extract/__pycache__/news_page_objects.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/e_Final_Project/extract/__pycache__/news_page_objects.cpython-37.pyc


--------------------------------------------------------------------------------
/.idea/vcs.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="VcsDirectoryMappings">
4 |     <mapping directory="$PROJECT_DIR$" vcs="Git" />
5 |   </component>
6 | </project>


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/__pycache__/news_page_objects.cpython-37.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/b_Web_scraping/web_scrapper/__pycache__/news_page_objects.cpython-37.pyc


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/__pycache__/news_page_objects.cpython-38.pyc:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/crissebasbol/Data_engineering_python/HEAD/b_Web_scraping/web_scrapper/__pycache__/news_page_objects.cpython-38.pyc


--------------------------------------------------------------------------------
/.idea/modules.xml:
--------------------------------------------------------------------------------
1 | <?xml version="1.0" encoding="UTF-8"?>
2 | <project version="4">
3 |   <component name="ProjectModuleManager">
4 |     <modules>
5 |       <module fileurl="file://$PROJECT_DIR$/.idea/Ingenieria_datos_python.iml" filepath="$PROJECT_DIR$/.idea/Ingenieria_datos_python.iml" />
6 |     </modules>
7 |   </component>
8 | </project>


--------------------------------------------------------------------------------
/.idea/Ingenieria_datos_python.iml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0" encoding="UTF-8"?>
 2 | <module type="PYTHON_MODULE" version="4">
 3 |   <component name="NewModuleRootManager">
 4 |     <content url="file://$MODULE_DIR$" />
 5 |     <orderEntry type="sourceFolder" forTests="false" />
 6 |   </component>
 7 |   <component name="TestRunnerService">
 8 |     <option name="PROJECT_TEST_RUNNER" value="Unittests" />
 9 |   </component>
10 | </module>


--------------------------------------------------------------------------------
/e_Final_Project/extract/config.yaml:
--------------------------------------------------------------------------------
 1 | news_sites:
 2 |   eluniversal:
 3 |     url: https://www.eluniversal.com.mx
 4 |     queries:
 5 |       homepage_article_links: ".field-content a"
 6 |       article_body: ".field-name-body p"
 7 |       article_title: ".pane-content h1"
 8 |   elpais:
 9 |     url: https://elpais.com
10 |     queries:
11 |       homepage_article_links: ".headline_md a"
12 |       article_body: ".articulo-cuerpo"
13 |       article_title: ".articulo-titulo"


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/config.yaml:
--------------------------------------------------------------------------------
 1 | news_sites:
 2 |   eluniversal:
 3 |     url: https://www.eluniversal.com.mx
 4 |     queries:
 5 |       homepage_article_links: ".field-content a"
 6 |       article_body: ".field-name-body p"
 7 |       article_title: ".pane-content h1"
 8 |   elpais:
 9 |     url: https://elpais.com
10 |     queries:
11 |       homepage_article_links: ".headline_md a"
12 |       article_body: ".articulo-cuerpo"
13 |       article_title: ".articulo-titulo"


--------------------------------------------------------------------------------
/.idea/inspectionProfiles/Project_Default.xml:
--------------------------------------------------------------------------------
 1 | <component name="InspectionProjectProfileManager">
 2 |   <profile version="1.0">
 3 |     <option name="myName" value="Project Default" />
 4 |     <inspection_tool class="PyUnresolvedReferencesInspection" enabled="true" level="WARNING" enabled_by_default="true">
 5 |       <option name="ignoredIdentifiers">
 6 |         <list>
 7 |           <option value="b_Web_scraping.web_scrapper.main.common" />
 8 |         </list>
 9 |       </option>
10 |     </inspection_tool>
11 |   </profile>
12 | </component>


--------------------------------------------------------------------------------
/d_Data_systems/base.py:
--------------------------------------------------------------------------------
 1 | from sqlalchemy import create_engine
 2 | # permite tener acceso a las funcionalidades de orm (object relational mapper: nos permite
 3 | # trabajar con objetos de python en lugar de querys de SQL directamente) de sqlalchemy
 4 | from sqlalchemy.ext.declarative import declarative_base
 5 | from sqlalchemy.orm import sessionmaker
 6 | 
 7 | # le decimos a sqlalchemy que queremos usar sqlite
 8 | Engine = create_engine("sqlite:///newspaper.db")
 9 | 
10 | Session = sessionmaker(bind=Engine)
11 | 
12 | # Generamos la clase base de la cual van a extender todos nuestros modelos
13 | Base = declarative_base()
14 | 


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/common.py:
--------------------------------------------------------------------------------
 1 | # va a permitir cargar la configuración cuando iniciemos nuestro software
 2 | import yaml
 3 | 
 4 | # nos va a servir para cachear la información (esto es importante porque queremos leer a disco y si queremos
 5 | # instalar nuestra configuración en varias partes de nuestro código, no queremos leer a discocada vez que queramos
 6 | # utilizar la configuración)
 7 | __config = None
 8 | 
 9 | 
10 | def config():
11 |     global __config
12 |     if not __config:
13 |         with open("config.yaml", mode="r") as file:
14 |             __config = yaml.safe_load(file)
15 | 
16 |     return __config
17 | 


--------------------------------------------------------------------------------
/e_Final_Project/extract/common.py:
--------------------------------------------------------------------------------
 1 | # va a permitir cargar la configuración cuando iniciemos nuestro software
 2 | import yaml
 3 | 
 4 | # nos va a servir para cachear la información (esto es importante porque queremos leer a disco y si queremos
 5 | # instalar nuestra configuración en varias partes de nuestro código, no queremos leer a discocada vez que queramos
 6 | # utilizar la configuración)
 7 | __config = None
 8 | 
 9 | 
10 | def config():
11 |     global __config
12 |     if not __config:
13 |         with open("config.yaml", mode="r") as file:
14 |             __config = yaml.safe_load(file)
15 | 
16 |     return __config
17 | 


--------------------------------------------------------------------------------
/e_Final_Project/load/base.py:
--------------------------------------------------------------------------------
 1 | from sqlalchemy import create_engine
 2 | # permite tener acceso a las funcionalidades de orm (object relational mapper: nos permite
 3 | # trabajar con objetos de python en lugar de querys de SQL directamente) de sqlalchemy
 4 | from sqlalchemy.ext.declarative import declarative_base
 5 | from sqlalchemy.orm import sessionmaker
 6 | 
 7 | # le decimos a sqlalchemy que queremos usar sqlite
 8 | Engine = create_engine("sqlite:///newspaper.db")
 9 | 
10 | Session = sessionmaker(bind=Engine)
11 | 
12 | # Generamos la clase base de la cual van a extender todos nuestros modelos
13 | Base = declarative_base()
14 | 


--------------------------------------------------------------------------------
/d_Data_systems/article.py:
--------------------------------------------------------------------------------
 1 | from sqlalchemy import Column, String, Integer
 2 | from base import Base
 3 | 
 4 | class Article(Base):
 5 |     # le decimos como se va a llamar nuestra tabla
 6 |     __tablename__ = "articles"
 7 | 
 8 |     # declaramos la estructura
 9 |     id = Column(String, primary_key=True)
10 |     body = Column(String)
11 |     host = Column(String)
12 |     title = Column(String)
13 |     newspaper_uid = Column(String)
14 |     n_tokens_body = Column(Integer)
15 |     n_tokens_title = Column(Integer)
16 |     url = Column(String, unique=True)
17 | 
18 |     def __init__(self, uid, body, host, newspaper_uid, n_tokens_body, n_tokens_title, title, url):
19 |         self.id = uid
20 |         self.body = body
21 |         self.host = host
22 |         self.newspaper_uid = newspaper_uid
23 |         self.n_tokens_title = n_tokens_title
24 |         self.n_tokens_body = n_tokens_body
25 |         self.title = title
26 |         self.url = url
27 | 


--------------------------------------------------------------------------------
/e_Final_Project/load/article.py:
--------------------------------------------------------------------------------
 1 | from sqlalchemy import Column, String, Integer
 2 | from base import Base
 3 | 
 4 | class Article(Base):
 5 |     # le decimos como se va a llamar nuestra tabla
 6 |     __tablename__ = "articles"
 7 | 
 8 |     # declaramos la estructura
 9 |     id = Column(String, primary_key=True)
10 |     body = Column(String)
11 |     host = Column(String)
12 |     title = Column(String)
13 |     newspaper_uid = Column(String)
14 |     n_tokens_body = Column(Integer)
15 |     n_tokens_title = Column(Integer)
16 |     url = Column(String, unique=True)
17 | 
18 |     def __init__(self, uid, body, host, newspaper_uid, n_tokens_body, n_tokens_title, title, url):
19 |         self.id = uid
20 |         self.body = body
21 |         self.host = host
22 |         self.newspaper_uid = newspaper_uid
23 |         self.n_tokens_title = n_tokens_title
24 |         self.n_tokens_body = n_tokens_body
25 |         self.title = title
26 |         self.url = url
27 | 


--------------------------------------------------------------------------------
/d_Data_systems/main.py:
--------------------------------------------------------------------------------
 1 | import argparse
 2 | import logging
 3 | import pandas as pd
 4 | from article import Article
 5 | from base import Base, Engine, Session
 6 | 
 7 | logging.basicConfig(level=logging.INFO)
 8 | logger = logging.getLogger(__name__)
 9 | 
10 | 
11 | def main(filename):
12 |     # configurar sql
13 |     Base.metadata.create_all(Engine)  # permite generar nuestro scheme en nuestra base de datos
14 |     session = Session()  # Inicializar la sesión
15 |     articles = pd.read_csv(filename)  # Leemos nuestros artículos con pandas
16 | 
17 |     # iterrows : es un método de pandas que permite generar un loop adentro de cada una de nuestras
18 |     # filas de nuestro DataFrame
19 |     for index, row in articles.iterrows():
20 |         logger.info("Loading article uid {} into DB".format(row["uid"]))
21 |         article = Article(row["uid"],
22 |                           row["body"],
23 |                           row["host"],
24 |                           row["newspaper_uid"],
25 |                           row["n_tokens_body"],
26 |                           row["n_tokens_title"],
27 |                           row["title"],
28 |                           row["article_links"])
29 | 
30 |         session.add(article)  # esto nos mete nuestro artículo dentro de la base de datos
31 | 
32 |     session.commit()
33 |     session.close()
34 | 
35 | 
36 | if __name__ == "__main__":
37 |     parser = argparse.ArgumentParser()
38 |     parser.add_argument("filename",
39 |                         help="The file you want to load into the db",
40 |                         type=str)
41 | 
42 |     args = parser.parse_args()
43 | 
44 |     main(args.filename)
45 | 


--------------------------------------------------------------------------------
/e_Final_Project/load/main.py:
--------------------------------------------------------------------------------
 1 | import argparse
 2 | import logging
 3 | import pandas as pd
 4 | from article import Article
 5 | from base import Base, Engine, Session
 6 | 
 7 | logging.basicConfig(level=logging.INFO)
 8 | logger = logging.getLogger(__name__)
 9 | 
10 | 
11 | def main(filename):
12 |     # configurar sql
13 |     Base.metadata.create_all(Engine)  # permite generar nuestro scheme en nuestra base de datos
14 |     session = Session()  # Inicializar la sesión
15 |     articles = pd.read_csv(filename)  # Leemos nuestros artículos con pandas
16 | 
17 |     # iterrows : es un método de pandas que permite generar un loop adentro de cada una de nuestras
18 |     # filas de nuestro DataFrame
19 |     for index, row in articles.iterrows():
20 |         logger.info("Loading article uid {} into DB".format(row["uid"]))
21 |         article = Article(row["uid"],
22 |                           row["body"],
23 |                           row["host"],
24 |                           row["newspaper_uid"],
25 |                           row["n_tokens_body"],
26 |                           row["n_tokens_title"],
27 |                           row["title"],
28 |                           row["article_links"])
29 | 
30 |         session.add(article)  # esto nos mete nuestro artículo dentro de la base de datos
31 | 
32 |     session.commit()
33 |     session.close()
34 | 
35 | 
36 | if __name__ == "__main__":
37 |     parser = argparse.ArgumentParser()
38 |     parser.add_argument("filename",
39 |                         help="The file you want to load into the db",
40 |                         type=str)
41 | 
42 |     args = parser.parse_args()
43 | 
44 |     main(args.filename)
45 | 


--------------------------------------------------------------------------------
/e_Final_Project/extract/news_page_objects.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import bs4
 3 | import validators
 4 | from common import config
 5 | 
 6 | 
 7 | class NewsPage:
 8 | 
 9 |     def __init__(self, news_site_uid, url):
10 |         self._url = url
11 |         self._config = config()["news_sites"][news_site_uid]
12 |         self._queries = self._config["queries"]
13 |         self._html = None
14 | 
15 |         self._visit(url)
16 | 
17 |     def _select(self, query_string):
18 |         return self._html.select(query_string)
19 | 
20 |     def _visit(self, url):
21 |         response = requests.get(url)
22 |         response.encoding = "utf-8"
23 | 
24 |         # nos permite lanzar un error si la solicitud no fue concluida correctamente
25 |         response.raise_for_status()
26 |         self._html = bs4.BeautifulSoup(response.text, "html.parser")
27 | 
28 | 
29 | class HomePage(NewsPage):
30 |     # va a representar la página principal de nuestra web
31 |     def __init__(self, news_site_uid, url):
32 |         super(HomePage, self).__init__(news_site_uid, url)
33 | 
34 |     @property
35 |     def article_links(self):
36 |         link_list = []
37 |         for link in self._select(self._queries["homepage_article_links"]):
38 |             if link and link.has_attr("href"):
39 |                 if not validators.url(link["href"]):
40 |                     link_list.append(self._config["url"] + link["href"])
41 | 
42 |         return set(link for link in link_list)
43 | 
44 | 
45 | class ArticlePage(NewsPage):
46 |     def __init__(self, news_site_uid, url):
47 |         super(ArticlePage, self).__init__(news_site_uid, url)
48 | 
49 |     @property
50 |     def body(self):
51 |         result = self._select(self._queries["article_body"])
52 | 
53 |         return result[0].text if len(result) else ""
54 | 
55 |     @property
56 |     def title(self):
57 |         result = self._select(self._queries["article_title"])
58 | 
59 |         return result[0].text if len(result) else ""
60 | 
61 |     @property
62 |     def article_links(self):
63 | 
64 |         return self._url
65 | 


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/news_page_objects.py:
--------------------------------------------------------------------------------
 1 | import requests
 2 | import bs4
 3 | import validators
 4 | from common import config
 5 | 
 6 | 
 7 | class NewsPage:
 8 | 
 9 |     def __init__(self, news_site_uid, url):
10 |         self._url = url
11 |         self._config = config()["news_sites"][news_site_uid]
12 |         self._queries = self._config["queries"]
13 |         self._html = None
14 | 
15 |         self._visit(url)
16 | 
17 |     def _select(self, query_string):
18 |         return self._html.select(query_string)
19 | 
20 |     def _visit(self, url):
21 |         response = requests.get(url)
22 |         response.encoding = "utf-8"
23 | 
24 |         # nos permite lanzar un error si la solicitud no fue concluida correctamente
25 |         response.raise_for_status()
26 |         self._html = bs4.BeautifulSoup(response.text, "html.parser")
27 | 
28 | 
29 | class HomePage(NewsPage):
30 |     # va a representar la página principal de nuestra web
31 |     def __init__(self, news_site_uid, url):
32 |         super(HomePage, self).__init__(news_site_uid, url)
33 | 
34 |     @property
35 |     def article_links(self):
36 |         link_list = []
37 |         for link in self._select(self._queries["homepage_article_links"]):
38 |             if link and link.has_attr("href"):
39 |                 if not validators.url(link["href"]):
40 |                     link_list.append(self._config["url"] + link["href"])
41 | 
42 |         return set(link for link in link_list)
43 | 
44 | 
45 | class ArticlePage(NewsPage):
46 |     def __init__(self, news_site_uid, url):
47 |         super(ArticlePage, self).__init__(news_site_uid, url)
48 | 
49 |     @property
50 |     def body(self):
51 |         result = self._select(self._queries["article_body"])
52 | 
53 |         return result[0].text if len(result) else ""
54 | 
55 |     @property
56 |     def title(self):
57 |         result = self._select(self._queries["article_title"])
58 | 
59 |         return result[0].text if len(result) else ""
60 | 
61 |     @property
62 |     def article_links(self):
63 | 
64 |         return self._url
65 | 


--------------------------------------------------------------------------------
/e_Final_Project/pipeline.py:
--------------------------------------------------------------------------------
 1 | import datetime
 2 | import logging
 3 | import subprocess
 4 | # subprocess:
 5 | #    Permite manipular directamente archivos del terminal (es }como si tuvieramos la terminal directamente en python)
 6 | 
 7 | logging.basicConfig(level=logging.INFO)
 8 | 
 9 | logger = logging.getLogger(__name__)
10 | 
11 | news_sites_uids = ["eluniversal", "elpais"]
12 | 
13 | 
14 | def main():
15 |     _extract()
16 |     _transform()
17 |     _load()
18 | 
19 | 
20 | def _extract():
21 |     logger.info("Starting extract process")
22 |     for news_sites_uid in news_sites_uids:
23 |         # cwd--> que ejecute lo que he exrito antes dentro de la dirección que le mando
24 |         subprocess.run(["python", "main.py", news_sites_uid], cwd=".\\extract")
25 |         # ahora vamos a mover los archivos que se generaron
26 |         # "." --> que queremos que comience a partir de este directorio
27 |         # "-name", "{}*" --> queremos que encuentre algo con un cierto patrón (* el asterisco significa con lo que sea)
28 |         # "-exect" --> que ejecute algo por cada uno de los archivos que encuentre
29 |         # "mv" --> que los mueva
30 |         # "{}" --> el nombre del archivo
31 |         # ";" --> porque find nos obliga a terminar con un ;
32 |         # el siguiente comando es para linux o mac
33 |         # subprocess.run(["find", ".", "-name", "{}*".format(news_sites_uid), "-exec", "mv", "{}",
34 |         #                "../transform/{}_.csv".format(news_sites_uid), ";"], cwd="./extract")
35 |         # Para windwos
36 |         subprocess.run(["copy", "{}_{}*".format(news_sites_uid, now),
37 |                         "..\\transform\\{}_{}_.csv".format(news_sites_uid, now)], shell=True,
38 |                        cwd="./extract")
39 |         print("*"*50)
40 | 
41 | 
42 | def _transform():
43 |     logger.info("Starting transform process")
44 |     for news_sites_uid in news_sites_uids:
45 |         dirty_data_filename = "{}_{}_.csv".format(news_sites_uid, now)
46 |         clean_data_filename = "{}_cleaned.csv".format(dirty_data_filename[:-4])
47 |         subprocess.run(["python", "main.py", dirty_data_filename], cwd=".\\transform")
48 |         subprocess.run(["rm", dirty_data_filename], shell=True, cwd=".\\transform")
49 |         subprocess.run(["mv", clean_data_filename, "..\\load\\{}.csv".format(news_sites_uid)], shell=True,
50 |                        cwd=".\\transform")
51 |     print("*" * 50)
52 | 
53 | 
54 | def _load():
55 |     logger.info("Starting load process")
56 |     for news_sites_uid in news_sites_uids:
57 |         clean_data_filename = "{}.csv".format(news_sites_uid)
58 |         subprocess.run(["python", "main.py", clean_data_filename], cwd=".\\load")
59 |         subprocess.run(["rm", clean_data_filename], shell=True, cwd="./load")
60 |     print("*" * 50)
61 | 
62 | 
63 | if __name__ == "__main__":
64 |     now = datetime.datetime.now().strftime("%Y_%m_%d")
65 |     main()
66 | 


--------------------------------------------------------------------------------
/e_Final_Project/extract/main.py:
--------------------------------------------------------------------------------
  1 | import argparse
  2 | import datetime
  3 | import csv
  4 | import logging
  5 | import news_page_objects as news
  6 | import re  # for regular expressions
  7 | from common import config
  8 | 
  9 | from requests.exceptions import HTTPError
 10 | from urllib3.exceptions import MaxRetryError
 11 | 
 12 | logging.basicConfig(level=logging.INFO)
 13 | 
 14 | # r --> indica a python que es un string raw
 15 | # ^ --> nos da el inicio de la palabra
 16 | # ? --> opcional la s
 17 | # .+ --> por lo menos una o más letras
 18 | # $ terminamos el patrón
 19 | 
 20 | is_well_formed_link = re.compile(r"^https?://.+/.+$")  # https://example.com/some-text
 21 | is_root_path = re.compile(r"^/.+$")  # /some-text
 22 | logger = logging.getLogger(__name__)
 23 | 
 24 | 
 25 | def _news_scraper(news_site_uid):
 26 |     host = config()["news_sites"][news_site_uid]["url"]
 27 | 
 28 |     logging.info("Beginning scraper for {}".format(host))
 29 |     home_page = news.HomePage(news_site_uid, host)
 30 | 
 31 |     articles = []
 32 |     for link in home_page.article_links:
 33 |         article = _fetch_article(news_site_uid, link)
 34 | 
 35 |         if article:
 36 |             logger.info("Article fetched!!")
 37 |             articles.append(article)
 38 |             print(article.title)
 39 | 
 40 |     print(len(articles))
 41 |     _save_articles(news_site_uid, articles)
 42 | 
 43 | 
 44 | def _save_articles(news_site_uid, articles):
 45 |     now = datetime.datetime.now().strftime("%Y_%m_%d")
 46 |     out_file_name = "{news_site_uid}_{datetime}_articles.csv".format(
 47 |         news_site_uid=news_site_uid,
 48 |         datetime=now
 49 |     )
 50 |     csv_headers = list(filter(lambda property: not property.startswith("_"), dir(articles[0])))
 51 |     with open(out_file_name, mode="w+", newline="") as file:
 52 |         writer = csv.writer(file)
 53 |         writer.writerow(csv_headers)
 54 | 
 55 |         for article in articles:
 56 |             row = [str(getattr(article, prop))for prop in csv_headers]
 57 |             writer.writerow(row)
 58 | 
 59 | 
 60 | def _fetch_article(news_site_uid, link):
 61 |     logger.info("Start fetching article at {}".format(link))
 62 | 
 63 |     article = None
 64 | 
 65 |     try:
 66 |         article = news.ArticlePage(news_site_uid, _build_link(link))
 67 |     # except (HTTPError, MaxRetryError) as e:
 68 |     except:
 69 |         # HTTPErrorr --> cuando no se ha encontrado la página
 70 |         # MaxRetryError --> estoy eliminadno la posibildad de que se vaya al infinito tratando de seguir la URL
 71 |         logger.warning("Error while fetching the article", exc_info=False)
 72 |         # exc_info=False --> para que no me muestre el error
 73 | 
 74 |     if article and not article.body and not article.title:
 75 |         logger.warning("Invalid article. There is no body")
 76 |         return None
 77 | 
 78 |     return article
 79 | 
 80 | 
 81 | def _build_link(link):
 82 |     if is_well_formed_link.match(link):
 83 |         return link
 84 | 
 85 | 
 86 | if __name__ == "__main__":
 87 |     # parecido a ClI, solo que un poco más fácil
 88 |     parser = argparse.ArgumentParser()
 89 | 
 90 |     news_site_choices = list(config()["news_sites"].keys())
 91 |     # Le añadimos opciones
 92 |     parser.add_argument("news_site",
 93 |                         help="The new site that you want to scrape",
 94 |                         type=str,
 95 |                         choices=news_site_choices)
 96 | 
 97 |     # parsear
 98 |     args = parser.parse_args()
 99 |     _news_scraper(args.news_site)
100 | 


--------------------------------------------------------------------------------
/b_Web_scraping/web_scrapper/main.py:
--------------------------------------------------------------------------------
  1 | import argparse
  2 | import datetime
  3 | import csv
  4 | import logging
  5 | import news_page_objects as news
  6 | import re  # for regular expressions
  7 | from common import config
  8 | 
  9 | from requests.exceptions import HTTPError
 10 | from urllib3.exceptions import MaxRetryError
 11 | 
 12 | logging.basicConfig(level=logging.INFO)
 13 | 
 14 | # r --> indica a python que es un string raw
 15 | # ^ --> nos da el inicio de la palabra
 16 | # ? --> opcional la s
 17 | # .+ --> por lo menos una o más letras
 18 | # $ terminamos el patrón
 19 | 
 20 | is_well_formed_link = re.compile(r"^https?://.+/.+$")  # https://example.com/some-text
 21 | is_root_path = re.compile(r"^/.+$")  # /some-text
 22 | logger = logging.getLogger(__name__)
 23 | 
 24 | 
 25 | def _news_scraper(news_site_uid):
 26 |     host = config()["news_sites"][news_site_uid]["url"]
 27 | 
 28 |     logging.info("Beginning scraper for {}".format(host))
 29 |     home_page = news.HomePage(news_site_uid, host)
 30 | 
 31 |     articles = []
 32 |     for link in home_page.article_links:
 33 |         article = _fetch_article(news_site_uid, link)
 34 | 
 35 |         if article:
 36 |             logger.info("Article fetched!!")
 37 |             articles.append(article)
 38 |             print(article.title)
 39 | 
 40 |     print(len(articles))
 41 |     _save_articles(news_site_uid, articles)
 42 | 
 43 | 
 44 | def _save_articles(news_site_uid, articles):
 45 |     now = datetime.datetime.now().strftime("%Y_%m_%d")
 46 |     out_file_name = "{news_site_uid}_{datetime}_articles.csv".format(
 47 |         news_site_uid=news_site_uid,
 48 |         datetime=now
 49 |     )
 50 |     csv_headers = list(filter(lambda property: not property.startswith("_"), dir(articles[0])))
 51 |     with open(out_file_name, mode="w+", newline="") as file:
 52 |         writer = csv.writer(file)
 53 |         writer.writerow(csv_headers)
 54 | 
 55 |         for article in articles:
 56 |             row = [str(getattr(article, prop))for prop in csv_headers]
 57 |             writer.writerow(row)
 58 | 
 59 | 
 60 | def _fetch_article(news_site_uid, link):
 61 |     logger.info("Start fetching article at {}".format(link))
 62 | 
 63 |     article = None
 64 | 
 65 |     try:
 66 |         article = news.ArticlePage(news_site_uid, _build_link(link))
 67 |     # except (HTTPError, MaxRetryError) as e:
 68 |     except:
 69 |         # HTTPErrorr --> cuando no se ha encontrado la página
 70 |         # MaxRetryError --> estoy eliminadno la posibildad de que se vaya al infinito tratando de seguir la URL
 71 |         logger.warning("Error while fetching the article", exc_info=False)
 72 |         # exc_info=False --> para que no me muestre el error
 73 | 
 74 |     if article and not article.body and not article.title:
 75 |         logger.warning("Invalid article. There is no body")
 76 |         return None
 77 | 
 78 |     return article
 79 | 
 80 | 
 81 | def _build_link(link):
 82 |     if is_well_formed_link.match(link):
 83 |         return link
 84 | 
 85 | 
 86 | if __name__ == "__main__":
 87 |     # parecido a ClI, solo que un poco más fácil
 88 |     parser = argparse.ArgumentParser()
 89 | 
 90 |     news_site_choices = list(config()["news_sites"].keys())
 91 |     # Le añadimos opciones
 92 |     parser.add_argument("news_site",
 93 |                         help="The new site that you want to scrape",
 94 |                         type=str,
 95 |                         choices=news_site_choices)
 96 | 
 97 |     # parsear
 98 |     args = parser.parse_args()
 99 |     _news_scraper(args.news_site)
100 | 


--------------------------------------------------------------------------------
/b_Web_scraping/Web_scraping2.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "# Web request 2"
  8 |    ]
  9 |   },
 10 |   {
 11 |    "cell_type": "code",
 12 |    "execution_count": 10,
 13 |    "metadata": {},
 14 |    "outputs": [],
 15 |    "source": [
 16 |     "import requests\n",
 17 |     "\n",
 18 |     "response = requests.get(\"https://platzi.com\")\n",
 19 |     "response.encoding = 'utf-8'"
 20 |    ]
 21 |   },
 22 |   {
 23 |    "cell_type": "markdown",
 24 |    "metadata": {},
 25 |    "source": [
 26 |     "## HTML Information extraction"
 27 |    ]
 28 |   },
 29 |   {
 30 |    "cell_type": "code",
 31 |    "execution_count": 11,
 32 |    "metadata": {},
 33 |    "outputs": [
 34 |     {
 35 |      "name": "stdout",
 36 |      "output_type": "stream",
 37 |      "text": [
 38 |       "🚀Platzi: ‎Cursos Online Profesionales de Tecnología\n"
 39 |      ]
 40 |     }
 41 |    ],
 42 |    "source": [
 43 |     "import bs4 #import beautifulsoup\n",
 44 |     "\n",
 45 |     "# el siguiente paso es generar un parser que nos va a permitir generar queries al documento\n",
 46 |     "soup = bs4.BeautifulSoup(response.text, \"html.parser\")   #beautifulsoup también nos permite parsear documentos xml, por lo que debemos decirle que es html en este caso\n",
 47 |     "#generamos los queries\n",
 48 |     "print(soup.title.text)"
 49 |    ]
 50 |   },
 51 |   {
 52 |    "cell_type": "code",
 53 |    "execution_count": 12,
 54 |    "metadata": {},
 55 |    "outputs": [
 56 |     {
 57 |      "name": "stdout",
 58 |      "output_type": "stream",
 59 |      "text": [
 60 |       "[<meta content=\"Aprende desde cero a crear el futuro web con nuestros Cursos Online Profesionales de Tecnología. 🚀¡Cursos de Desarrollo, Diseño, Marketing y Negocios!\" name=\"description\"/>]\n"
 61 |      ]
 62 |     }
 63 |    ],
 64 |    "source": [
 65 |     "# para poder seleccionar un selector de CSS\n",
 66 |     "print(soup.select(\"meta[name=description]\"))"
 67 |    ]
 68 |   },
 69 |   {
 70 |    "cell_type": "code",
 71 |    "execution_count": 14,
 72 |    "metadata": {},
 73 |    "outputs": [
 74 |     {
 75 |      "name": "stdout",
 76 |      "output_type": "stream",
 77 |      "text": [
 78 |       "Aprende desde cero a crear el futuro web con nuestros Cursos Online Profesionales de Tecnología. 🚀¡Cursos de Desarrollo, Diseño, Marketing y Negocios!\n"
 79 |      ]
 80 |     }
 81 |    ],
 82 |    "source": [
 83 |     "print(soup.select(\"meta[name=description]\")[0][\"content\"])"
 84 |    ]
 85 |   },
 86 |   {
 87 |    "cell_type": "code",
 88 |    "execution_count": 58,
 89 |    "metadata": {},
 90 |    "outputs": [
 91 |     {
 92 |      "name": "stdout",
 93 |      "output_type": "stream",
 94 |      "text": [
 95 |       "https://platzi.com/cursos/calculo-integral\n",
 96 |       "https://platzi.com/cursos/facebook-ads\n",
 97 |       "https://platzi.com/cursos/bff\n",
 98 |       "https://platzi.com/cursos/twitter-ads\n",
 99 |       "https://platzi.com/cursos/svelte\n",
100 |       "https://platzi.com/cursos/periodismo-movil\n",
101 |       "https://platzi.com/cursos/python-lenguaje-natural\n",
102 |       "https://platzi.com/cursos/gestion-cambio\n",
103 |       "https://platzi.com/cursos/pagos-online\n",
104 |       "https://platzi.com/cursos/meditacion\n",
105 |       "https://platzi.com/cursos/devtools\n",
106 |       "https://platzi.com/cursos/keras-neural-networks\n",
107 |       "https://platzi.com/cursos/guion-series\n",
108 |       "https://platzi.com/cursos/arte-escenarios\n",
109 |       "https://platzi.com/cursos/avanzado-vue\n"
110 |      ]
111 |     }
112 |    ],
113 |    "source": [
114 |     "# vamos a obtener todos los vínculos a las clases dentro de la web de platzi,\n",
115 |     "# para esto debemos comenzar a analizar cual es la estructura de la web\n",
116 |     "recent_courses_links = soup.select(\".RecentCourses-item\")\n",
117 |     "courses = [course.a[\"href\"] for course in recent_courses_links]\n",
118 |     "for course in courses: \n",
119 |     "    print(f\"https://platzi.com{course}\")\n"
120 |    ]
121 |   },
122 |   {
123 |    "cell_type": "code",
124 |    "execution_count": null,
125 |    "metadata": {},
126 |    "outputs": [],
127 |    "source": []
128 |   },
129 |   {
130 |    "cell_type": "code",
131 |    "execution_count": null,
132 |    "metadata": {},
133 |    "outputs": [],
134 |    "source": []
135 |   }
136 |  ],
137 |  "metadata": {
138 |   "kernelspec": {
139 |    "display_name": "Python 3",
140 |    "language": "python",
141 |    "name": "python3"
142 |   },
143 |   "language_info": {
144 |    "codemirror_mode": {
145 |     "name": "ipython",
146 |     "version": 3
147 |    },
148 |    "file_extension": ".py",
149 |    "mimetype": "text/x-python",
150 |    "name": "python",
151 |    "nbconvert_exporter": "python",
152 |    "pygments_lexer": "ipython3",
153 |    "version": "3.7.6"
154 |   }
155 |  },
156 |  "nbformat": 4,
157 |  "nbformat_minor": 4
158 | }
159 | 


--------------------------------------------------------------------------------
/c_Pandas/newspaper.py:
--------------------------------------------------------------------------------
  1 | import argparse
  2 | import logging
  3 | from urllib.parse import urlparse
  4 | import pandas as pd
  5 | import hashlib
  6 | import nltk # nltk: Ayuda a trabjar con lenguage natural
  7 | from nltk.corpus import stopwords
  8 | # stopwords : son palabras que no añaden ningún tipo de analisis posterior, por ejemplo "el, la",
  9 | # palabras que se utilizan mucho en el lenguage pero no ayudan a determinar que está sucedienendo
 10 | # dentro de nuestro análisis de texto
 11 | 
 12 | logging.basicConfig(level=logging.INFO)
 13 | logger = logging.getLogger(__name__)
 14 | 
 15 | 
 16 | def main(filename):
 17 |     logger.info("Starting cleaning process")
 18 | 
 19 |     df = _read_data(filename)
 20 |     newspaper_uid = _extract_newspaper_uid(filename)
 21 |     df = _add_newspaper_uid_column(df, newspaper_uid)
 22 |     df = _extract_host(df)
 23 |     df = _fill_missing_bodies(df)
 24 |     df = _generate_uids_for_rows(df)
 25 |     df = _remove_new_lines_from_body(df)
 26 |     df = _tokenize_column(df, "title", "spanish")
 27 |     df = _tokenize_column(df, "body", "spanish")
 28 |     df = _remove_duplicate_entries(df, "title")
 29 |     df = _drop_rows_with_missing_values(df)
 30 | 
 31 |     return df
 32 | 
 33 | 
 34 | def _read_data(filename):
 35 |     logger.info("Reading file {}".format(filename))
 36 | 
 37 |     return pd.read_csv(filename, encoding="ISO-8859-1")
 38 | 
 39 | 
 40 | def _extract_newspaper_uid(filename):
 41 |     logger.info("Extracting newspaper uid")
 42 |     newspaper_uid = filename.split("_")[0]
 43 |     logger.info("Newspaper uid detected: {}".format(newspaper_uid))
 44 | 
 45 |     return newspaper_uid
 46 | 
 47 | 
 48 | def _add_newspaper_uid_column(df, newspaper_uid):
 49 |     logger.info("Filling newspaper_uid column with {}".format(newspaper_uid))
 50 |     df["newspaper_uid"] = newspaper_uid
 51 | 
 52 |     return df
 53 | 
 54 | 
 55 | def _extract_host(df):
 56 |     logger.info("Extracting host from urls")
 57 |     df["host"] = df["article_links"].apply(lambda article_links: urlparse(article_links).netloc)
 58 | 
 59 |     return df
 60 | 
 61 | 
 62 | def _fill_missing_bodies(df):
 63 |     logger.info("Filling missing bodies")
 64 |     missing_bodies_mask = df["body"].isna()
 65 |     # en el body vamos a colocar el texto del último pedazo de la url
 66 |     # [^/]-->queremos que haga match hasta que no encuentre una diagonal adicional
 67 |     # [^/]+-->que esto puede suceder una o más veces
 68 |     # ([^/]+)$ --> vamos ir hasta el final de nuestro string
 69 |     # (?P<missing_bodies>[^/]+)$ --> colocar un nombre al grupo
 70 | 
 71 |     # applymap nos permite generar un mapa de un valor a otro, es decir una transformación
 72 | 
 73 |     missing_bodies = (df[missing_bodies_mask]["article_links"]
 74 |                       .str.extract(r"(?P<missing_bodies>[^/]+)$")
 75 |                       .applymap(lambda body: body.split("-"))
 76 |                       .applymap(lambda body_word_list: " ".join(body_word_list))
 77 |                       )
 78 |     df.loc[missing_bodies_mask, "body"] = missing_bodies.loc[:, "missing_bodies"]
 79 | 
 80 |     return df
 81 | 
 82 | 
 83 | def _generate_uids_for_rows(df):
 84 |     logger.info("Generating uids for eachs row")
 85 |     # hashlib --> normalmente se utiliza para operaciones criptográficas, pero la vamos a utilziar para generar un hash
 86 |     #            de la URL, de tal manera que tengamos un número único que mapee siempre a esa URL
 87 | 
 88 |     # axis=0 -->columbas
 89 |     # axis=1 -->filas
 90 | 
 91 |     uids = (df
 92 |             .apply(lambda row: hashlib.md5(bytes(row["article_links"].encode())), axis=1)
 93 |             .apply(lambda hash_object: hash_object.hexdigest())
 94 |             )
 95 |     df["uid"] = uids
 96 | 
 97 |     # inplace --> le indica que queremos modificar directamente nuestra tabla
 98 |     df.set_index("uid", inplace=True)
 99 | 
100 |     return df
101 | 
102 | 
103 | def _remove_new_lines_from_body(df):
104 |     logger.info("Removing new lines from body")
105 |     strippped_body = (df
106 |                       .apply(lambda row: row["body"], axis=1)
107 |                       .apply(lambda body: list(body))
108 |                       .apply(lambda letters: list(map(lambda letter: letter.replace("\n", " "), letters)))
109 |                       .apply(lambda letters: list(map(lambda letter: letter.replace("\r", " "), letters)))
110 |                       .apply(lambda letters: "".join(letters))
111 |                       )
112 |     df["body"] = strippped_body
113 | 
114 |     return df
115 | 
116 | 
117 | def _tokenize_column(df, column_name, language):
118 |     # una función que nos va a generar las transformaciones en la columna deseada (primero título y luego enn el body)
119 |     logger.info("Tokenizing column {}".format(column_name))
120 |     # si nunca hemos corrido nltk, nos va a pedir que bajemos los archivos adicionales, instalarla no
121 |     # es suficiente porque es una librería enorme, entonces la primera vez que corremos esta librería,
122 |     # nos pide que ajemos las librerías adicionales, se debe colocar el siguiente código
123 |     try:
124 |         nltk.data.find("tokenizers/punkt")
125 |         # punkt: librería para poder tokenizar, es decir dividir en palabras
126 |     except LookupError:
127 |         nltk.download("punkt")
128 | 
129 |     try:
130 |         nltk.data.find("stopwords")
131 |     except LookupError:
132 |         nltk.download("stopwords")
133 |     finally:
134 |         stop_words = set(stopwords.words(language))
135 |         # los stop_words: vienen en minúsuculas
136 | 
137 |     tokenize_column = (df
138 |                        .dropna() # Eliminamos las que no tienen datos, de lo contrario nltk existirá un error.
139 |                        .apply(lambda row: nltk.word_tokenize(row[column_name]), axis=1)
140 |                        .apply(lambda tokens: list(filter(lambda token: token.isalpha(), tokens))) # Eliminar palabras que no sean alfanuméricas
141 |                        .apply(lambda tokens: list(map(lambda token: token.lower(), tokens))) # convertir todos los tokesns a lowerCase
142 |                        .apply(lambda word_list: list(filter(lambda word: word not in stop_words, word_list))) # Eliminar las palabras que sean stop_words
143 |                        .apply(lambda valid_word_list: len(valid_word_list)) # obtener la longitud que tiene cada una de estas listas
144 |                        )
145 | 
146 |     df["n_tokens_{}".format(column_name)] = tokenize_column
147 | 
148 |     return df
149 | 
150 | 
151 | def _remove_duplicate_entries(df, column_name):
152 |     logger.info("Removing duplicate entries")
153 |     # keep: que tome los valores del primer duplicado o el último (last).
154 |     # inplace = realizamos la modificación directamente.
155 |     df.drop_duplicates(subset=[column_name], keep="first", inplace=True)
156 | 
157 |     return df
158 | 
159 | 
160 | def _drop_rows_with_missing_values(df):
161 |     logger.info("Dropping rows with missing values")
162 | 
163 |     return df.dropna()
164 | 
165 | 
166 | def _save_df(df, filename):
167 |     filename = "{}_cleaned.csv".format(filename[:-4])
168 |     logger.info("Saving new file at location {}".format(filename))
169 |     df.to_csv(filename, encoding="utf-8-sig")
170 | 
171 | 
172 | if __name__ == "__main__":
173 |     # Para llamar al archivo:
174 |     #   (python newspaper.py elpais_2020_05_08_articles.csv) --> Aclarando que debo correr el ambiente de conda
175 | 
176 |     # Le preguntamos al usuario cuál va a ser el archivo con el que quiere trabajar
177 |     parser = argparse.ArgumentParser()
178 |     parser.add_argument("filename",
179 |                         help="The path to the dirty data",
180 |                         type=str)
181 | 
182 |     arg = parser.parse_args()
183 |     df = main(arg.filename)
184 | 
185 |     print(df)
186 | 
187 |     _save_df(df, arg.filename)
188 | 


--------------------------------------------------------------------------------
/e_Final_Project/transform/main.py:
--------------------------------------------------------------------------------
  1 | import argparse
  2 | import logging
  3 | from urllib.parse import urlparse
  4 | import pandas as pd
  5 | import hashlib
  6 | import nltk # nltk: Ayuda a trabjar con lenguage natural
  7 | from nltk.corpus import stopwords
  8 | # stopwords : son palabras que no añaden ningún tipo de analisis posterior, por ejemplo "el, la",
  9 | # palabras que se utilizan mucho en el lenguage pero no ayudan a determinar que está sucedienendo
 10 | # dentro de nuestro análisis de texto
 11 | 
 12 | logging.basicConfig(level=logging.INFO)
 13 | logger = logging.getLogger(__name__)
 14 | 
 15 | 
 16 | def main(filename):
 17 |     logger.info("Starting cleaning process")
 18 | 
 19 |     df = _read_data(filename)
 20 |     newspaper_uid = _extract_newspaper_uid(filename)
 21 |     df = _add_newspaper_uid_column(df, newspaper_uid)
 22 |     df = _extract_host(df)
 23 |     df = _fill_missing_bodies(df)
 24 |     df = _generate_uids_for_rows(df)
 25 |     df = _remove_new_lines_from_body(df)
 26 |     df = _tokenize_column(df, "title", "spanish")
 27 |     df = _tokenize_column(df, "body", "spanish")
 28 |     df = _remove_duplicate_entries(df, "title")
 29 |     df = _drop_rows_with_missing_values(df)
 30 | 
 31 |     return df
 32 | 
 33 | 
 34 | def _read_data(filename):
 35 |     logger.info("Reading file {}".format(filename))
 36 | 
 37 |     return pd.read_csv(filename, encoding="ISO-8859-1")
 38 | 
 39 | 
 40 | def _extract_newspaper_uid(filename):
 41 |     logger.info("Extracting newspaper uid")
 42 |     newspaper_uid = filename.split("_")[0]
 43 |     logger.info("Newspaper uid detected: {}".format(newspaper_uid))
 44 | 
 45 |     return newspaper_uid
 46 | 
 47 | 
 48 | def _add_newspaper_uid_column(df, newspaper_uid):
 49 |     logger.info("Filling newspaper_uid column with {}".format(newspaper_uid))
 50 |     df["newspaper_uid"] = newspaper_uid
 51 | 
 52 |     return df
 53 | 
 54 | 
 55 | def _extract_host(df):
 56 |     logger.info("Extracting host from urls")
 57 |     df["host"] = df["article_links"].apply(lambda article_links: urlparse(article_links).netloc)
 58 | 
 59 |     return df
 60 | 
 61 | 
 62 | def _fill_missing_bodies(df):
 63 |     logger.info("Filling missing bodies")
 64 |     missing_bodies_mask = df["body"].isna()
 65 |     # en el body vamos a colocar el texto del último pedazo de la url
 66 |     # [^/]-->queremos que haga match hasta que no encuentre una diagonal adicional
 67 |     # [^/]+-->que esto puede suceder una o más veces
 68 |     # ([^/]+)$ --> vamos ir hasta el final de nuestro string
 69 |     # (?P<missing_bodies>[^/]+)$ --> colocar un nombre al grupo
 70 | 
 71 |     # applymap nos permite generar un mapa de un valor a otro, es decir una transformación
 72 | 
 73 |     missing_bodies = (df[missing_bodies_mask]["article_links"]
 74 |                       .str.extract(r"(?P<missing_bodies>[^/]+)$")
 75 |                       .applymap(lambda body: body.split("-"))
 76 |                       .applymap(lambda body_word_list: " ".join(body_word_list))
 77 |                       )
 78 |     df.loc[missing_bodies_mask, "body"] = missing_bodies.loc[:, "missing_bodies"]
 79 | 
 80 |     return df
 81 | 
 82 | 
 83 | def _generate_uids_for_rows(df):
 84 |     logger.info("Generating uids for eachs row")
 85 |     # hashlib --> normalmente se utiliza para operaciones criptográficas, pero la vamos a utilziar para generar un hash
 86 |     #            de la URL, de tal manera que tengamos un número único que mapee siempre a esa URL
 87 | 
 88 |     # axis=0 -->columbas
 89 |     # axis=1 -->filas
 90 | 
 91 |     uids = (df
 92 |             .apply(lambda row: hashlib.md5(bytes(row["article_links"].encode())), axis=1)
 93 |             .apply(lambda hash_object: hash_object.hexdigest())
 94 |             )
 95 |     df["uid"] = uids
 96 | 
 97 |     # inplace --> le indica que queremos modificar directamente nuestra tabla
 98 |     df.set_index("uid", inplace=True)
 99 | 
100 |     return df
101 | 
102 | 
103 | def _remove_new_lines_from_body(df):
104 |     logger.info("Removing new lines from body")
105 |     strippped_body = (df
106 |                       .apply(lambda row: row["body"], axis=1)
107 |                       .apply(lambda body: list(body))
108 |                       .apply(lambda letters: list(map(lambda letter: letter.replace("\n", " "), letters)))
109 |                       .apply(lambda letters: list(map(lambda letter: letter.replace("\r", " "), letters)))
110 |                       .apply(lambda letters: "".join(letters))
111 |                       )
112 |     df["body"] = strippped_body
113 | 
114 |     return df
115 | 
116 | 
117 | def _tokenize_column(df, column_name, language):
118 |     # una función que nos va a generar las transformaciones en la columna deseada (primero título y luego enn el body)
119 |     logger.info("Tokenizing column {}".format(column_name))
120 |     # si nunca hemos corrido nltk, nos va a pedir que bajemos los archivos adicionales, instalarla no
121 |     # es suficiente porque es una librería enorme, entonces la primera vez que corremos esta librería,
122 |     # nos pide que ajemos las librerías adicionales, se debe colocar el siguiente código
123 |     try:
124 |         nltk.data.find("tokenizers/punkt")
125 |         # punkt: librería para poder tokenizar, es decir dividir en palabras
126 |     except LookupError:
127 |         nltk.download("punkt")
128 | 
129 |     try:
130 |         nltk.data.find("stopwords")
131 |     except LookupError:
132 |         nltk.download("stopwords")
133 |     finally:
134 |         stop_words = set(stopwords.words(language))
135 |         # los stop_words: vienen en minúsuculas
136 | 
137 |     tokenize_column = (df
138 |                        .dropna() # Eliminamos las que no tienen datos, de lo contrario nltk existirá un error.
139 |                        .apply(lambda row: nltk.word_tokenize(row[column_name]), axis=1)
140 |                        .apply(lambda tokens: list(filter(lambda token: token.isalpha(), tokens))) # Eliminar palabras que no sean alfanuméricas
141 |                        .apply(lambda tokens: list(map(lambda token: token.lower(), tokens))) # convertir todos los tokesns a lowerCase
142 |                        .apply(lambda word_list: list(filter(lambda word: word not in stop_words, word_list))) # Eliminar las palabras que sean stop_words
143 |                        .apply(lambda valid_word_list: len(valid_word_list)) # obtener la longitud que tiene cada una de estas listas
144 |                        )
145 | 
146 |     df["n_tokens_{}".format(column_name)] = tokenize_column
147 | 
148 |     return df
149 | 
150 | 
151 | def _remove_duplicate_entries(df, column_name):
152 |     logger.info("Removing duplicate entries")
153 |     # keep: que tome los valores del primer duplicado o el último (last).
154 |     # inplace = realizamos la modificación directamente.
155 |     df.drop_duplicates(subset=[column_name], keep="first", inplace=True)
156 | 
157 |     return df
158 | 
159 | 
160 | def _drop_rows_with_missing_values(df):
161 |     logger.info("Dropping rows with missing values")
162 | 
163 |     return df.dropna()
164 | 
165 | 
166 | def _save_df(df, filename):
167 |     filename = "{}_cleaned.csv".format(filename[:-4])
168 |     logger.info("Saving new file at location {}".format(filename))
169 |     df.to_csv(filename, encoding="utf-8-sig")
170 | 
171 | 
172 | if __name__ == "__main__":
173 |     # Para llamar al archivo:
174 |     #   (python newspaper.py elpais_2020_05_08_articles.csv) --> Aclarando que debo correr el ambiente de conda
175 | 
176 |     # Le preguntamos al usuario cuál va a ser el archivo con el que quiere trabajar
177 |     parser = argparse.ArgumentParser()
178 |     parser.add_argument("filename",
179 |                         help="The path to the dirty data",
180 |                         type=str)
181 | 
182 |     arg = parser.parse_args()
183 |     df = main(arg.filename)
184 | 
185 |     print(df)
186 | 
187 |     _save_df(df, arg.filename)
188 | 


--------------------------------------------------------------------------------
/.idea/workspace.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0" encoding="UTF-8"?>
  2 | <project version="4">
  3 |   <component name="BookmarkManager">
  4 |     <bookmark url="file://$PROJECT_DIR$/c_Pandas/newspaper.py" line="25" />
  5 |   </component>
  6 |   <component name="ChangeListManager">
  7 |     <list default="true" id="c8cf2f55-98ce-4e32-accd-3298a3290fc6" name="Default Changelist" comment="">
  8 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/__init__.py" afterDir="false" />
  9 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/extract/__init__.py" afterDir="false" />
 10 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/extract/common.py" afterDir="false" />
 11 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/extract/config.yaml" afterDir="false" />
 12 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/extract/main.py" afterDir="false" />
 13 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/extract/news_page_objects.py" afterDir="false" />
 14 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/load/__init__.py" afterDir="false" />
 15 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/load/article.py" afterDir="false" />
 16 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/load/base.py" afterDir="false" />
 17 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/load/main.py" afterDir="false" />
 18 |       <change afterPath="$PROJECT_DIR$/e_Final_Project/transform/__init__.py" afterDir="false" />
 19 |       <change beforePath="$PROJECT_DIR$/.idea/workspace.xml" beforeDir="false" afterPath="$PROJECT_DIR$/.idea/workspace.xml" afterDir="false" />
 20 |     </list>
 21 |     <option name="EXCLUDED_CONVERTED_TO_IGNORED" value="true" />
 22 |     <option name="SHOW_DIALOG" value="false" />
 23 |     <option name="HIGHLIGHT_CONFLICTS" value="true" />
 24 |     <option name="HIGHLIGHT_NON_ACTIVE_CHANGELIST" value="false" />
 25 |     <option name="LAST_RESOLUTION" value="IGNORE" />
 26 |   </component>
 27 |   <component name="CoverageDataManager">
 28 |     <SUITE FILE_PATH="coverage/Ingenieria_datos_python$main.coverage" NAME="main Coverage Results" MODIFIED="1588045102991" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/b_Web_scraping/web_scrapper" />
 29 |     <SUITE FILE_PATH="coverage/Ingenieria_datos_python$common.coverage" NAME="common Coverage Results" MODIFIED="1588046519235" SOURCE_PROVIDER="com.intellij.coverage.DefaultCoverageFileProvider" RUNNER="coverage.py" COVERAGE_BY_TEST_ENABLED="true" COVERAGE_TRACING_ENABLED="false" WORKING_DIRECTORY="$PROJECT_DIR$/b_Web_scraping/web_scrapper" />
 30 |   </component>
 31 |   <component name="FileEditorManager">
 32 |     <leaf SIDE_TABS_SIZE_LIMIT_KEY="300">
 33 |       <file pinned="false" current-in-tab="false">
 34 |         <entry file="file://$PROJECT_DIR$/e_Final_Project/pipeline.py">
 35 |           <provider selected="true" editor-type-id="text-editor">
 36 |             <state relative-caret-position="-221">
 37 |               <caret line="17" lean-forward="true" selection-start-line="17" selection-end-line="17" />
 38 |               <folding>
 39 |                 <element signature="e#0#15#0" expanded="true" />
 40 |               </folding>
 41 |             </state>
 42 |           </provider>
 43 |         </entry>
 44 |       </file>
 45 |       <file pinned="false" current-in-tab="true">
 46 |         <entry file="file://$PROJECT_DIR$/e_Final_Project/extract/main.py">
 47 |           <provider selected="true" editor-type-id="text-editor">
 48 |             <state relative-caret-position="221">
 49 |               <caret line="37" column="32" selection-start-line="37" selection-start-column="32" selection-end-line="37" selection-end-column="32" />
 50 |               <folding>
 51 |                 <element signature="e#0#15#0" expanded="true" />
 52 |               </folding>
 53 |             </state>
 54 |           </provider>
 55 |         </entry>
 56 |       </file>
 57 |     </leaf>
 58 |   </component>
 59 |   <component name="FileTemplateManagerImpl">
 60 |     <option name="RECENT_TEMPLATES">
 61 |       <list>
 62 |         <option value="Python Script" />
 63 |       </list>
 64 |     </option>
 65 |   </component>
 66 |   <component name="FindInProjectRecents">
 67 |     <findStrings>
 68 |       <find>requ</find>
 69 |       <find>_select</find>
 70 |       <find>encod</find>
 71 |     </findStrings>
 72 |   </component>
 73 |   <component name="Git.Settings">
 74 |     <option name="RECENT_GIT_ROOT_PATH" value="$PROJECT_DIR$" />
 75 |   </component>
 76 |   <component name="IdeDocumentHistory">
 77 |     <option name="CHANGED_PATHS">
 78 |       <list>
 79 |         <option value="$PROJECT_DIR$/b_Web_scraping/__init__.py" />
 80 |         <option value="$PROJECT_DIR$/b_Web_scraping/web_scrapper/__init__.py" />
 81 |         <option value="$PROJECT_DIR$/__init__.py" />
 82 |         <option value="$PROJECT_DIR$/b_Web_scraping/web_scrapper/common.py" />
 83 |         <option value="$PROJECT_DIR$/b_Web_scraping/web_scrapper/config.yaml" />
 84 |         <option value="$PROJECT_DIR$/b_Web_scraping/web_scrapper/main.py" />
 85 |         <option value="$PROJECT_DIR$/b_Web_scraping/web_scrapper/news_page_objects.py" />
 86 |         <option value="$PROJECT_DIR$/c_Pandas/newspaper.py" />
 87 |         <option value="$PROJECT_DIR$/c_Pandas/__init.py" />
 88 |         <option value="$PROJECT_DIR$/d_Data_systems/__init.py" />
 89 |         <option value="$PROJECT_DIR$/d_Data_systems/base.py" />
 90 |         <option value="$PROJECT_DIR$/d_Data_systems/article.py" />
 91 |         <option value="$PROJECT_DIR$/d_Data_systems/main.py" />
 92 |         <option value="$PROJECT_DIR$/e_Final_Project/pipeline.py" />
 93 |         <option value="$PROJECT_DIR$/e_Final_Project/extract/main.py" />
 94 |       </list>
 95 |     </option>
 96 |   </component>
 97 |   <component name="ProjectFrameBounds" extendedState="6">
 98 |     <option name="x" value="1287" />
 99 |     <option name="y" value="-18" />
100 |     <option name="width" value="1295" />
101 |     <option name="height" value="744" />
102 |   </component>
103 |   <component name="ProjectView">
104 |     <navigator proportions="" version="1">
105 |       <foldersAlwaysOnTop value="true" />
106 |     </navigator>
107 |     <panes>
108 |       <pane id="ProjectPane">
109 |         <subPane>
110 |           <expand>
111 |             <path>
112 |               <item name="Ingenieria_datos_python" type="b2602c69:ProjectViewProjectNode" />
113 |               <item name="Ingenieria_datos_python" type="462c0819:PsiDirectoryNode" />
114 |             </path>
115 |             <path>
116 |               <item name="Ingenieria_datos_python" type="b2602c69:ProjectViewProjectNode" />
117 |               <item name="Ingenieria_datos_python" type="462c0819:PsiDirectoryNode" />
118 |               <item name="e_Final_Project" type="462c0819:PsiDirectoryNode" />
119 |             </path>
120 |             <path>
121 |               <item name="Ingenieria_datos_python" type="b2602c69:ProjectViewProjectNode" />
122 |               <item name="Ingenieria_datos_python" type="462c0819:PsiDirectoryNode" />
123 |               <item name="e_Final_Project" type="462c0819:PsiDirectoryNode" />
124 |               <item name="extract" type="462c0819:PsiDirectoryNode" />
125 |             </path>
126 |             <path>
127 |               <item name="Ingenieria_datos_python" type="b2602c69:ProjectViewProjectNode" />
128 |               <item name="Ingenieria_datos_python" type="462c0819:PsiDirectoryNode" />
129 |               <item name="e_Final_Project" type="462c0819:PsiDirectoryNode" />
130 |               <item name="load" type="462c0819:PsiDirectoryNode" />
131 |             </path>
132 |             <path>
133 |               <item name="Ingenieria_datos_python" type="b2602c69:ProjectViewProjectNode" />
134 |               <item name="Ingenieria_datos_python" type="462c0819:PsiDirectoryNode" />
135 |               <item name="e_Final_Project" type="462c0819:PsiDirectoryNode" />
136 |               <item name="transform" type="462c0819:PsiDirectoryNode" />
137 |             </path>
138 |           </expand>
139 |           <select />
140 |         </subPane>
141 |       </pane>
142 |       <pane id="Scope" />
143 |     </panes>
144 |   </component>
145 |   <component name="PropertiesComponent">
146 |     <property name="WebServerToolWindowFactoryState" value="false" />
147 |     <property name="last_opened_file_path" value="$PROJECT_DIR$" />
148 |     <property name="nodejs_interpreter_path.stuck_in_default_project" value="undefined stuck path" />
149 |     <property name="nodejs_npm_path_reset_for_default_project" value="true" />
150 |     <property name="settings.editor.selected.configurable" value="com.jetbrains.python.configuration.PyActiveSdkModuleConfigurable" />
151 |   </component>
152 |   <component name="RunDashboard">
153 |     <option name="ruleStates">
154 |       <list>
155 |         <RuleState>
156 |           <option name="name" value="ConfigurationTypeDashboardGroupingRule" />
157 |         </RuleState>
158 |         <RuleState>
159 |           <option name="name" value="StatusDashboardGroupingRule" />
160 |         </RuleState>
161 |       </list>
162 |     </option>
163 |   </component>
164 |   <component name="RunManager" selected="Python.common">
165 |     <configuration name="common" type="PythonConfigurationType" factoryName="Python" temporary="true">
166 |       <module name="Ingenieria_datos_python" />
167 |       <option name="INTERPRETER_OPTIONS" value="" />
168 |       <option name="PARENT_ENVS" value="true" />
169 |       <envs>
170 |         <env name="PYTHONUNBUFFERED" value="1" />
171 |       </envs>
172 |       <option name="SDK_HOME" value="" />
173 |       <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/b_Web_scraping/web_scrapper" />
174 |       <option name="IS_MODULE_SDK" value="true" />
175 |       <option name="ADD_CONTENT_ROOTS" value="true" />
176 |       <option name="ADD_SOURCE_ROOTS" value="true" />
177 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
178 |       <option name="SCRIPT_NAME" value="$PROJECT_DIR$/b_Web_scraping/web_scrapper/common.py" />
179 |       <option name="PARAMETERS" value="" />
180 |       <option name="SHOW_COMMAND_LINE" value="false" />
181 |       <option name="EMULATE_TERMINAL" value="false" />
182 |       <option name="MODULE_MODE" value="false" />
183 |       <option name="REDIRECT_INPUT" value="false" />
184 |       <option name="INPUT_FILE" value="" />
185 |       <method v="2" />
186 |     </configuration>
187 |     <configuration name="main" type="PythonConfigurationType" factoryName="Python" temporary="true">
188 |       <module name="Ingenieria_datos_python" />
189 |       <option name="INTERPRETER_OPTIONS" value="" />
190 |       <option name="PARENT_ENVS" value="true" />
191 |       <envs>
192 |         <env name="PYTHONUNBUFFERED" value="1" />
193 |       </envs>
194 |       <option name="SDK_HOME" value="" />
195 |       <option name="WORKING_DIRECTORY" value="$PROJECT_DIR$/b_Web_scraping/web_scrapper" />
196 |       <option name="IS_MODULE_SDK" value="true" />
197 |       <option name="ADD_CONTENT_ROOTS" value="true" />
198 |       <option name="ADD_SOURCE_ROOTS" value="true" />
199 |       <EXTENSION ID="PythonCoverageRunConfigurationExtension" runner="coverage.py" />
200 |       <option name="SCRIPT_NAME" value="$PROJECT_DIR$/b_Web_scraping/web_scrapper/main.py" />
201 |       <option name="PARAMETERS" value="" />
202 |       <option name="SHOW_COMMAND_LINE" value="false" />
203 |       <option name="EMULATE_TERMINAL" value="false" />
204 |       <option name="MODULE_MODE" value="false" />
205 |       <option name="REDIRECT_INPUT" value="false" />
206 |       <option name="INPUT_FILE" value="" />
207 |       <method v="2" />
208 |     </configuration>
209 |     <recent_temporary>
210 |       <list>
211 |         <item itemvalue="Python.common" />
212 |         <item itemvalue="Python.main" />
213 |       </list>
214 |     </recent_temporary>
215 |   </component>
216 |   <component name="SvnConfiguration">
217 |     <configuration />
218 |   </component>
219 |   <component name="TaskManager">
220 |     <task active="true" id="Default" summary="Default task">
221 |       <changelist id="c8cf2f55-98ce-4e32-accd-3298a3290fc6" name="Default Changelist" comment="" />
222 |       <created>1588042152947</created>
223 |       <option name="number" value="Default" />
224 |       <option name="presentableId" value="Default" />
225 |       <updated>1588042152947</updated>
226 |       <workItem from="1588042156644" duration="4613000" />
227 |       <workItem from="1588050238138" duration="7790000" />
228 |       <workItem from="1588627258722" duration="598000" />
229 |       <workItem from="1588977356281" duration="5596000" />
230 |       <workItem from="1588999267084" duration="20725000" />
231 |     </task>
232 |     <servers />
233 |   </component>
234 |   <component name="TimeTrackingManager">
235 |     <option name="totallyTimeSpent" value="41195000" />
236 |   </component>
237 |   <component name="ToolWindowManager">
238 |     <frame x="1358" y="-8" width="1296" height="1000" extended-state="6" />
239 |     <editor active="true" />
240 |     <layout>
241 |       <window_info active="true" content_ui="combo" id="Project" order="0" visible="true" weight="0.26618123" />
242 |       <window_info id="Structure" order="1" side_tool="true" weight="0.25" />
243 |       <window_info id="Favorites" order="2" side_tool="true" />
244 |       <window_info anchor="bottom" id="Message" order="0" />
245 |       <window_info anchor="bottom" id="Find" order="1" />
246 |       <window_info anchor="bottom" id="Run" order="2" weight="0.3298731" />
247 |       <window_info anchor="bottom" id="Debug" order="3" weight="0.4" />
248 |       <window_info anchor="bottom" id="Cvs" order="4" weight="0.25" />
249 |       <window_info anchor="bottom" id="Inspection" order="5" weight="0.4" />
250 |       <window_info anchor="bottom" id="TODO" order="6" />
251 |       <window_info anchor="bottom" id="Docker" order="7" show_stripe_button="false" />
252 |       <window_info anchor="bottom" id="Version Control" order="8" />
253 |       <window_info anchor="bottom" id="Database Changes" order="9" />
254 |       <window_info anchor="bottom" id="Event Log" order="10" side_tool="true" />
255 |       <window_info anchor="bottom" id="Terminal" order="11" visible="true" weight="0.3298731" />
256 |       <window_info anchor="bottom" id="Python Console" order="12" weight="0.3298731" />
257 |       <window_info anchor="right" id="Commander" internal_type="SLIDING" order="0" type="SLIDING" weight="0.4" />
258 |       <window_info anchor="right" id="Ant Build" order="1" weight="0.25" />
259 |       <window_info anchor="right" content_ui="combo" id="Hierarchy" order="2" weight="0.25" />
260 |       <window_info anchor="right" id="SciView" order="3" />
261 |       <window_info anchor="right" id="Database" order="4" />
262 |     </layout>
263 |   </component>
264 |   <component name="TypeScriptGeneratedFilesManager">
265 |     <option name="version" value="1" />
266 |   </component>
267 |   <component name="editorHistoryManager">
268 |     <entry file="file://$PROJECT_DIR$/a/__init__.py" />
269 |     <entry file="file://$PROJECT_DIR$/__init__.py">
270 |       <provider selected="true" editor-type-id="text-editor" />
271 |     </entry>
272 |     <entry file="file://$PROJECT_DIR$/b_Web_scraping/__init__.py">
273 |       <provider selected="true" editor-type-id="text-editor" />
274 |     </entry>
275 |     <entry file="file://$PROJECT_DIR$/b_Web_scraping/web_scrapper/__init__.py">
276 |       <provider selected="true" editor-type-id="text-editor" />
277 |     </entry>
278 |     <entry file="file://$PROJECT_DIR$/b_Web_scraping/web_scrapper/common.py">
279 |       <provider selected="true" editor-type-id="text-editor">
280 |         <state relative-caret-position="238">
281 |           <caret line="14" selection-start-line="14" selection-end-line="14" />
282 |         </state>
283 |       </provider>
284 |     </entry>
285 |     <entry file="file://$PROJECT_DIR$/b_Web_scraping/web_scrapper/config.yaml">
286 |       <provider selected="true" editor-type-id="text-editor">
287 |         <state>
288 |           <caret column="10" selection-end-column="10" />
289 |         </state>
290 |       </provider>
291 |     </entry>
292 |     <entry file="file://$PROJECT_DIR$/b_Web_scraping/web_scrapper/news_page_objects.py">
293 |       <provider selected="true" editor-type-id="text-editor">
294 |         <state relative-caret-position="158">
295 |           <caret line="21" column="17" selection-start-line="21" selection-start-column="17" selection-end-line="21" selection-end-column="35" />
296 |           <folding>
297 |             <element signature="e#0#15#0" expanded="true" />
298 |           </folding>
299 |         </state>
300 |       </provider>
301 |     </entry>
302 |     <entry file="file://$PROJECT_DIR$/b_Web_scraping/web_scrapper/main.py">
303 |       <provider selected="true" editor-type-id="text-editor">
304 |         <state relative-caret-position="189">
305 |           <caret line="68" column="45" selection-start-line="68" selection-start-column="41" selection-end-line="68" selection-end-column="45" />
306 |           <folding>
307 |             <element signature="e#0#15#0" expanded="true" />
308 |           </folding>
309 |         </state>
310 |       </provider>
311 |     </entry>
312 |     <entry file="file://$PROJECT_DIR$/c_Pandas/__init.py">
313 |       <provider selected="true" editor-type-id="text-editor" />
314 |     </entry>
315 |     <entry file="file://$PROJECT_DIR$/d_Data_systems/base.py">
316 |       <provider selected="true" editor-type-id="text-editor">
317 |         <state relative-caret-position="119">
318 |           <caret line="7" column="48" selection-start-line="7" selection-start-column="48" selection-end-line="7" selection-end-column="48" />
319 |           <folding>
320 |             <element signature="e#0#36#0" expanded="true" />
321 |           </folding>
322 |         </state>
323 |       </provider>
324 |     </entry>
325 |     <entry file="file://$PROJECT_DIR$/d_Data_systems/__init.py">
326 |       <provider selected="true" editor-type-id="text-editor" />
327 |     </entry>
328 |     <entry file="file://$PROJECT_DIR$/d_Data_systems/article.py">
329 |       <provider selected="true" editor-type-id="text-editor">
330 |         <state relative-caret-position="306">
331 |           <caret line="18" column="15" selection-start-line="18" selection-start-column="13" selection-end-line="18" selection-end-column="15" />
332 |           <folding>
333 |             <element signature="e#0#46#0" expanded="true" />
334 |           </folding>
335 |         </state>
336 |       </provider>
337 |     </entry>
338 |     <entry file="file://$PROJECT_DIR$/d_Data_systems/main.py">
339 |       <provider selected="true" editor-type-id="text-editor">
340 |         <state relative-caret-position="455">
341 |           <caret line="29" column="21" selection-start-line="29" selection-start-column="21" selection-end-line="29" selection-end-column="21" />
342 |           <folding>
343 |             <element signature="e#0#15#0" expanded="true" />
344 |           </folding>
345 |         </state>
346 |       </provider>
347 |     </entry>
348 |     <entry file="file://$PROJECT_DIR$/c_Pandas/newspaper.py">
349 |       <provider selected="true" editor-type-id="text-editor">
350 |         <state relative-caret-position="-51">
351 |           <caret line="36" column="31" selection-start-line="36" selection-start-column="31" selection-end-line="36" selection-end-column="54" />
352 |           <folding>
353 |             <element signature="e#0#15#0" expanded="true" />
354 |           </folding>
355 |         </state>
356 |       </provider>
357 |     </entry>
358 |     <entry file="file://$PROJECT_DIR$/e_Final_Project/pipeline.py">
359 |       <provider selected="true" editor-type-id="text-editor">
360 |         <state relative-caret-position="-221">
361 |           <caret line="17" lean-forward="true" selection-start-line="17" selection-end-line="17" />
362 |           <folding>
363 |             <element signature="e#0#15#0" expanded="true" />
364 |           </folding>
365 |         </state>
366 |       </provider>
367 |     </entry>
368 |     <entry file="file://$PROJECT_DIR$/e_Final_Project/extract/main.py">
369 |       <provider selected="true" editor-type-id="text-editor">
370 |         <state relative-caret-position="221">
371 |           <caret line="37" column="32" selection-start-line="37" selection-start-column="32" selection-end-line="37" selection-end-column="32" />
372 |           <folding>
373 |             <element signature="e#0#15#0" expanded="true" />
374 |           </folding>
375 |         </state>
376 |       </provider>
377 |     </entry>
378 |   </component>
379 | </project>


--------------------------------------------------------------------------------
/c_Pandas/elpais_2020_05_08_articles_cleaned.csv:
--------------------------------------------------------------------------------
1 | uid,article_links,body,title,newspaper_uid,host,n_tokens_title,n_tokens_body
2 | dac8999579c7898eea0ead7d6bf96650,https://elpais.com/retina/2020/05/08/tendencias/1588939903_199888.html,"          Dare Odumade es uno de los fundadores de Chekkit, una compañia dedicada a desenmascarar productos falsificados, sobre todo farmacéuticos, que pueden causar graves consecuencias a los consumidores. El mismo sistema que empleaba para garantizar la trazabilidad de esos productos y para que las empresas tuviesen información sobre sus consumidores se ha reconvertido. Ahora sirve para trasladar a los habitante de todos los rincones de Nigeria la información sobre la crisis del Covid19, pero también para que los organismos que diseñan las respuestas a la epidemia tengan los datos más afinados. Cuando llegó la pandemia, nuestro equipo se puso a pensar cómo podríamos aplicar la tecnología que dominamos para apoyar el trabajo increíble que están haciendo instituciones como el Centro de Control de Epidemias de Nigeria (NCDC, por sus siglas en inglés) o la red africana de centros de control de epidemias (CDC Africa). La experiencia de Chekkit es una muestra de la aportación que el ecosistema de startups africanas puede hacer a la lucha contra la expansión del Covid19. El entorno de las startups es tradicionalmente flexible y creativo y propone soluciones locales y realistas a problemas cotidianos y en el continente africano, este entorno de la innovación tecnológica está en plena expansión. Seguramente por eso gobiernos, instituciones internacionales como la propia OMS y espacios de innovación se han lanzado a convocar hackatons y competiciones similares para buscar y materializar soluciones imaginativas propuestas desde entornos locales. Precisamente una de estas convocatorias se ha centrado en la información, tanto en la producción de contenidos como en el acceso a esa información. Se trata de una llamada impulsada por uno de los centros de innovación más potentes del continente, el CoCreation Hub nigeriano, en colaboración con la red africana de centros de control de epidemias (CDC Africa) y la agencia de cooperación alemana (GIZ). Y de esta convocatoria ha surgido un llamativo abanico de iniciativas desarrolladas por startup de diferentes lugares del continente. Entre ellas se encuentra la reorientación de la tecnología de seguimiento de productos y de información del consumidor que utilizaba Chekkit. En su propuesta, la compañía nigeriana liderada por Dare Odumade, permite realizar formularios de autodiagnóstico, acceder a información actualizada e incluso participar en un juego sobre la epidemia que permite a los usuarios conseguir algunas recompensas y todo sin necesidad de conexión a internet y desde teléfonos de funcionalidades básicas, por lo que acceden sin dificultad a las zonas rurales. Al mismo tiempo, los usuarios están ofreciendo datos a los centros de control de epidemias que colaboran en el diseño de las respuestas. La iniciativa utiliza tecnología USSD y Odumade asegura que en dos meses pueden llegar a tres millones de personas de estos espacios rurales y que con las correspondientes alianzas podrían extender el servicio a unos 10 países africanos incluyendo Nigeria, Ghana, Kenia, Sudáfrica, Malawi, Tanzania, Uganda, Zambia, Ruanda y Etiopía, aunque de momento nuestro servicio Covid19 solo se pone a prueba en Nigeria. Otra de las iniciativas apoyadas que trabaja también en el acceso a la información es la propuesta por la empresa keniana BRCK. La conectividad es la herramienta que lleva un mensaje rico en contenido a la mayoría de las personas, pero el coste actual de los paquetes de datos en Kenia y en África, en general, supone que las poblaciones con mayor riesgo tienen menos probabilidades de recibir información actualizada para evitar la propagación del virus, explica Christian Doyen, responsable de comunicación de BRCK. Según Doyen, la compañía ha implementado con éxito una red Wi-Fi pública gratuita, conocida como Moja Network, que consta de 2700 puntos de conexión y que ha permitido conectarse a más de 2 millones de personas en Kenia. A través de la red Moja nos aseguraremos de que los usuarios tengan acceso a información validada y relevante para ayudar a mitigar la propagación de la enfermedad, sentencia. El proyecto, según explica el propio Doyen permite además la recogida de datos: También estamos colaborando con el Ministerio de Salud proporcionándole los datos anónimos que recopilamos en nuestra red y eso les ayuda a medir el impacto de algunas de sus iniciativas de prevención. Aprovechando nuestras experiencias de aprendizaje on line, hemos creado un canal educativo en la plataforma para ofrecer recursos educativos gratuitos para los usuarios y sus familias, ya que la mayoría de los kenianos tendrán dificultades para acceder a estos recursos durante la pandemia.         Cómic de Guereza Anime en Nigeria para sensibilizar en la lucha contra el coronavirus       Dentro de la misma convocatoria hay un grupo de interesantes proyectos de producción de información, igualmente destinados a hacer llegar los consejos de prevención y las campañas de sensibilización a diferentes colectivos que por unos motivos u otros pueden quedar al margen de los canales de comunicación convencionales. Estamos educando a los niños sobre las medidas preventivas que deben tomar para protegerse contra el virus usando cómics que distribuimos en tanto en formato digital como en papel, explica Austine Osas, responsable de Guereza Animation, una empresa nigeriana de animación digital que participa en el programa. La mayoría de la información sobre el virus se ha dirigido a los adultos, se lamenta Osas, y se ha prestado poca atención a los niños, entre los que sabemos que hay cierta ansiedad. Además los que viven en zonas remotas con un suministro de electricidad deficiente y poco acceso a teléfonos móviles y a Internet están más expuestos a la desinformación, por eso no solo distribuimos copias digitales. También en Nigeria despliegan sus proyectos de comunicación contra el Covid19, Capital Power Multimedia y Big Cabal Media. En el primer caso, su iniciativa consiste en la difusión de vídeos de animación educativos realizados en las tres lenguas nacionales más habladas, hausa, yoruba e igbo. La lucha contra el Covid19 se librará y ganará deteniendo la propagación, la única forma de detener la propagación es educar sobre las medidas preventivas y la única forma de educar al 40% de los 200 millones de nigerianos sin acceso a la educación, que son los más vulnerables, es mediante el uso de animaciones, que no solo les muestran ilustraciones, sino que también hablan y escriben en los idioma que entienden y valoran, asevera el responsable de la agencia de comunicación, Ugwuja George. Este experimentado comunicador explica además las vías de distribución de sus contenidos: La causa principal de la difusión de noticias falsas es la falta de contenidos creíbles, por eso lazamos nuestros contenidos en WhatsApp y otras redes sociales para empoderar a los líderes comunitarios. Por su parte, Big Cabal Media, ha apostado por el lenguaje llano, un estilo desenfadado y una información muy visual, en el diseño del portal Coronafacts.africa, un espacio de información y de sensibilización centrado en Nigeria. La compañía ha imprimido a ese proyecto sobre la epidemia una seña de identidad que certifica en otros de sus productos, ya que es la responsable de Zikoko! un portal de estilo de vida que cultiva una imagen y un tono desenfadados, provocativos e irreverentes. La promesa de Coronafacts es clara, afirma Fuad Lawal, redactor jefe de Zikoko! y responsable del proyecto, la información está libre de tecnicismos y es objetiva, explicamos en un lenguaje simple cuáles son los peligros. Pero también queremos que la gente entienda que se puede luchar contra la epidemia, por eso gran parte de nuestra comunicación sobre el virus intenta mostrar al público que es posible vencer. Además, Lawal conoce la doble vertiente de las redes sociales: Son un arma de doble filo en esta pandemia: la herramienta más poderosa para difundir información falsa y la más efectiva para transmitir hechos. Por eso existe Coronafacts, para contrarrestar el efecto que las noticias falsas tienen sobre la psicología de los ciudadanos y para transmitir esperanza. La propuesta de la compañía Nifty Works Plus se centra también en el uso de los vídeos de animación y de las lenguas nacionales. En este caso, la iniciativa lanzada desde Kenia se dirige a África Oriental y por eso las producciones se realizarán en inglés y suajili. Muthoni Waigwa, responsable de la agencia de comunicación, explica que el suajili está muy extendido en África oriental y central y permite que las personas que no hablan inglés pueden entender fácilmente las medidas de prevención. Su apuesta es distribuir estos contenidos por WhatsApp, fundamentalmente, para difundir información verificada por la Unión Africana y por los CDC África sobre la prevención de la epidemia. Finalmente, los creativos y artistas vinculados a la plataforma sudafricana Creative Nestlings también buscan llegar a sectores concretos de la población. Nuestra acción se dirige, sobre todo, a personas que no hablan inglés en Sudáfrica. La mayor parte del contenido que vemos puede ser muy bueno, pero tal vez no ha tenido en cuenta la sensibilidad local porque no siempre se han usado los idiomas africanos. Hemos visto que el contenido que mejor ha funcionado en plataformas como WhatsApp han sido ilustraciones, animaciones sencillas o gifs. Ese es nuestro enfoque, explica Dillion Phiri. La lucha es más difícil si no se entiende la gravedad, asegura Phiri para justificar el uso de las lenguas nacionales en los contenidos que están creando y distribuyendo. Intentamos que comprender la crisis sea lo más simple posible para cualquier persona, de zonas urbanas o rurales en toda Sudáfrica. Somos un colectivo de creadores que demuestran que África está preparada, respondiendo y abordando colectivamente esta crisis, sentencia el artista. ",TIC e información para combatir la epidemia en África,elpais,elpais.com,5,765
3 | 6bba2a59ccd51a455baf6f69f91850a5,https://elpais.com/elviajero/2020/05/07/actualidad/1588859158_122212.html," Cinco personajes rememoran viajes que emprendieron con el único propósito de encontrarse con una obra de arte ante la que sintieron una especial emoción. Hallazgos que les conmovieron y produjeron sensaciones encontradas: desde un momento místico hasta una experiencia muy provocadora.  El Banksy más efímero y subversivo en Bristol          El presentador Juanra Bonet.      Juanra Bonet, actor y presentador Juanra Bonet reconoce que no es un experto en arte. Quizá por eso recibió con tanto entusiasmo el regalo que le hizo su pareja en el verano de 2015: dos entradas para Dismaland, la versión satírica y macabra de Disneyland ideada por Banksy en Weston-super-Mare, un plácido balneario a 30 kilómetros al suroeste de Bristol (Inglaterra), localidad natal del misterioso grafitero donde se organizan tours a pie para descubrir por las calles sus murales. Abierto durante solo cinco semanas, se anunciaba como el parque temático más decepcionante del mundo, recuerda el presentador de los concursos ¡Boom! y ¿Quién quiere ser millonario? Haciendo cola en la entrada, le sorprendió el paisaje humano: Te encontrabas tipos con monóculo, meñique en alto y chistera, junto a otros que parecían salidos de un sketch de Little Britain. Disfruté mucho de esa democratización del arte. También le chocó que la entrada costara solo tres libras, teniendo en cuenta que, además de las obras de Banksy, se exhibían creaciones de artistas como Damien Hirst, Jenny Holzer y Jimmy Cauty. Era como estar inmerso en una viñeta de El Roto o Joan Cornellà: todas las instalaciones rezumaban humor negro y crítica social, dice Bonet.          El castillo de Dismaland, el parque temático efímero que abrió Banksy en 2015 en Weston super-Mare (Reino Unido). TONY FRENCH ALAMY      Las atracciones en esta fantasía distópica eran obras de arte en sí mismas. Había el clásico juego de dirigir con un volante barquitos en un lago artificial, pero en este caso eran pateras cargadas con figuras de inmigrantes mientras sorteabas cadáveres de ahogados. Todo bastante impactante. Acostumbrado al silencio de los museos, Bonet asegura: Aquello en Bristol era una fiesta, con instalaciones que te hacían sentir mal, otras que daban que pensar y algunas concebidas para desatar la carcajada. Como en los coches de choque, donde uno de los vehículos era conducido por la Parca, en representación de la muerte, mientras de fondo sonaba Stayin Alive de los Bee Gees. El mensaje subversivo tenía su punto álgido en la réplica decadente del icónico castillo de Disney, en cuya entrada sorprendía una escultura de la Sirenita distorsionada por efecto de un rebobinado de cinta de VHS. Fue en su interior donde encontró la obra de Banksy que más le impresionó: la carroza recién accidentada de una cenicienta moribunda, cuyo cuerpo sobresalía del amasijo, rodeada de paparazis disparando sus cámaras con flash. Una alusión directa a la trágica muerte de Lady Di en París. Banksy me reconcilió con el arte y me enseñó que puede y debe ser divertido, no solo pomposo y solemne.          Una mujer observa las pinturas de Mark Rothko en la Tate Modern de Londres. BEN STANSALL / AFP GETTY IMAGES      Oscuro Rothko junto al Támesis          La artista e ilustradora Coco Dávez.      Coco Dávez, artista e ilustradora El motor creativo de la artista madrileña Coco Dávez, autora de la exitosa serie de retratos sin rostro Faceless, es la búsqueda constante del color. Cuando se mudó a Londres en 2010 sin conocer nada de la ciudad, solo lo que había podido imaginar a través del cine y los libros, sabía que era un lugar donde predominaba el rojo: en los autobuses, en los buzones, en las cabinas Y así lo certificó cuando se instaló a vivir en una habitación compartida en una residencia religiosa, algo que para una joven de 21 años como ella, que venía de una familia atea, le daba una nota extra de diversión. Y también de color. Una de sus primeras visitas fue a la Tate Modern, el gran museo de arte moderno a orillas del río Támesis. Fui directa a la sala del pintor letón Mark Rothko, donde esperaba encontrar esas obras de colores intensos y brillantes. Para mi sorpresa, o mi decepción, me topé con un lugar abrumador vestido de gigantes pinturas negras, grises y marrones que generaron en mí una extraña sensación de asfixia, recuerda. La también ilustradora, cuyo universo de trazos simples y colores vivos se sitúa en las antípodas del tormento cromático de Rothko, sufrió una sacudida en su estado de ánimo. Era la primera vez que el arte me hacía sentir algo tan potente, volví a casa tan conmovida que me puse a investigar acerca de esas nueve obras que acababa de presenciar. Lo que averigüé me dejó sin palabras. Este giro drástico en su pintura fue la más descarnada plasmación de la profunda depresión que le llevó a quitarse la vida. Esas fantasmagóricas alegorías de gran formato que dejaron huella en Dávez habían sido un encargo del mítico, y ya desaparecido, restaurante neoyorquino Four Seasons, que, además de ser el epicentro del lujo y el poder empresarial, acostumbraba a vestir sus paredes de grandes pintores del siglo XX, como Picasso. La atmósfera lúgubre de las piezas de Rothko hizo que el propio autor declinara la oferta y decidiera donarlas a la galería londinense. Casualidades de la vida, el barco que las transportaba llegó a Londres el mismo día que anunciaron su suicidio, el 25 de febrero de 1970, cuenta Dávez, que solo pudo apaciguar su desasosiego con el descubrimiento, meses más tarde y también en la Tate Modern, del expresivo imaginario de Joan Miró en una retrospectiva con pinturas, dibujos, carteles y esculturas del genio catalán. Fue su forma de reconciliarse con los colores, por los que siempre había sentido devoción, y de dar carpetazo a la oscuridad inquietante de uno de sus pintores favoritos.          'La escuela de Atenas', pintura de Rafael, en los Museos Vaticanos. GETTY       Viaje al interior del alma en Roma          El escritor Javier Reverte.      Javier Reverte, escritor Aunque la mayoría de sus novelas están ambientadas en África y Centroamérica, el escritor Javier Reverte se desplaza con frecuencia a Italia, ya que tiene especial predilección por el arte renacentista del siglo XVI. Si hay un cuadro que me ha movido a viajar en su busca, muy a menudo, sin duda es La escuela de Atenas (1510-1512), de Rafael, expuesto en las stanze de los Museos Vaticanos de Roma. Encargo directo del papa Julio II al artista de Urbino, el cuadro es una representación coral de filósofos, científicos y matemáticos de la Antigüedad, con Platón y Aristóteles presidiendo la composición. El fresco ocupa una de las paredes del estudio que albergaba la biblioteca del pontífice, la Estancia de la Signatura, frente a La Disputa del Sacramento, también obra de Rafael. La escuela de Atenas no es la mejor pintura del mundo, pero sí es un trabajo que mueve a la reflexión. Yo veo en su espíritu reflejada esa gran aspiración clásica y del Renacimiento que era unir la estética a la ética. Es un cuadro de hondo sentido moral. Siempre que visita la capital italiana, Reverte encuentra un hueco para recorrer la suntuosidad del Palacio Apostólico, residencia oficial de los Papas, y las cuatro habitaciones decoradas con frescos del genio renacentista, pese a las inmensas colas que se forman para admirarlos, se resigna. El mío a las Stanze di Raffaello es un viaje al alma.          Willem de Kooning, en 1982, en su estudio de East Hampton (Nueva York). LUIZ ALBERTO Getty Images      Expresionismo neoyorquino          Alejandro Vergara, jefe de conservación de pintura flamenca del Museo del Prado.      Alejandro Vergara, conservador del Museo del Prado La armonía y belleza de la naturaleza pueden ser la expresión más genuina del arte. Eso lo percibió precozmente Alejandro Vergara Sharp, jefe de conservación de pintura flamenca del Museo del Prado. Los viajes por carretera con mi padre agudizaron mi sensibilidad hacia las formas y las texturas. Cuando éramos niños nos animaba a mis hermanos y a mí a mirar los viejos olmos que alineaban la carretera de Ávila al Puerto del Pico, y la textura de los muros de piedra seca. Esas travesías en coche por la sierra de Gredos le enseñaron muy temprano que mirar es relacionar unas cosas con otras, creando rimas visuales sin apenas conciencia. Cuando llegaba a casa miraba de esa misma forma un libro de arte que llamaba poderosamente su atención porque en él aparecía un cuadro de un azul complejo y profundo que le atrapó hasta casi convertirse en una obsesión. La obra se titulaba Un árbol en Nápoles (1960) y su autor era Willem De Kooning, uno de los padres del expresionismo abstracto. Un lienzo de gruesas y sugerentes pinceladas inspirado en el paisaje del sur de Italia que conectaba con esos viajes iniciáticos con su padre por la meseta castellana. Viajar es abrirse a casualidades distintas de las habituales, sostiene Vergara, que, sin haber cumplido 20 años, en el verano de 1980, se trasladó a Nueva York, para ahondar en su conversación interior con el arte. Nueva York era entonces una ciudad en efervescencia creativa por el latido rabioso de grafiteros como Jean-Michel Basquiat, admirador confeso de la obra de De Kooning. Y fruto de una casualidad una amiga de su madre conocía personalmente al pintor neerlandés tuvo la oportunidad de visitar el estudio del artista en East Hampton, una coqueta localidad a dos horas en coche de Nueva York y actual patio de recreo de las grandes fortunas, aunque por entonces no pasaba de ser un pueblecito de pescadores a orillas del Atlántico en el que comenzaban a instalarse artistas como Jackson Pollock, Mark Rothko o el propio De Kooning. No recuerdo el exterior de la casa, pero el taller era un espacio grande, con enormes ventanales y una estructura metálica blanca y de madera. Subí a una pasarela elevada que el pintor usaba para contemplar su obra desde lo alto. Desde allí, Vergara pudo observar a De Kooning, que apenas hablaba, mientras trabajaba sobre un cuadro. Repartidas por el estudio había otras pinturas de un estilo que por entonces Vergara ya conocía muy bien: Sus cuadros eran pura energía y al mismo tiempo delicados y sabios en su comprensión de la belleza del color y de la pasta con la que se construye la pintura.          La obra 'Le poème du bien-aimé'. Joël Andrianomearisoa (Galería Sabrina Amrani)       Sabrina Amrani, galerista          La galerista Sabrina Amrani.      Un nudo en la garganta por el drama de los naufragios en Benín La galerista francesa Sabrina Amrani, afincada en Madrid y experta en arte de Oriente Próximo, África y Asia, no tuvo mucho tiempo para pensárselo. En las Navidades de 2017, irrumpieron en mis redes sociales imágenes de una exposición temporal de arte africano en Benín. Los entusiastas comentarios la convencieron para hacer las maletas a principios de 2018 y viajar a Cotonú, la principal ciudad de esta antigua colonia francesa, justo antes del cierre de la muestra. Ella conocía bien al autor, el artista malgache Joël Andrianomearisoa, porque en su galería de Carabanchel había exhibido obras suyas. Pero en este caso toda la producción era inédita, piezas concebidas in situ y destinadas a desaparecer. A Amrani le intrigaba sobremanera una que se titulaba Le poème du bien-aimé (poemas del bien amado, en español). Para llegar hasta ella emprendió un viaje de unos 40 kilómetros por la costa del golfo de Guinea hasta la ciudad de Ouidah. Una ruta en la que se desvió para recorrer mercados, donde escuchó las historias que esconden los tejidos wax de alegres estampados florales tan presentes en vestidos y bolsos en esta zona de África Occidental; visitar los palacios reales de tierra roja de Abomey, patrimonio mundial, y descubrir playas desiertas como la de Fidjorossé. Al llegar a su destino le esperaba una imponente mansión colonial de estilo afro-brasileño levantada en la década de 1920. Al subir las escaleras, un hilo musical me condujo hasta una sala con celosías, a través de las cuales se filtraba una luz tamizada, sumergida entre vasijas de barro de distintos tamaños. Esa sugerente composición era Le poème du bien-aimé. A medida que se acercaba, podía distinguir la voz, familiar para ella, de la francesa Jeanne Moreau cantando junto a la cantautora brasileña Maria Bethânia el Poema dos olhos da amada de Vinícius de Moraes. La emoción me desbordó y terminé la visita sumida en un hondo silencio y con un nudo en la garganta, pensando en la historia que nos quiso contar Joël Andrianomearisoa, la de los naufragios en las costas de África. Amrani se recrea a menudo evocando esa composición, a pesar de que haya desaparecido y que solo pueda reencontrarme con ella en mi recuerdo. Encuentra inspiración para tus próximos viajes en nuestro Facebook y Twitter e Instragram o suscríbete aquí a la Newsletter de El Viajero. ",Escapadas por amor al arte,elpais,elpais.com,3,1083
4 | a191b403c70678ff9a95a8a2280397ca,https://elpais.com/elpais/2020/05/04/planeta_futuro/1588594075_016583.html," Jon (nombre ficticio) habla con lentitud, le cuesta pronunciar algo más que monosílabos y mira con ojos tímidos y recelosos. Está delgado, sus piernas muestran decenas de pequeñas marcas y su cabeza una infección de hongos cuya consecuencia, una fina pero visible capa blanca, destaca sobremanera sobre el resto de su cuerpo. Dice Jon que, probablemente tenga ocho años, que no lo sabe. Hace un tiempo, no me acuerdo de cuánto, mi madre me dio a un señor que vino a casa y él me llevó a pescar. Los últimos meses he estado transportando la carga de lo que otros cogían del lago, desenredando las redes del fondo del agua, explica.    MÁS INFORMACIÓN               Niños de la calle: los más expuestos al coronavirus       El negocio de la vergüenza sigue creciendo en India       Patrullas contra la trata de mujeres         Cuando aquel hombre fue a ver a la familia pobre de Jon en Adidome, zona rural de la región Volta, una de las diez que conforman Ghana, lo que en realidad buscaba, bajo pretexto de darle una educación imposible con tan escasos recursos económicos en su lugar de nacimiento, era mano de obra sumisa y barata. Y los niños son propicios para ello. Este país subsahariano, donde el 25% de la población vive bajo el umbral de la pobreza según Naciones Unidas (otros estudios sitúan esta cifra en torno al 40%), encuentra un gran problema y reto en el tráfico de personas, sobre todo de menores de edad para trabajos relacionados con la pesca en el Lago Volta, el embalse con mayor superficie del mundo con más de 8.500 kilómetros cuadrados. Pese a que, por cuestiones logísticas, resulta muy difícil contabilizar cuántos niños han sido víctimas de tráfico de personas y del consiguiente régimen de esclavitud, una amplia investigación de la organización humanitaria International Justice Mission arrojó en 2013 que casi el 60% de los niños que trabajaban en la industria pesquera del lago Volta (49.000 en total según fuentes contrastadas) habían sido traficados. El mismo organismo denunció, además, que decenas de miles de menores de edad de entre tres y 17 años son trasladados a esta región anualmente durante la temporada alta de pesca y obligados a trabajar durante jornadas que, en ocasiones, se extienden hasta las 18 horas. De ellos, el 62% eran, como Jon, menores de 10 años.     Algo menos de 50.000 menores de edad trabajan en el gran lago Volta; casi el 60% ha llegado allí tras ser víctima de tráfico de personas    A mí me pegaban cuando no hacía algo bien o me querían mandar a trabajar, afirma Jon, que fue rescatado y entregado a la policía ghanesa. Ahora se recupera de los traumas y de las heridas en el Children Protection Center, un refugio en Accra, capital del país, que la ONG salesiana Don Bosco destina a víctimas menores de edad que, como él y que trabaja desde el 2014 en estrecha colaboración con el Gobierno, no ajeno a esta problemática. No en vano, en los últimos años ha redoblado el esfuerzo para combatir esta lacra; ha aumentado los recursos dedicados a implementar planes más efectivos, ha incrementado las penas de cárcel para personas condenadas por tráfico de personas y ha adoptado procedimientos sistemáticos de recolección de datos más modernos. Estas medidas son insuficientes, sin embargo, para diferentes organismos que han estudiado el tema a fondo. Una de las últimas voces en denunciarlo ha sido el Departamento de Estados de los Estados Unidos, responsable de las relaciones internacionales del país norteamericano, que afirmó en su poderoso informe 2019 Trafficking in Persons Report que el gobierno de Ghana no cumple totalmente con los estándares mínimos para la eliminación de la trata, aunque reconoce los esfuerzos recientes para erradicarla. Los traumas de la esclavitud Fatumatah (nombre ficticio) cuenta también una historia parecida a la de Jon. Más habladora y sonriente, dice que no sabe lo que es la escuela, que un miembro de su familia, una tía suya, la llevó hace tiempo a un lugar, también cerca del lago Volta, donde pasaba los días limpiando el pescado que otras personas, también niños en su mayoría, traían en grandes cantidades. No sé cuántas horas pasaba haciendo eso, pero muchas, recuerda. Nunca he ido al colegio. No he podido; nadie me ha llevado, afirma. Y cuenta las agresiones sufridas: golpes por no trabajar, una familia que no se preocupa por ella y que hace que la reinserción familiar, uno de los principales objetivos de la ONG salesiana con los niños que han sido víctimas, sea algo realmente complicado con ella. Con todo, la pesca en el lago Volta no es el único destino para niños ghaneses víctimas de trata y tráfico. Aquí hemos recibido chavales que, una vez engañadas sus familias, han tenido que ser repatriados de Sudáfrica tras promesas para hacerlos futbolistas. También niñas que han sido traficadas a países árabes como Arabia Saudí o Túnez para ejercer de esclavas domésticas o, peor, para prostitución y servicios sexuales, afirma Francis Adzraku, director del Children Protection Center. Esta última realidad, la de menores traficadas para fines de explotación sexual, también ha sido denunciada y corroborada por diferentes organismos. Una coalición de ONGs locales publicó en 2015 un informe en el que recogía varios ejemplos. El caso de un grupo de ghanesas menores de 7 años rescatadas en Nigeria por la policía, que habían sido obligadas a prostituirse, quizás sea el más sangrante de todos.      Los traficantes van a las zonas rurales y por unos 50 Cehdis (unos 8.5 euros), bajo la promesa de un futuro en el colegio, se llevan a decenas de niños     Dice Adzraku que, desde que el Children Protection Center comenzó su andadura, han pasado por él unos 400 menores. Una treintena intenta recuperarse hoy de los horrores sufridos. El tráfico de niños resulta un problema grande porque es algo cultural. Hay personas que van a algunos lugares donde reina la pobreza, prometen que van a llevar a los niños al colegio por unos 50 cehdis (unos ocho euros y medio) y nunca lo hacen. El chaval va cambiando de manos hasta que termina trabajando en la región Volta, en la mayoría de las ocasiones, aunque también en condiciones de esclavitud en otro país, ratifica. Cuando la policía u otros organismos internacionales los rescatan, comienza entonces otra fase, la de ayudar a olvidar todo lo experimentado y comenzar una nueva vida. A Jon le cuesta recordarlo todo. Por eso habla tan poco. Por eso mira con timidez y con recelo. Cuando los chavales llegan aquí, y tras realizarles un control médico, se encuentran muy traumatizados. Intentamos que no piensen en lo que han sufrido. Y, como son niños que, en su mayoría, nunca han ido al colegio, les enseñamos a escribir, a leer y a hablar inglés, prosigue Adzraku, que afirma que hay menores que han sido víctimas incluso en tres ocasiones. Y recuerda uno de los casos más crueles: Hubo un chaval al que vendieron a una familia junto a su hermana. Por miedo, ésta llamaba a sus padres y les decía que estaban muy bien, que les gustaba mucho el colegio nuevo. Cuando llegaron aquí, el niño no sólo odiaba a sus captores, sino también a su hermana. Antes de despedirse, Fatumatah dice que no quiere volver a escuchar nada del lago Volta ni de su pescado. Cuando sea mayor, prosigue, sueña con dedicarse a ayudar a niñas que han pasado situaciones parecida a la suya. Veo lo que hacen conmigo aquí, en Don Bosco, y me gusta mucho, afirma antes de posar para las fotos sin dejar de sonreír. Ella ya está a salvo, pero la trata y tráfico de niños y el trabajo infantil seguirán siendo una realidad en su país. Y también (o sobre todo) en África. Según Unicef, en África subsahariana hay alrededor de 48 millones de niños que trabajan y casi uno de cada tres menores de 15 años (el 29%) es activo económicamente. Cuando este organismo cuenta también todas las regiones del mundo, eleva esta cifra hasta los 151,6 millones de menores de edad. En Ghana, además, se dan las peores formas: esclavitud, reclutamiento forzado, prostitución, trata y exposición a actividades ciertamente peligrosas. Los padres no tienen forma de saber lo que hacen con sus hijos cuando se los llevan. Esto es un problema grave con una difícil solución, finaliza Adzraku. Puedes seguir a PLANETA FUTURO en Twitter y Facebook e Instagram, y suscribirte aquí a nuestra newsletter. ","Compraventa de niños para pescar, tareas domésticas o prostitución",elpais,elpais.com,6,694
5 | 


--------------------------------------------------------------------------------
/d_Data_systems/elpais_2020_05_08_articles_cleaned.csv:
--------------------------------------------------------------------------------
1 | uid,article_links,body,title,newspaper_uid,host,n_tokens_title,n_tokens_body
2 | dac8999579c7898eea0ead7d6bf96650,https://elpais.com/retina/2020/05/08/tendencias/1588939903_199888.html,"          Dare Odumade es uno de los fundadores de Chekkit, una compañia dedicada a desenmascarar productos falsificados, sobre todo farmacéuticos, que pueden causar graves consecuencias a los consumidores. El mismo sistema que empleaba para garantizar la trazabilidad de esos productos y para que las empresas tuviesen información sobre sus consumidores se ha reconvertido. Ahora sirve para trasladar a los habitante de todos los rincones de Nigeria la información sobre la crisis del Covid19, pero también para que los organismos que diseñan las respuestas a la epidemia tengan los datos más afinados. Cuando llegó la pandemia, nuestro equipo se puso a pensar cómo podríamos aplicar la tecnología que dominamos para apoyar el trabajo increíble que están haciendo instituciones como el Centro de Control de Epidemias de Nigeria (NCDC, por sus siglas en inglés) o la red africana de centros de control de epidemias (CDC Africa). La experiencia de Chekkit es una muestra de la aportación que el ecosistema de startups africanas puede hacer a la lucha contra la expansión del Covid19. El entorno de las startups es tradicionalmente flexible y creativo y propone soluciones locales y realistas a problemas cotidianos y en el continente africano, este entorno de la innovación tecnológica está en plena expansión. Seguramente por eso gobiernos, instituciones internacionales como la propia OMS y espacios de innovación se han lanzado a convocar hackatons y competiciones similares para buscar y materializar soluciones imaginativas propuestas desde entornos locales. Precisamente una de estas convocatorias se ha centrado en la información, tanto en la producción de contenidos como en el acceso a esa información. Se trata de una llamada impulsada por uno de los centros de innovación más potentes del continente, el CoCreation Hub nigeriano, en colaboración con la red africana de centros de control de epidemias (CDC Africa) y la agencia de cooperación alemana (GIZ). Y de esta convocatoria ha surgido un llamativo abanico de iniciativas desarrolladas por startup de diferentes lugares del continente. Entre ellas se encuentra la reorientación de la tecnología de seguimiento de productos y de información del consumidor que utilizaba Chekkit. En su propuesta, la compañía nigeriana liderada por Dare Odumade, permite realizar formularios de autodiagnóstico, acceder a información actualizada e incluso participar en un juego sobre la epidemia que permite a los usuarios conseguir algunas recompensas y todo sin necesidad de conexión a internet y desde teléfonos de funcionalidades básicas, por lo que acceden sin dificultad a las zonas rurales. Al mismo tiempo, los usuarios están ofreciendo datos a los centros de control de epidemias que colaboran en el diseño de las respuestas. La iniciativa utiliza tecnología USSD y Odumade asegura que en dos meses pueden llegar a tres millones de personas de estos espacios rurales y que con las correspondientes alianzas podrían extender el servicio a unos 10 países africanos incluyendo Nigeria, Ghana, Kenia, Sudáfrica, Malawi, Tanzania, Uganda, Zambia, Ruanda y Etiopía, aunque de momento nuestro servicio Covid19 solo se pone a prueba en Nigeria. Otra de las iniciativas apoyadas que trabaja también en el acceso a la información es la propuesta por la empresa keniana BRCK. La conectividad es la herramienta que lleva un mensaje rico en contenido a la mayoría de las personas, pero el coste actual de los paquetes de datos en Kenia y en África, en general, supone que las poblaciones con mayor riesgo tienen menos probabilidades de recibir información actualizada para evitar la propagación del virus, explica Christian Doyen, responsable de comunicación de BRCK. Según Doyen, la compañía ha implementado con éxito una red Wi-Fi pública gratuita, conocida como Moja Network, que consta de 2700 puntos de conexión y que ha permitido conectarse a más de 2 millones de personas en Kenia. A través de la red Moja nos aseguraremos de que los usuarios tengan acceso a información validada y relevante para ayudar a mitigar la propagación de la enfermedad, sentencia. El proyecto, según explica el propio Doyen permite además la recogida de datos: También estamos colaborando con el Ministerio de Salud proporcionándole los datos anónimos que recopilamos en nuestra red y eso les ayuda a medir el impacto de algunas de sus iniciativas de prevención. Aprovechando nuestras experiencias de aprendizaje on line, hemos creado un canal educativo en la plataforma para ofrecer recursos educativos gratuitos para los usuarios y sus familias, ya que la mayoría de los kenianos tendrán dificultades para acceder a estos recursos durante la pandemia.         Cómic de Guereza Anime en Nigeria para sensibilizar en la lucha contra el coronavirus       Dentro de la misma convocatoria hay un grupo de interesantes proyectos de producción de información, igualmente destinados a hacer llegar los consejos de prevención y las campañas de sensibilización a diferentes colectivos que por unos motivos u otros pueden quedar al margen de los canales de comunicación convencionales. Estamos educando a los niños sobre las medidas preventivas que deben tomar para protegerse contra el virus usando cómics que distribuimos en tanto en formato digital como en papel, explica Austine Osas, responsable de Guereza Animation, una empresa nigeriana de animación digital que participa en el programa. La mayoría de la información sobre el virus se ha dirigido a los adultos, se lamenta Osas, y se ha prestado poca atención a los niños, entre los que sabemos que hay cierta ansiedad. Además los que viven en zonas remotas con un suministro de electricidad deficiente y poco acceso a teléfonos móviles y a Internet están más expuestos a la desinformación, por eso no solo distribuimos copias digitales. También en Nigeria despliegan sus proyectos de comunicación contra el Covid19, Capital Power Multimedia y Big Cabal Media. En el primer caso, su iniciativa consiste en la difusión de vídeos de animación educativos realizados en las tres lenguas nacionales más habladas, hausa, yoruba e igbo. La lucha contra el Covid19 se librará y ganará deteniendo la propagación, la única forma de detener la propagación es educar sobre las medidas preventivas y la única forma de educar al 40% de los 200 millones de nigerianos sin acceso a la educación, que son los más vulnerables, es mediante el uso de animaciones, que no solo les muestran ilustraciones, sino que también hablan y escriben en los idioma que entienden y valoran, asevera el responsable de la agencia de comunicación, Ugwuja George. Este experimentado comunicador explica además las vías de distribución de sus contenidos: La causa principal de la difusión de noticias falsas es la falta de contenidos creíbles, por eso lazamos nuestros contenidos en WhatsApp y otras redes sociales para empoderar a los líderes comunitarios. Por su parte, Big Cabal Media, ha apostado por el lenguaje llano, un estilo desenfadado y una información muy visual, en el diseño del portal Coronafacts.africa, un espacio de información y de sensibilización centrado en Nigeria. La compañía ha imprimido a ese proyecto sobre la epidemia una seña de identidad que certifica en otros de sus productos, ya que es la responsable de Zikoko! un portal de estilo de vida que cultiva una imagen y un tono desenfadados, provocativos e irreverentes. La promesa de Coronafacts es clara, afirma Fuad Lawal, redactor jefe de Zikoko! y responsable del proyecto, la información está libre de tecnicismos y es objetiva, explicamos en un lenguaje simple cuáles son los peligros. Pero también queremos que la gente entienda que se puede luchar contra la epidemia, por eso gran parte de nuestra comunicación sobre el virus intenta mostrar al público que es posible vencer. Además, Lawal conoce la doble vertiente de las redes sociales: Son un arma de doble filo en esta pandemia: la herramienta más poderosa para difundir información falsa y la más efectiva para transmitir hechos. Por eso existe Coronafacts, para contrarrestar el efecto que las noticias falsas tienen sobre la psicología de los ciudadanos y para transmitir esperanza. La propuesta de la compañía Nifty Works Plus se centra también en el uso de los vídeos de animación y de las lenguas nacionales. En este caso, la iniciativa lanzada desde Kenia se dirige a África Oriental y por eso las producciones se realizarán en inglés y suajili. Muthoni Waigwa, responsable de la agencia de comunicación, explica que el suajili está muy extendido en África oriental y central y permite que las personas que no hablan inglés pueden entender fácilmente las medidas de prevención. Su apuesta es distribuir estos contenidos por WhatsApp, fundamentalmente, para difundir información verificada por la Unión Africana y por los CDC África sobre la prevención de la epidemia. Finalmente, los creativos y artistas vinculados a la plataforma sudafricana Creative Nestlings también buscan llegar a sectores concretos de la población. Nuestra acción se dirige, sobre todo, a personas que no hablan inglés en Sudáfrica. La mayor parte del contenido que vemos puede ser muy bueno, pero tal vez no ha tenido en cuenta la sensibilidad local porque no siempre se han usado los idiomas africanos. Hemos visto que el contenido que mejor ha funcionado en plataformas como WhatsApp han sido ilustraciones, animaciones sencillas o gifs. Ese es nuestro enfoque, explica Dillion Phiri. La lucha es más difícil si no se entiende la gravedad, asegura Phiri para justificar el uso de las lenguas nacionales en los contenidos que están creando y distribuyendo. Intentamos que comprender la crisis sea lo más simple posible para cualquier persona, de zonas urbanas o rurales en toda Sudáfrica. Somos un colectivo de creadores que demuestran que África está preparada, respondiendo y abordando colectivamente esta crisis, sentencia el artista. ",TIC e información para combatir la epidemia en África,elpais,elpais.com,5,765
3 | 6bba2a59ccd51a455baf6f69f91850a5,https://elpais.com/elviajero/2020/05/07/actualidad/1588859158_122212.html," Cinco personajes rememoran viajes que emprendieron con el único propósito de encontrarse con una obra de arte ante la que sintieron una especial emoción. Hallazgos que les conmovieron y produjeron sensaciones encontradas: desde un momento místico hasta una experiencia muy provocadora.  El Banksy más efímero y subversivo en Bristol          El presentador Juanra Bonet.      Juanra Bonet, actor y presentador Juanra Bonet reconoce que no es un experto en arte. Quizá por eso recibió con tanto entusiasmo el regalo que le hizo su pareja en el verano de 2015: dos entradas para Dismaland, la versión satírica y macabra de Disneyland ideada por Banksy en Weston-super-Mare, un plácido balneario a 30 kilómetros al suroeste de Bristol (Inglaterra), localidad natal del misterioso grafitero donde se organizan tours a pie para descubrir por las calles sus murales. Abierto durante solo cinco semanas, se anunciaba como el parque temático más decepcionante del mundo, recuerda el presentador de los concursos ¡Boom! y ¿Quién quiere ser millonario? Haciendo cola en la entrada, le sorprendió el paisaje humano: Te encontrabas tipos con monóculo, meñique en alto y chistera, junto a otros que parecían salidos de un sketch de Little Britain. Disfruté mucho de esa democratización del arte. También le chocó que la entrada costara solo tres libras, teniendo en cuenta que, además de las obras de Banksy, se exhibían creaciones de artistas como Damien Hirst, Jenny Holzer y Jimmy Cauty. Era como estar inmerso en una viñeta de El Roto o Joan Cornellà: todas las instalaciones rezumaban humor negro y crítica social, dice Bonet.          El castillo de Dismaland, el parque temático efímero que abrió Banksy en 2015 en Weston super-Mare (Reino Unido). TONY FRENCH ALAMY      Las atracciones en esta fantasía distópica eran obras de arte en sí mismas. Había el clásico juego de dirigir con un volante barquitos en un lago artificial, pero en este caso eran pateras cargadas con figuras de inmigrantes mientras sorteabas cadáveres de ahogados. Todo bastante impactante. Acostumbrado al silencio de los museos, Bonet asegura: Aquello en Bristol era una fiesta, con instalaciones que te hacían sentir mal, otras que daban que pensar y algunas concebidas para desatar la carcajada. Como en los coches de choque, donde uno de los vehículos era conducido por la Parca, en representación de la muerte, mientras de fondo sonaba Stayin Alive de los Bee Gees. El mensaje subversivo tenía su punto álgido en la réplica decadente del icónico castillo de Disney, en cuya entrada sorprendía una escultura de la Sirenita distorsionada por efecto de un rebobinado de cinta de VHS. Fue en su interior donde encontró la obra de Banksy que más le impresionó: la carroza recién accidentada de una cenicienta moribunda, cuyo cuerpo sobresalía del amasijo, rodeada de paparazis disparando sus cámaras con flash. Una alusión directa a la trágica muerte de Lady Di en París. Banksy me reconcilió con el arte y me enseñó que puede y debe ser divertido, no solo pomposo y solemne.          Una mujer observa las pinturas de Mark Rothko en la Tate Modern de Londres. BEN STANSALL / AFP GETTY IMAGES      Oscuro Rothko junto al Támesis          La artista e ilustradora Coco Dávez.      Coco Dávez, artista e ilustradora El motor creativo de la artista madrileña Coco Dávez, autora de la exitosa serie de retratos sin rostro Faceless, es la búsqueda constante del color. Cuando se mudó a Londres en 2010 sin conocer nada de la ciudad, solo lo que había podido imaginar a través del cine y los libros, sabía que era un lugar donde predominaba el rojo: en los autobuses, en los buzones, en las cabinas Y así lo certificó cuando se instaló a vivir en una habitación compartida en una residencia religiosa, algo que para una joven de 21 años como ella, que venía de una familia atea, le daba una nota extra de diversión. Y también de color. Una de sus primeras visitas fue a la Tate Modern, el gran museo de arte moderno a orillas del río Támesis. Fui directa a la sala del pintor letón Mark Rothko, donde esperaba encontrar esas obras de colores intensos y brillantes. Para mi sorpresa, o mi decepción, me topé con un lugar abrumador vestido de gigantes pinturas negras, grises y marrones que generaron en mí una extraña sensación de asfixia, recuerda. La también ilustradora, cuyo universo de trazos simples y colores vivos se sitúa en las antípodas del tormento cromático de Rothko, sufrió una sacudida en su estado de ánimo. Era la primera vez que el arte me hacía sentir algo tan potente, volví a casa tan conmovida que me puse a investigar acerca de esas nueve obras que acababa de presenciar. Lo que averigüé me dejó sin palabras. Este giro drástico en su pintura fue la más descarnada plasmación de la profunda depresión que le llevó a quitarse la vida. Esas fantasmagóricas alegorías de gran formato que dejaron huella en Dávez habían sido un encargo del mítico, y ya desaparecido, restaurante neoyorquino Four Seasons, que, además de ser el epicentro del lujo y el poder empresarial, acostumbraba a vestir sus paredes de grandes pintores del siglo XX, como Picasso. La atmósfera lúgubre de las piezas de Rothko hizo que el propio autor declinara la oferta y decidiera donarlas a la galería londinense. Casualidades de la vida, el barco que las transportaba llegó a Londres el mismo día que anunciaron su suicidio, el 25 de febrero de 1970, cuenta Dávez, que solo pudo apaciguar su desasosiego con el descubrimiento, meses más tarde y también en la Tate Modern, del expresivo imaginario de Joan Miró en una retrospectiva con pinturas, dibujos, carteles y esculturas del genio catalán. Fue su forma de reconciliarse con los colores, por los que siempre había sentido devoción, y de dar carpetazo a la oscuridad inquietante de uno de sus pintores favoritos.          'La escuela de Atenas', pintura de Rafael, en los Museos Vaticanos. GETTY       Viaje al interior del alma en Roma          El escritor Javier Reverte.      Javier Reverte, escritor Aunque la mayoría de sus novelas están ambientadas en África y Centroamérica, el escritor Javier Reverte se desplaza con frecuencia a Italia, ya que tiene especial predilección por el arte renacentista del siglo XVI. Si hay un cuadro que me ha movido a viajar en su busca, muy a menudo, sin duda es La escuela de Atenas (1510-1512), de Rafael, expuesto en las stanze de los Museos Vaticanos de Roma. Encargo directo del papa Julio II al artista de Urbino, el cuadro es una representación coral de filósofos, científicos y matemáticos de la Antigüedad, con Platón y Aristóteles presidiendo la composición. El fresco ocupa una de las paredes del estudio que albergaba la biblioteca del pontífice, la Estancia de la Signatura, frente a La Disputa del Sacramento, también obra de Rafael. La escuela de Atenas no es la mejor pintura del mundo, pero sí es un trabajo que mueve a la reflexión. Yo veo en su espíritu reflejada esa gran aspiración clásica y del Renacimiento que era unir la estética a la ética. Es un cuadro de hondo sentido moral. Siempre que visita la capital italiana, Reverte encuentra un hueco para recorrer la suntuosidad del Palacio Apostólico, residencia oficial de los Papas, y las cuatro habitaciones decoradas con frescos del genio renacentista, pese a las inmensas colas que se forman para admirarlos, se resigna. El mío a las Stanze di Raffaello es un viaje al alma.          Willem de Kooning, en 1982, en su estudio de East Hampton (Nueva York). LUIZ ALBERTO Getty Images      Expresionismo neoyorquino          Alejandro Vergara, jefe de conservación de pintura flamenca del Museo del Prado.      Alejandro Vergara, conservador del Museo del Prado La armonía y belleza de la naturaleza pueden ser la expresión más genuina del arte. Eso lo percibió precozmente Alejandro Vergara Sharp, jefe de conservación de pintura flamenca del Museo del Prado. Los viajes por carretera con mi padre agudizaron mi sensibilidad hacia las formas y las texturas. Cuando éramos niños nos animaba a mis hermanos y a mí a mirar los viejos olmos que alineaban la carretera de Ávila al Puerto del Pico, y la textura de los muros de piedra seca. Esas travesías en coche por la sierra de Gredos le enseñaron muy temprano que mirar es relacionar unas cosas con otras, creando rimas visuales sin apenas conciencia. Cuando llegaba a casa miraba de esa misma forma un libro de arte que llamaba poderosamente su atención porque en él aparecía un cuadro de un azul complejo y profundo que le atrapó hasta casi convertirse en una obsesión. La obra se titulaba Un árbol en Nápoles (1960) y su autor era Willem De Kooning, uno de los padres del expresionismo abstracto. Un lienzo de gruesas y sugerentes pinceladas inspirado en el paisaje del sur de Italia que conectaba con esos viajes iniciáticos con su padre por la meseta castellana. Viajar es abrirse a casualidades distintas de las habituales, sostiene Vergara, que, sin haber cumplido 20 años, en el verano de 1980, se trasladó a Nueva York, para ahondar en su conversación interior con el arte. Nueva York era entonces una ciudad en efervescencia creativa por el latido rabioso de grafiteros como Jean-Michel Basquiat, admirador confeso de la obra de De Kooning. Y fruto de una casualidad una amiga de su madre conocía personalmente al pintor neerlandés tuvo la oportunidad de visitar el estudio del artista en East Hampton, una coqueta localidad a dos horas en coche de Nueva York y actual patio de recreo de las grandes fortunas, aunque por entonces no pasaba de ser un pueblecito de pescadores a orillas del Atlántico en el que comenzaban a instalarse artistas como Jackson Pollock, Mark Rothko o el propio De Kooning. No recuerdo el exterior de la casa, pero el taller era un espacio grande, con enormes ventanales y una estructura metálica blanca y de madera. Subí a una pasarela elevada que el pintor usaba para contemplar su obra desde lo alto. Desde allí, Vergara pudo observar a De Kooning, que apenas hablaba, mientras trabajaba sobre un cuadro. Repartidas por el estudio había otras pinturas de un estilo que por entonces Vergara ya conocía muy bien: Sus cuadros eran pura energía y al mismo tiempo delicados y sabios en su comprensión de la belleza del color y de la pasta con la que se construye la pintura.          La obra 'Le poème du bien-aimé'. Joël Andrianomearisoa (Galería Sabrina Amrani)       Sabrina Amrani, galerista          La galerista Sabrina Amrani.      Un nudo en la garganta por el drama de los naufragios en Benín La galerista francesa Sabrina Amrani, afincada en Madrid y experta en arte de Oriente Próximo, África y Asia, no tuvo mucho tiempo para pensárselo. En las Navidades de 2017, irrumpieron en mis redes sociales imágenes de una exposición temporal de arte africano en Benín. Los entusiastas comentarios la convencieron para hacer las maletas a principios de 2018 y viajar a Cotonú, la principal ciudad de esta antigua colonia francesa, justo antes del cierre de la muestra. Ella conocía bien al autor, el artista malgache Joël Andrianomearisoa, porque en su galería de Carabanchel había exhibido obras suyas. Pero en este caso toda la producción era inédita, piezas concebidas in situ y destinadas a desaparecer. A Amrani le intrigaba sobremanera una que se titulaba Le poème du bien-aimé (poemas del bien amado, en español). Para llegar hasta ella emprendió un viaje de unos 40 kilómetros por la costa del golfo de Guinea hasta la ciudad de Ouidah. Una ruta en la que se desvió para recorrer mercados, donde escuchó las historias que esconden los tejidos wax de alegres estampados florales tan presentes en vestidos y bolsos en esta zona de África Occidental; visitar los palacios reales de tierra roja de Abomey, patrimonio mundial, y descubrir playas desiertas como la de Fidjorossé. Al llegar a su destino le esperaba una imponente mansión colonial de estilo afro-brasileño levantada en la década de 1920. Al subir las escaleras, un hilo musical me condujo hasta una sala con celosías, a través de las cuales se filtraba una luz tamizada, sumergida entre vasijas de barro de distintos tamaños. Esa sugerente composición era Le poème du bien-aimé. A medida que se acercaba, podía distinguir la voz, familiar para ella, de la francesa Jeanne Moreau cantando junto a la cantautora brasileña Maria Bethânia el Poema dos olhos da amada de Vinícius de Moraes. La emoción me desbordó y terminé la visita sumida en un hondo silencio y con un nudo en la garganta, pensando en la historia que nos quiso contar Joël Andrianomearisoa, la de los naufragios en las costas de África. Amrani se recrea a menudo evocando esa composición, a pesar de que haya desaparecido y que solo pueda reencontrarme con ella en mi recuerdo. Encuentra inspiración para tus próximos viajes en nuestro Facebook y Twitter e Instragram o suscríbete aquí a la Newsletter de El Viajero. ",Escapadas por amor al arte,elpais,elpais.com,3,1083
4 | a191b403c70678ff9a95a8a2280397ca,https://elpais.com/elpais/2020/05/04/planeta_futuro/1588594075_016583.html," Jon (nombre ficticio) habla con lentitud, le cuesta pronunciar algo más que monosílabos y mira con ojos tímidos y recelosos. Está delgado, sus piernas muestran decenas de pequeñas marcas y su cabeza una infección de hongos cuya consecuencia, una fina pero visible capa blanca, destaca sobremanera sobre el resto de su cuerpo. Dice Jon que, probablemente tenga ocho años, que no lo sabe. Hace un tiempo, no me acuerdo de cuánto, mi madre me dio a un señor que vino a casa y él me llevó a pescar. Los últimos meses he estado transportando la carga de lo que otros cogían del lago, desenredando las redes del fondo del agua, explica.    MÁS INFORMACIÓN               Niños de la calle: los más expuestos al coronavirus       El negocio de la vergüenza sigue creciendo en India       Patrullas contra la trata de mujeres         Cuando aquel hombre fue a ver a la familia pobre de Jon en Adidome, zona rural de la región Volta, una de las diez que conforman Ghana, lo que en realidad buscaba, bajo pretexto de darle una educación imposible con tan escasos recursos económicos en su lugar de nacimiento, era mano de obra sumisa y barata. Y los niños son propicios para ello. Este país subsahariano, donde el 25% de la población vive bajo el umbral de la pobreza según Naciones Unidas (otros estudios sitúan esta cifra en torno al 40%), encuentra un gran problema y reto en el tráfico de personas, sobre todo de menores de edad para trabajos relacionados con la pesca en el Lago Volta, el embalse con mayor superficie del mundo con más de 8.500 kilómetros cuadrados. Pese a que, por cuestiones logísticas, resulta muy difícil contabilizar cuántos niños han sido víctimas de tráfico de personas y del consiguiente régimen de esclavitud, una amplia investigación de la organización humanitaria International Justice Mission arrojó en 2013 que casi el 60% de los niños que trabajaban en la industria pesquera del lago Volta (49.000 en total según fuentes contrastadas) habían sido traficados. El mismo organismo denunció, además, que decenas de miles de menores de edad de entre tres y 17 años son trasladados a esta región anualmente durante la temporada alta de pesca y obligados a trabajar durante jornadas que, en ocasiones, se extienden hasta las 18 horas. De ellos, el 62% eran, como Jon, menores de 10 años.     Algo menos de 50.000 menores de edad trabajan en el gran lago Volta; casi el 60% ha llegado allí tras ser víctima de tráfico de personas    A mí me pegaban cuando no hacía algo bien o me querían mandar a trabajar, afirma Jon, que fue rescatado y entregado a la policía ghanesa. Ahora se recupera de los traumas y de las heridas en el Children Protection Center, un refugio en Accra, capital del país, que la ONG salesiana Don Bosco destina a víctimas menores de edad que, como él y que trabaja desde el 2014 en estrecha colaboración con el Gobierno, no ajeno a esta problemática. No en vano, en los últimos años ha redoblado el esfuerzo para combatir esta lacra; ha aumentado los recursos dedicados a implementar planes más efectivos, ha incrementado las penas de cárcel para personas condenadas por tráfico de personas y ha adoptado procedimientos sistemáticos de recolección de datos más modernos. Estas medidas son insuficientes, sin embargo, para diferentes organismos que han estudiado el tema a fondo. Una de las últimas voces en denunciarlo ha sido el Departamento de Estados de los Estados Unidos, responsable de las relaciones internacionales del país norteamericano, que afirmó en su poderoso informe 2019 Trafficking in Persons Report que el gobierno de Ghana no cumple totalmente con los estándares mínimos para la eliminación de la trata, aunque reconoce los esfuerzos recientes para erradicarla. Los traumas de la esclavitud Fatumatah (nombre ficticio) cuenta también una historia parecida a la de Jon. Más habladora y sonriente, dice que no sabe lo que es la escuela, que un miembro de su familia, una tía suya, la llevó hace tiempo a un lugar, también cerca del lago Volta, donde pasaba los días limpiando el pescado que otras personas, también niños en su mayoría, traían en grandes cantidades. No sé cuántas horas pasaba haciendo eso, pero muchas, recuerda. Nunca he ido al colegio. No he podido; nadie me ha llevado, afirma. Y cuenta las agresiones sufridas: golpes por no trabajar, una familia que no se preocupa por ella y que hace que la reinserción familiar, uno de los principales objetivos de la ONG salesiana con los niños que han sido víctimas, sea algo realmente complicado con ella. Con todo, la pesca en el lago Volta no es el único destino para niños ghaneses víctimas de trata y tráfico. Aquí hemos recibido chavales que, una vez engañadas sus familias, han tenido que ser repatriados de Sudáfrica tras promesas para hacerlos futbolistas. También niñas que han sido traficadas a países árabes como Arabia Saudí o Túnez para ejercer de esclavas domésticas o, peor, para prostitución y servicios sexuales, afirma Francis Adzraku, director del Children Protection Center. Esta última realidad, la de menores traficadas para fines de explotación sexual, también ha sido denunciada y corroborada por diferentes organismos. Una coalición de ONGs locales publicó en 2015 un informe en el que recogía varios ejemplos. El caso de un grupo de ghanesas menores de 7 años rescatadas en Nigeria por la policía, que habían sido obligadas a prostituirse, quizás sea el más sangrante de todos.      Los traficantes van a las zonas rurales y por unos 50 Cehdis (unos 8.5 euros), bajo la promesa de un futuro en el colegio, se llevan a decenas de niños     Dice Adzraku que, desde que el Children Protection Center comenzó su andadura, han pasado por él unos 400 menores. Una treintena intenta recuperarse hoy de los horrores sufridos. El tráfico de niños resulta un problema grande porque es algo cultural. Hay personas que van a algunos lugares donde reina la pobreza, prometen que van a llevar a los niños al colegio por unos 50 cehdis (unos ocho euros y medio) y nunca lo hacen. El chaval va cambiando de manos hasta que termina trabajando en la región Volta, en la mayoría de las ocasiones, aunque también en condiciones de esclavitud en otro país, ratifica. Cuando la policía u otros organismos internacionales los rescatan, comienza entonces otra fase, la de ayudar a olvidar todo lo experimentado y comenzar una nueva vida. A Jon le cuesta recordarlo todo. Por eso habla tan poco. Por eso mira con timidez y con recelo. Cuando los chavales llegan aquí, y tras realizarles un control médico, se encuentran muy traumatizados. Intentamos que no piensen en lo que han sufrido. Y, como son niños que, en su mayoría, nunca han ido al colegio, les enseñamos a escribir, a leer y a hablar inglés, prosigue Adzraku, que afirma que hay menores que han sido víctimas incluso en tres ocasiones. Y recuerda uno de los casos más crueles: Hubo un chaval al que vendieron a una familia junto a su hermana. Por miedo, ésta llamaba a sus padres y les decía que estaban muy bien, que les gustaba mucho el colegio nuevo. Cuando llegaron aquí, el niño no sólo odiaba a sus captores, sino también a su hermana. Antes de despedirse, Fatumatah dice que no quiere volver a escuchar nada del lago Volta ni de su pescado. Cuando sea mayor, prosigue, sueña con dedicarse a ayudar a niñas que han pasado situaciones parecida a la suya. Veo lo que hacen conmigo aquí, en Don Bosco, y me gusta mucho, afirma antes de posar para las fotos sin dejar de sonreír. Ella ya está a salvo, pero la trata y tráfico de niños y el trabajo infantil seguirán siendo una realidad en su país. Y también (o sobre todo) en África. Según Unicef, en África subsahariana hay alrededor de 48 millones de niños que trabajan y casi uno de cada tres menores de 15 años (el 29%) es activo económicamente. Cuando este organismo cuenta también todas las regiones del mundo, eleva esta cifra hasta los 151,6 millones de menores de edad. En Ghana, además, se dan las peores formas: esclavitud, reclutamiento forzado, prostitución, trata y exposición a actividades ciertamente peligrosas. Los padres no tienen forma de saber lo que hacen con sus hijos cuando se los llevan. Esto es un problema grave con una difícil solución, finaliza Adzraku. Puedes seguir a PLANETA FUTURO en Twitter y Facebook e Instagram, y suscribirte aquí a nuestra newsletter. ","Compraventa de niños para pescar, tareas domésticas o prostitución",elpais,elpais.com,6,694
5 | 


--------------------------------------------------------------------------------
/a_Introduction/Platzi data live.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "code",
  5 |    "execution_count": 2,
  6 |    "metadata": {},
  7 |    "outputs": [
  8 |     {
  9 |      "name": "stdout",
 10 |      "output_type": "stream",
 11 |      "text": [
 12 |       "Hello, world\n"
 13 |      ]
 14 |     }
 15 |    ],
 16 |    "source": [
 17 |     "print(\"Hello, world\")"
 18 |    ]
 19 |   },
 20 |   {
 21 |    "cell_type": "markdown",
 22 |    "metadata": {},
 23 |    "source": [
 24 |     "# Esto es un h1\n",
 25 |     "Esto es texto y esto es **bold** *italic*"
 26 |    ]
 27 |   },
 28 |   {
 29 |    "cell_type": "markdown",
 30 |    "metadata": {},
 31 |    "source": [
 32 |     "## Tipos de datos"
 33 |    ]
 34 |   },
 35 |   {
 36 |    "cell_type": "markdown",
 37 |    "metadata": {},
 38 |    "source": [
 39 |     "### Primitivos"
 40 |    ]
 41 |   },
 42 |   {
 43 |    "cell_type": "code",
 44 |    "execution_count": 3,
 45 |    "metadata": {},
 46 |    "outputs": [],
 47 |    "source": [
 48 |     "from datetime import datetime\n",
 49 |     "integer_type = 42\n",
 50 |     "float_type = 3.14159\n",
 51 |     "bool_type = False\n",
 52 |     "hex_type = 0xFF\n",
 53 |     "oct_type = 0o23\n",
 54 |     "today = datetime.now()\n",
 55 |     "str_type = \"cristhian\"\n"
 56 |    ]
 57 |   },
 58 |   {
 59 |    "cell_type": "markdown",
 60 |    "metadata": {},
 61 |    "source": [
 62 |     "### Estructurados"
 63 |    ]
 64 |   },
 65 |   {
 66 |    "cell_type": "code",
 67 |    "execution_count": 4,
 68 |    "metadata": {},
 69 |    "outputs": [
 70 |     {
 71 |      "data": {
 72 |       "image/png": "UklGRugpAABXRUJQVlA4TNspAAAvv4JUED/kNrbtRrkD0lpRg/cuow5KozBC7wnJYf0XqzZc17ZtOju2zT+nglSQHlNKGvCvbef53uf3oNW2razaCwtABdcAZKATJd35SQCX9+6a/wAB0tmqrcLZcracLWertgpnS/SfSvuqtC/Rf3L55W/+aysNJoYkKZMEOEgYGQYJL/ZhIgAdiSjQYiIVSbYwsYokWbR6VXiCeuALMIUqNkAXmMAD6sKHdVUqBLBgiRYIHYIUpSPoifIfKIleF4gqMNH0qOGs+Ik3iXSXkodcfrG6wITyAAxYXXRC+bBRxTx8D0BPqQt0+B606wp8AG2FWvRrEYUqwFFGBA6iELLiVhRBllUUQ5ZUlMQdGwWjgEHBK/igEBU8hgqib7npfbz4DK5EF7O4ABYCAwqYoEsDdEN00ZnRvpBq6FBIMXQk9uuwJNQlrBpqEwynLLRDAIAxgO12oeS16s/Bw7Ztjty21qbuldfSgiUERQAzJKFAKjnnbFKOA3sAyIsJGKzkbARHgHSSyJn1u93Pfd9V9VRVo8XDi4zoPy3ItsO2zVWNKRUxebh4BCXZxDFIfS09+r39a/Ttx//6aPTWqY29/bgt7fZ07XE/ndmyCm+Vu/R0nzbQY5p1cH0UH9Fre+GwIA6TiDk2VD+dN9PIuGsVWNZTUs3UtVRQ86ZppgHrMum8sdtpUIH6yPCokfpOl49HThJBQKiuWn1zowsyR9xP+7hn8Xvr4Prd3pJoJmypwFfXUqtbU3fpMGW1AgGLwDhAER62UA/q+u+n3oJQHZQcdz5dhMVBVK6uvLMH1pWjtEKHd1CpDi43H+wdfOMPzXfvNdv2Dzy0bqSL5uHG+Wm3U9qGwDA83LihL7QQdLBS57DXnDcW1DFGydFw/bAaUVrdah7etho9/LRH3AFpG8+PzbguaDT1+u/JiG12FEOJjFlUDSraa4UZ+OJW0zTWUqPVLTOSfB6JwDZa2QDhLqpr3dtkNUX4cKOLweK0RkJR/MG+DWLEeKmwII7vXsca1qSVd2BreG2ve34L/0A7P/2rnr03tX/gWrdTfAkCe9bWw/ydgnSwl7sgZb8N6z3X7U2v3e7ig1AhGhGqqEZsAeGt+sStJWyESL97z2I1U8EXYQQ7CqGMImIWVRMV7TGtgIGYC5goq6+89w51bSowW292TO0U1Gt7wmqKcH6KnkOrb6AwnoBE61lEekFkVD2CbqH54H/BftwgLLvucsLOTikwWA8s/eZdlg421Cc0x89C79wJQ6VoRKhYjQR1Ke8Td1TYGNDq1qk5QKZC9GiEskznUVQTUEX7TAfhttfOBQJrRTsFmlg2DGabqAi1Om4Q3PhKoda7tiEkM6omXVNPmYQfrNnpJ/cwMFwP/Jv/NFXPvUJb/rntTylUikYIq5Gk1iduLW0jvNjsJEwVRsQqqgmoor0qdA7vDkm0U0ihhpHJRK2+4SCMSEhmVD2yvZJt8yof5UK7unU8wsBegvU2Olkwz3U+zY5lEusFCsp2itbjRob6LFYjSQceccflgnDpfLsTmQqNjEbwHjekuCbAivbuAjYHrvYDsTA/pnaKEFkN2aYrgk9pHBYg3lZIZlRND1ndsucjrK9ebrDHtH/AHk2B4XqYa3N4WfHn60K2g5eNMW/4lcfq1sMNGWojNIJqJBbucT8tbXzvnm3y3+mCZlPJjm12NKiYJiD7ek0tGEgu0UMwO+h9ZwzM1vsztVPMnoOshmwTFbHWlg/B+IO5ATHiS1Kh57bwBWxlD0l8h2f1zY0Px9/3O/DrGp72i7MvNGu220cSmjWnj35/buixKvrxI95bWvFh/vaTyFs/OfS3a7Ilepyt289S39k7b5pTvV5GHVzuYl65dzzK9r48/BjWNLdWt+znruDb3g5eRtjjFNC8MXd8PVUxFvR9s9U3NzKrjVHG3FBNUJ1W7tnPS+MP6OJ681P7OZGM+iocaOSqmABX4CeG8yeU/cj0K3va0UIEbXWK6ylFuFy6OGFyF2020Y+shA1FhbaikvQv//x3KcXMusYprgf92nZGXf/4Xjv76fWsymN4dBueT7Wj5eicWuWTe/UX2RdyKq7SxesL//b38YLtZL6N67WtFTn1n9vtJ/9XHtf0iz+Io4TwKKh0mRW36SglOrrI70gYOFppavvVbfvZ285S7ajL7vhYHImV4JuFZCF+sDefwo+a6eO0tvnYqNUteYxVzPFD/GNqdGgUHqS1zU+6phgoh12qaAnub+1+9+IuH/NEh4NFHCf2AzvmrCR9pfvPTfOM9TU/rz+Hx4WII4DEUUJ37SioDQ/hjxu3dMCR75EwdrRSO6Mflb7ctamn8PAeOhIrzbfZ9sE1aKr5D+BHfcEjPizqRTo2CiPiY6wijh+6S5F1nQFWjw8TWsGfHsYDiPj4qQTVuhr2GnjMkzwcTNuKzVRY8ZWvfOkj/+gi/MqpZ9/+79PgIQTi8Dl4BuFUqKOUWt8jYVa3oF7mH76K8NSBdCrRt9l297guoSGa8HFaK3RsFEYUqIT2EHaMameDhwnRc66gB70kbbf9jHezHWHrqEh95csf+SePu7N+oZvzr07D0kdBOQh2HnSUEsnvKAJ+xaq2FX23pxJ9m52ubvGzmVH4OK0NODYqTXicEGlVuAtBZ1BxN39hPsDhYCFby5T992//GKXQarOcL6eFm+KYH/BWHSVkR0E5rcaBmzyPhLGIu+f181PLR/xrPFfDw3tQab7Zsw0OFRcCx2nBsVG8QHo2ePyQemZzE6vHhwkFF/pPK+ghHQ6mba2t0O/O4hhE2/k9Fcc14RExpO7RTu9pUuANyvFImBU4WmnbrNvO8V76wWVxJFaSbxAg70LgIeI4rZiHcCVCxw/phwh3LWjLAfGQ41EPql3dkg8J2YpHMW2UpIiv9sfVmFxwU9fr28o97FsG0a2s1f79H9raNSsu16r3bRCp+Pedh9htyKv7eoQrvD3GQU/H3h4BF+PSbm3tcbeZLavwVrlLbZ820N8+a+2N9fH4rGlOxmtXmub93fFhF0NG7V9qmmZnnDXurs7L9482c+tsMgb/0Fdcr0AtGunx/g0Xq1SMHGs+oZU5FUo5vZ6D1q6Y1/tXb1GKUbbtCP/r0vL95sG6VXb5o7uWYWjL2SST0DadFp2L7vqaBX4pu/YvTcg/8BXcdZeDc8v3T3C9eHWelyywMquCKYfrLU66YHYcAl5M4HEqxdZe3e22o3VWjcWhbfM7WOVDyNmssg4pp258rNvz/OxGZi1/9HMT9E8WxUn0LZ/Y7ecimHK43hg2Cqfcwm3N6q78q1hg1mJie5/JeAF/mr04a5rm+/ebX/6xOdrsqvP+7v7X//jgM1atLooH6/s3ftc0O7H6r8n4Ez/CyHe6aGF3OnHTmdVyp8uFBfjnLKvj9+43k+4fsP4w2TnYpC7Z87zFztoVs4issmczE3hcFwlEhBVSAV9quCoc2RhMpoqBxxAOthGHXZqCKYfrjcc+hf2Z9ShUQLDmCrl3Az0F/2tT11N2ti1+din33WYabAF3wFt0+c7r9rRo/+rLXbssTrrktg4iLIr2+XfvWEwYbbc/dEuQ1prue/d3zMlO4J+vXt/tlqCu3TaX7tz4cGJ7aqvf962qr/6IrHreYnvBHnfrxjMYEVXoGQjYEvPw6BmsCkXWtZOsWGfQMoTzQ2wjCnuzEi2ONh0CBrcnIsXgKZBMNvT0ebCwMqElC1g1b0F/3REKXkm+36XVMvR9NzYxHxP0zFv/c9KFy5HjTtVPa1dOuFnRP1eBS+TJ1fVk5zYPJ4cnsK1dvQXrslXPWGwWINkbqpBYj6pyRzcTVYxbj9sIwq5E+OWhfdo2dIyHR5Qq5OkPu11VdXejDmEbyib9QuIG6ap6anb24JaDNhdf2+m6DY688+QTu667Hdtamu5G/mXTjedTnCOdrF2xZzUP1vdNItRNi20dAkwTVoW0JkyGoKNVw93wlS5Y/JFOHKrDC+geeYoWViN+2Wst2MWRu+AGoV7TKgGdY9dJLn+U9sVpsk73xvMcedeVH236qavjGe2+rO65Cns6cpLuHD3bgCzCBbbKYvsRPI4XQHphcWQxqGc2/4GVpIrtBhfKVmi1wwfrXgEvvjYZK8HTvMMjThXyFCys631nWG8yxveds4rfkj16/sqDF648WF+7gi+Rxgt61XW0mShavaEFxzcRW3gTbe3KxMT+ZdHXzJl057o4L3Hnwg+BUDcjHiISHwK2sP9iEemHoMlUMfMIHoJtJFTD+85nsMN0Ubd9S0HUD9bJPfOUH3Lhf9/POz3aMqqM6eB0o+dHjzy+b33YZWZ9evT7cxdPGNGj7OPuHs+gpHGHkab2cGOWmzsXHtEUB1B2HmhS/z6GOQQuTkNeWiQ+8U5jHCsINFeKihkENydyEH+fQBscG/BzYdggu1wldw5q/Cuz5TzvuNlgW0j2P67iRs2WGbNj+63JkJ+HXmIkifVFAEqkY6WC5mrnzuVEDjJbiNBQIwUbjBUO/V16obgUn7Tx/gsYZjp7kdlvYt9MsYUFH67jJrp4FuVYADR3gRTZkIPCQ9zWDFEpYYPxqmABuUBYyflpm10MbKPfiTBDAeyym/j7GMrUcOTOAXGjc9E6MW44D26HAQoe3o5zrELQXBXKhRwM/GaFVEjY4IhN7dxe3ULH37sHvzoW8AOpIQoWdJfzn17OfTdk32uKS3bXX4Rmiyi8uHPwd37wWXCxayPaBczT76aaxjlWI2iuYvlAryxCW8K+RMMGR2wqoqC48UbAD2T+z/WCRTEAdTB3wb0lMtacpdhlEfLlzp1vQw5oVsbURZGOVQeaq1luX4pkGYANcnOYe9D1UuMFGsJU7t1o3Qy6gFKEjDVXYdZhuFkkXrwgI2uEnRR3Vi6KdKxo0FzFyowcFL+OYQA2yM3RiX5LRMyfCiRW419UsJBCcck8Bbw4ZpdFyJU718HzkJ+HXs5P3YpIx2oCzdWk3MjB+Ve3W1M8bBADocYjFb3AbzgiVBbedy5ByCXzf8hM/IaMB2E5c+emxM9DL5FE56JIxyoCzVWl3MjBDkYdVLc6NQepnX+wB46vbgko6Ki8hwyLW3y6DkzQHPTNw1OOv4rhEFAZv5DLI/yfG3riP3fu/0Fw52CoWFyvVu4cYUsWD9aBurVvw/rn0hn5h2w4q8cb6y6qlz6XQzg8dE7lQw62iZi5DOBAGJ78/V2VrxYFNeZOlyu+3DlAtLxK62XUjU2dEPv+ib+YjJc/+rVdGBT9DpSb2bhzyr/9X5fBnesV+lwr8IAZlQ852CZi5jKAAxc73Yb7+YnIV4sC8R9mwuGJP3dOrJdV1sfmEuJH1t791MScwCIjdw79IzJcV+RXBfS5DA2UdyEfcrBVRkXJFRwoKr781gvvwp+pKAh40AWx7ss9wu0fe4FKuXPowuHJ/q8NK8nFWSPhbZ7cOfQPm9ZHhw8MENZhMpA75+RcjfQ5tYM8GedVPuRgm4iZiwAHYvNgiNprc3d9jL3jrzuOHRcYhdgYz3ZcZU3aPQWC9Srmzi1/1FLw3Y4LhRIEOqav+XHn0D/aN/rIuCnNDnPn3JyrkT7HAjxgTuVDDraJmLkYcKBIMHDc1qNGtJTASu8oiB1FAcK4fKUROPVy57oE/GgHzOlIQEKyDp0cuXPonx83BjqZT/zo192G4MSdu1MpfU4K8YAZlQ852CZi5iLBgRxDyOtNFNJLjshRiuKOku/dhICsnDs3Pvx59yxs8a1fj0lEgBPy486Bf+Shlw6//e7z735qZz+dO4eqgD6XLMQDZrw7H3KwTcTMRYIDIYaw10L7vx4bxBlFUfzwo7veIuwYbPbdehVz57DnBliMEtRByJE7h/4ZJNhLRvyytt934s7to2qlz7VoZN4iH3KwTcTMRYIDOQZcIK9RhyewnYqnKhwFrZZ+d/Qvn1Azdw5flEAXyEICnZIfdw79g6bxEWW+PQsB7pybczXS54p53zkfcrBNxMxFggNFW8BDhNdq7zEWG9IaRbEO7zvbakPs+35i23Smzw2m7/uFEdqLneQoB5oG6vet6XuLIpa43XFEUE/85849Noc7FzMEbT4RjCEYje9gybNGDU0bFb7z8Irn2+ziPGbU1YSqJUbTIxQ6sLWccYepqWDIabfkmgrXY+ac51bp25eh/US4B5epPWc29vSbG47cOUKQafhYRl2D+DNq9nADwHFZZZZTO27TsOY4B7lS1A8UOrI1swLJhp2nD3KQ2QvXNljhOee5aW6TywuEK+pw/kXjZ5z6F3recVllA5JnkqbDOSg1PKzDZ7fJS4vkfFqG+oJCR7YWUciGgf7KrW10DDFzznOrcycdrtDK2y9+c9Stt+Euho/lL4KnBkRPYKvjrW04NQnC2rowf8ucttsw5r3fvOOg45hvk5fYs/nNO+7hRpvk2+2eoNCBrUWIGgabyg05iFA/8uw6OtlG4Oew1TC6gOeQe7a9dpLhopDTCt3n+TSf5sej3HevIAZFwMZmLOM1pGvWNAZrE2FiAAhxG3nOO271zQ0hmIOcQzZMWzoDI6dpvvUDhQ4TpShhU/khB1fuKeAcI7xi8HN8YkgEMEYnE4Pruu5JhEtxdPBD2gTcpecdl3uB5j0Vt56H2sD01QTKDAIfec47rrtHyGfeWwfKn2tpvvUFhc48LUrYVJ7IQeub0DNyci8OP9fKGHQyoaAQ4aLFAnJyPMohOe+4vDIsWT5hdkv0HHLalBznHfddRL2gl9iNOMlhvRopdKWSbKJebCFy0C3kF9EzmxRePH4O2yTsuZYKF4XLkH85pOYdl1tAzePJutF81MQ04lxWW91S6LlVjpdIiJ7zjoO2YS+hQ3NawBP4keRbj1DosheBZMOm8kIOwtPzGbcETwovAj9n4hhwgZLJJO4W4aLQTnhchrtLmXfc5UZh1MSe6880jzcPtTPbtcnpq4npx2H4jvOOwxbwfS8d97Dw6jTNt4oodJWIGgabyu9953N7ekyeiUnhyZ2WyBXRJvAQkUy82mVIcREuxvEdfDVy7SWP1YYOFC03hW4Atel86hBnugYJFG1IA+ci3kiNCOuJ/9y5x+lw59QAhGc4Xu9Odu5GRiF4LNcglG1ogEVwURP1EiUrWvAc40oSD6V8IXDnbtEUNiDhzEtvyXm5Ia8NyFlvrGfUVRhKPKMQPCbaJI/QfHIRp9KGLD03VUaXyz7vuIuAO2chmijhDk8yFsRrM0c/uptV1iFlFGLIcguCZRfFqPhnO25KnGNc3xQXAXfOAGg7Jkg4W289o5DXBsmfvwBWGpPcdl3F4LHfAfXt6A7g3TTq7czaeZLInQOImnDRCmTppYqwb0idC/lW4Rzj/HQRcOcEEgf5c7YN5xPz2saLAu4GLMoJk9w2PcXgsUs7aKgFwKwVCgbmIZfGnSNiDLs47iAkyNJLLgQobXGifauULuemi4A7Z1HhbmexQx7kkLJQ9JS5F2huY0Ry834ySLgR1SGEWFebCfOQa5mahC0CLtIXsvQcNnmu8dWgb9XNMc5Vvc6dU1qzzQwTbjOrkIBCFmaVmpYakdwc4xbgsR8lyeYhl5T7R5uo76GLMJU26lBStabhaCHfip5jXHZdANw5iGDRPU0n/lzWgiqyOMlf8NwemeTmKuqqfyalFlA2D7lU7hxC1Ig+B9VGll6yEJQG1LnlgG9VzTHOXxcAdw5kqYQJN+nuzi1EkOW9W7DSmOTmKXpeSu/lPH+FJ1kYQL2dTZK5c+gcNQOsDiy99HRAUBq8tgn6VhFdzl8XAXcO96SLo+eJOPfyW+sX2ff9OF1KrHabny434LhzMYFddDpsJhV833pgc+cSO8UnwXHnHq/MnZspBFlGwWjImaMO1yLvvOMwBhxlMb9fPUOeQytLiJziV5C+qdvg0tNoz3Hw4GkZcufOEXYMm6MgcZbkk421nXXecRiDTdLNQ3dTHSuPPNcT847D+JFiRw2WkTvHgUCvUGMBWCGuc48Vrvw6MSGmaSFFHHnuwiiQYkcN5pcbCQJLahRhx4DallnIVkPuGK0XmniaUWQTBSgzYgDclWSztvXhzrUtdktUdJg0L911c+ygPvJcBSKKHTZYJu4ceK4KakE8rf31CLFjyFjJK3HuIdV6auJpTGjbSJI+n5GKbOY27zg1yzjjzMAc5Pzk5liN5LnyhRQ7nJ5dFu6cziWCx60Ixtz8tCLButmJJDHnHhIlowBCW1oROp+RgROh78adM/8EJuncT16O1Ueeq0HYCcBCFu6cShLyzYLXp8N/o5q7ETuWWZgl2AEkaASQtRSx1cBwM0nnHblz2/BFqeAmN8eKnodctRIknIzcObKNfJudHsgWHFUjxI4htS2mJTLMGy4ssfcHQttekgLnM1KTzdrWizsHf6c1I81Bzk9ejtVEnqun4J7mtM3HnbsNuYSyqrwkT4d/Ze87J8zRLcO84aI0cngI7O+6fjXwkNUtsezInSN+nuP7zuiRj2M1keeqE6ZcFu4cP0R3fPJ0+F803/ebnfbazOOSHRtc5Dl6WMEaGmy3WXPqTqUbvHriP3fu8TvcORx2Nvd5R8Nxfm2w3Wza1xFjHBkUIM4dKqxamqCGadWsjUZXwbjDKcjBArhz0BY5lZE7R9gxPO+U2QcTL0mGq8gz7zgCqqGXDinWUg1TVDCNrlbuXBJyMC93TnU/NRaGHRMTWusTbeY675QElOhcxOjzK5FG18dFEnLQLzcSBJbUKMKOLU7GJUji4oLnc3IRnHxcpBTKDLIZwnA/75TEikEXgUSXLPPl6I6rYRXS6MpSEnIwJ3dOFBwNNlk9AuwYrpddhIuTLDWez1vM5OOitKxQZrcE2WzT97xTCoGLxI1xKRwNq5RGV5RSkIN5uXN89wObfeGYm6wiITwP5r1VwoKAV0mUlWVeM1FhRWsfUWYYIpPNdn3PO6WQcnExcZGvYdXR6EpTPHKwCO7cpgW/z3g5g8jWczdkGq5XrG5swuTjUsVWA9ANyWZZzjsl3o0uOsrXsKJpdDUoGjlYCHfOngURBBRTqxaZgch7LaAI4OJISHTTk49L0LJCmf0Id+2q93Cbdxyvhi4iic5FvobVRKMrsohHDpbBnbOqvIzRQJPV+b5zGdoEllrM+ZycjIEjFynY33UdauAhGAYqw7zjFFYtUcS5czWsIhpdmUpBDublzsmOD22FJrsIvu9HhqbHnb3aeWNONSyVRnfBf9/PJdeGsfI2/tDUE/+5c4/14c7B2LF+c3RLGTc4GDYO4es8VmLuMRNxlhk4IH8vnnfKvOYODO4cXqm3yDm6OWd90EwefNpVanPLIxq+HMFs/XjeKbOaOyy4c1Zbzzm6JeZJ7QWPYm450IfnnTKzuQODO4ezc8M5ulV93ikhyC7YIHHOkzunWTEX2nmntGJgcOdgdm64XmHnnTKbwsQ5V+6cMY8QKHFxnXdKMndgcOf0NSos67xTZlOYOOfGnaOMwpdFvX3eKf2+hgZ3Tl/jv0JEPQHKL+yA2HNf7hxmFKq3zzul39fA4M4ZsRZJxZWfd0pBNAsT5/y4cwCaI11g550Sze1L7lx9807ugfNOiXN8CxLnPLlzOHM61MV13ilpengXPXduADGmsnDmhlBbDvrzTvnEf+7cYyy5czAvCz36cEbtX0qjjvkxzTJLQ9QQpYaR+Kk+8Fwm4elhGwzcORrwG+hz1V93uLVXd3FaKDkVgKghSs0i8ZW0LT94rljR9GwGA3cOx/0G+gZx57LKapJRGOh+XgUgariezUEum7zAcxUWlCoDgjuHncjaG8xJqPe8Uy7fn9jjRLiv7xpaCMBzjtw5DVHD9SySdCFpoOdOOmVIVgwI7pzNDwuE3LlazjtlAtNMhLsJ04BaluA5j/NOqSFqsB5E4iCw5VbfnXRKJUqVocCdozZA1X3d4eBGACCEze1bu1AMztw56hhxvS4SB4Et/XbSKaX4azBw56ANOIbKrzscOXGLwoU5yEEMrty5AERNz0EuNR3Qlt446ZTJ4q/hwJ2zC87Gquq6wyUwze5guPC0oJmMKQY37lwAosZvD3gUYMuP+uqkU8YIU2UwcOdodm5gYV3XHS6BabbG4dIlbgPwXBbuHK/XyeshfXXSKaNEqdKT3Lkh/X2/hJ1sKnhu8HC7Pgzoic7cuccjc+dorGEYOzb+uhN5f9CxsnProi93m9dw0eHxk8+JpedCnYtXH7HnkBE3GLhzNOA3EucyX3c4bIZCR/qEAeB9iHjkIg5ijmef0oeltwrUuXj1D3uOGHGDgTuH435bbc+neHIRe0lAAvDaoNX8kRCoho461DhBfcSeI0bcgODOASnznT2cL2F+0fMEOYk3QrC5ibBt+vOlhdZ89RQCOyAgXRp3jtZDoJoHSw9ABX9qjkexjvUTe86IQkOBO0cYHfikluB1h8uuVaOQ2cddK3jF2dy4dS8hdiXw+dKiRkUxkC6NO4frAVCNWHo+RaxjfcSeI0bcUODO4RefAkPgHmUWwdgiJvHmVxxgrDpiDgpjYiBdHHcu8AWZvk2O+ijWsb5iz3XpMRS4c5RoSJybwXrZ7wYYG/YDperaRgJ3Tn4R8IVYej6Kday32HPz7aHAncN3w9T5Hi2gAKjaezyJN1xw1YpeCAltOiYgXQJ3jt/hw0wgR30U61id7Dkn7v1Q4M7JObqZJU0BdyNUTU7ibZThIccjZLGFBVA6AtKlceeIPsdANQ8v6eOaFetYD7HnaHp4w5o7Nzvt81MmqdhzH265XTVN260+x574z5177CV3TjLaThLhY46fSZL1aJ01O8k6hJF78+tsIh09wfWcleJbMSehMrswPQYDd46AYzjsd+7zTrmgUatjFV2h4HDmhg7LKoSokaP6A1XiqhTfvGhzNQjTYyhw5yRwbDHJet4p0baEsNP9bGWNswogalzoD1SJq1J807S5ygtopAHBncMN2XpHiCFjAbitqJMOCcP8f82oa0mSzQAwM0Fde3BLkdq8uHOsBVFwXArk+CDoLsm3CqcbFylKlaHAnRPAMTpLiDnvHhMBKnjSITXxJ132xwZl0/N/A3gLzz/OhzsXlAMmqIUNS4Du0nyr8SRUxolSZTBw57BfFMmVlXtE6R1x0iFdNVZnJ1JSq0Qwuz7cuaCQcpVcZXTJwbfqphsXLUqPATHvOMs2Tq6M3DkBiluLP+mQLnejsA+RwmBcuXP6bvjykoNvRU83zlOcHoOBO0f/0IP1RKC652eSZC3ipEM+z5G4rLZ2haBsLzN1DRcwmHU37hxKf6BKnBbGiybRtypPQmUS934ozDsOgWOEMkP4WD4hKE5R1DSL7S8Ohf1nuzuCmQnKG73mAvycB3dOKvCBKvF5yKaDbxXR5hJFqfKhijt3eFJ0tdvIuqVON+6RCrfLesP3d8uWqtsT/7lzj/Hkzk1xPZipW07YB8JVosY/rGqkxHYmiHPKUa95F8U60Vv0ufPtnEqZckgvc+cIOIbYMbp0UDmk0S6FKF+aITkPUGoBRzOqr+hzB5ezKumS0/Uxd04Bx4iu8sm9rLKaVF4AOQ9RasgSmSJQLaN6ij638s5nSyr8P3cmif0c5HJ1og1Z4D6Kvu5wLsKwMdQkD6K5c0R6mJ0ycWMb5x2Xrt665nAp1x2uJDFYx4o+5s4hcExhx+bTtuDrDufJjXFRJHcOyXmEUuPzTjlPv7u3rjlcWs4XKJxNVy9z53CDx/Vgr1PydYfzEa3roVjuHJLzBEqtPffp0Pr1msPR84sChZNB6+N5xwVIxRZBAdcdrgqlcOdm2+K6w9G66KuLktfrDfpcERSbpEtO18fcuQAp3nDURV93OM+FVY9QY7lzSM6jvvHUAHQuL+h795rDUU+QUUmXnK6P5x2HwDFcj/haBV93OJ+4TxHZFrpUcZ7nnRLed5YotanbvON65ZrDVSd8x5nmMter3LnBdVP0uUev3K4n/nPnHpfJnVs0gEw4yz7vjPThDjG6HNw5qI+LNGsu33WHc7OtGAZdNp0VMe5wDJ6vz7lzUO1f4zXKqkDJ3LmsouHLkTinrztcgfJi0JUqnEpdAdy5KDxfz3PnPrGLpLZqxVts5gJHMUf/9HWHK1D1MuhaTJTPlVToRvLKrfE4QcByqU8C9IGkoEyKw44dAbtNctw0fw1HwBeSzSBm+/YbI7MJ9FwnF+7c2Lov9M/1usMhxwe9cbOtQgad1OHJoiTpRup57tzOOKvE064jcXXZ9jW7DU/qJPPXMJ7FSRx3Tl+dNgwAsG2gZO4c+ndE27+87nAe3BjhjZ9t1TLoWkyXoqQbqce5c2hhAUWAG7cfx24TgcHzt1TuHEbMFSAlXnc4an2U53WH22dXXG2rjkGnBJaWpEAj9Th3Du8v4O4AN24/jt1GgeFuMo07xwS4sBKvOxy2viTOsadu8rStXgZdK9g1pd2NXz3OncOsLWE1dXXZhCTH7RnJX+tQ+2ncuVudOGLEtpkcuHNAmdPEOTpvpQ4LKFfbamTQyeQtqgg0Um9z5+jx9OZjbjFeTXTXmuMm+WvWe72/m8Cds6BFxBBuJw/unOLnnYxlDOmW8ZMTT9tqYtAVrCg8X4HcuSH9fb/DQIfhyqB7RMLteuI/d+6xttw5/RktyU2tgdFop0Hh+Oau4xZnHkMR/SN+3oswbQH/SbpF+lYYem5gcucCn9ESO1+TGQUj369uSdtw9H4vqZHuM0uN8n7wqy418kzSLc63wtBzA5M7F/iMluQtgHkQ56OvrN5OhceY6J80dBBE4QlzSvCtMPTcwOTOBT6jJXkUYSPT2AyeBmfQ7y6x6NyK80az25jXdh7cI6bPO+4AKtswfS61xshIQx5Bkm8H9aHnBhF3zu4vTW0rLhwc7feJoOKgy41imhG7jXlto4guM33ecVOaMRR8EinTBYw0hLfsJfhWJXpuEHHnuntKk6KxHZCIXTVKDzzEZMOo+fMriV2n83mnVLvi83RdH+Gn8iPVtxrRc0OIO0cwlJLuXlU0ttvukkw2oWsbmvHmd94pKa+cdsg6W1N9qxE9N4i4c22rZ0e4+mb+1f5P0tiCC14CJhuJyWbEeBv5nXdK8HB+atmJ9LlkIXUOmXAJvlWJnrsIuHOVqLD3nRWNjT52kneJwOYliJuleG1YG7fzTinPOKXT7x1BjLTVrTTf6kTPPSrhztn+dXii5+hhA1pP/OfOPcaTO0djPsqzT5lRiFHJJhwpMb8kRG1HD66bKhwzW6kwsFyJYkjgQODOoYE0+LdNRC2rrq7rhOlypkbp+dOpybU5SnpWDliu2GL/10OBOwf1ZOKGFZllcVeu8ZghVB/dVUUeeYHlqhSbMRS4c7CzmRBdxVRAYbC0l+nETeaQQLBZ4CcBQKsndw5NcBZ+5ky0ZxVOMs5R2McMBe4ccVWkCvncmeQs9EeNMvQ5M/HkziFLz1mXjOmiPKt0knGuWuwMCe6c2YZFGQt0ehvzKQCbC33OTBy5c8TS81/Yv6o8q3SScc5ZPzS4c+XcvfzRH+VWADZ3eLJkN9rtOHLnyMsELdEtJFtPqPZJxkXZJMTYowJktSmXOwdedbKsKUbgfiAIELj3arfXVJEEb6IS4yVqxJS7xYThoB4yTlEJfBxEHxGVaMmlO0udII6nnnpKxa8tEGF3ZYA7J/6dCHF9l56CG9UEGuEOtTUvSJeW0sFyFhvE+sxSACzHdmqwHASyO15ahgB+eF/Xs1NMW3RC78nuyGyI7BbC8ZDnqlpWmzTu3FIwKyR3zsJQ3Lklbn/FnYNKjRfwNzltIeOlkENKWGfKQPiiIPCmAxhjqsob1JvqYCFQeOOluIa6ZBVGWNoaBLhOcY65MlxPqg9GgVGJwJoGqthJBMOtLLIZtyWuhGn5Puwj7AWN2gipF+jE8WL05GkgeqqaeYahSYPWMK7NhdzA6SEc741NcEOD5ah+EOWiWWqW/ipVc2UkxkybcagtRATUeOQEt9oYm4BaXiaIqK/uLJaE5yq7yEPBneMEpnYI5Yy+URhAmOO6PGWbPkYjWljEG96elwI3tE9WWFgmtpFA3Z+KvMUGtKRyThgRMDGwUVAsAeNS6kNbhQgnNthQ3BiXskK7KRyipFNZqL0PdAraE65CrEFctVAWBdwSmaHDF5sKOxysWDCLQ06LmKKaR7a0SqoIW5cC1sXmm/TrqXDTyRgCkasGx6C4ZSL9DTTRmNxQ5gbqINtA2i7rHiFpReoWxeul32RtU+qpsiUpZqxoshVL0bVQCRXlrqi0j4tp/sXYFKqNTiuXmGOcTmmepVDYMdV1sCy2y/JuGHAqLVbpTlI/Cu78jfHtKQA=\n",
 73 |       "text/plain": [
 74 |        "<IPython.core.display.Image object>"
 75 |       ]
 76 |      },
 77 |      "execution_count": 4,
 78 |      "metadata": {},
 79 |      "output_type": "execute_result"
 80 |     }
 81 |    ],
 82 |    "source": [
 83 |     "from IPython.display import Image \n",
 84 |     "\n",
 85 |     "Image(\"mysql_table_example.png\")"
 86 |    ]
 87 |   },
 88 |   {
 89 |    "cell_type": "markdown",
 90 |    "metadata": {},
 91 |    "source": [
 92 |     "### Semiestructurados"
 93 |    ]
 94 |   },
 95 |   {
 96 |    "cell_type": "code",
 97 |    "execution_count": 6,
 98 |    "metadata": {},
 99 |    "outputs": [
100 |     {
101 |      "data": {
102 |       "image/png": "iVBORw0KGgoAAAANSUhEUgAAAbAAAAFhCAYAAAARLP+gAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAADsMAAA7DAcdvqGQAACSXSURBVHhe7d3NceO6EoDRiUsBKY4JwTtH4a3XtxzEbCaCVxOEHhoEqEYDBEBJlAD7O1WseyWQAH+kbjU9JH9dAACY0K///e9/4X8BAJgHFRgAYEpUYACAKVGBAQCmRAUGAJgSFRgAYEpUYACAKZUrsL+Xy7tr+X0OrwEAGEyxAvvjEhfJCwAwsmIFRgIDAIyOCgwAMKWsAvPJy7379Te8AQDAgKjAAABT4m9gAIApUYEBAKZEBQYAmFL5ThxcyAwAGFyxAgMAYHTlCgwAgMFRgQEApkQFBgCYEhUYAGBKVGAAgCmNVYF9ni+/f/26/D5/Xv69nfz/v78ddVPGz8uHjHV6C6+f4EnbF+9nKdPHZ3gTAL6ZsSqwv2+X9xjUQ7A/NgC7JPbMBPak7eNCdAA/wVgVWAjwPqj7AH/K7or/dXIVjJtnmc6XP+F9EdskQcQKJ5kn9B+X//g0Ccy02+qs2b+TrN/pdHkv9F/bPvF1cgnITf/C671IYAB+gsH+Bian9UJQ98E+Tw7JKTdJAraCCpXN+r57vVQ5qm8vP4X45RKOTig+SXX3v8yv1+/POe0/WYfC9kUkMABom+dfIUrAP+fn2/6cTRXjEkqS5KLS+9JnTDChOlqrp3UySWarfy8kxa1ln4QEBuAnmOdfIR6dwCT52GqrpJrADDdvVsE9AQkMwE8wTwXm2FN8xaSzmWCkOkorInuKT143k1MlgWXrJwmskHRbOIUIAG1zXQdWOM13/Vd89vSdbXckoej287nwdzDV7qeY9Nr9by+7DwkMANqmqsDQhwQG4CfgThzfkE9g7qcJFzID+M6owAAAU6ICAwBMiQoMADCloSqw//77L/wfAAB1VGAAgClRgQEApkQFVvL3cnl3e4ZrqQBgXFRgBVwIDADjowIrIIEBwPiowApIYAAwPiowI96GKb3rPQBgNFRgBVRgADA+KrACEhgAjI8KrIAEBgDjowIrIIEBwPiowEq4kBkAhkcFBgCYEhUYAGBKVGAAgClRgSlUgAAwDyowAMCUqMAUKjAAmAcV2Eg+z5ffv35dfp8/L//eTv7/39+Ouinj5+VDxjq9hdcDOHr7G/1/nVybtKupPH7Yd64f689ZLW/a7+7/79vlPVn+fPkTmqK4XX4yx7Y5fqv/p34+gTYqMOXlFVgIID4ohGDxkcfIB3KBcqQEdvT2N/r/OqUBW4J0KUBLIvh4c32ZBOODunpPktkj+/frb99TfPJUx9P23xy/0f/zP59AHRXYSEKA8EHBB4hTdlf89Fd0GpBimwQYH0ztPKH/uPzHp0lgpn3rF3yp//j647wENt2m1da/Z/vF1+ni1s2NGV536+w/sgFfSJLwAVz6KiQwHdCzBGHs7b/4XsXu8Vv979x/wNGowJTX/w1MTh2FoOCDRRpgJPgnAUmCiK2gfGBxySG+714vQVX17YXTVGr5r1MakHxS6u4/zK/W2QbQ9vrXtz+6OYF19u8VgrnfvvheoX3pPybndN9mbunfr7Pqv7j+ah12jt/uf8f+A56ACmwWpYDj/DmnSUeSQvFXd+l96TMGuSx4bQSxrf4dCcC6Aknm7V3/QWTb4iR/3wqTTch6mX9v581tu6l/y42X/Z1MWau5gtL4mUb/wKtRgSmvr8Aqjk5g8uu69os92urf+U4JrHR6L1HYnu5j4dzSf651zLbbm+N7nZ8J4EWowCZiT/EVA8xm0HTzmmrK/+JXy9d+sa9uTWBO1/p3uP0UYqee5FGYp7X9qxv7t6dgZTxdIUm7Ht8f39I4G+O3+u/1zx1SnmqOZ6ACU4auwIQEHnOK6RqwJEGlbWm74wJq0n4+L8uoJCJBLJlnTXr1/n2w0++psdagWF3/fkcnsCwRGfpUX5qg7D4qVzm392+OT5b8zfgbPw5q49f778PjiPAsVGAAHuqD6gtPQgWmDF+BAaNzlR3VF56FCgwAMCUqMIUKDADmQQUGAJgSFZhCBQYA86ACAwBMiQpMoQIDgHlQgY0kXvx77nneUrho9caLTW+ya/1u0NN/4WLorQuGXyGut58KxyZpv+EuFy36QuTSsWmNry+ivqW9JS5/0+cmO/Zbxz18N25Yv137b9d3r3aReWzLb0WWzHv0929CVGDKyyuw8AX1H8rwYa3fqcJ98HcmsL574G3YvX477exfvsQPHf9OPjir4yHrlwQY2SbVLvM/cv2lv+t4S1BM+m+M74OiCvp721vW5d16JPull3w+OpKSJKHi89QaWvtP2qvHt4dsg+sju29m+Oyn+9f1r7+vR3//JkQFNpLwAfUfSv8B3fiQhyl7nlf4UMcp+XKZZeOUfAHsPLpv0Vq/4FnP65IAEtffB8e4rOODjXsd98HaXnteWWv7d7IBrhi0dgbZPfT+Ea3x7fx2/Vvt3dyx3V4uViOFH1od+2tNQpvzVvo37PZat2z/2qfdB2F91x+Y9rWQ99y6x+V5HhsVWOL1fwOTL1f4UPoPq/6SqTYvfBGTBPaZfCn9L1HzBaxVYO3ngdXW7+opz+tybIDJAo4JEn57VJ/yWrd3PQ+tKRwXe2ycYgK5M0luc+uxe3y17oX1b7d3uieB6fHNPP54xaQl896VwPL9t1D74Ibtv37/TP9xfcO+idVt+n2Vsfu/Hz8BFdgsSl96G4CyL/iOBFZYdplG+ZLIlzddF5uw7OtSAttsP2D701NST0xgYVvssW+O7/ZHuj/N88xa7b1Kn+VbuH7sKU17/G4aZ2P/Wfb4NhXWdx1DxvRtIUGG41L7wQkqsMTrK7CK0pc+CUDq11mQBWxn+wthfhEOJ09gSQBw7kpgh2x/2qdd32vQehzZxq1TS63xswRn9l+rvduty2Uqx+zGfVvbf7l9nxnZ/zbBFitGdSaFBFZHBTaNcgBfT2MkycyR1+4LkgQsJzlN5gKJrjCkv0cElqMedyKnRNf189uXBhoJPml7uj2tBHfv9ttTtv746CDq1unDjGePz3JMzHKdks9DSWP81v5ptXerLiefc7cdhco3Of6OTzZb+0mOf7Ftu//W/mse36pyslsT1Mb63pLAftLz2KjAlKErMBGDW5zM87z8F3ptd8HG/WKW/7dB5zpPOUhc28vztBz5vC69fsl2iZC0lnaX3N6WbZWgp/eNX07tBx0U79v+GBzDVAxYqr0QsHxQ7K4AlGTbr5PdR/Xxzfpn295qr1u2zUzZPtpOMCJZ/41ko8fJE+VG/137r318i+zn0q+S3ZemPVlm7352378f8kQAKjBgIBKgt6sToO0nPY+NCkwZvgLD9+Z/de/7tQ0kXMX4k57HRgUGAJgSFZhCBQYA86ACAwBMiQpMoQIDgHlQgQEApkQFplCBAcA8qMBGEi+uPY/5vJ/lItL2RbZyIemQ1zIdvX8r/acXmetp2Z/x4tvi/OqC2eT9woXQu9oLF+ImFxsXltcXEpf2XWt5u52JwT//GA8VmPLyCixcfe+/tOHLnN9J4bXXCdk7tk+lY//epdK/BOQYjCWIx/f1/pR7DWbPf9JJRvpUr3U/XqPdJw+TDJMEUVhet6evlztJtMbXy/ukJEnNzZeMGx19fPDtUIGNJHyB/ZfWf4FVsght8qXWk/6Cx1/HEgCuv7RVQAxBIU6lIOKDXJzHBSObsOLra/8yLWPo92zfsa36PK7k9jpunMKtoOrLX/dBsb22f5Wjn2cm+7gUmP3NcmWbY+Ui/SUJwfQn7arKabVbsk/1cZLX6Xq546HGt+z83cu7fVP67PXuPyCiAlNe/zcwCeDhS+u/zKUAnb+XiEkqBg73eg0qjeeF+eSlAt6SNNIgkiaw8rpIWylA2WXsfMn6hGBmA2xr+WRc2RdJAG3vX3H088yqCcwtuyYi6aOVwHa0L2QdQ4K3bWZ/2f2dKiSn3uXdfKXPx7Ju7f0HRFRgk+lJYOXg4PigEIJXmK6BtBCQCtYKpzKvTSyRvJ8Ebr2uhWBr+2kuX6g2sqA+gFYCW/eF2SePSWBXsh72OC1J53qMi5836Tf57Fx1LV/7jAI7UIEpr6/A2m5PYOrXbZAmhP4EtpzG214Pm3iiZgKy45ttaS7/XRKY47f1zSYos5zZ5lZ7rnXM83ZZr/5Texv9k8DwIFRgk0n+JuUCQZZItoKDTRDy2vyKzn+RS9JL51nHL40d3JTAnPzvbfkpxD3L+/WvBuiyIx8HI3oSWNz3SaXrjln1eWKN9uQUrSPtpX8pGNnl/fw79me2ftHWZ7TTT3reFeqowJQZKrAlcYRTNEkCCQHPTDqALL+eY5tLBi5g2nnWU4RhytuWIOuDWZhnCUbl8eM66rF9n2o71mAWkur6vktIse2W5dd5dzoqgaX7X6br8cv3pyPbaBJGcnwKyafebo6RTUbJZ8tNevnCvpUp2b+15R29jet0ww+Mn/S8K9RRgWFYEvDXYA4EP+l5V6ijAlOmqMC+uaSCuOHXOb45V9RRfSGiAgMATIkKTKECA4B5UIEBAKZEBaZQgQHAPKjAAABTogJTqMAAYB5UYCOJF4Kex34eklyQ2l6vwp0kjt6+jv7jxbRb47bak4uRzYW6V2HbbXt2MXB+F5XY78jHHxgFFZjy8gosBDgftEIwu+VOEvdo3mtxFxfIdQI7evsa/fukIEnFtZUSQ6vd96m2R5Jdaf3lWjZ/H8NSArPvaQMcf2AmVGAjCQHMBy0fwOy9/a4Vgp9cME0fb3INeFuVRHqh8Ol6f8Qw9toWpiwBhPeLAd708fFZTmC17RNHP49L2orrH220F+/2bhKS7He/bKGt+J7Wu/4APCow5fV/A5NTTyFo+WCWVkM+KakAuCSUa5CT1zrh2EAs7fq1708nGKenArP9LNS6e+E0WtJ/ffuio5/H9dAEprbPH494fKStlMBkn6yTXb/O9QfgUYFNwwU3k2ysVgJbAmQtgN6RwEpB3wT4YRyUwJLqOEytcfQPEgD7UIEpr6/Aah6RwAwJoKZPEpiz0S4JKtm/sn1bCajWtmofUwDbqMAmsv59ZbVUVDGoJolFAqipALLnZUkCM0E2mUfaC1VaMYH5dUnnLZ2i7HH087huTWCyT6vP49IKCUz+/qj7lf14SwXG87CABRWYMnYFtkj+EYZKXl5IWkubS0RvkoCuQdMuW0pOS9IqtdvTj4V5kmXddD4vy+xMYkclsNIpPr1urXaR7MON5KP7sYkw/Uc0+5O74HlYwIIKDJgMz8MCFlRgygwVGH44V/RRfQELKjAAwJSowBQqMACYBxUYAGBKVGAKFRgAzIMKDAAwJSowhQoMAOZBBTaSeCHwmedB3eRJ+89fSOy+OTJt3okDwOGowJSXV2D69k8hGD87QD72eWBP9qT9x50wgDFQgY0kBGAfdH0ANvcudJLbHZ2e+zwwkd6OKiS7uKzrb7ndlHs/VkP6VlN2jI3bNMk6x+1Jb2dVWX/Rsf/EvbeqIoEBY6ACU17/NzC532AIuj4Yp8HbJyV1/70lyF+DtLxOEo4L4jqBSbt+7fvLkkg6pibJI0mIkiRMArwmj6UfvU72ZsJ+/c34y7JqvdzruHx7/ev7LyKBAd8DFdg0XHC2wd5oJbAlwLugv055gN9MYJIQCjevXZ+RJe0q6cREu65TSHDXsTfWIVtnrb3+z0ACA8ZABaa8vgKreUQCMyTRmD4PS2Ad6++11lkrrP8zkMCAMVCBTUROmZUqquIptlDx6PnvfR5YtrxOSs0EVlr/gkoC61n/HpxCBL4HKjBl7Apskf4jCvOPLJLTdC7YP/R5YE7S/zL58fX7klBCHzKuJLB1Pmd7HezpwWXS29e1/h1IYMD3QAUG7EQCA8ZABabMUIHh9XwCcz/9uJAZeC0qMADAlKjAFCowAJgHFRgAYEpUYAoVIADMgwoMADAlKjCFCgwA5kEFhtzfy+XdfTK41gnAyKjAFCqwBRfqApgBFRgyJDAAM6ACU6jAFiQwADOgAkMi3iYpves8AIyHCkyhAltQgQGYARUYMiQwADOgAlOowBYkMAAzoAJDhgQGYAZUYAoVWMCFzAAmQAUGAJgSFZhCBQYA86ACAwBMiQpMYXwqQADzoAIDAEyJCkxhfCowAPOgAsM4Ps+X379+XX6fPy//3k7+/9/fxrsp459zz3p9Xj5kW05v4bVz9PZ19C/rXhu31R77jeOUhW237X/fLu9xWT+dL39CkzfJ8cc4qMAUxn9xBRYCnA9aIZh9bMXIg3ydTFC9iwvkOoEdvX2N/n1SkKTi2kqJodXu+1TbI8mutP5fJ/f+m1uXUgKz72kDHH/MhQoM4wgBzActH8BO2V3xY4XgJxdMv07LPPEXewx4W5WEBNfr8qfLewzIYey1LUxZAgjvFwO86ePjs5zAatsnvk4Xt25uvPC6W2f/0lZc/2ij/c/Z9CfjmYQk+90vW2grvqf1rj8QUIEpjP/iCsyfegpByweztBrySUkFwCWhXIOcvNYJxwZiadevfX86wTg9FZjtZ6HW3Qun0ZL+69sX3ZzAOvt/aAJT2+ePRzw+0lZKYLJP1smuX+f6AwEVGCbhgptJNlYrgS0BshZA70hgpaBvAvwwDkpgSXUcptY4+gcJsBcVmML4r67Aah6RwAwJoKZPEpiz0S4JKtm/sn1bCajWtmofU6CGCgzTWP++sloqqhhUk8QiAdRUAPHvZStJYCbIJvNIe6FKKyYwvy7pvKVTlD1uP4XY6cYEJvv0Q72fJTStkMDk74+6X9mPt1Rg/9wu5anhEFRgCuOPXIEtkn+EoZKXF5LW0uYS0ZskoGvQtMuWktOStErt9vRjYZ5kWTedz8syO5PYUQmsdIpPr1urXST7cCP56H5sIkz/Ec3+5C543A8iKjAAU/mg+kJABaYw/vgVGH44V/RRfSGiAgMATIkKTGF8KjAA86ACAwBMiQpMYXwqMADzoAIDAEyJCkxhfCowAPOgAsM44oXA5/rzoOwFt5t3g3i2zvW/WUf/6YXG58fequno7QN2ogJTGP/FFZi+/VMIlllyknkeGZQfqWf979HoX5KKTig+0T9yXx29fcBOVGAYRwiQPij6AJneu7B2q6NYEXy4quPabm4VFYJunNZgH8aV54Mtt4tyy63zqj7ifHGyyaGx/tFRz/uyCUxb909IOHFfJvM/aPuAZ6ECUxj/xRWYv99gCIo+WJoEJOT9japiCdLXZbKA/vmZ9Cen22JAz4Pz0o/0EeexNwP24yXr0rH+zpHP+6rda1Bvi+e2U++fR20f8CxUYJhLI4HVAnRMUmuAd1OSwGK/ksDCjWrXPgvLLtO4QdwmoOr+mXD7ACowhfFfXYF1uDmBqeohSOZvJTBZfmPccck2XxNQc/9Mt3346ajAMJdbE5hdLlQc/Qls+btRUtHd6JjHpeQJ2m9T2A4h22IrLr09j9o+nteFZ6ECUxh/7Aos+ftOnFSiie/5hCNJKLyOQVnPI/8A4eO8vP54W4K5f1/6C8vKcnGZmMTyddh/iu24BGbXrZDQdJt5Xpp4xPbxvC48CxUYgIfieV14FiowhfHHrsAwAVepUn3hWajAAABTogJTGJ8KDMA8qMAAAFOiAlMYnwoMwDyowAAAU6ICUxifCgzAPKjAMI548fG5/LwpfSHyI+4Y8XCN9b9brX914ba9kHu928iD2KcC2P5vvaPHvuMbLtzWd1c5ev9jOFRgCuO/uALTtzcKwagUfCU4DRmYOtf/Zo3+Zb8k48k8cmeRHb5OjTtvyDocfM/E/uNr7t949P7HcKjAMI4QgHzQ8QHI3AopKAW4+Iv7pz8PrJrAtrZf2G0Lk+7PVl5+UvsgHgOZigmotf+CzQRmlv/4LCew1v7H90EFpjD+iyswfUNaH4zK1cBWgFsC6HWZbL5v/jywZftVgnBT9/YHj6jAsv0etPffory82nZPXrttvGH/4/ugAsN0tgKkvJ8EZJeIkvlCktIBPklgMRiqymXts7DsMo0TJO/a/uCwBLZj/xWXt9siOtYF3xsVmML4r67A+hQDnFMP4PYXvJlfB8NSApPlBw+Wd21/cFwF1r//isuTwFBABYbplANkI4DbYCevXQXQn8Ae97ysYx6ncuf2B8lpPtkPtkKy/RRsHZ/e/VdeXhJwui7+b3I3JDCeV/Z9UIEpjD9yBSYBzJ5+kmkJahL04ns+KPvgu7yOwVDPI3/g/07PA7tr+3USU8vZbcu33U3rPxKpH59oe/91LJ+sm5vO52WZnUmM55V9H1RgAH4Unlf2fVCBKYw/cgUGPIArGKm+vg8qMADAlKjAFManAgMwDyowAMCUqMAUxqcCAzAPKjAAwJSowBTGpwIDMA8qMIwjXqh6fsTznMKFsZsXubbaX+Ch21/Q0X+843x93LDv1ouYr5KLpQvtyR3tC+0tyYXQciFz4fht3fFDr9tD9+sD9WzfsI7+/BZQgSmM/+IKLNzeyH/ow5fB3upoHxdoqwGg1f5kD99+o9G/DzqSVFxbLfBIkPV3L7EJSPpU+1MSSXaXD9O+J8DJ+un5fTK84fjZfkbRs33Ne1UerDr+0Z/fAiowjCN8AfyH3n8B0pvPxi9FnLIgFJaP7VvPi9pqj79+pd/4CzK5lZFZvhQ8k1/QJxeQsgBUaW9tf3DU88RWrm0rwK9JR/oyCezP2fRn5pF9mga0fT8gWonneszqibHUj08Weln9WYvr2Dj+zc9PQ3X77Nhh0vvz7s9vrb1j/DhP8/P1QFRgCuO/uALzp6bCh95/GcyXv/o8K7WsJ6/1l7DVHsTAFd93r+MYredZ2QBkf0G32pN1LG1/cNTzxFYbCcxvb0xIsnxPAtPbJ/vW7I89AV6kPwD0vruy+9naas/el/VV29j1PLPK56dHa/uaFVhl/Nb692xfffzOz9cDUYFhHv5Lob7gblqDg/uiZkFJB9BWe1SaTxTGXib9JQ1JsdgmWu2D2NgHukqJk56vmcAcHxTj8q7tnlNixQTiyPvFYxhst8vxua5PEtC7jr+z9fm5wf4E4tz6+e3cvnuO1xGowBTGf3UFVqN+3QXyBX9aApPxC8GyyvVVCrCrVvurbO4DRfZdVoEVTimZeVI37NNEmnCi2xOY+kzJsUnWvXNde/Zdt3z7bk5gzfXv277hElj4LzA2m2zktfuFeA2Y+Zc9PUXXag8qAUjmrwUnewrGBsFWe6+jnie26gnCpeTk3vtQy2UJzWi1p+T4FSq8wv67J4H5cdxnIjtWTuv4ez37rqhv+5L1ks+PTeCV8Vvr37N9zfE7PPJ5bFRgCuOPXIEtged6aqPwPCv/hYrtbrLPi6q2SwBRbWGyATb5G4Wfrl/gWptotfc6KoFJAEvXz002wTt6Phvwkm20ySXb/3ny2VY6Pjrgl4/fdR+32q/852xj3baPYd/nZ1tr+4JkH+p17xv/7s/o5vj9Hvk8NiowAMDTPPJ5bFRgCuOPXYEBmJyrCB/5PDYqMADAlKjAFManAgMwDyowAMCUqMAUxqcCAzAPKjAAwJSowBTGpwIDMA8qMIwjXiR5vu95Ql13TLjFg9ZvU7V/c6Fq4QLjmthf7cLaOE867lHC9ujtOHr/4tuhAlMY/8UVWLg9lA9aIZj138mgz133cjt6/Xr6l3lc0M9unNtBkkLP+sp8z0kcLonpBPaE44/vhQoM4wgBzActH8DyIJ3c7sgFP31vtmoFEfpelw3TGiDX9kJ/Mch2rJ848nldaxJy7aUkk9wKyO0bff9Iv6w8iDK2b9wKaDOBhaQSJz1P3FcfZz2P6d8cg63ntbX2LxBRgSmM/+IKzJ9WCkHLB7M0APrkpe5RtwTNcpAvBmCnWoEVkkI6f339oiOf13VdHxP8Hbvdfn+ZBGYTdGk/be6/6vPYYv/XdU77Udvmyet0/Xq2H9CowDCJPGBv2QzATusUYtK+UeW8jFQlKoFLgtIJZE0K65Ruq+yXZP6N7dvcf6FCuvafJ7DN/ktjSX+dxxQooQJTGP/VFVjNcxKYDrTNeZ8sOX0aJ5XQMpLwTAV2ewJT1VFg+yOB4dmowDANCeBpEFwqjiRoOvUEpoKwBPit03Qbwb3HMY87KSdwnWSzZ1jJ9plTrjcnMJtsQjXWncD8sUr3tT3F2euRz5PC3KjAFMYfuQJb2OcVXQPmksx02zKZBOWT1kZb5OfZaOvw8ASWnLqLSUpv7/Je7VlOklzi+36fqf2wJJn2/tN9yJj6eWzt/tP3/GSf19bpkc+TwtyowADLBdpSZYIxPPJ5UpgbFZjC+ONXYEeyf2NKTodhDO6YUH0hogIDAEyJCkxh/J9dgQGYCxUYAGBKVGAK41OBAZgHFRgAYEpUYArjU4EBmAcVGMYRL3Sd9XlQR69/pf94CUB8nVx0fHpLX+tJX0Q8+/7Hj0MFpjD+iyuwcMcJHzRDMN17Lda99y+8a/kHrH9Vo395Rti7Xn+ZXyUoSUpJQjLth68/8GBUYBhHCKA+aPoAau7t52w+7yosu7aFKQnAISjHKQvmqi1OyfJ2Hh38Rcf6i6OeF+Yfcvnm3o/3P5T5iwmsfF/F3vUHRkEFpjD+iyswfz++EDR9ME2rIVtBlG4GW62gGs+zErXl7c1y/Wm2ZPz6+kdHPS8sPqV5fVpzIYFtJl+vb/2BUVCBYSISYEMA9lMeYKsJzAdlvfyOBFZYdpnGCfJZ4ioksGoFBkyGCkxh/FdXYDvJaS4TiLcTmKouAgno/RXY+EF/TWCO37a3rQQGfA9UYJhG63lXYvN5X6YaiRVVnsA2lnfy55Hd5pjnhaUJbEnYrkJsJLBqxbqB53FhFFRgCuOPXYHVnne18kmn3C4B/NqWPs9qVVledK1DwxEJTN9Jf01Ssi0hgaXbrqf968/zuDAKKjAAu/A8LoyCCkxh/LErMAzAVatUXxgFFRgAYEpUYArjU4EBmAcVGABgSlRgCuNTgQGYBxUYAGBKVGAK41OBAZgHFRjGES8ivvN5VDffMeNB42/q7b9yMbW+YNnehUQkFyzf225vnXX0/gF2ogJTGP/FFVi4vZMPiiFY2ls9Hero8Tv6XxJD+e4Yvk0lHUlm2V1EVNLZ2+6TY+3WU68+PoBBBYZx6PsT+gCZ3vswqQ7iZAJufD8JvM5yCyjXnzwva10+7b81fnTU87x8u616FNk+nTBsgknvhehIf0nCq7dbWwmstX+AZ6ECUxj/xRWYvmO8D5ZpJZIEcN9eDqBZ4A2WJKb6zMaojx8d9TwvSQrvZzdtJdh4g944mWRXTFBJxVVvX6gxim3t/QM8CxUY5uODpw3uV7UEpisYkSTFF5N1kcSxrrtNMC7BpRXYOdkHj0lgV3JKsbQfgVFQgSmM/+oKrEMjeYntBJYvN1wCMwlFr3OWgKRiU9uZ/c1L9lXtb2amPecqrkqCA16NCgzzyJJXOcBuJ7D8tNgtz8M66nleIq0S0+3Lkq1JYLJ/PhoJrdZuK1RpL/1LRWAUVGAK449dgfmAGv8+k/2dRv3tJpmuCUqqmfgMsDjdcorsyARmtyNJQNk25sl3+TtfmArJp95u+qf6wuCowPBjlE4hApgXFZjC+GNXYPdIKg8qC+BboAIDAEyJCkxh/O9bgQH4fqjAAABTogJTqIAAYB5UYACAKVGBKVRgADAPKjAk/pwvl9/uU8H1UgBGRwWmUIEtfBJzEwCMjAoMGRIYgBlQgSlUYAsSGIAZUIEh97n8HYwkBmBkVGAKFdiCCgzADKjAkCGBAZgBFZhCBbYggQGYARUYMpLA3nniCIDBUYEpVGCh+nI/a/Y+Zh8Ano0KDAAwJSowhQoMAOZBBQYAmBIVmEIFBADzoAIDAEyJCkyhAgOAeVCBjSTeg1AmLiQGgCoqMGWUCow7YQBAGxXYgEhgANBGBaZQgQHAPKjABkQCA4A2KjCFCgwA5kEFNiASGAC0UYEpVGAAMA8qsAGRwACgjQpMeXkFxoXMANCNCgwAMCUqMGWUv4EBANqowAAAU6ICAwBMiQoMADAlKjAAwJSowAx/DZbbK19/wxsAgCFRgRVwITEAjI8KrIAEBgDjowIrIIEBwPiowEriLZ1IYgAwLCqwAiowABgfFVgBCQwAxkcFVkACA4DxUYEVSAJ7fwsvAABDogIzfPXl0vqf8BoAMCYqMADAlKjAAABTogIDAExpqAoMAIBeVGAAgClRgQEApjRWBRbvQSgTFxIDACqGrMC4EwYAoGXIv4GRwAAALVRgAIApUYEBAKZEBQYAmBIVGABgSlRgAIApUYEBAKY0VgXGhcwAgE5DVmAAALQM+TcwAABaqMAAAFOiAgMATIkKDAAwJSowAMCUsgrMX4Pl3v36G94AAGBAxQqMC4kBAKMr/g2MBAYAGB0VGABgSuV/hRhv6UQSAwAMigoMADAl/gYGAJgSFRgAYEqbFdj7W3gBAMCAsgrMV18urf0JrwEAGFH5XyECADC44t/AAAAYHRUYAGBKVGAAgClRgQEApkQFBgCYEhUYAGBKVGAAgClRgQEApkQFBgCYEhUYAGBKVGAAgClRgQEApkQFBgCYEhUYAGBCl8v/AcT/DldEapajAAAAAElFTkSuQmCC\n",
103 |       "text/plain": [
104 |        "<IPython.core.display.Image object>"
105 |       ]
106 |      },
107 |      "execution_count": 6,
108 |      "metadata": {},
109 |      "output_type": "execute_result"
110 |     }
111 |    ],
112 |    "source": [
113 |     "Image(\"ExampleJSON.png\")"
114 |    ]
115 |   },
116 |   {
117 |    "cell_type": "markdown",
118 |    "metadata": {},
119 |    "source": [
120 |     "### No estructurados"
121 |    ]
122 |   },
123 |   {
124 |    "cell_type": "markdown",
125 |    "metadata": {},
126 |    "source": [
127 |     "Beautiful is better than ugly.\n",
128 |     "\n",
129 |     "Explicit is better than implicit.\n",
130 |     "\n",
131 |     "Simple is better than complex.\n",
132 |     "\n",
133 |     "Complex is better than complicated.\n",
134 |     "\n",
135 |     "Flat is better than nested.\n",
136 |     "\n",
137 |     "Sparse is better than dense.\n",
138 |     "\n",
139 |     "Readability counts.\n",
140 |     "\n",
141 |     "Special cases aren't special enough to break the rules.\n",
142 |     "\n",
143 |     "Although practicality beats purity.\n",
144 |     "\n",
145 |     "Errors should never pass silently.\n",
146 |     "\n",
147 |     "Unless explicitly silenced.\n",
148 |     "\n",
149 |     "In the face of ambiguity, refuse the temptation to guess.\n",
150 |     "\n",
151 |     "There should be one-- and preferably only one --obvious way to do it.\n",
152 |     "\n",
153 |     "Although that way may not be obvious at first unless you're Dutch.\n",
154 |     "\n",
155 |     "Now is better than never.\n",
156 |     "\n",
157 |     "Although never is often better than *right* now.\n",
158 |     "\n",
159 |     "If the implementation is hard to explain, it's a bad idea.\n",
160 |     "\n",
161 |     "If the implementation is easy to explain, it may be a good idea.\n",
162 |     "\n",
163 |     "Namespaces are one honking great idea -- let's do more of those!"
164 |    ]
165 |   },
166 |   {
167 |    "cell_type": "code",
168 |    "execution_count": null,
169 |    "metadata": {},
170 |    "outputs": [],
171 |    "source": []
172 |   }
173 |  ],
174 |  "metadata": {
175 |   "kernelspec": {
176 |    "display_name": "Python 3",
177 |    "language": "python",
178 |    "name": "python3"
179 |   },
180 |   "language_info": {
181 |    "codemirror_mode": {
182 |     "name": "ipython",
183 |     "version": 3
184 |    },
185 |    "file_extension": ".py",
186 |    "mimetype": "text/x-python",
187 |    "name": "python",
188 |    "nbconvert_exporter": "python",
189 |    "pygments_lexer": "ipython3",
190 |    "version": "3.7.6"
191 |   }
192 |  },
193 |  "nbformat": 4,
194 |  "nbformat_minor": 4
195 | }
196 | 


--------------------------------------------------------------------------------
/b_Web_scraping/Web_scraping3.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |  "cells": [
  3 |   {
  4 |    "cell_type": "markdown",
  5 |    "metadata": {},
  6 |    "source": [
  7 |     "# Web request 3"
  8 |    ]
  9 |   },
 10 |   {
 11 |    "cell_type": "code",
 12 |    "execution_count": 2,
 13 |    "metadata": {},
 14 |    "outputs": [],
 15 |    "source": [
 16 |     "import requests\n",
 17 |     "\n",
 18 |     "response = requests.get(\"https://elpais.com/america\")\n",
 19 |     "response.encoding = \"utf-8\""
 20 |    ]
 21 |   },
 22 |   {
 23 |    "cell_type": "code",
 24 |    "execution_count": 13,
 25 |    "metadata": {},
 26 |    "outputs": [],
 27 |    "source": [
 28 |     "import bs4\n",
 29 |     "\n",
 30 |     "soup = bs4.BeautifulSoup(response.text, \"html.parser\")"
 31 |    ]
 32 |   },
 33 |   {
 34 |    "cell_type": "code",
 35 |    "execution_count": 17,
 36 |    "metadata": {},
 37 |    "outputs": [
 38 |     {
 39 |      "name": "stdout",
 40 |      "output_type": "stream",
 41 |      "text": [
 42 |       "/america/sociedad/2020-04-26/coronavirus-en-america-ultimas-noticias-de-la-covid-19-en-vivo.html\n",
 43 |       "/elpais/2020/04/26/opinion/1587936011_470867.html\n",
 44 |       "/internacional/2020-04-26/donald-trump-vuelve-a-ser-su-peor-enemigo-en-la-gestion-del-coronavirus.html\n",
 45 |       "/internacional/2020-04-27/el-virus-acecha-a-los-pueblos-de-desierto.html\n",
 46 |       "/internacional/2020-04-27/la-odisea-de-los-agricultores-de-bolivia-para-abastecer-a-las-ciudades-durante-la-pandemia.html\n",
 47 |       "/sociedad/2020/04/07/actualidad/1586251212_090043.html\n",
 48 |       "/sociedad/2020-04-25/espana-tras-la-cuarentena-asi-sera-la-nueva-normalidad.html\n",
 49 |       "/sociedad/2020-04-26/italia-iniciara-el-desconfinamiento-el-4-de-mayo.html\n",
 50 |       "/sociedad/2020-04-26/los-ninos-salen-por-fin-a-la-calle-todo-le-parece-mas-grande.html\n",
 51 |       "/cultura/2020-04-26/timothy-snyder-esta-crisis-puede-acabar-por-restar-atractivo-a-los-autoritarismos.html\n",
 52 |       "/elpais/2020/04/27/opinion/1587940413_179372.html\n",
 53 |       "/sociedad/2020-04-27/cine-desde-el-balcon-en-barrios-de-bogota.html\n",
 54 |       "/internacional/2020-04-26/saqueos-protestas-y-colapso-economico-la-crisis-del-coronavirus-se-ceba-con-el-interior-de-venezuela.html\n",
 55 |       "/economia/2020-04-26/el-bid-se-alia-con-el-empresariado-mexicano-para-abrir-una-linea-de-credito-de-12000-millones-de-dolares.html\n",
 56 |       "/internacional/2020-04-26/uruguay-inicia-un-maraton-legislativo-para-achicar-el-estado-y-endurecer-el-codigo-penal.html\n",
 57 |       "/sociedad/2020-04-26/test-en-islandia-y-prudencia-danesa-la-lucha-contra-el-virus-en-los-paises-nordicos.html\n",
 58 |       "/internacional/2020-04-26/la-implementacion-de-los-acuerdos-de-paz-es-muy-ambiciosa-muy-dificil-y-hay-que-insistir.html\n",
 59 |       "/cultura/2020/04/21/babelia/1587485957_898184.html\n",
 60 |       "/cultura/2020/04/22/babelia/1587545195_247967.html\n",
 61 |       "/cultura/2020/04/24/babelia/1587744781_287962.html\n",
 62 |       "/internacional/2020-04-25/bolsonaro-vs-moro-el-amargo-divorcio-politico-que-conmociona-brasil.html\n",
 63 |       "/internacional/2020-04-25/la-retirada-parcial-de-argentina-congela-mercosur.html\n",
 64 |       "/sociedad/2020-04-25/los-ancianos-en-las-villas-miseria-de-argentina-entre-el-miedo-a-salir-y-la-necesidad.html\n",
 65 |       "https://suscripciones.elpais.com/para-conocer-america/conversaciones/isabel-coixet/\n",
 66 |       "https://suscripciones.elpais.com/para-conocer-america/conversaciones/raphael/\n",
 67 |       "/internacional/2020-04-25/el-exito-de-la-canciller-cientifica-que-encandila-al-mundo.html\n",
 68 |       "/internacional/2020-04-25/china-envia-medicos-militares-a-pyongyang-entre-crecientes-dudas-sobre-la-salud-del-lider-norcoreano.html\n",
 69 |       "/internacional/2020-04-25/la-plaga-se-ceba-con-los-temerosos-de-dios-en-israel.html\n",
 70 |       "/internacional/2020-04-26/arabia-saudi-estudia-suprimir-la-flagelacion-de-su-sistema-penal.html\n",
 71 |       "/internacional/2020-04-26/los-separatistas-del-sur-de-yemen-proclaman-la-autodeterminacion.html\n",
 72 |       "/sociedad/2020-04-26/el-plan-de-la-desescalada-capacidad-para-doblar-las-camas-de-uci-y-doble-circuito-de-entrada-en-atencion-primaria.html\n",
 73 |       "/sociedad/2020-04-26/el-gobierno-aclara-que-los-mayores-tambien-podran-pasear-a-partir-del-2-de-mayo-si-descienden-los-contagios.html\n",
 74 |       "/economia/2020-04-25/si-las-empresas-no-devuelven-el-dinero-por-servicios-no-prestados-se-las-tendra-que-sancionar.html\n",
 75 |       "/economia/2020-04-25/la-economia-de-mexico-se-descompone-a-pasos-agigantados.html\n",
 76 |       "/economia/2020-04-25/la-gran-reclusion-dinamita-el-mercado-petrolero.html\n",
 77 |       "/economia/2020-04-25/boeing-da-por-terminado-su-acuerdo-con-embraer-para-crear-una-filial-conjunta.html\n",
 78 |       "/economia/2020-04-24/y-el-ganador-de-la-crisis-es-jeff-bezos.html\n",
 79 |       "/economia/2020/04/21/actualidad/1587428023_390182.html\n",
 80 |       "/economia/2020/04/20/actualidad/1587350985_318353.html\n",
 81 |       "/sociedad/2020-04-25/no-estamos-listos-para-la-incertidumbre.html\n",
 82 |       "/sociedad/2020-04-24/nadie-da-la-cara-el-hospital-mexicano-que-sospecha-que-el-coronavirus-se-colo-por-la-sala-de-urgencias.html\n",
 83 |       "/sociedad/2020-04-24/directores-musicos-y-bailarines-del-teatro-colon-en-la-batalla-contra-la-pandemia.html\n",
 84 |       "/sociedad/2020-04-24/el-gobernador-andrew-cuomo-asegura-que-el-21-de-los-habitantes-de-nueva-york-ha-estado-infectado-con-coronavirus.html\n",
 85 |       "/television/2020-04-25/un-heroe-griego-para-un-mundo-que-no-cree-en-heroes.html\n",
 86 |       "/cultura/2020-04-25/mastropiero-sigue-adelante.html\n",
 87 |       "/elpais/2020/04/23/eps/1587663959_191784.html\n",
 88 |       "/cultura/2020-04-24/el-exilio-mas-cruel-y-triste-para-el-poeta-romano-mas-mundano.html\n",
 89 |       "/deportes/2020-04-24/laliga-comunica-a-los-clubes-que-los-test-y-los-entrenamientos-se-retrasan.html\n",
 90 |       "/deportes/2020-04-24/un-draft-desde-el-sotano-de-casa.html\n",
 91 |       "/deportes/2020-04-24/silencio-el-futbol-esta-pensando.html\n",
 92 |       "https://mexico.as.com/mexico/2020/04/24/futbol/1587752132_919224.html\n",
 93 |       "/verne/2020/04/25/mexico/1587780540_844721.html\n",
 94 |       "/verne/2020/04/22/articulo/1587550943_674034.html\n",
 95 |       "/verne/2020/04/24/mexico/1587740584_975726.html\n",
 96 |       "/ciencia/2020-04-24/en-busca-de-metodos-para-identificar-el-riesgo-de-los-pacientes-mas-alla-de-la-edad.html\n",
 97 |       "/tecnologia/2020-04-25/se-buscan-donantes-de-voz-para-capturar-los-sonidos-de-la-covid-19.html\n",
 98 |       "/retina/2020/04/23/tendencias/1587638384_219976.html\n",
 99 |       "/gente/2020-04-25/el-misterioso-silencio-que-rodea-a-melania-trump.html\n",
100 |       "/gente/2020-04-24/al-pacino-el-mito-de-la-interpretacion-cumple-80-anos.html\n",
101 |       "https://smoda.elpais.com/moda/probadores-restringidos-aforo-limitado-y-desinfeccion-de-cada-prenda-asi-funcionan-las-tiendas-de-moda-que-han-reabierto-en-el-mundo/\n",
102 |       "/gente/2020-04-24/el-agridulce-aniversario-de-iker-casillas.html\n",
103 |       "/elpais/2020/04/23/somos_antartida/1587643290_622896.html\n",
104 |       "/elpais/2020/04/19/mamas_papas/1587284749_373590.html\n",
105 |       "/internacional/2020/04/24/mundo_global/1587726301_236904.html\n",
106 |       "/videos/2020-04-24/la-cara-de-la-coordinadora-sanitaria-de-trump-al-escuchar-su-solucion-al-coronavirus.html\n",
107 |       "/elpais/2020/04/18/album/1587227884_172211.html\n",
108 |       "https://plus.elpais.com/newsletters/lnp/1/386/\n",
109 |       "https://escuela.elpais.com/inscripcion-al-master-de-periodismo-2020-2022/\n",
110 |       "https://plus.elpais.com/newsletters/lnp/1/254/\n",
111 |       "https://english.elpais.com/society/2020-04-24/daily-coronavirus-deaths-in-spain-fall-to-367-the-lowest-figure-in-a-month.html\n",
112 |       "https://english.elpais.com/spanish_news/2020-04-24/experts-spain-will-scale-back-confinement-at-different-speeds.html\n",
113 |       "https://english.elpais.com/eps/2020-04-24/la-paz-a-madrid-hospital-at-war-against-covid-19.html\n",
114 |       "/economia/2020-04-24/combatamos-la-pandemia-de-coronavirus-sin-postergar-la-recuperacion-de-america-latina.html\n",
115 |       "https://www.wradio.com.co/noticias/actualidad/gobierno-y-claudia-lopez-no-se-ponen-de-acuerdo-con-la-flexibilizacion-de-la-cuarentena/20200422/nota/4032641.aspx\n",
116 |       "/elpais/2020/04/25/planeta_futuro/1587798290_299817.html\n",
117 |       "/elpais/2020/04/21/eps/1587466797_885038.html\n",
118 |       "/elviajero/2020/04/15/album/1586946611_017437.html\n",
119 |       "/cultura/2020/04/22/babelia/1587577937_116917.html\n",
120 |       "/ideas/2020-04-18/no-bastan-las-buenas-palabras-necesitamos-un-g20-con-poderes-ejecutivos-que-pase-a-la-accion.html\n",
121 |       "/elcomidista/2020/04/15/receta/1586935285_984252.html\n",
122 |       "/elpais/2020/04/20/icon/1587370299_815423.html\n",
123 |       "/elpais/2020/04/22/icon_design/1587559107_232383.html\n",
124 |       "https://smoda.elpais.com/belleza/camomila-para-mantener-las-mechas-o-la-verdad-del-truco-mas-clasico-para-aclarar-el-pelo-sin-tenirte/\n",
125 |       "/elpais/2020/04/23/buenavida/1587634752_449296.html\n"
126 |      ]
127 |     }
128 |    ],
129 |    "source": [
130 |     "links_last_news = soup.select(\".headline_md\")\n",
131 |     "news = [new.a[\"href\"] for new in links_last_news]\n",
132 |     "for new in news:\n",
133 |     "    print(new)"
134 |    ]
135 |   },
136 |   {
137 |    "cell_type": "code",
138 |    "execution_count": 22,
139 |    "metadata": {},
140 |    "outputs": [
141 |     {
142 |      "name": "stdout",
143 |      "output_type": "stream",
144 |      "text": [
145 |       "https://elpais.com//america/sociedad/2020-04-26/coronavirus-en-america-ultimas-noticias-de-la-covid-19-en-vivo.html\n",
146 |       "https://elpais.com//elpais/2020/04/26/opinion/1587936011_470867.html\n",
147 |       "https://elpais.com//internacional/2020-04-26/donald-trump-vuelve-a-ser-su-peor-enemigo-en-la-gestion-del-coronavirus.html\n",
148 |       "https://elpais.com//internacional/2020-04-27/el-virus-acecha-a-los-pueblos-de-desierto.html\n",
149 |       "https://elpais.com//internacional/2020-04-27/la-odisea-de-los-agricultores-de-bolivia-para-abastecer-a-las-ciudades-durante-la-pandemia.html\n",
150 |       "https://elpais.com//sociedad/2020/04/07/actualidad/1586251212_090043.html\n",
151 |       "https://elpais.com//sociedad/2020-04-25/espana-tras-la-cuarentena-asi-sera-la-nueva-normalidad.html\n",
152 |       "https://elpais.com//sociedad/2020-04-26/italia-iniciara-el-desconfinamiento-el-4-de-mayo.html\n",
153 |       "https://elpais.com//sociedad/2020-04-26/los-ninos-salen-por-fin-a-la-calle-todo-le-parece-mas-grande.html\n",
154 |       "https://elpais.com//cultura/2020-04-26/timothy-snyder-esta-crisis-puede-acabar-por-restar-atractivo-a-los-autoritarismos.html\n",
155 |       "https://elpais.com//elpais/2020/04/27/opinion/1587940413_179372.html\n",
156 |       "https://elpais.com//sociedad/2020-04-27/cine-desde-el-balcon-en-barrios-de-bogota.html\n",
157 |       "https://elpais.com//internacional/2020-04-26/saqueos-protestas-y-colapso-economico-la-crisis-del-coronavirus-se-ceba-con-el-interior-de-venezuela.html\n",
158 |       "https://elpais.com//economia/2020-04-26/el-bid-se-alia-con-el-empresariado-mexicano-para-abrir-una-linea-de-credito-de-12000-millones-de-dolares.html\n",
159 |       "https://elpais.com//internacional/2020-04-26/uruguay-inicia-un-maraton-legislativo-para-achicar-el-estado-y-endurecer-el-codigo-penal.html\n",
160 |       "https://elpais.com//sociedad/2020-04-26/test-en-islandia-y-prudencia-danesa-la-lucha-contra-el-virus-en-los-paises-nordicos.html\n",
161 |       "https://elpais.com//internacional/2020-04-26/la-implementacion-de-los-acuerdos-de-paz-es-muy-ambiciosa-muy-dificil-y-hay-que-insistir.html\n",
162 |       "https://elpais.com//cultura/2020/04/21/babelia/1587485957_898184.html\n",
163 |       "https://elpais.com//cultura/2020/04/22/babelia/1587545195_247967.html\n",
164 |       "https://elpais.com//cultura/2020/04/24/babelia/1587744781_287962.html\n",
165 |       "https://elpais.com//internacional/2020-04-25/bolsonaro-vs-moro-el-amargo-divorcio-politico-que-conmociona-brasil.html\n",
166 |       "https://elpais.com//internacional/2020-04-25/la-retirada-parcial-de-argentina-congela-mercosur.html\n",
167 |       "https://elpais.com//sociedad/2020-04-25/los-ancianos-en-las-villas-miseria-de-argentina-entre-el-miedo-a-salir-y-la-necesidad.html\n",
168 |       "https://elpais.com//internacional/2020-04-25/el-exito-de-la-canciller-cientifica-que-encandila-al-mundo.html\n",
169 |       "https://elpais.com//internacional/2020-04-25/china-envia-medicos-militares-a-pyongyang-entre-crecientes-dudas-sobre-la-salud-del-lider-norcoreano.html\n",
170 |       "https://elpais.com//internacional/2020-04-25/la-plaga-se-ceba-con-los-temerosos-de-dios-en-israel.html\n",
171 |       "https://elpais.com//internacional/2020-04-26/arabia-saudi-estudia-suprimir-la-flagelacion-de-su-sistema-penal.html\n",
172 |       "https://elpais.com//internacional/2020-04-26/los-separatistas-del-sur-de-yemen-proclaman-la-autodeterminacion.html\n",
173 |       "https://elpais.com//sociedad/2020-04-26/el-plan-de-la-desescalada-capacidad-para-doblar-las-camas-de-uci-y-doble-circuito-de-entrada-en-atencion-primaria.html\n",
174 |       "https://elpais.com//sociedad/2020-04-26/el-gobierno-aclara-que-los-mayores-tambien-podran-pasear-a-partir-del-2-de-mayo-si-descienden-los-contagios.html\n",
175 |       "https://elpais.com//economia/2020-04-25/si-las-empresas-no-devuelven-el-dinero-por-servicios-no-prestados-se-las-tendra-que-sancionar.html\n",
176 |       "https://elpais.com//economia/2020-04-25/la-economia-de-mexico-se-descompone-a-pasos-agigantados.html\n",
177 |       "https://elpais.com//economia/2020-04-25/la-gran-reclusion-dinamita-el-mercado-petrolero.html\n",
178 |       "https://elpais.com//economia/2020-04-25/boeing-da-por-terminado-su-acuerdo-con-embraer-para-crear-una-filial-conjunta.html\n",
179 |       "https://elpais.com//economia/2020-04-24/y-el-ganador-de-la-crisis-es-jeff-bezos.html\n",
180 |       "https://elpais.com//economia/2020/04/21/actualidad/1587428023_390182.html\n",
181 |       "https://elpais.com//economia/2020/04/20/actualidad/1587350985_318353.html\n",
182 |       "https://elpais.com//sociedad/2020-04-25/no-estamos-listos-para-la-incertidumbre.html\n",
183 |       "https://elpais.com//sociedad/2020-04-24/nadie-da-la-cara-el-hospital-mexicano-que-sospecha-que-el-coronavirus-se-colo-por-la-sala-de-urgencias.html\n",
184 |       "https://elpais.com//sociedad/2020-04-24/directores-musicos-y-bailarines-del-teatro-colon-en-la-batalla-contra-la-pandemia.html\n",
185 |       "https://elpais.com//sociedad/2020-04-24/el-gobernador-andrew-cuomo-asegura-que-el-21-de-los-habitantes-de-nueva-york-ha-estado-infectado-con-coronavirus.html\n",
186 |       "https://elpais.com//television/2020-04-25/un-heroe-griego-para-un-mundo-que-no-cree-en-heroes.html\n",
187 |       "https://elpais.com//cultura/2020-04-25/mastropiero-sigue-adelante.html\n",
188 |       "https://elpais.com//elpais/2020/04/23/eps/1587663959_191784.html\n",
189 |       "https://elpais.com//cultura/2020-04-24/el-exilio-mas-cruel-y-triste-para-el-poeta-romano-mas-mundano.html\n",
190 |       "https://elpais.com//deportes/2020-04-24/laliga-comunica-a-los-clubes-que-los-test-y-los-entrenamientos-se-retrasan.html\n",
191 |       "https://elpais.com//deportes/2020-04-24/un-draft-desde-el-sotano-de-casa.html\n",
192 |       "https://elpais.com//deportes/2020-04-24/silencio-el-futbol-esta-pensando.html\n",
193 |       "https://elpais.com//verne/2020/04/25/mexico/1587780540_844721.html\n",
194 |       "https://elpais.com//verne/2020/04/22/articulo/1587550943_674034.html\n",
195 |       "https://elpais.com//verne/2020/04/24/mexico/1587740584_975726.html\n",
196 |       "https://elpais.com//ciencia/2020-04-24/en-busca-de-metodos-para-identificar-el-riesgo-de-los-pacientes-mas-alla-de-la-edad.html\n",
197 |       "https://elpais.com//tecnologia/2020-04-25/se-buscan-donantes-de-voz-para-capturar-los-sonidos-de-la-covid-19.html\n",
198 |       "https://elpais.com//retina/2020/04/23/tendencias/1587638384_219976.html\n",
199 |       "https://elpais.com//gente/2020-04-25/el-misterioso-silencio-que-rodea-a-melania-trump.html\n",
200 |       "https://elpais.com//gente/2020-04-24/al-pacino-el-mito-de-la-interpretacion-cumple-80-anos.html\n",
201 |       "https://elpais.com//gente/2020-04-24/el-agridulce-aniversario-de-iker-casillas.html\n",
202 |       "https://elpais.com//elpais/2020/04/23/somos_antartida/1587643290_622896.html\n",
203 |       "https://elpais.com//elpais/2020/04/19/mamas_papas/1587284749_373590.html\n",
204 |       "https://elpais.com//internacional/2020/04/24/mundo_global/1587726301_236904.html\n",
205 |       "https://elpais.com//videos/2020-04-24/la-cara-de-la-coordinadora-sanitaria-de-trump-al-escuchar-su-solucion-al-coronavirus.html\n",
206 |       "https://elpais.com//elpais/2020/04/18/album/1587227884_172211.html\n",
207 |       "https://elpais.com//economia/2020-04-24/combatamos-la-pandemia-de-coronavirus-sin-postergar-la-recuperacion-de-america-latina.html\n",
208 |       "https://elpais.com//elpais/2020/04/25/planeta_futuro/1587798290_299817.html\n",
209 |       "https://elpais.com//elpais/2020/04/21/eps/1587466797_885038.html\n",
210 |       "https://elpais.com//elviajero/2020/04/15/album/1586946611_017437.html\n",
211 |       "https://elpais.com//cultura/2020/04/22/babelia/1587577937_116917.html\n",
212 |       "https://elpais.com//ideas/2020-04-18/no-bastan-las-buenas-palabras-necesitamos-un-g20-con-poderes-ejecutivos-que-pase-a-la-accion.html\n",
213 |       "https://elpais.com//elcomidista/2020/04/15/receta/1586935285_984252.html\n",
214 |       "https://elpais.com//elpais/2020/04/20/icon/1587370299_815423.html\n",
215 |       "https://elpais.com//elpais/2020/04/22/icon_design/1587559107_232383.html\n",
216 |       "https://elpais.com//elpais/2020/04/23/buenavida/1587634752_449296.html\n"
217 |      ]
218 |     }
219 |    ],
220 |    "source": [
221 |     "import validators \n",
222 |     "news_links = []\n",
223 |     "for new in news:\n",
224 |     "    if not validators.url(new):\n",
225 |     "        news_links.append(f\"https://elpais.com/{new}\")\n",
226 |     "for new_link in news_links:\n",
227 |     "    print(new_link)"
228 |    ]
229 |   },
230 |   {
231 |    "cell_type": "code",
232 |    "execution_count": 41,
233 |    "metadata": {},
234 |    "outputs": [],
235 |    "source": [
236 |     "response2 = requests.get(news_links[3])\n",
237 |     "response2.encoding = \"utf-8\"\n",
238 |     "soup2 = bs4.BeautifulSoup(response2.text, \"html.parser\")"
239 |    ]
240 |   },
241 |   {
242 |    "cell_type": "code",
243 |    "execution_count": 72,
244 |    "metadata": {},
245 |    "outputs": [
246 |     {
247 |      "name": "stdout",
248 |      "output_type": "stream",
249 |      "text": [
250 |       "<class 'bs4.element.Tag'>\n",
251 |       "<p class=\"\">\bTuvo 28 hijos, pero solo sobrevivieron 13 y además crio a otros siete que no eran suyos. A sus 84 años no espera grandes sorpresas de la vida ni deja que el coronavirus le quite la sonrisa de la cara. “Sí, sí, los hijos me dicen que no salga, pero si no salgo, si voy de la casa al ramal y del ramal a la casa”. Herlinda León Pacheco, hija de mineros y viuda de minero. Por sus venas corre sangre yaki y sangre mayo. Su descendencia también se dice o’odham. Son todos ellos pueblos originarios de América que aún se autodenominan Nación aunque están divididos por<a href=\"https://elpais.com/internacional/2020-04-23/las-maquiladoras-de-ciudad-juarez-van-cesando-su-actividad-a-golpe-de-muertos.html\" target=\"_blank\"> la frontera entre México y Estados Unidos</a>. La lucha por preservar su identidad cultural, su lengua, sus costumbres, les aboca a un choque anacrónico para el que no tienen una respuesta fácil. El coronavirus les ha lanzado de nuevo contra esa tesitura. ¿Protegerse o abandonarse a sus dioses? ¿Mascarillas y confinamiento o curas tradicionales? “Yo confío en la medicina, necesitamos a los doctores, pero también la natural es buena para el cuerpo, desintoxica, las dos son buenas… Dicen que [el coronavirus] es como una grasita que se aloja en la garganta y que se alivia con un té caliente de hierbas y con el eucalipto… Pero en Salud nos piden que mejor acudamos al médico… Ay, Dios”, dice por teléfono Elizabeth Cortez Wilson, de 52 años, que pertenece a una comunidad cucapá de Baja California.</p>\n",
252 |       "**************************************************\n",
253 |       "<p class=\"\">En Pozas de Arvizu, que así se llama la comunidad de Elizabeth, viven unas 25 familias. Está a 18 kilómetros de San Luis Río Colorado, una población donde avanzan los contagios y los fallecidos y adonde bajan a comprar los nativos cucapá. Al poblado aún no ha llegado la muerte, pero el miedo sí. El Gobernador principal se niega en redondo a recibir la visita de los periodistas. El virus está rondando la aldea, el Facebook avisa de un contagio no confirmado en un ejido limítrofe y el WhatsApp comunica la muerte del yerno del dueño de una cervecería a quien “no más le entregaron las puras cenizas”. Los cucapás se están viendo rodeados y extreman las precauciones. “Algunos, porque otros siguen pensando que esto es cosa del Gobierno para subir los precios”, comenta Elizabeth.</p>\n",
254 |       "**************************************************\n",
255 |       "<p class=\"\">Por razones que quizá algún día se analicen con luz científica, el virus parece, por ahora, más cómodo en la costa pacífica que en la atlántica, los límites oceánicos de la frontera norte mexicana. Si en Cananea o en Caborca (Sonora)<a href=\"https://elpais.com/sociedad/crisis-del-coronavirus/\" target=\"_blank\"> la enfermedad está aún en fase embrionaria</a>, camino de San Luis Río Colorado, Mexicali o Tijuana (Baja California), la situación cobra ya tientes dramáticos. Así que mejor detenerse en Caborca y saludar a Matías Valenzuela Estevan, el más joven del puñado de nativos, apenas 11, que aún conversa en lengua o’odham (pronúnciese otam). Matías no quiere visitar a sus padres, que viven adentro del desierto, porque allí están a salvo del virus que a él le ha dejado sin trabajo: esperaba continuar con sus clases de lengua indígena financiadas por el Ayuntamiento de Caborca, pero no va a ser posible. En este pueblo de 60.000 habitantes las autoridades se han tomado el asunto con rigor y la policía vigila el toque de queda, que empieza a las seis de la tarde, con el sol aún alto, y concluye a las seis de la mañana.</p>\n",
256 |       "**************************************************\n",
257 |       "<p class=\"\">El viento en Caborca recuerda a los visitantes que se han detenido en algún lugar <a href=\"https://elpais.com/internacional/2010/06/06/actualidad/1275775204_850215.html\" target=\"_blank\">del desierto de Sonora</a>, una inmensidad espiritual difícil de describir. Sopla y sopla sin dar tregua a las palmeras. Dos agentes de la comisaría arrían la bandera de México que no se deja agarrar, el aire la trae loca. Con paciencia la van doblando. El sol cae a plomo. “Pues hay gente que antes de que empiece el toque de queda ya ha ido al almacén y ha hecho acopio de cervezas y licores. Tenemos las mismas denuncias pero más temprano que antes, jeje. Algunos hasta organizan fiestas y se juntan todos. Así que si usted me pregunta si están haciendo caso de las recomendaciones, le diré que no”, vuelve a reír el agente más parlanchín. Cuando todo el mundo está obligado a recogerse en casa, la policía local monta guardia en algunos puntos de Caborca. “Solo puede ir uno en el coche y siempre que sea para la farmacia, el hospital, alguna emergencia. Cuando paramos les preguntamos y nos dicen que vuelven a casa del trabajo, les solicitamos algún recibo que muestre su domicilio y comprobamos que van en dirección contraria; que iban a visitar a un amigo… Ajá, entonces no ibas a tu casa, eh…”, sigue relatando el agente. Ya han pasado en la celda de la comisaría más de una decena de personas y las multas van de 2.000 a 7.000 euros.</p>\n",
258 |       "**************************************************\n",
259 |       "<p class=\"\">Caborca no llega a los 10 contagios oficiales, pero los agentes no dejan de recordar que México <a href=\"https://elpais.com/sociedad/2020-04-21/mexico-evita-adoptar-medidas-drasticas-al-decretar-el-avance-a-la-fase-mas-critica-de-la-pandemia.html\" target=\"_blank\">ya está en la fase 3, la etapa más crítica de la pandemia</a>. Poca broma. El viento bate la doble puerta de cristal de la comisaría, que da acceso al recibidor, donde una de las paredes está dedicada a los compañeros muertos en acto de servicio, siete. La seguridad, o la violencia, sigue siendo en Caborca la prioridad de los uniformados. En este capítulo lo único que se contagia es la muerte. “Paras un coche cualquier día y te acribillan a balazos”. No miente el policía, y cuando caiga la noche los periodistas podrán comprobar el grado de emergencia en una ciudad como esta.</p>\n",
260 |       "**************************************************\n",
261 |       "<p class=\"\">A eso de las ocho, el comandante pretende acompañar a las patrullas sanitizadoras. Son voluntarios del sector minero, agrícola y de los bomberos que salen al oscurecer con sus camiones cisternas, 10.000 litros de agua con jabón, y a manguerazo limpio van desinfectando las puertas de los hospitales, los bancos, las farmacias, los supermercados, la casa del migrante, las dependencias de la guardia urbana. La espumilla del jabón deja un oleaje marino por todas las aceras de la ciudad. Caborca nunca estuvo más limpia.</p>\n",
262 |       "**************************************************\n",
263 |       "<p class=\"\">Pero una llamada a la comisaría ha impedido a varias unidades policiales salir hoy con los sanitizadores. Se están cruzando disparos en una calle. Con las sirenas gritando, las camionetas salen a toda pastilla. En Caborca la violencia se ve. Mientras la pipa de agua con jabón desinfecta las calles, otra camioneta se para a saludar, el conductor baja el cristal oscuro y los agentes reconocen al personal de la Fiscalía. Llevan un buen puñado de cajas mortuorias en el remolque. Y están llenas. Y no es la covid-19. No hay más datos.</p>\n",
264 |       "**************************************************\n",
265 |       "<p class=\"\">Ajeno a las balaceras y al coronavirus, Matías, de 29 años, se detiene respetuoso junto al lago sagrado de los o’odham, a una hora del centro de Caborca, en la comunidad de Quitovac. El agua siempre ha sido sagrada y más en el desierto. En este lago habita un monstruo de cuya panza sacaron a varias personas, como Jonás y la ballena en el imaginario católico. Matías empieza confiado en su fe de “renacido” a la tradición indígena: “Yo no tengo miedo del virus porque sé que no me voy a contagiar y si me contagio me curo con mis medicinas. Yo ya no soy católico, renací y aprendo otras cosas. Mi amá me curó de pequeño de la influenza con un té de hierbas, allá en Cumarito”, dice. Pero no pasarán muchas horas sin que la conversación revele las contradicciones que anidan en la mente de los nativos americanos respecto a sus costumbres y las del “hombre blanco”, como les dice Matías.</p>\n",
266 |       "**************************************************\n",
267 |       "<p class=\"\">Él estudió al otro lado de la frontera, en la reserva para los nativos que acotó Estados Unidos, así que sabe tres idiomas. Allí, al otro lado, hay contagios, mientras que en Quitovac no, como ocurre en buena parte de la frontera, que el lado norte está más perjudicado, al menos eso dicen las cifras. En este caso se puede pensar que es por la densidad de población. Mientras en México apenas quedan unos 3.000 o’odham y dispersos por cientos de kilómetros, en la parte gringa son entre 5.000 y 6.000. Allá, donde estudió la preparatoria el joven Matías, se ha conservado mejor la lengua originaria, pero, a cambio, el virus está siendo más invasor. Hay una puerta en la línea divisoria, la de San Miguel, que permite la entrada y salida a los indígenas que muestran una tarjeta identitaria. Los demás han de cruzar por la aduana correspondiente. Y estos días está cerrada para todos.</p>\n",
268 |       "**************************************************\n",
269 |       "<p class=\"\">El hijo de doña Herlinda lleva la tienda de abarrotes de Quitovac y talla cubiertos de madera. Por las puertas traseras de su vivienda pasean las gallinas y los perros. Óscar Velazco León es el curandero del pueblo, y lleva la mascarilla puesta, la viva imagen del choque de creencias que sacude a esos pueblos frente al coronavirus. No hace unos momentos ha preparado un sahumerio con uno matojos para purificar su casa y se queja de que “la tele está matando a la gente de tanto repetir lo del coronavirus”. “Yo lo sé porque tengo algunas visiones, como chamán”, dice. Pero de inmediato asegura que “hay que cuidarse” y que la mascarilla “es para ir a Sonayta a comprar, que ahora es obligatorio”. No se la quita. O dice: “Aquí el miedo no existe” y al rato: “De que se tiene miedo se tiene, la tele asusta mucho”. Y aconseja las <a href=\"https://elpais.com/sociedad/2020/03/17/actualidad/1584469420_392546.html\" target=\"_blank\">clásicas medidas de higiene</a>.</p>\n",
270 |       "**************************************************\n",
271 |       "<p class=\"\">Tampoco Matías irá a visitar a sus padres, ni a su pareja en la universidad de Hermosillo. Y se cuidará. Y el gobernador tradicional de los cucapá, en Pozas de Arvizu, Alfonso Tambo Ceseña, se niega a recibir a los periodistas. “Lo hago por mi pueblo, no podemos dejar que entre nadie. Como decía mi padre, la vida no retoña. Nuestros antepasados sabían que con el cambio de estaciones llegaban las enfermedades, ellos usaban hierbas tradicionales. Las hierbas pueden aliviar la tos, la gripa, algunos dolores leves, pero para este virus…No creo que haya cura, pero<a href=\"https://elpais.com/sociedad/2020-04-02/un-brote-de-covid-19-entre-el-personal-de-un-hospital-de-mexico-deja-dos-muertos-y-al-menos-20-contagios.html\" target=\"_blank\"> si están muriendo hasta los médicos</a>”, dice. “Lo que estamos aprendiendo, para siempre, es que el uso de las mascarillas sirve para no contagiar al otro. Los chinos siempre se lo ponen. Qué razón tenían esos chinos”.</p>\n",
272 |       "**************************************************\n"
273 |      ]
274 |     }
275 |    ],
276 |    "source": [
277 |     "contents = soup2.select(\".article_body p\")\n",
278 |     "contents_list = [content for content in contents]\n",
279 |     "for content in contents_list:\n",
280 |     "    print(content)\n",
281 |     "    print(\"*\"*50)"
282 |    ]
283 |   },
284 |   {
285 |    "cell_type": "code",
286 |    "execution_count": null,
287 |    "metadata": {},
288 |    "outputs": [],
289 |    "source": []
290 |   }
291 |  ],
292 |  "metadata": {
293 |   "kernelspec": {
294 |    "display_name": "Python 3",
295 |    "language": "python",
296 |    "name": "python3"
297 |   },
298 |   "language_info": {
299 |    "codemirror_mode": {
300 |     "name": "ipython",
301 |     "version": 3
302 |    },
303 |    "file_extension": ".py",
304 |    "mimetype": "text/x-python",
305 |    "name": "python",
306 |    "nbconvert_exporter": "python",
307 |    "pygments_lexer": "ipython3",
308 |    "version": "3.7.6"
309 |   }
310 |  },
311 |  "nbformat": 4,
312 |  "nbformat_minor": 4
313 | }
314 | 


--------------------------------------------------------------------------------