├── .github
    ├── scripts
    │   ├── generate_datasets_table.py
    │   └── reorder_table_columns.py
    └── workflows
    │   └── readme-generation.yml
├── README.md
├── aplicaciones_de_los_transformers.ipynb
├── cuantizacion
    └── GPT_J_6B_8bit_ES.ipynb
├── datasets.csv
├── grupo_de_estudio
    ├── README.md
    └── nlp_con_transformers_1.pdf
├── hackathon_2022
    ├── README.md
    ├── analisis_error_modelos_nlp_omar_sanseviero.pdf
    ├── lxai_nlp_extended_abstract_javier_turek.pdf
    └── nlp_lenguas_minorizadas_mx_ximena_gutierrez.pdf
├── hackathon_2023
    └── README.md
├── hackathon_2024
    ├── creacion_de_datasets_sinteticos_con_distilabel.ipynb
    ├── distilabel_y_argilla_creacion_datasets_para_sft_y_dpo.ipynb
    ├── entrenamiento_llm_instrucciones.ipynb
    ├── entrenar_con_datos_de_calidad.ipynb
    ├── fine_tune_gemma_2b_on_openhermes_using_qlora.ipynb
    ├── taller_distilabel_y_argilla.ipynb
    └── taller_escritura_abstracts_lxai_naacl.pdf
├── plantillas_docs_proyectos
    ├── README.md
    ├── dataset_card.md
    ├── estructura_corpus.md
    └── model_card.md
└── proyectos_de_la_comunidad
    └── 2023_01_12_biomedia.pdf


/.github/scripts/generate_datasets_table.py:
--------------------------------------------------------------------------------
 1 | import pandas as pd
 2 | 
 3 | df = pd.read_csv("datasets.csv")
 4 | 
 5 | # Sort the DataFrame by the "nombre" column and save it
 6 | df.sort_values(by="nombre", inplace=True)
 7 | df.to_csv("datasets.csv", index=False)
 8 | 
 9 | # Generate the datasets table
10 | table_content = df.to_markdown(index=False)
11 | 
12 | with open("README.md", "r") as f:
13 |     readme_template = f.read()
14 | 
15 | start_delimiter = "<!-- START_TABLE_CONTENT -->"
16 | end_delimiter = "<!-- END_TABLE_CONTENT -->"
17 | 
18 | start_pos = readme_template.find(start_delimiter)
19 | end_pos = readme_template.find(end_delimiter)
20 | 
21 | updated_readme_content = (
22 |     readme_template[:start_pos + len(start_delimiter)]
23 |     + "\n" + table_content + "\n"
24 |     + readme_template[end_pos:]
25 | )
26 | 
27 | with open("README.md", "w") as f:
28 |     f.write(updated_readme_content)
29 | 


--------------------------------------------------------------------------------
/.github/scripts/reorder_table_columns.py:
--------------------------------------------------------------------------------
 1 | import argparse
 2 | import pandas as pd
 3 | 
 4 | FILE_NAME = "datasets.csv"
 5 | 
 6 | 
 7 | def reorder_columns(original_index, final_index, file_name=FILE_NAME):
 8 |     df = pd.read_csv(file_name)
 9 | 
10 |     if final_index < 0 or original_index < 0 or final_index >= df.shape[1] or original_index >= df.shape[1]:
11 |         print("Invalid column index specified.")
12 |     else:
13 |         columns_except_original = [col for col in df.columns if col != df.columns[original_index]]
14 | 
15 |         new_columns = (
16 |             columns_except_original[:final_index] + 
17 |             [df.columns[original_index]] + 
18 |             columns_except_original[final_index:]
19 |         )
20 | 
21 |         df_reordered = df[new_columns]
22 | 
23 |         df_reordered.to_csv(file_name, index=False)
24 | 
25 |         print("Columns reordered successfully.")
26 | 
27 | 
28 | if __name__ == "__main__":
29 |     parser = argparse.ArgumentParser(description="Reorder columns in a CSV file.")
30 |     parser.add_argument("original_index", type=int, help="Original column index")
31 |     parser.add_argument("final_index", type=int, help="Final column index")
32 | 
33 |     args = parser.parse_args()
34 | 
35 |     reorder_columns(args.original_index, args.final_index)
36 | 


--------------------------------------------------------------------------------
/.github/workflows/readme-generation.yml:
--------------------------------------------------------------------------------
 1 | name: Generate README on datasets.csv file update
 2 | 
 3 | on:
 4 |   pull_request:
 5 |     branches:
 6 |       - main
 7 |     paths:
 8 |       - "datasets.csv"
 9 | 
10 | jobs:
11 |   generate-readme:
12 |     runs-on: ubuntu-latest
13 | 
14 |     steps:
15 |       - name: Check out repository
16 |         uses: actions/checkout@v2
17 | 
18 |       - name: Set up Python
19 |         uses: actions/setup-python@v2
20 |         with:
21 |           python-version: "3.x"
22 | 
23 |       - name: Install dependencies
24 |         run: |
25 |           pip install pandas tabulate
26 | 
27 |       - name: Reorder datasets.csv and generate README
28 |         run: |
29 |           python .github/scripts/generate_datasets_table.py
30 | 
31 |       - name: Commit and push changes
32 |         run: |
33 |           git config user.name "${{ github.actor }}"
34 |           git config user.email "${{ github.actor }}@users.noreply.github.com"
35 | 
36 |           git add datasets.csv README.md
37 |           git commit -m "docs: reorder datasets.csv and update datasets table"
38 |           git push --force origin HEAD:${{ github.head_ref }}
39 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # Recursos de PLN en Español
 2 | 
 3 | En este repo encontrarás:
 4 | 
 5 | - Datasets open-source: Lista de datasets abiertos de PLN en español (a continuación)
 6 | - Hackathon Somos NLP [2022](https://github.com/somosnlp/recursos-nlp-es/tree/main/hackathon_2022) y [2023](https://github.com/somosnlp/recursos-nlp-es/tree/main/hackathon_2023): Diapositivas y notebooks de las charlas y talleres impartidas durante el mayor hackathon open-source de PLN en español
 7 | - [Grupo de estudio](https://github.com/somosnlp/recursos-nlp-es/tree/main/grupo_de_estudio): Diapositivas y material del grupo de estudio, únete en el canal #grupo-de-estudio de Discord
 8 | 
 9 | Tenemos también una sección de la página web dedicada a recursos de PLN: <https://somosnlp.org/recursos>
10 | 
11 | Si no encuentras lo que estás buscando te animamos a unirte a Discord y preguntar a la comunidad. Aquí tienes una [invitación](https://discord.com/invite/my8w7JUxZR).
12 | 
13 | ## Datasets Open-Source
14 | 
15 | - [Versión web](https://somosnlp.org/recursos/open-source/datasets)
16 | 
17 | <!-- START_TABLE_CONTENT -->
18 | | nombre                                            | tareas                                               | dominio    | idioma                   | pais   | página_web                                           | github                                                   | paper                                                                  | hf_dataset_name        | hf_contributor_handle   |
19 | |:--------------------------------------------------|:-----------------------------------------------------|:-----------|:-------------------------|:-------|:-----------------------------------------------------|:---------------------------------------------------------|:-----------------------------------------------------------------------|:-----------------------|:------------------------|
20 | | BasCrawl                                          | modelado del lenguaje                                | general    | euskera                  | España | https://doi.org/10.5281/zenodo.7313092               | nan                                                      | nan                                                                    | nan                    | nan                     |
21 | | Biomedical Spanish CBOW Word Embeddings in Floret | modelado del lenguaje,CBOW (Continuous Bag Of Words) | clinico    | español                  | España | https://doi.org/10.5281/zenodo.7314041               | https://arxiv.org/abs/2109.07765                         | nan                                                                    | nan                    | nan                     |
22 | | CSIC Spanish Corpus                               | modelado del lenguaje                                | academico  | español                  | España | https://doi.org/10.5281/zenodo.7313126               | nan                                                      | nan                                                                    | nan                    | nan                     |
23 | | Catalonia Independence Corpus                     | clasificación de sentimientos                        | rrss       | catalán, español         | España | nan                                                  | https://github.com/ixa-ehu/catalonia-independence-corpus | https://www.aclweb.org/anthology/2020.lrec-1.171/                      | catalonia_independence | lewtun                  |
24 | | HEAD-QA                                           | preguntas de opción múltiple                         | clinico    | español                  | España | https://aghie.github.io/head-qa/                     | https://github.com/aghie/head-qa                         | https://www.aclweb.org/anthology/P19-1092/                             | head_qa                | mariagrandury           |
25 | | InfoLibros Corpus                                 | modelado del lenguaje                                | literatura | español                  | Varios | https://doi.org/10.5281/zenodo.7313105               | nan                                                      | nan                                                                    | nan                    | nan                     |
26 | | Large Spanish Corpus                              | modelado del lenguaje,pre-entrenamiento              | general    | español                  | Varios | nan                                                  | https://github.com/josecannete/spanish-corpora           | nan                                                                    | large_spanish_corpus   | lewtun                  |
27 | | Mucho Cine                                        | clasificación de sentimientos                        | general    | español                  | Varios | http://www.lsi.us.es/~fermin/index.php/Datasets      | nan                                                      | nan                                                                    | muchocine              | mapmeld                 |
28 | | Spanish Billion Words                             | modelado del lenguaje,pre-entrenamiento              | general    | español                  | Varios | https://crscardellino.github.io/SBWCE/               | nan                                                      | nan                                                                    | spanish_billion_words  | mariagrandury           |
29 | | Spanish Biomedical Crawled Corpus                 | modelado del lenguaje                                | clinico    | español                  | España | https://doi.org/10.5281/zenodo.5513237               | nan                                                      | https://arxiv.org/abs/2109.07765                                       | nan                    | nan                     |
30 | | Spanish CBOW Word Embeddings in FastText          | modelado del lenguaje,FastText                       | general    | español                  | España | https://doi.org/10.5281/zenodo.5044988               | nan                                                      | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405 | nan                    | nan                     |
31 | | Spanish CBOW Word Embeddings in Floret            | modelado del lenguaje,CBOW (Continuous Bag Of Words) | general    | español                  | España | https://doi.org/10.5281/zenodo.7314098               | nan                                                      | nan                                                                    | nan                    | nan                     |
32 | | Spanish Legal Domain Corpora                      | modelado del lenguaje                                | legal      | español                  | España | https://doi.org/10.5281/zenodo.5495529               | https://github.com/PlanTL-GOB-ES/lm-legal-es             | https://arxiv.org/abs/2110.12201                                       | nan                    | nan                     |
33 | | Spanish Legal Domain Word & Sub-Word Embeddings   | modelado del lenguaje                                | legal      | español                  | España | https://doi.org/10.5281/zenodo.5036147               | https://github.com/PlanTL-GOB-ES/lm-legal-es             | https://arxiv.org/abs/2110.12201                                       | nan                    | nan                     |
34 | | Spanish Skip-Gram Word Embeddings in FastText     | modelado del lenguaje,FastText                       | general    | español                  | España | https://doi.org/10.5281/zenodo.5046525               | nan                                                      | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405 | nan                    | nan                     |
35 | | TDX Thesis Spanish Corpus                         | modelado del lenguaje                                | academico  | catalán, español         | España | https://doi.org/10.5281/zenodo.7313149               | nan                                                      | nan                                                                    | nan                    | nan                     |
36 | | WikiCorpus                                        | modelado del lenguaje,POS (Part of Speech)           | general    | catalán, español, inglés | Varios | https://www.cs.upc.edu/~nlp/wikicorpus/              | nan                                                      | https://www.cs.upc.edu/~nlp/papers/reese10.pdf                         | wikicorpus             | albertvillanova         |
37 | | eHealth-KD                                        | reconocimiento de entidades nombradas (NER)          | clinico    | es                       | España | https://knowledge-learning.github.io/ehealthkd-2020/ | https://github.com/knowledge-learning/ehealthkd-2020     | http://ceur-ws.org/Vol-2664/eHealth-KD_overview.pdf                    | ehealth_kd             | mariagrandury           |
38 | <!-- END_TABLE_CONTENT -->
39 | 


--------------------------------------------------------------------------------
/cuantizacion/GPT_J_6B_8bit_ES.ipynb:
--------------------------------------------------------------------------------
   1 | {
   2 |   "nbformat": 4,
   3 |   "nbformat_minor": 0,
   4 |   "metadata": {
   5 |     "colab": {
   6 |       "name": "BERTIN-GPT-J-6B-ES-8bit.ipynb",
   7 |       "provenance": [],
   8 |       "collapsed_sections": [],
   9 |       "machine_shape": "hm",
  10 |       "include_colab_link": true
  11 |     },
  12 |     "kernelspec": {
  13 |       "name": "python3",
  14 |       "display_name": "Python 3"
  15 |     },
  16 |     "language_info": {
  17 |       "name": "python"
  18 |     },
  19 |     "accelerator": "GPU",
  20 |     "widgets": {
  21 |       "application/vnd.jupyter.widget-state+json": {
  22 |         "3b354e5db9bb462dbc60e13a5302388b": {
  23 |           "model_module": "@jupyter-widgets/controls",
  24 |           "model_name": "HBoxModel",
  25 |           "model_module_version": "1.5.0",
  26 |           "state": {
  27 |             "_dom_classes": [],
  28 |             "_model_module": "@jupyter-widgets/controls",
  29 |             "_model_module_version": "1.5.0",
  30 |             "_model_name": "HBoxModel",
  31 |             "_view_count": null,
  32 |             "_view_module": "@jupyter-widgets/controls",
  33 |             "_view_module_version": "1.5.0",
  34 |             "_view_name": "HBoxView",
  35 |             "box_style": "",
  36 |             "children": [
  37 |               "IPY_MODEL_cfc7dd89a25243519bbfdb3d1741f3b7",
  38 |               "IPY_MODEL_c9786564c94c400ba59befbeb2484718",
  39 |               "IPY_MODEL_b23669a67d5f4bfc8a3df6b82d0cc0fe"
  40 |             ],
  41 |             "layout": "IPY_MODEL_073e80247a2a46fda0d6d73175d374a2"
  42 |           }
  43 |         },
  44 |         "cfc7dd89a25243519bbfdb3d1741f3b7": {
  45 |           "model_module": "@jupyter-widgets/controls",
  46 |           "model_name": "HTMLModel",
  47 |           "model_module_version": "1.5.0",
  48 |           "state": {
  49 |             "_dom_classes": [],
  50 |             "_model_module": "@jupyter-widgets/controls",
  51 |             "_model_module_version": "1.5.0",
  52 |             "_model_name": "HTMLModel",
  53 |             "_view_count": null,
  54 |             "_view_module": "@jupyter-widgets/controls",
  55 |             "_view_module_version": "1.5.0",
  56 |             "_view_name": "HTMLView",
  57 |             "description": "",
  58 |             "description_tooltip": null,
  59 |             "layout": "IPY_MODEL_7254d7f2f786449c8c6616244cd6e492",
  60 |             "placeholder": "​",
  61 |             "style": "IPY_MODEL_ef1d34c16b4e4f4291ac1c09bd217635",
  62 |             "value": "100%"
  63 |           }
  64 |         },
  65 |         "c9786564c94c400ba59befbeb2484718": {
  66 |           "model_module": "@jupyter-widgets/controls",
  67 |           "model_name": "FloatProgressModel",
  68 |           "model_module_version": "1.5.0",
  69 |           "state": {
  70 |             "_dom_classes": [],
  71 |             "_model_module": "@jupyter-widgets/controls",
  72 |             "_model_module_version": "1.5.0",
  73 |             "_model_name": "FloatProgressModel",
  74 |             "_view_count": null,
  75 |             "_view_module": "@jupyter-widgets/controls",
  76 |             "_view_module_version": "1.5.0",
  77 |             "_view_name": "ProgressView",
  78 |             "bar_style": "success",
  79 |             "description": "",
  80 |             "description_tooltip": null,
  81 |             "layout": "IPY_MODEL_a6e8d510cd2d43bf97c99ca70c37bf3a",
  82 |             "max": 49,
  83 |             "min": 0,
  84 |             "orientation": "horizontal",
  85 |             "style": "IPY_MODEL_a59c626d9fbf43dd9edf77ce62f2b155",
  86 |             "value": 49
  87 |           }
  88 |         },
  89 |         "b23669a67d5f4bfc8a3df6b82d0cc0fe": {
  90 |           "model_module": "@jupyter-widgets/controls",
  91 |           "model_name": "HTMLModel",
  92 |           "model_module_version": "1.5.0",
  93 |           "state": {
  94 |             "_dom_classes": [],
  95 |             "_model_module": "@jupyter-widgets/controls",
  96 |             "_model_module_version": "1.5.0",
  97 |             "_model_name": "HTMLModel",
  98 |             "_view_count": null,
  99 |             "_view_module": "@jupyter-widgets/controls",
 100 |             "_view_module_version": "1.5.0",
 101 |             "_view_name": "HTMLView",
 102 |             "description": "",
 103 |             "description_tooltip": null,
 104 |             "layout": "IPY_MODEL_2de45259c3f64ae7a1b98aa74ec629f6",
 105 |             "placeholder": "​",
 106 |             "style": "IPY_MODEL_f21ca1e656ff42648dcb0ba75484f3c6",
 107 |             "value": " 49/49 [13:12&lt;00:00, 16.32s/it]"
 108 |           }
 109 |         },
 110 |         "073e80247a2a46fda0d6d73175d374a2": {
 111 |           "model_module": "@jupyter-widgets/base",
 112 |           "model_name": "LayoutModel",
 113 |           "model_module_version": "1.2.0",
 114 |           "state": {
 115 |             "_model_module": "@jupyter-widgets/base",
 116 |             "_model_module_version": "1.2.0",
 117 |             "_model_name": "LayoutModel",
 118 |             "_view_count": null,
 119 |             "_view_module": "@jupyter-widgets/base",
 120 |             "_view_module_version": "1.2.0",
 121 |             "_view_name": "LayoutView",
 122 |             "align_content": null,
 123 |             "align_items": null,
 124 |             "align_self": null,
 125 |             "border": null,
 126 |             "bottom": null,
 127 |             "display": null,
 128 |             "flex": null,
 129 |             "flex_flow": null,
 130 |             "grid_area": null,
 131 |             "grid_auto_columns": null,
 132 |             "grid_auto_flow": null,
 133 |             "grid_auto_rows": null,
 134 |             "grid_column": null,
 135 |             "grid_gap": null,
 136 |             "grid_row": null,
 137 |             "grid_template_areas": null,
 138 |             "grid_template_columns": null,
 139 |             "grid_template_rows": null,
 140 |             "height": null,
 141 |             "justify_content": null,
 142 |             "justify_items": null,
 143 |             "left": null,
 144 |             "margin": null,
 145 |             "max_height": null,
 146 |             "max_width": null,
 147 |             "min_height": null,
 148 |             "min_width": null,
 149 |             "object_fit": null,
 150 |             "object_position": null,
 151 |             "order": null,
 152 |             "overflow": null,
 153 |             "overflow_x": null,
 154 |             "overflow_y": null,
 155 |             "padding": null,
 156 |             "right": null,
 157 |             "top": null,
 158 |             "visibility": null,
 159 |             "width": null
 160 |           }
 161 |         },
 162 |         "7254d7f2f786449c8c6616244cd6e492": {
 163 |           "model_module": "@jupyter-widgets/base",
 164 |           "model_name": "LayoutModel",
 165 |           "model_module_version": "1.2.0",
 166 |           "state": {
 167 |             "_model_module": "@jupyter-widgets/base",
 168 |             "_model_module_version": "1.2.0",
 169 |             "_model_name": "LayoutModel",
 170 |             "_view_count": null,
 171 |             "_view_module": "@jupyter-widgets/base",
 172 |             "_view_module_version": "1.2.0",
 173 |             "_view_name": "LayoutView",
 174 |             "align_content": null,
 175 |             "align_items": null,
 176 |             "align_self": null,
 177 |             "border": null,
 178 |             "bottom": null,
 179 |             "display": null,
 180 |             "flex": null,
 181 |             "flex_flow": null,
 182 |             "grid_area": null,
 183 |             "grid_auto_columns": null,
 184 |             "grid_auto_flow": null,
 185 |             "grid_auto_rows": null,
 186 |             "grid_column": null,
 187 |             "grid_gap": null,
 188 |             "grid_row": null,
 189 |             "grid_template_areas": null,
 190 |             "grid_template_columns": null,
 191 |             "grid_template_rows": null,
 192 |             "height": null,
 193 |             "justify_content": null,
 194 |             "justify_items": null,
 195 |             "left": null,
 196 |             "margin": null,
 197 |             "max_height": null,
 198 |             "max_width": null,
 199 |             "min_height": null,
 200 |             "min_width": null,
 201 |             "object_fit": null,
 202 |             "object_position": null,
 203 |             "order": null,
 204 |             "overflow": null,
 205 |             "overflow_x": null,
 206 |             "overflow_y": null,
 207 |             "padding": null,
 208 |             "right": null,
 209 |             "top": null,
 210 |             "visibility": null,
 211 |             "width": null
 212 |           }
 213 |         },
 214 |         "ef1d34c16b4e4f4291ac1c09bd217635": {
 215 |           "model_module": "@jupyter-widgets/controls",
 216 |           "model_name": "DescriptionStyleModel",
 217 |           "model_module_version": "1.5.0",
 218 |           "state": {
 219 |             "_model_module": "@jupyter-widgets/controls",
 220 |             "_model_module_version": "1.5.0",
 221 |             "_model_name": "DescriptionStyleModel",
 222 |             "_view_count": null,
 223 |             "_view_module": "@jupyter-widgets/base",
 224 |             "_view_module_version": "1.2.0",
 225 |             "_view_name": "StyleView",
 226 |             "description_width": ""
 227 |           }
 228 |         },
 229 |         "a6e8d510cd2d43bf97c99ca70c37bf3a": {
 230 |           "model_module": "@jupyter-widgets/base",
 231 |           "model_name": "LayoutModel",
 232 |           "model_module_version": "1.2.0",
 233 |           "state": {
 234 |             "_model_module": "@jupyter-widgets/base",
 235 |             "_model_module_version": "1.2.0",
 236 |             "_model_name": "LayoutModel",
 237 |             "_view_count": null,
 238 |             "_view_module": "@jupyter-widgets/base",
 239 |             "_view_module_version": "1.2.0",
 240 |             "_view_name": "LayoutView",
 241 |             "align_content": null,
 242 |             "align_items": null,
 243 |             "align_self": null,
 244 |             "border": null,
 245 |             "bottom": null,
 246 |             "display": null,
 247 |             "flex": null,
 248 |             "flex_flow": null,
 249 |             "grid_area": null,
 250 |             "grid_auto_columns": null,
 251 |             "grid_auto_flow": null,
 252 |             "grid_auto_rows": null,
 253 |             "grid_column": null,
 254 |             "grid_gap": null,
 255 |             "grid_row": null,
 256 |             "grid_template_areas": null,
 257 |             "grid_template_columns": null,
 258 |             "grid_template_rows": null,
 259 |             "height": null,
 260 |             "justify_content": null,
 261 |             "justify_items": null,
 262 |             "left": null,
 263 |             "margin": null,
 264 |             "max_height": null,
 265 |             "max_width": null,
 266 |             "min_height": null,
 267 |             "min_width": null,
 268 |             "object_fit": null,
 269 |             "object_position": null,
 270 |             "order": null,
 271 |             "overflow": null,
 272 |             "overflow_x": null,
 273 |             "overflow_y": null,
 274 |             "padding": null,
 275 |             "right": null,
 276 |             "top": null,
 277 |             "visibility": null,
 278 |             "width": null
 279 |           }
 280 |         },
 281 |         "a59c626d9fbf43dd9edf77ce62f2b155": {
 282 |           "model_module": "@jupyter-widgets/controls",
 283 |           "model_name": "ProgressStyleModel",
 284 |           "model_module_version": "1.5.0",
 285 |           "state": {
 286 |             "_model_module": "@jupyter-widgets/controls",
 287 |             "_model_module_version": "1.5.0",
 288 |             "_model_name": "ProgressStyleModel",
 289 |             "_view_count": null,
 290 |             "_view_module": "@jupyter-widgets/base",
 291 |             "_view_module_version": "1.2.0",
 292 |             "_view_name": "StyleView",
 293 |             "bar_color": null,
 294 |             "description_width": ""
 295 |           }
 296 |         },
 297 |         "2de45259c3f64ae7a1b98aa74ec629f6": {
 298 |           "model_module": "@jupyter-widgets/base",
 299 |           "model_name": "LayoutModel",
 300 |           "model_module_version": "1.2.0",
 301 |           "state": {
 302 |             "_model_module": "@jupyter-widgets/base",
 303 |             "_model_module_version": "1.2.0",
 304 |             "_model_name": "LayoutModel",
 305 |             "_view_count": null,
 306 |             "_view_module": "@jupyter-widgets/base",
 307 |             "_view_module_version": "1.2.0",
 308 |             "_view_name": "LayoutView",
 309 |             "align_content": null,
 310 |             "align_items": null,
 311 |             "align_self": null,
 312 |             "border": null,
 313 |             "bottom": null,
 314 |             "display": null,
 315 |             "flex": null,
 316 |             "flex_flow": null,
 317 |             "grid_area": null,
 318 |             "grid_auto_columns": null,
 319 |             "grid_auto_flow": null,
 320 |             "grid_auto_rows": null,
 321 |             "grid_column": null,
 322 |             "grid_gap": null,
 323 |             "grid_row": null,
 324 |             "grid_template_areas": null,
 325 |             "grid_template_columns": null,
 326 |             "grid_template_rows": null,
 327 |             "height": null,
 328 |             "justify_content": null,
 329 |             "justify_items": null,
 330 |             "left": null,
 331 |             "margin": null,
 332 |             "max_height": null,
 333 |             "max_width": null,
 334 |             "min_height": null,
 335 |             "min_width": null,
 336 |             "object_fit": null,
 337 |             "object_position": null,
 338 |             "order": null,
 339 |             "overflow": null,
 340 |             "overflow_x": null,
 341 |             "overflow_y": null,
 342 |             "padding": null,
 343 |             "right": null,
 344 |             "top": null,
 345 |             "visibility": null,
 346 |             "width": null
 347 |           }
 348 |         },
 349 |         "f21ca1e656ff42648dcb0ba75484f3c6": {
 350 |           "model_module": "@jupyter-widgets/controls",
 351 |           "model_name": "DescriptionStyleModel",
 352 |           "model_module_version": "1.5.0",
 353 |           "state": {
 354 |             "_model_module": "@jupyter-widgets/controls",
 355 |             "_model_module_version": "1.5.0",
 356 |             "_model_name": "DescriptionStyleModel",
 357 |             "_view_count": null,
 358 |             "_view_module": "@jupyter-widgets/base",
 359 |             "_view_module_version": "1.2.0",
 360 |             "_view_name": "StyleView",
 361 |             "description_width": ""
 362 |           }
 363 |         }
 364 |       }
 365 |     }
 366 |   },
 367 |   "cells": [
 368 |     {
 369 |       "cell_type": "markdown",
 370 |       "metadata": {
 371 |         "id": "view-in-github",
 372 |         "colab_type": "text"
 373 |       },
 374 |       "source": [
 375 |         "<a href=\"https://colab.research.google.com/github/somosnlp/recursos-nlp-es/blob/main/cuantizacion/GPT_J_6B_8bit_ES.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
 376 |       ]
 377 |     },
 378 |     {
 379 |       "cell_type": "markdown",
 380 |       "metadata": {
 381 |         "id": "kLzX_EPqAnEW"
 382 |       },
 383 |       "source": [
 384 |         "# Spanish 6-Billion GPT-J (8-bit quantized)\n",
 385 |         "\n",
 386 |         "> Notebook original de [@mrm8488](https://twitter.com/mrm8488)"
 387 |       ]
 388 |     },
 389 |     {
 390 |       "cell_type": "code",
 391 |       "source": [
 392 |         "! nvidia-smi"
 393 |       ],
 394 |       "metadata": {
 395 |         "id": "jy1hn5_TXbG5",
 396 |         "outputId": "1c87fc40-50bc-4f15-8b45-05c59abed63f",
 397 |         "colab": {
 398 |           "base_uri": "https://localhost:8080/"
 399 |         }
 400 |       },
 401 |       "execution_count": null,
 402 |       "outputs": [
 403 |         {
 404 |           "output_type": "stream",
 405 |           "name": "stdout",
 406 |           "text": [
 407 |             "Tue Aug  9 15:34:37 2022       \n",
 408 |             "+-----------------------------------------------------------------------------+\n",
 409 |             "| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |\n",
 410 |             "|-------------------------------+----------------------+----------------------+\n",
 411 |             "| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |\n",
 412 |             "| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |\n",
 413 |             "|                               |                      |               MIG M. |\n",
 414 |             "|===============================+======================+======================|\n",
 415 |             "|   0  Tesla P100-PCIE...  Off  | 00000000:00:04.0 Off |                    0 |\n",
 416 |             "| N/A   45C    P0    30W / 250W |      0MiB / 16280MiB |      0%      Default |\n",
 417 |             "|                               |                      |                  N/A |\n",
 418 |             "+-------------------------------+----------------------+----------------------+\n",
 419 |             "                                                                               \n",
 420 |             "+-----------------------------------------------------------------------------+\n",
 421 |             "| Processes:                                                                  |\n",
 422 |             "|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |\n",
 423 |             "|        ID   ID                                                   Usage      |\n",
 424 |             "|=============================================================================|\n",
 425 |             "|  No running processes found                                                 |\n",
 426 |             "+-----------------------------------------------------------------------------+\n"
 427 |           ]
 428 |         }
 429 |       ]
 430 |     },
 431 |     {
 432 |       "cell_type": "code",
 433 |       "execution_count": null,
 434 |       "metadata": {
 435 |         "colab": {
 436 |           "base_uri": "https://localhost:8080/"
 437 |         },
 438 |         "id": "Op0GXmC8CCyR",
 439 |         "outputId": "8bb9d2fb-1451-4093-d9b3-8cb37c42e802"
 440 |       },
 441 |       "outputs": [
 442 |         {
 443 |           "output_type": "stream",
 444 |           "name": "stdout",
 445 |           "text": [
 446 |             "Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\n",
 447 |             "Requirement already satisfied: transformers==4.14.1 in /usr/local/lib/python3.7/dist-packages (4.14.1)\n",
 448 |             "Requirement already satisfied: packaging>=20.0 in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (21.3)\n",
 449 |             "Requirement already satisfied: regex!=2019.12.17 in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (2022.6.2)\n",
 450 |             "Requirement already satisfied: numpy>=1.17 in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (1.21.6)\n",
 451 |             "Requirement already satisfied: filelock in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (3.7.1)\n",
 452 |             "Requirement already satisfied: tokenizers<0.11,>=0.10.1 in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (0.10.3)\n",
 453 |             "Requirement already satisfied: requests in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (2.23.0)\n",
 454 |             "Requirement already satisfied: huggingface-hub<1.0,>=0.1.0 in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (0.8.1)\n",
 455 |             "Requirement already satisfied: importlib-metadata in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (4.12.0)\n",
 456 |             "Requirement already satisfied: tqdm>=4.27 in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (4.64.0)\n",
 457 |             "Requirement already satisfied: pyyaml>=5.1 in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (6.0)\n",
 458 |             "Requirement already satisfied: sacremoses in /usr/local/lib/python3.7/dist-packages (from transformers==4.14.1) (0.0.53)\n",
 459 |             "Requirement already satisfied: typing-extensions>=3.7.4.3 in /usr/local/lib/python3.7/dist-packages (from huggingface-hub<1.0,>=0.1.0->transformers==4.14.1) (4.1.1)\n",
 460 |             "Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in /usr/local/lib/python3.7/dist-packages (from packaging>=20.0->transformers==4.14.1) (3.0.9)\n",
 461 |             "Requirement already satisfied: zipp>=0.5 in /usr/local/lib/python3.7/dist-packages (from importlib-metadata->transformers==4.14.1) (3.8.1)\n",
 462 |             "Requirement already satisfied: idna<3,>=2.5 in /usr/local/lib/python3.7/dist-packages (from requests->transformers==4.14.1) (2.10)\n",
 463 |             "Requirement already satisfied: urllib3!=1.25.0,!=1.25.1,<1.26,>=1.21.1 in /usr/local/lib/python3.7/dist-packages (from requests->transformers==4.14.1) (1.24.3)\n",
 464 |             "Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.7/dist-packages (from requests->transformers==4.14.1) (2022.6.15)\n",
 465 |             "Requirement already satisfied: chardet<4,>=3.0.2 in /usr/local/lib/python3.7/dist-packages (from requests->transformers==4.14.1) (3.0.4)\n",
 466 |             "Requirement already satisfied: click in /usr/local/lib/python3.7/dist-packages (from sacremoses->transformers==4.14.1) (7.1.2)\n",
 467 |             "Requirement already satisfied: joblib in /usr/local/lib/python3.7/dist-packages (from sacremoses->transformers==4.14.1) (1.1.0)\n",
 468 |             "Requirement already satisfied: six in /usr/local/lib/python3.7/dist-packages (from sacremoses->transformers==4.14.1) (1.15.0)\n",
 469 |             "Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/\n",
 470 |             "Collecting http://35.184.69.80/root/pypi/+f/01a/9628eee5d6858/bitsandbytes-cuda111-0.26.0.tar.gz\n",
 471 |             "  Downloading http://35.184.69.80/root/pypi/+f/01a/9628eee5d6858/bitsandbytes-cuda111-0.26.0.tar.gz (3.9 MB)\n",
 472 |             "\u001b[K     |████████████████████████████████| 3.9 MB 303 kB/s \n",
 473 |             "\u001b[?25h  Installing build dependencies ... \u001b[?25l\u001b[?25hdone\n",
 474 |             "  Getting requirements to build wheel ... \u001b[?25l\u001b[?25hdone\n",
 475 |             "    Preparing wheel metadata ... \u001b[?25l\u001b[?25hdone\n",
 476 |             "Building wheels for collected packages: bitsandbytes-cuda11.1.1\n",
 477 |             "  Building wheel for bitsandbytes-cuda11.1.1 (PEP 517) ... \u001b[?25l\u001b[?25hdone\n",
 478 |             "  Created wheel for bitsandbytes-cuda11.1.1: filename=bitsandbytes_cuda11.1.1-0.26.0-py3-none-any.whl size=3985724 sha256=0e0b41581d09f9048a7010145a9ccaff14449ee220c1f51b7945632e9a460e1e\n",
 479 |             "  Stored in directory: /root/.cache/pip/wheels/93/02/4e/d54aafb3d81e795aae3d1193a5423c3fa563be41ac9f89212e\n",
 480 |             "Successfully built bitsandbytes-cuda11.1.1\n",
 481 |             "Installing collected packages: bitsandbytes-cuda11.1.1\n",
 482 |             "Successfully installed bitsandbytes-cuda11.1.1-0.26.0\n"
 483 |           ]
 484 |         }
 485 |       ],
 486 |       "source": [
 487 |         "!pip install transformers==4.14.1\n",
 488 |         "!pip install http://35.184.69.80/root/pypi/+f/01a/9628eee5d6858/bitsandbytes-cuda111-0.26.0.tar.gz"
 489 |       ]
 490 |     },
 491 |     {
 492 |       "cell_type": "code",
 493 |       "execution_count": null,
 494 |       "metadata": {
 495 |         "id": "p0dy1ZFwClcq"
 496 |       },
 497 |       "outputs": [],
 498 |       "source": [
 499 |         "import transformers\n",
 500 |         "import torch"
 501 |       ]
 502 |     },
 503 |     {
 504 |       "cell_type": "markdown",
 505 |       "metadata": {
 506 |         "id": "GODiktIBFt4w"
 507 |       },
 508 |       "source": [
 509 |         "## Convierte el modelo a 8 bits\n",
 510 |         "\n",
 511 |         "Primero convertimos el modelo GPT-J-6B de EleutherAI a 8 bits usando la biblioteca de Facebook [bitsandbytes](https://github.com/facebookresearch/bitsandbytes). Así, reducimos el tamaño del modelo de 20Gb a solo 6Gb.\n",
 512 |         "\n",
 513 |         "Nota: No convertimos las capas lineares de sesgos a 8 bits porque no queremos perder esa información y de todas formas solo representan el 1% del tamaño del modelo."
 514 |       ]
 515 |     },
 516 |     {
 517 |       "cell_type": "code",
 518 |       "source": [
 519 |         "! wget https://huggingface.co/mrm8488/bertin-gpt-j-6B-ES-8bit/resolve/main/Utils.py -O Utils.py"
 520 |       ],
 521 |       "metadata": {
 522 |         "colab": {
 523 |           "base_uri": "https://localhost:8080/"
 524 |         },
 525 |         "id": "BecZDZ2lelN_",
 526 |         "outputId": "bb3a2d46-3604-48cc-b00b-57d6f6f0eb44"
 527 |       },
 528 |       "execution_count": null,
 529 |       "outputs": [
 530 |         {
 531 |           "output_type": "stream",
 532 |           "name": "stdout",
 533 |           "text": [
 534 |             "--2022-08-09 15:33:22--  https://huggingface.co/mrm8488/bertin-gpt-j-6B-ES-8bit/resolve/main/Utils.py\n",
 535 |             "Resolving huggingface.co (huggingface.co)... 52.2.34.29, 34.231.117.252, 2600:1f18:147f:e850:d57d:d46a:df34:61ee, ...\n",
 536 |             "Connecting to huggingface.co (huggingface.co)|52.2.34.29|:443... connected.\n",
 537 |             "HTTP request sent, awaiting response... 200 OK\n",
 538 |             "Length: 5838 (5.7K) [text/plain]\n",
 539 |             "Saving to: ‘Utils.py’\n",
 540 |             "\n",
 541 |             "Utils.py            100%[===================>]   5.70K  --.-KB/s    in 0s      \n",
 542 |             "\n",
 543 |             "2022-08-09 15:33:22 (80.2 MB/s) - ‘Utils.py’ saved [5838/5838]\n",
 544 |             "\n"
 545 |           ]
 546 |         }
 547 |       ]
 548 |     },
 549 |     {
 550 |       "cell_type": "code",
 551 |       "execution_count": null,
 552 |       "metadata": {
 553 |         "id": "P8Y75B6WDIN-"
 554 |       },
 555 |       "outputs": [],
 556 |       "source": [
 557 |         "from Utils import GPTJBlock, GPTJForCausalLM"
 558 |       ]
 559 |     },
 560 |     {
 561 |       "cell_type": "code",
 562 |       "execution_count": null,
 563 |       "metadata": {
 564 |         "id": "BOSZ-S1cDRq1"
 565 |       },
 566 |       "outputs": [],
 567 |       "source": [
 568 |         "transformers.models.gptj.modeling_gptj.GPTJBlock = GPTJBlock  # monkey-patch GPT-J"
 569 |       ]
 570 |     },
 571 |     {
 572 |       "cell_type": "code",
 573 |       "execution_count": null,
 574 |       "metadata": {
 575 |         "id": "DuW4H6HTS82r"
 576 |       },
 577 |       "outputs": [],
 578 |       "source": [
 579 |         "device = 'cuda' if torch.cuda.is_available() else 'cpu'\n",
 580 |         "\n",
 581 |         "CKPT = 'mrm8488/bertin-gpt-j-6B-ES-8bit'\n",
 582 |         "\n",
 583 |         "tokenizer = transformers.AutoTokenizer.from_pretrained(CKPT)\n",
 584 |         "model = GPTJForCausalLM.from_pretrained(CKPT).to(device)"
 585 |       ]
 586 |     },
 587 |     {
 588 |       "cell_type": "code",
 589 |       "source": [
 590 |         "import textwrap"
 591 |       ],
 592 |       "metadata": {
 593 |         "id": "_uABnZ_GbVG1"
 594 |       },
 595 |       "execution_count": null,
 596 |       "outputs": []
 597 |     },
 598 |     {
 599 |       "cell_type": "code",
 600 |       "source": [
 601 |         "def generate(text: str, max_length: int = 64, do_sample: bool = True, temperature: float = 0.9) -> str:\n",
 602 |         "  prompt = tokenizer(text, return_tensors='pt')\n",
 603 |         "  features = {key: value.to(device) for key, value in prompt.items()}\n",
 604 |         "  out = model.generate(**features, max_length=max_length, do_sample=do_sample, temperature=temperature)\n",
 605 |         "  return tokenizer.decode(out[0])"
 606 |       ],
 607 |       "metadata": {
 608 |         "id": "O_UmBxrpo5ru"
 609 |       },
 610 |       "execution_count": null,
 611 |       "outputs": []
 612 |     },
 613 |     {
 614 |       "cell_type": "markdown",
 615 |       "source": [
 616 |         "## Juega con el modelo\n",
 617 |         "\n",
 618 |         "Aquí te dejamos una serie de ejemplos para que puedas jugar con el modelo. Te animamos a que pruebes tus propias ideas e investigues cómo \"razona\" el modelo."
 619 |       ],
 620 |       "metadata": {
 621 |         "id": "0MlLc3y4HJ_S"
 622 |       }
 623 |     },
 624 |     {
 625 |       "cell_type": "code",
 626 |       "source": [
 627 |         "offers = [\n",
 628 |         "['¡30% EXTRA! Disfruta de este cupón descuento Venca ¡REBAJAS!',\n",
 629 |         " '25% MENOS usando el código descuento Yoins al realizar tu compra',\n",
 630 |         " '10% EXTRA en tus compras al aplicar el cupón descuento Samsung',\n",
 631 |         " '12% MENOS aplicando este código descuento Sammydress en tu pedido online',\n",
 632 |         " '-15% al aplicar este código en todos los productos',\n",
 633 |         " '-20% al introducir el código promocional Mister Spex',\n",
 634 |         " '-5% aplicando este código promocional MiniInTheBox antes de finalizar tu pedido',\n",
 635 |         " '-18% introduciendo el cupón descuento Milanoo de Navidad',\n",
 636 |         " '-10% aplicando este código al comprar 3 artículos en la web',\n",
 637 |         " '20% MENOS al aplicar el código descuento Miss Hamptons',\n",
 638 |         " '70% MENOS para hacer calendarios personalizados para hacer calendarios personalizados para hacer calendarios personalizados para hacer calendarios personalizados con este código Vistaprint',\n",
 639 |         " '10% de ahorro en TODA la web aplicando este código descuento Spartoo ¡Limitado!',\n",
 640 |         " '20% MENOS al aplicar este código promocional iStock',\n",
 641 |         " '8% MENOS en tu alojamiento aplicando este cupón Hoteles.com',\n",
 642 |         " '-15% al usar el código promocional Bikeinn del Cyber Monday',\n",
 643 |         " '-17% en Yoins introduciendo este código en la web',\n",
 644 |         " '15% de rebaja en gaming Omen aplicando este código descuento HP',\n",
 645 |         " '20% código descuento Nutritienda en una selección de marcas',\n",
 646 |         " '40% MENOS en tus pedidos al aplicar este código promocional Vistaprint',\n",
 647 |         " '30% usando este código al comprar álbumes de lujo',\n",
 648 |         " '19% de ahorro al aplicar este código descuento Yoins ¡Celebra el Año Nuevo!',\n",
 649 |         " '12% código descuento iStock en TODO para nuevos clientes',\n",
 650 |         " '-10% usando el código descuento Qatar Airways al reservar desde el móvil',\n",
 651 |         " '-40% usando este código descuento Photobox al comprar un álbum de fotos',\n",
 652 |         " '-10% aplicando este código ¡Oportunidad Yoins!',\n",
 653 |         " '5% código descuento Zoombits en Multicompra',\n",
 654 |         " '10% código descuento Animalear',\n",
 655 |         " '7% MENOS en tu reserva aplicando este código descuento H10 Hotels',\n",
 656 |         " '-10% usando este código al comprar muebles en VidaXL',\n",
 657 |         " '25% MENOS al aplicar este cupón La Tostadora',\n",
 658 |         " '-8% en electrónica de consumo aplicando este código promocional GearBest',\n",
 659 |         " '¡-20% aplicando este cupón descuento Lentes-Shop!',\n",
 660 |         " '-20% en tu moda favorita ¡código Venca!',\n",
 661 |         " '5% código descuento Agoda para viajar a Shanghai',\n",
 662 |         " '10% MENOS en snack para tu mascota aplicando este cupón promocional activo',\n",
 663 |         " '10%. 15% o 20% ¡Elige tu cupón Kiwoko y ahorra en el pienso para tu perro!',\n",
 664 |         " '¡15% menos con este gran código promocional Runnerinn del Cyber Monday!',\n",
 665 |         " '5% EXTRA aplicando este código en TODO',\n",
 666 |         " '20% MENOS usando este código al comprar la mejor moda',\n",
 667 |         " '30% MENOS en todas las bebidas al aplicar el código promocional Tassimo',\n",
 668 |         " '10% MENOS al aplicar este código descuento FocalPrice',\n",
 669 |         " '20% MENOS en una gran variedad de lámparas aplicando este cupón',\n",
 670 |         " '8% MENOS al aplicar este cupón descuento',\n",
 671 |         " '12% MENOS al aplicar este cupón descuento Dosfarma',\n",
 672 |         " '15% MENOS al aplicar el cupón descuento Magix',\n",
 673 |         " '-5% aplicando este código promocional Spartoo de verano',\n",
 674 |         " '20% en Novedades Milano con código promocional Fifty Factory',\n",
 675 |         " '20% MENOS al aplicar el código descuento Zavvi en vinilos',\n",
 676 |         " '-5% usando este código descuento Zoombits al comprar 2 artículos',\n",
 677 |         " '-8% aplicando este código',\n",
 678 |         " '20% adicional en en TODA la web si usas el cupón descuento El Armario de la Tele',\n",
 679 |         " '5% código descuento en los accesorios de cocina de Zoombits',\n",
 680 |         " '20% código descuento Lopesan Hoteles']"
 681 |       ],
 682 |       "metadata": {
 683 |         "id": "8PZhoJGmTRuq"
 684 |       },
 685 |       "execution_count": null,
 686 |       "outputs": []
 687 |     },
 688 |     {
 689 |       "cell_type": "code",
 690 |       "source": [
 691 |         "text = '''\n",
 692 |         "título: 5% código descuento Zoombits en Multicompra\n",
 693 |         "oferta: 5% en Multicompra\n",
 694 |         "\n",
 695 |         "título: -10% usando este cupón descuento Alltricks\n",
 696 |         "oferta: -10%\n",
 697 |         "\n",
 698 |         "título: 10% código descuento Animalear\n",
 699 |         "oferta; 10%\n",
 700 |         "\n",
 701 |         "título: ¡5% adicional utilizando este código descuento Barceló Hoteles!\n",
 702 |         "oferta: 5% adicional\n",
 703 |         "\n",
 704 |         "título: 15% de descuento al utilizar el código promocional Spartoo\n",
 705 |         "oferta: 15%\n",
 706 |         "\n",
 707 |         "título: 25% MENOS utilizando este código descuento Groupon\n",
 708 |         "oferta: 25% MENOS\n",
 709 |         "\n",
 710 |         "título: -25% en la web usando e cupón descuento vistaprint\n",
 711 |         "oferta: -25% en la web\n",
 712 |         "\n",
 713 |         "título: -10% usando este código al comprar muebles en VidaXL\n",
 714 |         "oferta: -10% al comprar muebles\n",
 715 |         "\n",
 716 |         "título: -20% en tu moda favorita ¡código Venca!\n",
 717 |         "oferta: -20% en tu moda favorita\n",
 718 |         "\n",
 719 |         "título: 19% de ahorro al aplicar este código descuento Yoins ¡Celebra el Año Nuevo!\n",
 720 |         "oferta: 19% de ahorro\n",
 721 |         "\n",
 722 |         "título: 8% MENOS en tu alojamiento aplicando este cupón Hoteles.com\n",
 723 |         "oferta: 8% MENOS en tu alojamiento\n",
 724 |         "\n",
 725 |         "título::\n",
 726 |         "oferta:'''"
 727 |       ],
 728 |       "metadata": {
 729 |         "id": "IL_C363KRl58"
 730 |       },
 731 |       "execution_count": null,
 732 |       "outputs": []
 733 |     },
 734 |     {
 735 |       "cell_type": "code",
 736 |       "source": [
 737 |         "from tqdm.notebook import tqdm"
 738 |       ],
 739 |       "metadata": {
 740 |         "id": "p7stT18iX8gQ"
 741 |       },
 742 |       "execution_count": null,
 743 |       "outputs": []
 744 |     },
 745 |     {
 746 |       "cell_type": "code",
 747 |       "source": [
 748 |         "titles = []\n",
 749 |         "ofertas = []\n",
 750 |         "for offer in tqdm(offers):\n",
 751 |         "  prompt = text.replace('título::', 'título: ' + offer)\n",
 752 |         "  response = generate(prompt, 512, True, temperature = 0.8)\n",
 753 |         "  print(offer)\n",
 754 |         "  print(response.replace(prompt, ''))\n",
 755 |         "  print()\n",
 756 |         "  print(\"===\")\n",
 757 |         "  titles.append(offer)\n",
 758 |         "  ofertas.append(response.replace(prompt, '').split('\\n')[0].strip())\n"
 759 |       ],
 760 |       "metadata": {
 761 |         "colab": {
 762 |           "base_uri": "https://localhost:8080/",
 763 |           "height": 1000,
 764 |           "referenced_widgets": [
 765 |             "3b354e5db9bb462dbc60e13a5302388b",
 766 |             "cfc7dd89a25243519bbfdb3d1741f3b7",
 767 |             "c9786564c94c400ba59befbeb2484718",
 768 |             "b23669a67d5f4bfc8a3df6b82d0cc0fe",
 769 |             "073e80247a2a46fda0d6d73175d374a2",
 770 |             "7254d7f2f786449c8c6616244cd6e492",
 771 |             "ef1d34c16b4e4f4291ac1c09bd217635",
 772 |             "a6e8d510cd2d43bf97c99ca70c37bf3a",
 773 |             "a59c626d9fbf43dd9edf77ce62f2b155",
 774 |             "2de45259c3f64ae7a1b98aa74ec629f6",
 775 |             "f21ca1e656ff42648dcb0ba75484f3c6"
 776 |           ]
 777 |         },
 778 |         "id": "KpeYgdavVYV6",
 779 |         "outputId": "4e5b8d07-6ea0-4bf9-c4f2-3891d759017d"
 780 |       },
 781 |       "execution_count": null,
 782 |       "outputs": [
 783 |         {
 784 |           "output_type": "display_data",
 785 |           "data": {
 786 |             "text/plain": [
 787 |               "  0%|          | 0/49 [00:00<?, ?it/s]"
 788 |             ],
 789 |             "application/vnd.jupyter.widget-view+json": {
 790 |               "version_major": 2,
 791 |               "version_minor": 0,
 792 |               "model_id": "3b354e5db9bb462dbc60e13a5302388b"
 793 |             }
 794 |           },
 795 |           "metadata": {}
 796 |         },
 797 |         {
 798 |           "output_type": "stream",
 799 |           "name": "stderr",
 800 |           "text": [
 801 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n",
 802 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 803 |           ]
 804 |         },
 805 |         {
 806 |           "output_type": "stream",
 807 |           "name": "stdout",
 808 |           "text": [
 809 |             "10% MENOS usando el cupón descuento Yoins\n",
 810 |             " 10% MENOS en tus compras\n",
 811 |             "título: 10% de descuento con este cupón descuento vueling\n",
 812 |             "oferta: 10% de descuento\n",
 813 |             "título: 5% MENOS al comprar en Zalando utilizando este cupón descuento Zalando (Nuevo)\n",
 814 |             "of\n",
 815 |             "\n",
 816 |             "===\n"
 817 |           ]
 818 |         },
 819 |         {
 820 |           "output_type": "stream",
 821 |           "name": "stderr",
 822 |           "text": [
 823 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 824 |           ]
 825 |         },
 826 |         {
 827 |           "output_type": "stream",
 828 |           "name": "stdout",
 829 |           "text": [
 830 |             "27% MENOS usando el cupón descuento La Tostadora\n",
 831 |             " 27% MENOS en la compra de tus tostadas\n",
 832 |             "título: 27% MENOS en tu alojamiento\n",
 833 |             "título: -10% con el cupón descuento Groupon\n",
 834 |             "oferta: -10% en tu alojamiento\n",
 835 |             "título: 27% DE AHOR\n",
 836 |             "\n",
 837 |             "===\n"
 838 |           ]
 839 |         },
 840 |         {
 841 |           "output_type": "stream",
 842 |           "name": "stderr",
 843 |           "text": [
 844 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 845 |           ]
 846 |         },
 847 |         {
 848 |           "output_type": "stream",
 849 |           "name": "stdout",
 850 |           "text": [
 851 |             "10% de ahorro en TODA la web aplicando este código descuento Spartoo ¡Limitado!\n",
 852 |             " 10% de ahorro en TODA la web en las rebajas de invierno\n",
 853 |             "título: 15% de ahorro en TODA la web en las rebajas de invierno\n",
 854 |             "oferta: 15% de ahorro en rebajas de\n",
 855 |             "\n",
 856 |             "===\n"
 857 |           ]
 858 |         },
 859 |         {
 860 |           "output_type": "stream",
 861 |           "name": "stderr",
 862 |           "text": [
 863 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 864 |           ]
 865 |         },
 866 |         {
 867 |           "output_type": "stream",
 868 |           "name": "stdout",
 869 |           "text": [
 870 |             "20% MENOS al aplicar este código promocional iStock\n",
 871 |             " 20% MENOS en tu cámara digital\n",
 872 |             "título: 10% de ahorro con las ofertas del Día de la Madre en MediaMarkt\n",
 873 |             "oferta: 10% de ahorro en MediaMarkt\n",
 874 |             "título: -8% en las Rebajas de MediaMarkt\n",
 875 |             "\n",
 876 |             "\n",
 877 |             "===\n"
 878 |           ]
 879 |         },
 880 |         {
 881 |           "output_type": "stream",
 882 |           "name": "stderr",
 883 |           "text": [
 884 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 885 |           ]
 886 |         },
 887 |         {
 888 |           "output_type": "stream",
 889 |           "name": "stdout",
 890 |           "text": [
 891 |             "8% MENOS en tu alojamiento aplicando este cupón Hoteles.com\n",
 892 |             " 8% MENOS en tu alojamiento\n",
 893 |             "título: ¡10% en tu experiencia de aventura!\n",
 894 |             "oferta: ¡10% en tu experiencia de aventura!\n",
 895 |             "título: -10% en tu primera compra en Groupon\n",
 896 |             "oferta\n",
 897 |             "\n",
 898 |             "===\n"
 899 |           ]
 900 |         },
 901 |         {
 902 |           "output_type": "stream",
 903 |           "name": "stderr",
 904 |           "text": [
 905 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 906 |           ]
 907 |         },
 908 |         {
 909 |           "output_type": "stream",
 910 |           "name": "stdout",
 911 |           "text": [
 912 |             "-15% al usar el código promocional Bikeinn del Cyber Monday\n",
 913 |             " -15%\n",
 914 |             "título: -10% en tu gimnasio al aplicar este código descuento Sportium\n",
 915 |             "oferta: -10%\n",
 916 |             "título: Aprovecha este código descuento Sportium\n",
 917 |             "título: -10% en tu sus\n",
 918 |             "\n",
 919 |             "===\n"
 920 |           ]
 921 |         },
 922 |         {
 923 |           "output_type": "stream",
 924 |           "name": "stderr",
 925 |           "text": [
 926 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 927 |           ]
 928 |         },
 929 |         {
 930 |           "output_type": "stream",
 931 |           "name": "stdout",
 932 |           "text": [
 933 |             "-17% en Yoins introduciendo este código en la web\n",
 934 |             " -17% en Yoins\n",
 935 |             "título: 10€ de descuento al aplicar este código descuento en tu factura de AliExpress\n",
 936 |             "oferta: 10€ de descuento al aplicar este código descuento\n",
 937 |             "título: -5€ en tu seg\n",
 938 |             "\n",
 939 |             "===\n"
 940 |           ]
 941 |         },
 942 |         {
 943 |           "output_type": "stream",
 944 |           "name": "stderr",
 945 |           "text": [
 946 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 947 |           ]
 948 |         },
 949 |         {
 950 |           "output_type": "stream",
 951 |           "name": "stdout",
 952 |           "text": [
 953 |             "15% de rebaja en gaming Omen aplicando este código descuento HP\n",
 954 |             " 15% de rebaja\n",
 955 |             "título: hasta -50% en tu compra en MyProtein\n",
 956 |             "oferta: hasta -50%\n",
 957 |             "título: -10% con este cupón descuento Groupon\n",
 958 |             "oferta: -10% utilizando el cupón descuento Group\n",
 959 |             "\n",
 960 |             "===\n"
 961 |           ]
 962 |         },
 963 |         {
 964 |           "output_type": "stream",
 965 |           "name": "stderr",
 966 |           "text": [
 967 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 968 |           ]
 969 |         },
 970 |         {
 971 |           "output_type": "stream",
 972 |           "name": "stdout",
 973 |           "text": [
 974 |             "20% código descuento Nutritienda en una selección de marcas\n",
 975 |             " 20%\n",
 976 |             "título: -14% usando este cupón descuento Asos\n",
 977 |             "oferta: -14%\n",
 978 |             "título: -20% en tus primeros 3 pedidos usando este código descuento Zaful\n",
 979 |             "oferta: -20% en t\n",
 980 |             "\n",
 981 |             "===\n"
 982 |           ]
 983 |         },
 984 |         {
 985 |           "output_type": "stream",
 986 |           "name": "stderr",
 987 |           "text": [
 988 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
 989 |           ]
 990 |         },
 991 |         {
 992 |           "output_type": "stream",
 993 |           "name": "stdout",
 994 |           "text": [
 995 |             "40% MENOS en tus pedidos al aplicar este código promocional Vistaprint\n",
 996 |             " 40% MENOS en tus pedidos\n",
 997 |             "título: ¡5€ de descuento en la primera compra con este cupón promocional Groupon!.com!\n",
 998 |             "oferta: ¡5€ de descuento en la primera compra!\n",
 999 |             "tí\n",
1000 |             "\n",
1001 |             "===\n"
1002 |           ]
1003 |         },
1004 |         {
1005 |           "output_type": "stream",
1006 |           "name": "stderr",
1007 |           "text": [
1008 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1009 |           ]
1010 |         },
1011 |         {
1012 |           "output_type": "stream",
1013 |           "name": "stdout",
1014 |           "text": [
1015 |             "30% usando este código al comprar álbumes de lujo\n",
1016 |             " 30%\n",
1017 |             "título: -50% al comprar con esta oferta de descuento en Fnac\n",
1018 |             "oferta: -50%\n",
1019 |             "título: 10€ de descuento en tu próxima compra ¡utiliza este código descuento Navidad 2018\n",
1020 |             "\n",
1021 |             "===\n"
1022 |           ]
1023 |         },
1024 |         {
1025 |           "output_type": "stream",
1026 |           "name": "stderr",
1027 |           "text": [
1028 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1029 |           ]
1030 |         },
1031 |         {
1032 |           "output_type": "stream",
1033 |           "name": "stdout",
1034 |           "text": [
1035 |             "10% MENOS usando este código promocional Yoins\n",
1036 |             " 10% MENOS\n",
1037 |             "título: -10% en tu pedido y en tu primera compra en Vayava\n",
1038 |             "oferta: -10% en tu pedido y en tu primera compra en Vayava\n",
1039 |             "título: 10% en tu pedido y en tu primera compra en Vayava\n",
1040 |             "of\n",
1041 |             "\n",
1042 |             "===\n"
1043 |           ]
1044 |         },
1045 |         {
1046 |           "output_type": "stream",
1047 |           "name": "stderr",
1048 |           "text": [
1049 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1050 |           ]
1051 |         },
1052 |         {
1053 |           "output_type": "stream",
1054 |           "name": "stdout",
1055 |           "text": [
1056 |             "5% de descuento en tu próximo pedido usando el cupón descuento ShytoBuy\n",
1057 |             " 5% de descuento en tu próximo pedido\n",
1058 |             "título: 20% de descuento en tu pedido de ropa y moda con este código descuento Venca\n",
1059 |             "oferta: 20% de descuento en tu pedido de ropa y mod\n",
1060 |             "\n",
1061 |             "===\n"
1062 |           ]
1063 |         },
1064 |         {
1065 |           "output_type": "stream",
1066 |           "name": "stderr",
1067 |           "text": [
1068 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1069 |           ]
1070 |         },
1071 |         {
1072 |           "output_type": "stream",
1073 |           "name": "stdout",
1074 |           "text": [
1075 |             "19% de ahorro al aplicar este código descuento Yoins ¡Celebra el Año Nuevo!\n",
1076 |             " 19% de ahorro en productos seleccionados\n",
1077 |             "título: 20% de ahorro en tu reserva de viajes\n",
1078 |             "oferta: 20% de ahorro en tu reserva\n",
1079 |             "título: -10% al compr\n",
1080 |             "\n",
1081 |             "===\n"
1082 |           ]
1083 |         },
1084 |         {
1085 |           "output_type": "stream",
1086 |           "name": "stderr",
1087 |           "text": [
1088 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1089 |           ]
1090 |         },
1091 |         {
1092 |           "output_type": "stream",
1093 |           "name": "stdout",
1094 |           "text": [
1095 |             "-10% al utilizar el cupón descuento Planeta Huerto\n",
1096 |             " -10% al comprar productos de frutas y verduras\n",
1097 |             "título: -15% en viajes en Booking con este código descuento\n",
1098 |             "oferta: -15% en viajes\n",
1099 |             "título: -15% en viajes en Booking al aplicar este\n",
1100 |             "\n",
1101 |             "===\n"
1102 |           ]
1103 |         },
1104 |         {
1105 |           "output_type": "stream",
1106 |           "name": "stderr",
1107 |           "text": [
1108 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1109 |           ]
1110 |         },
1111 |         {
1112 |           "output_type": "stream",
1113 |           "name": "stdout",
1114 |           "text": [
1115 |             "10% MENOS usando este código promocional PromoFarma\n",
1116 |             " 10% MENOS utilizando este código descuento PromoFarma\n",
1117 |             "título: 10% de descuento en todos tus pedidos en eBay\n",
1118 |             "oferta: 10% de descuento en todos tus pedidos\n",
1119 |             "título: ¡5% extra en la web\n",
1120 |             "\n",
1121 |             "===\n"
1122 |           ]
1123 |         },
1124 |         {
1125 |           "output_type": "stream",
1126 |           "name": "stderr",
1127 |           "text": [
1128 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1129 |           ]
1130 |         },
1131 |         {
1132 |           "output_type": "stream",
1133 |           "name": "stdout",
1134 |           "text": [
1135 |             "10% MENOS usando este código promocional Cyberlink\n",
1136 |             " 10% MENOS\n",
1137 |             "título: 10% código descuento al comprar en Asos\n",
1138 |             "oferta: 10% código descuento al comprar en Asos\n",
1139 |             "título: 10% código descuento al comprar en Asos\n",
1140 |             "oferta: 10% códig\n",
1141 |             "\n",
1142 |             "===\n"
1143 |           ]
1144 |         },
1145 |         {
1146 |           "output_type": "stream",
1147 |           "name": "stderr",
1148 |           "text": [
1149 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1150 |           ]
1151 |         },
1152 |         {
1153 |           "output_type": "stream",
1154 |           "name": "stdout",
1155 |           "text": [
1156 |             "10% MENOS utilizando este código descuento VidaXL\n",
1157 |             " 10% MENOS\n",
1158 |             "título: 10% código promocional en la tienda online de Privalia\n",
1159 |             "oferta: 10% código promocional en la tienda online de Privalia\n",
1160 |             "título: 10% código promocional en la tienda online de Vee\n",
1161 |             "\n",
1162 |             "===\n"
1163 |           ]
1164 |         },
1165 |         {
1166 |           "output_type": "stream",
1167 |           "name": "stderr",
1168 |           "text": [
1169 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1170 |           ]
1171 |         },
1172 |         {
1173 |           "output_type": "stream",
1174 |           "name": "stdout",
1175 |           "text": [
1176 |             "12% código descuento iStock en TODO para nuevos clientes\n",
1177 |             " 12% código descuento iStock en TODO para nuevos clientes\n",
1178 |             "título: -10% en tus compras en la web\n",
1179 |             "oferta: -10% en tus compras\n",
1180 |             "título: 15% código descuento ToysRus en tu ped\n",
1181 |             "\n",
1182 |             "===\n"
1183 |           ]
1184 |         },
1185 |         {
1186 |           "output_type": "stream",
1187 |           "name": "stderr",
1188 |           "text": [
1189 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1190 |           ]
1191 |         },
1192 |         {
1193 |           "output_type": "stream",
1194 |           "name": "stdout",
1195 |           "text": [
1196 |             "-25% usando el cupón descuento Zoombits Black Friday\n",
1197 |             " -25%\n",
1198 |             "título: 50% en tu próxima compra con este código descuento Groupon\n",
1199 |             "oferta: 50% en tu próxima compra\n",
1200 |             "título: 50% de descuento en tus compras en Groupon\n",
1201 |             "oferta: 50% en tus comp\n",
1202 |             "\n",
1203 |             "===\n"
1204 |           ]
1205 |         },
1206 |         {
1207 |           "output_type": "stream",
1208 |           "name": "stderr",
1209 |           "text": [
1210 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1211 |           ]
1212 |         },
1213 |         {
1214 |           "output_type": "stream",
1215 |           "name": "stdout",
1216 |           "text": [
1217 |             "-10% usando el código descuento Qatar Airways al reservar desde el móvil\n",
1218 |             " -10% en tu vuelo\n",
1219 |             "título: -5% usando este cupón descuento Groupalia\n",
1220 |             "oferta: -5% en tus planes de ocio\n",
1221 |             "título: -10% en tus entradas para el cine con este cupón LetsBonus\n",
1222 |             "\n",
1223 |             "===\n"
1224 |           ]
1225 |         },
1226 |         {
1227 |           "output_type": "stream",
1228 |           "name": "stderr",
1229 |           "text": [
1230 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1231 |           ]
1232 |         },
1233 |         {
1234 |           "output_type": "stream",
1235 |           "name": "stdout",
1236 |           "text": [
1237 |             "20% MENOS usando el cupón descuento Gafas World\n",
1238 |             " 20% MENOS\n",
1239 |             "título: 20% código descuento en tu tienda de deportes favorita ¡Black Friday!\n",
1240 |             "oferta: 20% código descuento en tu tienda de deportes favorita\n",
1241 |             "título: 20€ descuento en tu tienda de deportes favorita\n",
1242 |             "\n",
1243 |             "===\n"
1244 |           ]
1245 |         },
1246 |         {
1247 |           "output_type": "stream",
1248 |           "name": "stderr",
1249 |           "text": [
1250 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1251 |           ]
1252 |         },
1253 |         {
1254 |           "output_type": "stream",
1255 |           "name": "stdout",
1256 |           "text": [
1257 |             "-40% usando este código descuento Photobox al comprar un álbum de fotos\n",
1258 |             " -40%\n",
1259 |             "título: -25% con este cupón descuento Wiggle en tus pedidos de más de $35\n",
1260 |             "oferta: -25%\n",
1261 |             "título: -20% usando este código descuento Iberostar\n",
1262 |             "\n",
1263 |             "\n",
1264 |             "===\n"
1265 |           ]
1266 |         },
1267 |         {
1268 |           "output_type": "stream",
1269 |           "name": "stderr",
1270 |           "text": [
1271 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1272 |           ]
1273 |         },
1274 |         {
1275 |           "output_type": "stream",
1276 |           "name": "stdout",
1277 |           "text": [
1278 |             "-10% aplicando este código ¡Oportunidad Yoins!\n",
1279 |             " -10%\n",
1280 |             "título: -5% en muebles, electrónica y hogar aplicando este cupón Yoins\n",
1281 |             "oferta: -5% en muebles, electrónica y hogar\n",
1282 |             "título: -15% adicional usando este código prom\n",
1283 |             "\n",
1284 |             "===\n"
1285 |           ]
1286 |         },
1287 |         {
1288 |           "output_type": "stream",
1289 |           "name": "stderr",
1290 |           "text": [
1291 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1292 |           ]
1293 |         },
1294 |         {
1295 |           "output_type": "stream",
1296 |           "name": "stdout",
1297 |           "text": [
1298 |             "5% código descuento Zoombits en Multicompra\n",
1299 |             " 5% en Multicompra\n",
1300 |             "título: -10% adicional en tu pedido al aplicar este código Alltricks\n",
1301 |             "oferta: -10% adicional\n",
1302 |             "título: 10% código descuento Animalear en tus compras\n",
1303 |             "oferta: 10\n",
1304 |             "\n",
1305 |             "===\n"
1306 |           ]
1307 |         },
1308 |         {
1309 |           "output_type": "stream",
1310 |           "name": "stderr",
1311 |           "text": [
1312 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1313 |           ]
1314 |         },
1315 |         {
1316 |           "output_type": "stream",
1317 |           "name": "stdout",
1318 |           "text": [
1319 |             "-10% usando este cupón descuento Alltricks\n",
1320 |             " -10% usando este cupón\n",
1321 |             "título: 5% usando este código promocional Groupon\n",
1322 |             "oferta: 5% usando este cupón\n",
1323 |             "título: -10% en tu viaje de fin de semana con este cupón descuento Groupon\n",
1324 |             "oferta: -10% en tu via\n",
1325 |             "\n",
1326 |             "===\n"
1327 |           ]
1328 |         },
1329 |         {
1330 |           "output_type": "stream",
1331 |           "name": "stderr",
1332 |           "text": [
1333 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1334 |           ]
1335 |         },
1336 |         {
1337 |           "output_type": "stream",
1338 |           "name": "stdout",
1339 |           "text": [
1340 |             "10% código descuento Animalear\n",
1341 |             " 10%\n",
1342 |             "título: -10% usando este cupón de descuento Nacex\n",
1343 |             "oferta: -10% en tu pedido\n",
1344 |             "título: -20% código descuento Cuponísimo.com\n",
1345 |             "oferta: -20% en tu pedido\n",
1346 |             "título: 20% códig\n",
1347 |             "\n",
1348 |             "===\n"
1349 |           ]
1350 |         },
1351 |         {
1352 |           "output_type": "stream",
1353 |           "name": "stderr",
1354 |           "text": [
1355 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1356 |           ]
1357 |         },
1358 |         {
1359 |           "output_type": "stream",
1360 |           "name": "stdout",
1361 |           "text": [
1362 |             "¡5% adicional utilizando este código descuento Barceló Hoteles!\n",
1363 |             " ¡5% adicional\n",
1364 |             "título: ¡10€ MENOS en tu primera compra con este código descuento Privalia!\n",
1365 |             "oferta: ¡10€ MENOS en tu primera compra\n",
1366 |             "título: -10% al aplic\n",
1367 |             "\n",
1368 |             "===\n"
1369 |           ]
1370 |         },
1371 |         {
1372 |           "output_type": "stream",
1373 |           "name": "stderr",
1374 |           "text": [
1375 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1376 |           ]
1377 |         },
1378 |         {
1379 |           "output_type": "stream",
1380 |           "name": "stdout",
1381 |           "text": [
1382 |             "15% de descuento al utilizar el código promocional Spartoo\n",
1383 |             " 15% de descuento\n",
1384 |             "título: 10% menos en tus compras en la web\n",
1385 |             "oferta: 10% menos en tus compras\n",
1386 |             "título: -10% Promoción Juegos de PS4 con este código descuento Groupon\n",
1387 |             "oferta\n",
1388 |             "\n",
1389 |             "===\n"
1390 |           ]
1391 |         },
1392 |         {
1393 |           "output_type": "stream",
1394 |           "name": "stderr",
1395 |           "text": [
1396 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1397 |           ]
1398 |         },
1399 |         {
1400 |           "output_type": "stream",
1401 |           "name": "stdout",
1402 |           "text": [
1403 |             "25% MENOS utilizando este código descuento Groupon\n",
1404 |             " 25% MENOS en\n",
1405 |             "título: 15% de descuento en tu primer pedido utilizando este código descuento Toys R Us\n",
1406 |             "oferta: 15% de descuento en tu primer pedido\n",
1407 |             "título: 10€ de descuento en tu compra en la web de Mango\n",
1408 |             "\n",
1409 |             "\n",
1410 |             "===\n"
1411 |           ]
1412 |         },
1413 |         {
1414 |           "output_type": "stream",
1415 |           "name": "stderr",
1416 |           "text": [
1417 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1418 |           ]
1419 |         },
1420 |         {
1421 |           "output_type": "stream",
1422 |           "name": "stdout",
1423 |           "text": [
1424 |             "-5% usando el cupón descuento Animalear\n",
1425 |             " -5% al comprar artículos de mascota\n",
1426 |             "título: 10% código descuento Hoteles.com\n",
1427 |             "oferta: 10% código descuento\n",
1428 |             "título: 5% con este código descuento Barceló Hoteles\n",
1429 |             "oferta: 5% con este có\n",
1430 |             "\n",
1431 |             "===\n"
1432 |           ]
1433 |         },
1434 |         {
1435 |           "output_type": "stream",
1436 |           "name": "stderr",
1437 |           "text": [
1438 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1439 |           ]
1440 |         },
1441 |         {
1442 |           "output_type": "stream",
1443 |           "name": "stdout",
1444 |           "text": [
1445 |             "5% MENOS usando el cupón descuento Neumáticos-online.es\n",
1446 |             " 5% MENOS\n",
1447 |             "título: -10% en la tienda online de PcComponentes\n",
1448 |             "oferta: -10% en la tienda online de PcComponentes\n",
1449 |             "título: -10% adicional en tu compra online de las lámparas de Foco\n",
1450 |             "ofert\n",
1451 |             "\n",
1452 |             "===\n"
1453 |           ]
1454 |         },
1455 |         {
1456 |           "output_type": "stream",
1457 |           "name": "stderr",
1458 |           "text": [
1459 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1460 |           ]
1461 |         },
1462 |         {
1463 |           "output_type": "stream",
1464 |           "name": "stdout",
1465 |           "text": [
1466 |             "20% MENOS usando el cupón Keller Sports\n",
1467 |             " 20% MENOS\n",
1468 |             "título: -15% en tu segunda maleta en KLM\n",
1469 |             "oferta: -15% en tu segunda maleta\n",
1470 |             "título: 15% de ahorro en tus compras con Zaful\n",
1471 |             "oferta: 15% de ahorro\n",
1472 |             "título: 15% en tu pedido\n",
1473 |             "\n",
1474 |             "===\n"
1475 |           ]
1476 |         },
1477 |         {
1478 |           "output_type": "stream",
1479 |           "name": "stderr",
1480 |           "text": [
1481 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1482 |           ]
1483 |         },
1484 |         {
1485 |           "output_type": "stream",
1486 |           "name": "stdout",
1487 |           "text": [
1488 |             "7% MENOS en tu reserva aplicando este código descuento H10 Hotels\n",
1489 |             " 7% MENOS en tu reserva\n",
1490 |             "título: 7% adicional en tu reserva al utilizar este código descuento NH Hoteles\n",
1491 |             "oferta: 7% adicional en tu reserva\n",
1492 |             "título: -10% al comprar un par de ent\n",
1493 |             "\n",
1494 |             "===\n"
1495 |           ]
1496 |         },
1497 |         {
1498 |           "output_type": "stream",
1499 |           "name": "stderr",
1500 |           "text": [
1501 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1502 |           ]
1503 |         },
1504 |         {
1505 |           "output_type": "stream",
1506 |           "name": "stdout",
1507 |           "text": [
1508 |             "-25% en la web usando e cupón descuento vistaprint\n",
1509 |             " -25% en la web\n",
1510 |             "título: -40% en tu segunda compra en Zalando usando este cupón\n",
1511 |             "oferta: -40% en tu segunda compra\n",
1512 |             "título: 20% cupón descuento en tu cuenta Bnext ¡Aprovecha!\n",
1513 |             "of\n",
1514 |             "\n",
1515 |             "===\n"
1516 |           ]
1517 |         },
1518 |         {
1519 |           "output_type": "stream",
1520 |           "name": "stderr",
1521 |           "text": [
1522 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1523 |           ]
1524 |         },
1525 |         {
1526 |           "output_type": "stream",
1527 |           "name": "stdout",
1528 |           "text": [
1529 |             "-10% usando este código al comprar muebles en VidaXL\n",
1530 |             " -10% al comprar muebles\n",
1531 |             "título: -10% usando este código al comprar muebles en VidaXL\n",
1532 |             "oferta: -10% al comprar muebles\n",
1533 |             "título: -10% en la web usando este código promocional\n",
1534 |             "\n",
1535 |             "\n",
1536 |             "===\n"
1537 |           ]
1538 |         },
1539 |         {
1540 |           "output_type": "stream",
1541 |           "name": "stderr",
1542 |           "text": [
1543 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1544 |           ]
1545 |         },
1546 |         {
1547 |           "output_type": "stream",
1548 |           "name": "stdout",
1549 |           "text": [
1550 |             "18% menos usando el cupón Milanoo\n",
1551 |             " 18% menos\n",
1552 |             "título: 25% en artículos de electrónica de consumo\n",
1553 |             "oferta: 25% en todo\n",
1554 |             "título: ¡10% en tus compras si usas este cupón promocional Asos!\n",
1555 |             "oferta: ¡10% en tus compras si utilizas este v\n",
1556 |             "\n",
1557 |             "===\n"
1558 |           ]
1559 |         },
1560 |         {
1561 |           "output_type": "stream",
1562 |           "name": "stderr",
1563 |           "text": [
1564 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1565 |           ]
1566 |         },
1567 |         {
1568 |           "output_type": "stream",
1569 |           "name": "stdout",
1570 |           "text": [
1571 |             "25% MENOS al aplicar este cupón La Tostadora\n",
1572 |             " 25% MENOS al aplicar este cupón La Tostadora\n",
1573 |             "título: -15€ en tus compras usando este código descuento La Nevera Roja\n",
1574 |             "oferta: -15€ en tus compras\n",
1575 |             "título: -15% en tu segunda unidad\n",
1576 |             "\n",
1577 |             "===\n"
1578 |           ]
1579 |         },
1580 |         {
1581 |           "output_type": "stream",
1582 |           "name": "stderr",
1583 |           "text": [
1584 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1585 |           ]
1586 |         },
1587 |         {
1588 |           "output_type": "stream",
1589 |           "name": "stdout",
1590 |           "text": [
1591 |             "20% MENOS usando el cupón descuento Yoins\n",
1592 |             " 20% MENOS\n",
1593 |             "título: 5% de ahorro usando el cupón descuento Groupon\n",
1594 |             "oferta: 5% de ahorro\n",
1595 |             "título: ¡9% de ahorro en tu seguro de viajes!\n",
1596 |             "oferta: ¡9% de ahorro\n",
1597 |             "tít\n",
1598 |             "\n",
1599 |             "===\n"
1600 |           ]
1601 |         },
1602 |         {
1603 |           "output_type": "stream",
1604 |           "name": "stderr",
1605 |           "text": [
1606 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1607 |           ]
1608 |         },
1609 |         {
1610 |           "output_type": "stream",
1611 |           "name": "stdout",
1612 |           "text": [
1613 |             "-8% en electrónica de consumo aplicando este código promocional GearBest\n",
1614 |             " -8% en electrónica de consumo\n",
1615 |             "título: 10% código descuento Kiabi en tu compra\n",
1616 |             "oferta: 10% en Kiabi\n",
1617 |             "título: -20% código descuento Hoteles.com en tus reservas\n",
1618 |             "of\n",
1619 |             "\n",
1620 |             "===\n"
1621 |           ]
1622 |         },
1623 |         {
1624 |           "output_type": "stream",
1625 |           "name": "stderr",
1626 |           "text": [
1627 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1628 |           ]
1629 |         },
1630 |         {
1631 |           "output_type": "stream",
1632 |           "name": "stdout",
1633 |           "text": [
1634 |             "¡-20% aplicando este cupón descuento Lentes-Shop!\n",
1635 |             " ¡-20% aplicando este cupón descuento Lentes-Shop!\n",
1636 |             "título: ¡-5% en tu suscripción a Netflix!\n",
1637 |             "oferta: ¡-5% en tu suscripción a Netflix!\n",
1638 |             "título: ¡-20%\n",
1639 |             "\n",
1640 |             "===\n"
1641 |           ]
1642 |         },
1643 |         {
1644 |           "output_type": "stream",
1645 |           "name": "stderr",
1646 |           "text": [
1647 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1648 |           ]
1649 |         },
1650 |         {
1651 |           "output_type": "stream",
1652 |           "name": "stdout",
1653 |           "text": [
1654 |             "-20% en tu moda favorita ¡código Venca!\n",
1655 |             " -20% en tu moda favorita\n",
1656 |             "título: ¡10% MENOS en tu alojamiento con este código promocional Hoteles.com!\n",
1657 |             "oferta: ¡10% MENOS en tu alojamiento\n",
1658 |             "título: 15% código descu\n",
1659 |             "\n",
1660 |             "===\n"
1661 |           ]
1662 |         },
1663 |         {
1664 |           "output_type": "stream",
1665 |           "name": "stderr",
1666 |           "text": [
1667 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1668 |           ]
1669 |         },
1670 |         {
1671 |           "output_type": "stream",
1672 |           "name": "stdout",
1673 |           "text": [
1674 |             "5% código descuento Agoda para viajar a Shanghai\n",
1675 |             " 5% en Shanghai\n",
1676 |             "título: -10% en tu alojamiento aplicando este código promocional Trivago\n",
1677 |             "oferta: -10% en tu alojamiento\n",
1678 |             "título: -10% en tu hotel ¡Válido hasta el 18/04/17\n",
1679 |             "\n",
1680 |             "===\n"
1681 |           ]
1682 |         },
1683 |         {
1684 |           "output_type": "stream",
1685 |           "name": "stderr",
1686 |           "text": [
1687 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1688 |           ]
1689 |         },
1690 |         {
1691 |           "output_type": "stream",
1692 |           "name": "stdout",
1693 |           "text": [
1694 |             "10% MENOS en snack para tu mascota aplicando este cupón promocional activo\n",
1695 |             " 10% MENOS en snack para tu mascota\n",
1696 |             "oferta: 10% de ahorro aplicando este cupón promocional en tu tienda online\n",
1697 |             "título: 15% MENOS en tus marcas favoritas ¡cupón descuento Privalia!\n",
1698 |             "oferta: 15\n",
1699 |             "\n",
1700 |             "===\n"
1701 |           ]
1702 |         },
1703 |         {
1704 |           "output_type": "stream",
1705 |           "name": "stderr",
1706 |           "text": [
1707 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1708 |           ]
1709 |         },
1710 |         {
1711 |           "output_type": "stream",
1712 |           "name": "stdout",
1713 |           "text": [
1714 |             "10%. 15% o 20% ¡Elige tu cupón Kiwoko y ahorra en el pienso para tu perro!\n",
1715 |             " 10% o 15% o 20%\n",
1716 |             "título: 10% más en tus zapatos ¡usando el código descuento Spartoo!\n",
1717 |             "oferta: 10% más en tus zapatos\n",
1718 |             "título: �\n",
1719 |             "\n",
1720 |             "===\n"
1721 |           ]
1722 |         },
1723 |         {
1724 |           "output_type": "stream",
1725 |           "name": "stderr",
1726 |           "text": [
1727 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1728 |           ]
1729 |         },
1730 |         {
1731 |           "output_type": "stream",
1732 |           "name": "stdout",
1733 |           "text": [
1734 |             "-40% utilizando este código promocional Blurb ¡Promoción!\n",
1735 |             " -40%\n",
1736 |             "título: -20€ de ahorro en tus compras en la web de L’Occitane ¡Promoción!\n",
1737 |             "oferta: -20€ en tus compras\n",
1738 |             "título: -20% en tu segunda compra usando este c\n",
1739 |             "\n",
1740 |             "===\n"
1741 |           ]
1742 |         },
1743 |         {
1744 |           "output_type": "stream",
1745 |           "name": "stderr",
1746 |           "text": [
1747 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1748 |           ]
1749 |         },
1750 |         {
1751 |           "output_type": "stream",
1752 |           "name": "stdout",
1753 |           "text": [
1754 |             "¡15% menos con este gran código promocional Runnerinn del Cyber Monday!\n",
1755 |             " ¡15% menos con este gran código promocional Runnerinn del Cyber Monday!\n",
1756 |             "título: ¡15% en tu cesta de la compra! ¡código VidaXL!\n",
1757 |             "oferta: ¡15% en tu cesta de la compra!\n",
1758 |             "\n",
1759 |             "\n",
1760 |             "===\n"
1761 |           ]
1762 |         },
1763 |         {
1764 |           "output_type": "stream",
1765 |           "name": "stderr",
1766 |           "text": [
1767 |             "Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.\n"
1768 |           ]
1769 |         },
1770 |         {
1771 |           "output_type": "stream",
1772 |           "name": "stdout",
1773 |           "text": [
1774 |             "15% MENOS usando el cupón descuento Tomtop\n",
1775 |             " 15%\n",
1776 |             "título: 10% de descuento en tu pedido si lo haces en Sarenza\n",
1777 |             "oferta: 10% de descuento en tu pedido\n",
1778 |             "título: 30% de descuento en bolsos de Michael Kors\n",
1779 |             "oferta: 30% de descuento\n",
1780 |             "título:\n",
1781 |             "\n",
1782 |             "===\n",
1783 |             "5% EXTRA aplicando este código en TODO\n",
1784 |             " 5% EXTRA aplicando este código en TODO\n",
1785 |             "título: -15€ en TODO aplicando este código descuento Groupon\n",
1786 |             "oferta: -15€ en TODO\n",
1787 |             "título: 15% extra en tus compras en Mango\n",
1788 |             "oferta: 15\n",
1789 |             "\n",
1790 |             "===\n"
1791 |           ]
1792 |         }
1793 |       ]
1794 |     },
1795 |     {
1796 |       "cell_type": "code",
1797 |       "source": [
1798 |         "for t, o in zip(titles, ofertas):\n",
1799 |         "  print('title: ' + t)\n",
1800 |         "  print('offer: ' + o)\n",
1801 |         "  print()"
1802 |       ],
1803 |       "metadata": {
1804 |         "colab": {
1805 |           "base_uri": "https://localhost:8080/"
1806 |         },
1807 |         "id": "YULLLiT0ZaeU",
1808 |         "outputId": "343b1827-2382-4d22-f0a9-d115468c660c"
1809 |       },
1810 |       "execution_count": null,
1811 |       "outputs": [
1812 |         {
1813 |           "output_type": "stream",
1814 |           "name": "stdout",
1815 |           "text": [
1816 |             "title: 10% MENOS usando el cupón descuento Yoins\n",
1817 |             "offer: 10% MENOS en tus compras\n",
1818 |             "\n",
1819 |             "title: 27% MENOS usando el cupón descuento La Tostadora\n",
1820 |             "offer: 27% MENOS en la compra de tus tostadas\n",
1821 |             "\n",
1822 |             "title: 10% de ahorro en TODA la web aplicando este código descuento Spartoo ¡Limitado!\n",
1823 |             "offer: 10% de ahorro en TODA la web en las rebajas de invierno\n",
1824 |             "\n",
1825 |             "title: 20% MENOS al aplicar este código promocional iStock\n",
1826 |             "offer: 20% MENOS en tu cámara digital\n",
1827 |             "\n",
1828 |             "title: 8% MENOS en tu alojamiento aplicando este cupón Hoteles.com\n",
1829 |             "offer: 8% MENOS en tu alojamiento\n",
1830 |             "\n",
1831 |             "title: -15% al usar el código promocional Bikeinn del Cyber Monday\n",
1832 |             "offer: -15%\n",
1833 |             "\n",
1834 |             "title: -17% en Yoins introduciendo este código en la web\n",
1835 |             "offer: -17% en Yoins\n",
1836 |             "\n",
1837 |             "title: 15% de rebaja en gaming Omen aplicando este código descuento HP\n",
1838 |             "offer: 15% de rebaja\n",
1839 |             "\n",
1840 |             "title: 20% código descuento Nutritienda en una selección de marcas\n",
1841 |             "offer: 20%\n",
1842 |             "\n",
1843 |             "title: 40% MENOS en tus pedidos al aplicar este código promocional Vistaprint\n",
1844 |             "offer: 40% MENOS en tus pedidos\n",
1845 |             "\n",
1846 |             "title: 30% usando este código al comprar álbumes de lujo\n",
1847 |             "offer: 30%\n",
1848 |             "\n",
1849 |             "title: 10% MENOS usando este código promocional Yoins\n",
1850 |             "offer: 10% MENOS\n",
1851 |             "\n",
1852 |             "title: 5% de descuento en tu próximo pedido usando el cupón descuento ShytoBuy\n",
1853 |             "offer: 5% de descuento en tu próximo pedido\n",
1854 |             "\n",
1855 |             "title: 19% de ahorro al aplicar este código descuento Yoins ¡Celebra el Año Nuevo!\n",
1856 |             "offer: 19% de ahorro en productos seleccionados\n",
1857 |             "\n",
1858 |             "title: -10% al utilizar el cupón descuento Planeta Huerto\n",
1859 |             "offer: -10% al comprar productos de frutas y verduras\n",
1860 |             "\n",
1861 |             "title: 10% MENOS usando este código promocional PromoFarma\n",
1862 |             "offer: 10% MENOS utilizando este código descuento PromoFarma\n",
1863 |             "\n",
1864 |             "title: 10% MENOS usando este código promocional Cyberlink\n",
1865 |             "offer: 10% MENOS\n",
1866 |             "\n",
1867 |             "title: 10% MENOS utilizando este código descuento VidaXL\n",
1868 |             "offer: 10% MENOS\n",
1869 |             "\n",
1870 |             "title: 12% código descuento iStock en TODO para nuevos clientes\n",
1871 |             "offer: 12% código descuento iStock en TODO para nuevos clientes\n",
1872 |             "\n",
1873 |             "title: -25% usando el cupón descuento Zoombits Black Friday\n",
1874 |             "offer: -25%\n",
1875 |             "\n",
1876 |             "title: -10% usando el código descuento Qatar Airways al reservar desde el móvil\n",
1877 |             "offer: -10% en tu vuelo\n",
1878 |             "\n",
1879 |             "title: 20% MENOS usando el cupón descuento Gafas World\n",
1880 |             "offer: 20% MENOS\n",
1881 |             "\n",
1882 |             "title: -40% usando este código descuento Photobox al comprar un álbum de fotos\n",
1883 |             "offer: -40%\n",
1884 |             "\n",
1885 |             "title: -10% aplicando este código ¡Oportunidad Yoins!\n",
1886 |             "offer: -10%\n",
1887 |             "\n",
1888 |             "title: 5% código descuento Zoombits en Multicompra\n",
1889 |             "offer: 5% en Multicompra\n",
1890 |             "\n",
1891 |             "title: -10% usando este cupón descuento Alltricks\n",
1892 |             "offer: -10% usando este cupón\n",
1893 |             "\n",
1894 |             "title: 10% código descuento Animalear\n",
1895 |             "offer: 10%\n",
1896 |             "\n",
1897 |             "title: ¡5% adicional utilizando este código descuento Barceló Hoteles!\n",
1898 |             "offer: ¡5% adicional\n",
1899 |             "\n",
1900 |             "title: 15% de descuento al utilizar el código promocional Spartoo\n",
1901 |             "offer: 15% de descuento\n",
1902 |             "\n",
1903 |             "title: 25% MENOS utilizando este código descuento Groupon\n",
1904 |             "offer: 25% MENOS en\n",
1905 |             "\n",
1906 |             "title: -5% usando el cupón descuento Animalear\n",
1907 |             "offer: -5% al comprar artículos de mascota\n",
1908 |             "\n",
1909 |             "title: 5% MENOS usando el cupón descuento Neumáticos-online.es\n",
1910 |             "offer: 5% MENOS\n",
1911 |             "\n",
1912 |             "title: 20% MENOS usando el cupón Keller Sports\n",
1913 |             "offer: 20% MENOS\n",
1914 |             "\n",
1915 |             "title: 7% MENOS en tu reserva aplicando este código descuento H10 Hotels\n",
1916 |             "offer: 7% MENOS en tu reserva\n",
1917 |             "\n",
1918 |             "title: -25% en la web usando e cupón descuento vistaprint\n",
1919 |             "offer: -25% en la web\n",
1920 |             "\n",
1921 |             "title: -10% usando este código al comprar muebles en VidaXL\n",
1922 |             "offer: -10% al comprar muebles\n",
1923 |             "\n",
1924 |             "title: 18% menos usando el cupón Milanoo\n",
1925 |             "offer: 18% menos\n",
1926 |             "\n",
1927 |             "title: 25% MENOS al aplicar este cupón La Tostadora\n",
1928 |             "offer: 25% MENOS al aplicar este cupón La Tostadora\n",
1929 |             "\n",
1930 |             "title: 20% MENOS usando el cupón descuento Yoins\n",
1931 |             "offer: 20% MENOS\n",
1932 |             "\n",
1933 |             "title: -8% en electrónica de consumo aplicando este código promocional GearBest\n",
1934 |             "offer: -8% en electrónica de consumo\n",
1935 |             "\n",
1936 |             "title: ¡-20% aplicando este cupón descuento Lentes-Shop!\n",
1937 |             "offer: ¡-20% aplicando este cupón descuento Lentes-Shop!\n",
1938 |             "\n",
1939 |             "title: -20% en tu moda favorita ¡código Venca!\n",
1940 |             "offer: -20% en tu moda favorita\n",
1941 |             "\n",
1942 |             "title: 5% código descuento Agoda para viajar a Shanghai\n",
1943 |             "offer: 5% en Shanghai\n",
1944 |             "\n",
1945 |             "title: 10% MENOS en snack para tu mascota aplicando este cupón promocional activo\n",
1946 |             "offer: 10% MENOS en snack para tu mascota\n",
1947 |             "\n",
1948 |             "title: 10%. 15% o 20% ¡Elige tu cupón Kiwoko y ahorra en el pienso para tu perro!\n",
1949 |             "offer: 10% o 15% o 20%\n",
1950 |             "\n",
1951 |             "title: -40% utilizando este código promocional Blurb ¡Promoción!\n",
1952 |             "offer: -40%\n",
1953 |             "\n",
1954 |             "title: ¡15% menos con este gran código promocional Runnerinn del Cyber Monday!\n",
1955 |             "offer: ¡15% menos con este gran código promocional Runnerinn del Cyber Monday!\n",
1956 |             "\n",
1957 |             "title: 15% MENOS usando el cupón descuento Tomtop\n",
1958 |             "offer: 15%\n",
1959 |             "\n",
1960 |             "title: 5% EXTRA aplicando este código en TODO\n",
1961 |             "offer: 5% EXTRA aplicando este código en TODO\n",
1962 |             "\n"
1963 |           ]
1964 |         }
1965 |       ]
1966 |     },
1967 |     {
1968 |       "cell_type": "code",
1969 |       "source": [
1970 |         "response = generate(text, 380, True)\n",
1971 |         "print(response)"
1972 |       ],
1973 |       "metadata": {
1974 |         "id": "kZuDI12jVBlB"
1975 |       },
1976 |       "execution_count": null,
1977 |       "outputs": []
1978 |     },
1979 |     {
1980 |       "cell_type": "code",
1981 |       "source": [
1982 |         "text = \"¿Cuál es el sentido de la vida?\"\n",
1983 |         "response = generate(text, 100, True)\n",
1984 |         "wrapped_lines = textwrap.wrap(response, width=25)\n",
1985 |         "print(\"\\n\".join(wrapped_lines))"
1986 |       ],
1987 |       "metadata": {
1988 |         "id": "54MaxysKYql_"
1989 |       },
1990 |       "execution_count": null,
1991 |       "outputs": []
1992 |     },
1993 |     {
1994 |       "cell_type": "code",
1995 |       "source": [
1996 |         "text = \"¿Cómo se hace una paella?\"\n",
1997 |         "response = generate(text, 100, True)\n",
1998 |         "wrapped_lines = textwrap.wrap(response, width=25)\n",
1999 |         "print(\"\\n\".join(wrapped_lines))"
2000 |       ],
2001 |       "metadata": {
2002 |         "id": "s45YnIL9felB"
2003 |       },
2004 |       "execution_count": null,
2005 |       "outputs": []
2006 |     },
2007 |     {
2008 |       "cell_type": "code",
2009 |       "source": [
2010 |         "text = \"¿Qué sexo tiene los ángeles?\"\n",
2011 |         "response = generate(text, 100, True)\n",
2012 |         "wrapped_lines = textwrap.wrap(response, width=25)\n",
2013 |         "print(\"\\n\".join(wrapped_lines))"
2014 |       ],
2015 |       "metadata": {
2016 |         "id": "1Z8vQLgNgCxJ"
2017 |       },
2018 |       "execution_count": null,
2019 |       "outputs": []
2020 |     },
2021 |     {
2022 |       "cell_type": "code",
2023 |       "source": [
2024 |         "text = \"¿Cómo se construyeron las pirámides de Egipto?\"\n",
2025 |         "response = generate(text, 266, True)\n",
2026 |         "wrapped_lines = textwrap.wrap(response, width=25)\n",
2027 |         "print(\"\\n\".join(wrapped_lines))"
2028 |       ],
2029 |       "metadata": {
2030 |         "id": "gerv-mDSglr2"
2031 |       },
2032 |       "execution_count": null,
2033 |       "outputs": []
2034 |     },
2035 |     {
2036 |       "cell_type": "code",
2037 |       "source": [
2038 |         "text = \"¿Por qué están creando los humanos la inteligencia artificial?\"\n",
2039 |         "response = generate(text, 64, True)\n",
2040 |         "wrapped_lines = textwrap.wrap(response, width=25)\n",
2041 |         "print(\"\\n\".join(wrapped_lines))"
2042 |       ],
2043 |       "metadata": {
2044 |         "id": "7ouzVAVOjemZ"
2045 |       },
2046 |       "execution_count": null,
2047 |       "outputs": []
2048 |     },
2049 |     {
2050 |       "cell_type": "code",
2051 |       "source": [
2052 |         "text = \"¿Qué es el amor? El amor es\"\n",
2053 |         "response = generate(text, 128, True)\n",
2054 |         "wrapped_lines = textwrap.wrap(response, width=25)\n",
2055 |         "print(\"\\n\".join(wrapped_lines))"
2056 |       ],
2057 |       "metadata": {
2058 |         "id": "dr_BJfH9ko3j"
2059 |       },
2060 |       "execution_count": null,
2061 |       "outputs": []
2062 |     },
2063 |     {
2064 |       "cell_type": "code",
2065 |       "source": [
2066 |         "text = \"¿Quién es Josep Pedrerol? Pedrerol es un periodista deportivo\"\n",
2067 |         "response = generate(text, 128, True)\n",
2068 |         "wrapped_lines = textwrap.wrap(response, width=25)\n",
2069 |         "print(\"\\n\".join(wrapped_lines))"
2070 |       ],
2071 |       "metadata": {
2072 |         "id": "en2tcpLflecG"
2073 |       },
2074 |       "execution_count": null,
2075 |       "outputs": []
2076 |     },
2077 |     {
2078 |       "cell_type": "code",
2079 |       "source": [
2080 |         "text = \"Juanse, ¿Por qué discuten las personas? Las personas discuten porque\"\n",
2081 |         "response = generate(text, 128, True)\n",
2082 |         "wrapped_lines = textwrap.wrap(response, width=25)\n",
2083 |         "print(\"\\n\".join(wrapped_lines))"
2084 |       ],
2085 |       "metadata": {
2086 |         "id": "nxJMDtXSpiF3"
2087 |       },
2088 |       "execution_count": null,
2089 |       "outputs": []
2090 |     },
2091 |     {
2092 |       "cell_type": "code",
2093 |       "source": [
2094 |         "text = '''\n",
2095 |         "A continación se describen una serie de países y sus capitales:\n",
2096 |         "\n",
2097 |         "España - Madrid\n",
2098 |         "Francia - París\n",
2099 |         "Alemania -'''\n",
2100 |         "response = generate(text)\n",
2101 |         "wrapped_lines = textwrap.wrap(response, width=25)\n",
2102 |         "print(\"\\n\".join(wrapped_lines))"
2103 |       ],
2104 |       "metadata": {
2105 |         "id": "MgD5TrbjrbJn"
2106 |       },
2107 |       "execution_count": null,
2108 |       "outputs": []
2109 |     },
2110 |     {
2111 |       "cell_type": "code",
2112 |       "source": [
2113 |         "text = '''\n",
2114 |         "Valoraciones de películas con análisis de sentimiento:\n",
2115 |         "\n",
2116 |         "Frase: Me gusta mucho\n",
2117 |         "Sentimiento: Positivo\n",
2118 |         "\n",
2119 |         "Frase: Fue un horor\n",
2120 |         "Sentimiento: Negativo\n",
2121 |         "\n",
2122 |         "Frase: Estuvo muy bien\n",
2123 |         "Sentimiento: Positivo\n",
2124 |         "\n",
2125 |         "Frase: Ni fu ni fa\n",
2126 |         "Sentimiento:'''\n",
2127 |         "print(generate(text, max_length=100))"
2128 |       ],
2129 |       "metadata": {
2130 |         "id": "6bBnnX7Mrek2"
2131 |       },
2132 |       "execution_count": null,
2133 |       "outputs": []
2134 |     },
2135 |     {
2136 |       "cell_type": "code",
2137 |       "source": [
2138 |         "text = \"¿Eres de derechas o de izquierdas?\"\n",
2139 |         "print(generate(text))"
2140 |       ],
2141 |       "metadata": {
2142 |         "id": "Xv-yG-Mkrh-I"
2143 |       },
2144 |       "execution_count": null,
2145 |       "outputs": []
2146 |     },
2147 |     {
2148 |       "cell_type": "code",
2149 |       "source": [
2150 |         "text = \"¿Cuántos planetas hay en el sistema solar? El sistema sola está compuesto\"\n",
2151 |         "print(generate(text))"
2152 |       ],
2153 |       "metadata": {
2154 |         "id": "SjUg0J4Lrlpi"
2155 |       },
2156 |       "execution_count": null,
2157 |       "outputs": []
2158 |     },
2159 |     {
2160 |       "cell_type": "code",
2161 |       "source": [
2162 |         "text  = '''\n",
2163 |         "Diálogo entre dos amigos:\n",
2164 |         "\n",
2165 |         "- Jordi: \"Bon día!\"\n",
2166 |         "- Adela: Buenos días!\n",
2167 |         "- Jordi:'''\n",
2168 |         "print(generate(text))"
2169 |       ],
2170 |       "metadata": {
2171 |         "id": "FvSwJADSrno_"
2172 |       },
2173 |       "execution_count": null,
2174 |       "outputs": []
2175 |     },
2176 |     {
2177 |       "cell_type": "markdown",
2178 |       "source": [
2179 |         "## Aprende sobre cuantización\n",
2180 |         "¿Quieres entender cómo se ha cuantizado el modelo? No te pierdas nuestros eventos sobre cuantización de grandes modelos del lenguage.\n",
2181 |         "\n",
2182 |         "Anunciaremos las fechas próximamente: [Twitter](https://www.twitter.com/SomosNLP_), [LinkedIn](https://www.linkedin.com/company/SomosNLP), [YouTube](https://www.youtube.com/c/somosnlp).\n",
2183 |         "\n"
2184 |       ],
2185 |       "metadata": {
2186 |         "id": "HXXUxvzrICeI"
2187 |       }
2188 |     }
2189 |   ]
2190 | }


--------------------------------------------------------------------------------
/datasets.csv:
--------------------------------------------------------------------------------
 1 | nombre,tareas,dominio,idioma,pais,página_web,github,paper,hf_dataset_name,hf_contributor_handle
 2 | BasCrawl,modelado del lenguaje,general,euskera,España,https://doi.org/10.5281/zenodo.7313092,,,,
 3 | Biomedical Spanish CBOW Word Embeddings in Floret,"modelado del lenguaje,CBOW (Continuous Bag Of Words)",clinico,español,España,https://doi.org/10.5281/zenodo.7314041,https://arxiv.org/abs/2109.07765,,,
 4 | CSIC Spanish Corpus,modelado del lenguaje,academico,español,España,https://doi.org/10.5281/zenodo.7313126,,,,
 5 | Catalonia Independence Corpus,clasificación de sentimientos,rrss,"catalán, español",España,,https://github.com/ixa-ehu/catalonia-independence-corpus,https://www.aclweb.org/anthology/2020.lrec-1.171/,catalonia_independence,lewtun
 6 | HEAD-QA,preguntas de opción múltiple,clinico,español,España,https://aghie.github.io/head-qa/,https://github.com/aghie/head-qa,https://www.aclweb.org/anthology/P19-1092/,head_qa,mariagrandury
 7 | InfoLibros Corpus,modelado del lenguaje,literatura,español,Varios,https://doi.org/10.5281/zenodo.7313105,,,,
 8 | Large Spanish Corpus,"modelado del lenguaje,pre-entrenamiento",general,español,Varios,,https://github.com/josecannete/spanish-corpora,,large_spanish_corpus,lewtun
 9 | Mucho Cine,clasificación de sentimientos,general,español,Varios,http://www.lsi.us.es/~fermin/index.php/Datasets,,,muchocine,mapmeld
10 | Spanish Billion Words,"modelado del lenguaje,pre-entrenamiento",general,español,Varios,https://crscardellino.github.io/SBWCE/,,,spanish_billion_words,mariagrandury
11 | Spanish Biomedical Crawled Corpus,modelado del lenguaje,clinico,español,España,https://doi.org/10.5281/zenodo.5513237,,https://arxiv.org/abs/2109.07765,,
12 | Spanish CBOW Word Embeddings in FastText,"modelado del lenguaje,FastText",general,español,España,https://doi.org/10.5281/zenodo.5044988,,http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405,,
13 | Spanish CBOW Word Embeddings in Floret,"modelado del lenguaje,CBOW (Continuous Bag Of Words)",general,español,España,https://doi.org/10.5281/zenodo.7314098,,,,
14 | Spanish Legal Domain Corpora,modelado del lenguaje,legal,español,España,https://doi.org/10.5281/zenodo.5495529,https://github.com/PlanTL-GOB-ES/lm-legal-es,https://arxiv.org/abs/2110.12201,,
15 | Spanish Legal Domain Word & Sub-Word Embeddings,modelado del lenguaje,legal,español,España,https://doi.org/10.5281/zenodo.5036147,https://github.com/PlanTL-GOB-ES/lm-legal-es,https://arxiv.org/abs/2110.12201,,
16 | Spanish Skip-Gram Word Embeddings in FastText,"modelado del lenguaje,FastText",general,español,España,https://doi.org/10.5281/zenodo.5046525,,http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405,,
17 | TDX Thesis Spanish Corpus,modelado del lenguaje,academico,"catalán, español",España,https://doi.org/10.5281/zenodo.7313149,,,,
18 | WikiCorpus,"modelado del lenguaje,POS (Part of Speech)",general,"catalán, español, inglés",Varios,https://www.cs.upc.edu/~nlp/wikicorpus/,,https://www.cs.upc.edu/~nlp/papers/reese10.pdf,wikicorpus,albertvillanova
19 | eHealth-KD,reconocimiento de entidades nombradas (NER),clinico,es,España,https://knowledge-learning.github.io/ehealthkd-2020/,https://github.com/knowledge-learning/ehealthkd-2020,http://ceur-ws.org/Vol-2664/eHealth-KD_overview.pdf,ehealth_kd,mariagrandury
20 | 


--------------------------------------------------------------------------------
/grupo_de_estudio/README.md:
--------------------------------------------------------------------------------
 1 | # Grupo de estudio 📚
 2 | 
 3 | Te damos la bienvenida al grupo de estudio de la comunidad Somos NLP, vamos a leer el libro ["Natural Language Processing with Transformers"](https://transformersbook.com) ¡únete!
 4 | 
 5 | <img alt="book-cover" height=200 src="https://transformersbook.com/images/book_cover.jpg" id="book-cover"/>
 6 | 
 7 | 
 8 | ### Sesiones
 9 | 
10 | | Fecha | Tema | Material ES | Notebook ES | Notebook EN | Sesión EN |
11 | |---|---|---|---|---|---|
12 | | 9 Abr | Introducción | [Diapos](https://github.com/somosnlp/recursos/blob/main/grupo_de_estudio/nlp_con_transformers_1.pdf) de @sofi#2291 | [![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://somosnlp.org/recursos/tutoriales/01_aplicaciones_de_los_transformers) | [![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/nlp-with-transformers/notebooks/blob/main/01_introduction.ipynb) | [<img alt="Sesión EN YouTube" width="30px" src="https://cdn-icons-png.flaticon.com/512/1384/1384060.png" />](https://youtu.be/8uVvfJIH_LY) |
13 | | 3 Nov | Clasificación de texto | | | | |
14 | 
15 | 
16 | 
17 | ### Invitación
18 | 
19 | Nuestro medio de comunicación es el canal #grupo-de-estudio del Discord de la comunidad Somos NLP.
20 | ¡Únete con esta [invitación](https://discord.com/invite/my8w7JUxZR)!
21 | 


--------------------------------------------------------------------------------
/grupo_de_estudio/nlp_con_transformers_1.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/somosnlp/recursos/ac5d0bfed81fdb8f3cfc453418a59932f81e99be/grupo_de_estudio/nlp_con_transformers_1.pdf


--------------------------------------------------------------------------------
/hackathon_2022/README.md:
--------------------------------------------------------------------------------
1 | # Hackathon Somos NLP 2022
2 | 
3 | En este repo están las diapositivas y notebooks de algunas de las charlas y talleres impartidas durante la primera edición del [Hackathon de PLN en Español](https://somosnlp.org/blog/hackathon-2022).
4 | 
5 | Todos los eventos están grabados y subidos a esta [playlist de YouTube](https://www.youtube.com/playlist?list=PLTA-KAy8nxaAbVZ2lVcycHnJ2qEDip7hG), ¡aprende de la mano de especialistas! ✨
6 | 


--------------------------------------------------------------------------------
/hackathon_2022/analisis_error_modelos_nlp_omar_sanseviero.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/somosnlp/recursos/ac5d0bfed81fdb8f3cfc453418a59932f81e99be/hackathon_2022/analisis_error_modelos_nlp_omar_sanseviero.pdf


--------------------------------------------------------------------------------
/hackathon_2022/lxai_nlp_extended_abstract_javier_turek.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/somosnlp/recursos/ac5d0bfed81fdb8f3cfc453418a59932f81e99be/hackathon_2022/lxai_nlp_extended_abstract_javier_turek.pdf


--------------------------------------------------------------------------------
/hackathon_2022/nlp_lenguas_minorizadas_mx_ximena_gutierrez.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/somosnlp/recursos/ac5d0bfed81fdb8f3cfc453418a59932f81e99be/hackathon_2022/nlp_lenguas_minorizadas_mx_ximena_gutierrez.pdf


--------------------------------------------------------------------------------
/hackathon_2023/README.md:
--------------------------------------------------------------------------------
1 | # Hackathon Somos NLP 2023
2 | 
3 | Todas las charlas y talleres del hackathon están grabadas, ¡visualízalas [aquí](https://somosnlp.org/eventos)! ✨
4 | 


--------------------------------------------------------------------------------
/hackathon_2024/creacion_de_datasets_sinteticos_con_distilabel.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |   "nbformat": 4,
  3 |   "nbformat_minor": 0,
  4 |   "metadata": {
  5 |     "colab": {
  6 |       "provenance": [],
  7 |       "gpuType": "T4",
  8 |       "include_colab_link": true
  9 |     },
 10 |     "kernelspec": {
 11 |       "name": "python3",
 12 |       "display_name": "Python 3"
 13 |     },
 14 |     "language_info": {
 15 |       "name": "python"
 16 |     },
 17 |     "accelerator": "GPU"
 18 |   },
 19 |   "cells": [
 20 |     {
 21 |       "cell_type": "markdown",
 22 |       "metadata": {
 23 |         "id": "view-in-github",
 24 |         "colab_type": "text"
 25 |       },
 26 |       "source": [
 27 |         "<a href=\"https://colab.research.google.com/github/somosnlp/recursos/blob/main/hackathon_2024/creacion_de_datasets_sinteticos_con_distilabel.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
 28 |       ]
 29 |     },
 30 |     {
 31 |       "cell_type": "markdown",
 32 |       "source": [
 33 |         "# Agradecimientos\n",
 34 |         "\n",
 35 |         "Muchas gracias al equipo de Argilla por preparar este notebook de ejemplo, en especial a Daniel Vila Suero (CEO y fundador) y Agustín Piqueres (MLE).\n",
 36 |         "\n",
 37 |         "Muchas gracias también a Hugging Face por darnos la oportunidad de disfrutar de la PRO API durante el hackathon. Pedimos a todos los equipos responsabilidad, por favor utilizad esta API para el desarrollo de proyectos del hackathon. Así seguiremos pudiendo organizar estos maravillosos eventos gratuitos. ¡Gracias!"
 38 |       ],
 39 |       "metadata": {
 40 |         "id": "lH5SbqdWv3W6"
 41 |       }
 42 |     },
 43 |     {
 44 |       "cell_type": "markdown",
 45 |       "source": [
 46 |         "# Instalar requisitos"
 47 |       ],
 48 |       "metadata": {
 49 |         "id": "B86XP2iJvv4_"
 50 |       }
 51 |     },
 52 |     {
 53 |       "cell_type": "code",
 54 |       "execution_count": null,
 55 |       "metadata": {
 56 |         "id": "RdY5HkI3eKMI",
 57 |         "colab": {
 58 |           "base_uri": "https://localhost:8080/"
 59 |         },
 60 |         "outputId": "0e7a3c36-d00f-4b17-e73e-39a8104bf88f"
 61 |       },
 62 |       "outputs": [
 63 |         {
 64 |           "output_type": "stream",
 65 |           "name": "stdout",
 66 |           "text": [
 67 |             "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m156.5/156.5 kB\u001b[0m \u001b[31m3.0 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
 68 |             "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m254.3/254.3 kB\u001b[0m \u001b[31m6.5 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
 69 |             "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m2.0/2.0 MB\u001b[0m \u001b[31m12.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
 70 |             "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m64.2/64.2 kB\u001b[0m \u001b[31m8.7 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
 71 |             "\u001b[?25h  Preparing metadata (setup.py) ... \u001b[?25l\u001b[?25hdone\n",
 72 |             "\u001b[2K     \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m98.5/98.5 MB\u001b[0m \u001b[31m8.8 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
 73 |             "\u001b[?25h  Building wheel for ftfy (setup.py) ... \u001b[?25l\u001b[?25hdone\n"
 74 |           ]
 75 |         }
 76 |       ],
 77 |       "source": [
 78 |         "%pip install -U distilabel[hf-inference-endpoints,argilla] -qqq"
 79 |       ]
 80 |     },
 81 |     {
 82 |       "cell_type": "code",
 83 |       "source": [
 84 |         "from distilabel.llm.huggingface.inference_endpoints import InferenceEndpointsLLM\n",
 85 |         "from distilabel.tasks import TextGenerationTask\n",
 86 |         "from distilabel.tasks import SelfInstructTask\n",
 87 |         "from distilabel.pipeline import Pipeline"
 88 |       ],
 89 |       "metadata": {
 90 |         "id": "VujeChEdeSzc"
 91 |       },
 92 |       "execution_count": null,
 93 |       "outputs": []
 94 |     },
 95 |     {
 96 |       "cell_type": "code",
 97 |       "source": [
 98 |         "import distilabel\n",
 99 |         "distilabel.__version__"
100 |       ],
101 |       "metadata": {
102 |         "colab": {
103 |           "base_uri": "https://localhost:8080/",
104 |           "height": 35
105 |         },
106 |         "id": "gKOz0-iKaoHc",
107 |         "outputId": "2fddc989-a35d-46cf-8a75-eefdc7bfb052"
108 |       },
109 |       "execution_count": null,
110 |       "outputs": [
111 |         {
112 |           "output_type": "execute_result",
113 |           "data": {
114 |             "text/plain": [
115 |               "'0.6.0'"
116 |             ],
117 |             "application/vnd.google.colaboratory.intrinsic+json": {
118 |               "type": "string"
119 |             }
120 |           },
121 |           "metadata": {},
122 |           "execution_count": 5
123 |         }
124 |       ]
125 |     },
126 |     {
127 |       "cell_type": "markdown",
128 |       "source": [
129 |         "# Introducción\n",
130 |         "\n",
131 |         "En este tutorial se muestra como generar conjuntos de datos sintéticos en Español para entrenar y mejorar modelos del lenguaje en Español.\n",
132 |         "\n",
133 |         "Para ello se utiliza `distilabel` de Argilla, una librería escalable para generar datasets para LLMs.\n",
134 |         "\n",
135 |         "Este cuaderno provee una breve guía de introducción pero se recomienda leer la [documentación](https://distilabel.argilla.io/latest/) y explorar opciones más avanzadas así como casos de uso interesantes, más allá del ejemplo utilizado aquí.\n",
136 |         "\n",
137 |         "En este cuaderno:\n",
138 |         "\n",
139 |         "- Se muestra como generar instrucciones y respuestas para SFT (supervised fine tuning) utilizando Hugging Face Inference for PRO (gracias al sponsorship de Hugging Face).\n",
140 |         "\n",
141 |         "- Se muestra como generar instrucciones y respuestas para SFT (supervised fine tuning) utilizando la GPU de Colab y modelos locales.\n"
142 |       ],
143 |       "metadata": {
144 |         "id": "0D8tHM7Wtgpl"
145 |       }
146 |     },
147 |     {
148 |       "cell_type": "markdown",
149 |       "source": [
150 |         "# Generación de instrucciones con HF Inference endpoints\n",
151 |         "\n",
152 |         "Con este apartado, los equipos pueden generar instrucciones en Español sobre distintos temas y para distintas aplicaciones. Aquí se muestra solo un ejemplo muy básico.\n",
153 |         "\n",
154 |         "Para ejecutar este apartado es necesario formar parte de la organización SomosNLP en Hugging Face y configurar el token personal (nivel write) para poder hacer uso de la cuenta PRO.\n",
155 |         "\n",
156 |         "\n",
157 |         "Se ruega no sobrecargar la API de inferencia y hacer pruebas con pequeñas muestras hasta tener claro el caso de uso y en cualquier caso no generar datasets de más de 5000 ejemplos."
158 |       ],
159 |       "metadata": {
160 |         "id": "OOOdMpkfspe2"
161 |       }
162 |     },
163 |     {
164 |       "cell_type": "markdown",
165 |       "source": [
166 |         "## Comprobar acceso a Inference Endpoints"
167 |       ],
168 |       "metadata": {
169 |         "id": "XP95xr4WqVx4"
170 |       }
171 |     },
172 |     {
173 |       "cell_type": "code",
174 |       "source": [
175 |         "from google.colab import userdata\n",
176 |         "\n",
177 |         "hf_token = userdata.get('HF_TOKEN')\n",
178 |         "\n",
179 |         "# change endpoint name and namespace once deployed\n",
180 |         "ENDPOINT_NAME = \"mistralai/Mixtral-8x7B-Instruct-v0.1\"\n",
181 |         "\n",
182 |         "\n",
183 |         "llm = InferenceEndpointsLLM(\n",
184 |         "    endpoint_name_or_model_id=ENDPOINT_NAME,\n",
185 |         "    task=TextGenerationTask(),\n",
186 |         "    token=hf_token,\n",
187 |         "    prompt_format=\"llama2\"\n",
188 |         ")"
189 |       ],
190 |       "metadata": {
191 |         "colab": {
192 |           "base_uri": "https://localhost:8080/"
193 |         },
194 |         "id": "5oHD3ETGewPV",
195 |         "outputId": "25e58241-a2b2-4acd-b4f9-b3e304c98ea7"
196 |       },
197 |       "execution_count": null,
198 |       "outputs": [
199 |         {
200 |           "output_type": "stream",
201 |           "name": "stderr",
202 |           "text": [
203 |             "INFO:distilabel:Using Serverless Inference Endpoint\n"
204 |           ]
205 |         }
206 |       ]
207 |     },
208 |     {
209 |       "cell_type": "code",
210 |       "source": [
211 |         "llm.generate([{\"input\": \"Generate a random joke in Spanish, just the joke, no greetings\"}])"
212 |       ],
213 |       "metadata": {
214 |         "colab": {
215 |           "base_uri": "https://localhost:8080/"
216 |         },
217 |         "id": "mMSg8K3Zexop",
218 |         "outputId": "794b139f-2ab9-4099-ecce-aaee2098e3e7"
219 |       },
220 |       "execution_count": null,
221 |       "outputs": [
222 |         {
223 |           "output_type": "execute_result",
224 |           "data": {
225 |             "text/plain": [
226 |               "[[{'model_name': 'mistralai/Mixtral-8x7B-Instruct-v0.1',\n",
227 |               "   'prompt_used': \"<s>[INST] <<SYS>>\\nYou are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.\\nIf a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information.<</SYS>>\\n\\nGenerate a random joke in Spanish, just the joke, no greetings [/INST]\",\n",
228 |               "   'raw_output': ' ¿Por qué el pollo siempre cruza la calle?\\nPorque quiere llegar al otro lado y decir: \"¡Adivinen quién acaba de cruzar la calle!\" (Why does the chicken always cross the road? Because it wants to get to the other side and say: \"Guess who just crossed the road!\")',\n",
229 |               "   'parsed_output': {'generations': ' ¿Por qué el pollo siempre cruza la calle?\\nPorque quiere llegar al otro lado y decir: \"¡Adivinen quién acaba de cruzar la calle!\" (Why does the chicken always cross the road? Because it wants to get to the other side and say: \"Guess who just crossed the road!\")'}}]]"
230 |             ]
231 |           },
232 |           "metadata": {},
233 |           "execution_count": 7
234 |         }
235 |       ]
236 |     },
237 |     {
238 |       "cell_type": "markdown",
239 |       "source": [
240 |         "## Generar dataset de instrucciones por temas\n",
241 |         "\n",
242 |         "Esto es solo un ejemplo y configurando la lista de `topics` y la `application_description` se pueden generar instrucciones de mucho tipos y dominios, sé creativ@!"
243 |       ],
244 |       "metadata": {
245 |         "id": "YwQv0l7rqaVZ"
246 |       }
247 |     },
248 |     {
249 |       "cell_type": "code",
250 |       "source": [
251 |         "from datasets import Dataset\n",
252 |         "\n",
253 |         "topics = [\n",
254 |         "  \"Matemáticas\",\n",
255 |         "  \"Física\",\n",
256 |         "  \"Química\",\n",
257 |         "  \"Biología\",\n",
258 |         "  \"Informática\",\n",
259 |         "  \"Ingeniería\",\n",
260 |         "  \"Astronomía\",\n",
261 |         "  \"Geología\",\n",
262 |         "  \"Ciencias Ambientales\",\n",
263 |         "  \"Robótica\",\n",
264 |         "  \"Estadística\",\n",
265 |         "  \"Ciencias de Materiales\",\n",
266 |         "  \"Nanotecnología\",\n",
267 |         "  \"Genética\",\n",
268 |         "  \"Oceanografía\",\n",
269 |         "  \"Meteorología\",\n",
270 |         "  \"Farmacología\",\n",
271 |         "  \"Neurociencia\",\n",
272 |         "  \"Bioquímica\",\n",
273 |         "  \"Física de Partículas\",\n",
274 |         "  \"Ciencia de Datos\",\n",
275 |         "  \"Inteligencia Artificial\",\n",
276 |         "  \"Sostenibilidad\",\n",
277 |         "  \"Energías Renovables\"\n",
278 |         "]\n",
279 |         "\n",
280 |         "\n",
281 |         "dataset = Dataset.from_dict({\n",
282 |         "    \"input\": topics\n",
283 |         "})"
284 |       ],
285 |       "metadata": {
286 |         "id": "SZMVodOIgxVg"
287 |       },
288 |       "execution_count": null,
289 |       "outputs": []
290 |     },
291 |     {
292 |       "cell_type": "markdown",
293 |       "source": [
294 |         "Te invitamos a probar diferentes prompts y ver cuál da mejores resultados:"
295 |       ],
296 |       "metadata": {
297 |         "id": "gbqntFRazdx4"
298 |       }
299 |     },
300 |     {
301 |       "cell_type": "code",
302 |       "source": [
303 |         "application_description = (\n",
304 |         "    \"An AI assistant adept at answering a wide array of math, logic, and reasoning puzzles, trivia, \"\n",
305 |         "    \"and general questions. Users of this assistant love to ask the assistant to think and outlines \"\n",
306 |         "    \"the solutions step by step. It expects complete questions from users providing all the details \"\n",
307 |         "    \"to solve the proposed problem or respond to general knowledge questions. It covers general \"\n",
308 |         "    \"knowledge about math, puzzles, reasoning exercises, and real-life scenarios where math and \"\n",
309 |         "    \"reasoning are important. Highly important!! You can only generate text in SPANISH\"\n",
310 |         ")\n",
311 |         "\n",
312 |         "# Por defecto, `SelfInstructTask` generará 5 instrucciones pero se puede modificar este comportamiento con el argumento `num_instructions`.\n",
313 |         "instruction_task = SelfInstructTask(\n",
314 |         "    application_description=application_description\n",
315 |         ")\n",
316 |         "\n",
317 |         "print(f\"`SelfInstructTask`\\n   - Input arguments: {instruction_task.input_args_names}\\n   - Output arguments: {instruction_task.output_args_names}\")"
318 |       ],
319 |       "metadata": {
320 |         "id": "k4ugAnsaibHt",
321 |         "colab": {
322 |           "base_uri": "https://localhost:8080/"
323 |         },
324 |         "outputId": "2cf8da02-8e0a-455e-e77f-acce77a47cd3"
325 |       },
326 |       "execution_count": null,
327 |       "outputs": [
328 |         {
329 |           "output_type": "stream",
330 |           "name": "stdout",
331 |           "text": [
332 |             "`SelfInstructTask`\n",
333 |             "   - Input arguments: ['input']\n",
334 |             "   - Output arguments: ['instructions']\n"
335 |           ]
336 |         }
337 |       ]
338 |     },
339 |     {
340 |       "cell_type": "code",
341 |       "source": [
342 |         "llm = InferenceEndpointsLLM(\n",
343 |         "    endpoint_name_or_model_id=ENDPOINT_NAME,\n",
344 |         "    task=instruction_task,\n",
345 |         "    token=hf_token,\n",
346 |         "    prompt_format=\"llama2\",\n",
347 |         "    num_threads=4\n",
348 |         ")\n",
349 |         "\n",
350 |         "pipeline = Pipeline(generator=llm)\n",
351 |         "distiset = pipeline.generate(\n",
352 |         "    dataset=dataset,\n",
353 |         "    num_generations=5,\n",
354 |         "    batch_size=4,\n",
355 |         "    display_progress_bar=True\n",
356 |         ")"
357 |       ],
358 |       "metadata": {
359 |         "id": "OQ8-q4LtislP"
360 |       },
361 |       "execution_count": null,
362 |       "outputs": []
363 |     },
364 |     {
365 |       "cell_type": "code",
366 |       "source": [
367 |         "distiset.to_pandas().head(5)"
368 |       ],
369 |       "metadata": {
370 |         "colab": {
371 |           "base_uri": "https://localhost:8080/",
372 |           "height": 147
373 |         },
374 |         "id": "jK9LDzuCtFH7",
375 |         "outputId": "6b89bd23-faa6-410b-b88e-c1ce048e3dc4"
376 |       },
377 |       "execution_count": null,
378 |       "outputs": [
379 |         {
380 |           "output_type": "execute_result",
381 |           "data": {
382 |             "text/plain": [
383 |               "         input                                   generation_model  \\\n",
384 |               "0  Matemáticas  [mistralai/Mixtral-8x7B-Instruct-v0.1, mistral...   \n",
385 |               "1       Física  [mistralai/Mixtral-8x7B-Instruct-v0.1, mistral...   \n",
386 |               "\n",
387 |               "                                   generation_prompt  \\\n",
388 |               "0  [<s>[INST] <<SYS>>\\nYou are an expert prompt w...   \n",
389 |               "1  [<s>[INST] <<SYS>>\\nYou are an expert prompt w...   \n",
390 |               "\n",
391 |               "                            raw_generation_responses  \\\n",
392 |               "0  [ 1. \"Explica detalladamente cómo calcular la ...   \n",
393 |               "1  [ 1. \"Explica paso a paso cómo funciona la seg...   \n",
394 |               "\n",
395 |               "                                        instructions  \n",
396 |               "0  [[\"Explica detalladamente cómo calcular la raí...  \n",
397 |               "1  [[\"Explica paso a paso cómo funciona la segund...  "
398 |             ],
399 |             "text/html": [
400 |               "\n",
401 |               "  <div id=\"df-1c8fa6c2-db4b-4dee-aa5e-170bad7a4d34\" class=\"colab-df-container\">\n",
402 |               "    <div>\n",
403 |               "<style scoped>\n",
404 |               "    .dataframe tbody tr th:only-of-type {\n",
405 |               "        vertical-align: middle;\n",
406 |               "    }\n",
407 |               "\n",
408 |               "    .dataframe tbody tr th {\n",
409 |               "        vertical-align: top;\n",
410 |               "    }\n",
411 |               "\n",
412 |               "    .dataframe thead th {\n",
413 |               "        text-align: right;\n",
414 |               "    }\n",
415 |               "</style>\n",
416 |               "<table border=\"1\" class=\"dataframe\">\n",
417 |               "  <thead>\n",
418 |               "    <tr style=\"text-align: right;\">\n",
419 |               "      <th></th>\n",
420 |               "      <th>input</th>\n",
421 |               "      <th>generation_model</th>\n",
422 |               "      <th>generation_prompt</th>\n",
423 |               "      <th>raw_generation_responses</th>\n",
424 |               "      <th>instructions</th>\n",
425 |               "    </tr>\n",
426 |               "  </thead>\n",
427 |               "  <tbody>\n",
428 |               "    <tr>\n",
429 |               "      <th>0</th>\n",
430 |               "      <td>Matemáticas</td>\n",
431 |               "      <td>[mistralai/Mixtral-8x7B-Instruct-v0.1, mistral...</td>\n",
432 |               "      <td>[&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\\nYou are an expert prompt w...</td>\n",
433 |               "      <td>[ 1. \"Explica detalladamente cómo calcular la ...</td>\n",
434 |               "      <td>[[\"Explica detalladamente cómo calcular la raí...</td>\n",
435 |               "    </tr>\n",
436 |               "    <tr>\n",
437 |               "      <th>1</th>\n",
438 |               "      <td>Física</td>\n",
439 |               "      <td>[mistralai/Mixtral-8x7B-Instruct-v0.1, mistral...</td>\n",
440 |               "      <td>[&lt;s&gt;[INST] &lt;&lt;SYS&gt;&gt;\\nYou are an expert prompt w...</td>\n",
441 |               "      <td>[ 1. \"Explica paso a paso cómo funciona la seg...</td>\n",
442 |               "      <td>[[\"Explica paso a paso cómo funciona la segund...</td>\n",
443 |               "    </tr>\n",
444 |               "  </tbody>\n",
445 |               "</table>\n",
446 |               "</div>\n",
447 |               "    <div class=\"colab-df-buttons\">\n",
448 |               "\n",
449 |               "  <div class=\"colab-df-container\">\n",
450 |               "    <button class=\"colab-df-convert\" onclick=\"convertToInteractive('df-1c8fa6c2-db4b-4dee-aa5e-170bad7a4d34')\"\n",
451 |               "            title=\"Convert this dataframe to an interactive table.\"\n",
452 |               "            style=\"display:none;\">\n",
453 |               "\n",
454 |               "  <svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\" viewBox=\"0 -960 960 960\">\n",
455 |               "    <path d=\"M120-120v-720h720v720H120Zm60-500h600v-160H180v160Zm220 220h160v-160H400v160Zm0 220h160v-160H400v160ZM180-400h160v-160H180v160Zm440 0h160v-160H620v160ZM180-180h160v-160H180v160Zm440 0h160v-160H620v160Z\"/>\n",
456 |               "  </svg>\n",
457 |               "    </button>\n",
458 |               "\n",
459 |               "  <style>\n",
460 |               "    .colab-df-container {\n",
461 |               "      display:flex;\n",
462 |               "      gap: 12px;\n",
463 |               "    }\n",
464 |               "\n",
465 |               "    .colab-df-convert {\n",
466 |               "      background-color: #E8F0FE;\n",
467 |               "      border: none;\n",
468 |               "      border-radius: 50%;\n",
469 |               "      cursor: pointer;\n",
470 |               "      display: none;\n",
471 |               "      fill: #1967D2;\n",
472 |               "      height: 32px;\n",
473 |               "      padding: 0 0 0 0;\n",
474 |               "      width: 32px;\n",
475 |               "    }\n",
476 |               "\n",
477 |               "    .colab-df-convert:hover {\n",
478 |               "      background-color: #E2EBFA;\n",
479 |               "      box-shadow: 0px 1px 2px rgba(60, 64, 67, 0.3), 0px 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
480 |               "      fill: #174EA6;\n",
481 |               "    }\n",
482 |               "\n",
483 |               "    .colab-df-buttons div {\n",
484 |               "      margin-bottom: 4px;\n",
485 |               "    }\n",
486 |               "\n",
487 |               "    [theme=dark] .colab-df-convert {\n",
488 |               "      background-color: #3B4455;\n",
489 |               "      fill: #D2E3FC;\n",
490 |               "    }\n",
491 |               "\n",
492 |               "    [theme=dark] .colab-df-convert:hover {\n",
493 |               "      background-color: #434B5C;\n",
494 |               "      box-shadow: 0px 1px 3px 1px rgba(0, 0, 0, 0.15);\n",
495 |               "      filter: drop-shadow(0px 1px 2px rgba(0, 0, 0, 0.3));\n",
496 |               "      fill: #FFFFFF;\n",
497 |               "    }\n",
498 |               "  </style>\n",
499 |               "\n",
500 |               "    <script>\n",
501 |               "      const buttonEl =\n",
502 |               "        document.querySelector('#df-1c8fa6c2-db4b-4dee-aa5e-170bad7a4d34 button.colab-df-convert');\n",
503 |               "      buttonEl.style.display =\n",
504 |               "        google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
505 |               "\n",
506 |               "      async function convertToInteractive(key) {\n",
507 |               "        const element = document.querySelector('#df-1c8fa6c2-db4b-4dee-aa5e-170bad7a4d34');\n",
508 |               "        const dataTable =\n",
509 |               "          await google.colab.kernel.invokeFunction('convertToInteractive',\n",
510 |               "                                                    [key], {});\n",
511 |               "        if (!dataTable) return;\n",
512 |               "\n",
513 |               "        const docLinkHtml = 'Like what you see? Visit the ' +\n",
514 |               "          '<a target=\"_blank\" href=https://colab.research.google.com/notebooks/data_table.ipynb>data table notebook</a>'\n",
515 |               "          + ' to learn more about interactive tables.';\n",
516 |               "        element.innerHTML = '';\n",
517 |               "        dataTable['output_type'] = 'display_data';\n",
518 |               "        await google.colab.output.renderOutput(dataTable, element);\n",
519 |               "        const docLink = document.createElement('div');\n",
520 |               "        docLink.innerHTML = docLinkHtml;\n",
521 |               "        element.appendChild(docLink);\n",
522 |               "      }\n",
523 |               "    </script>\n",
524 |               "  </div>\n",
525 |               "\n",
526 |               "\n",
527 |               "<div id=\"df-efeae3b3-0bad-4a74-8bf6-ee48a3c43d68\">\n",
528 |               "  <button class=\"colab-df-quickchart\" onclick=\"quickchart('df-efeae3b3-0bad-4a74-8bf6-ee48a3c43d68')\"\n",
529 |               "            title=\"Suggest charts\"\n",
530 |               "            style=\"display:none;\">\n",
531 |               "\n",
532 |               "<svg xmlns=\"http://www.w3.org/2000/svg\" height=\"24px\"viewBox=\"0 0 24 24\"\n",
533 |               "     width=\"24px\">\n",
534 |               "    <g>\n",
535 |               "        <path d=\"M19 3H5c-1.1 0-2 .9-2 2v14c0 1.1.9 2 2 2h14c1.1 0 2-.9 2-2V5c0-1.1-.9-2-2-2zM9 17H7v-7h2v7zm4 0h-2V7h2v10zm4 0h-2v-4h2v4z\"/>\n",
536 |               "    </g>\n",
537 |               "</svg>\n",
538 |               "  </button>\n",
539 |               "\n",
540 |               "<style>\n",
541 |               "  .colab-df-quickchart {\n",
542 |               "      --bg-color: #E8F0FE;\n",
543 |               "      --fill-color: #1967D2;\n",
544 |               "      --hover-bg-color: #E2EBFA;\n",
545 |               "      --hover-fill-color: #174EA6;\n",
546 |               "      --disabled-fill-color: #AAA;\n",
547 |               "      --disabled-bg-color: #DDD;\n",
548 |               "  }\n",
549 |               "\n",
550 |               "  [theme=dark] .colab-df-quickchart {\n",
551 |               "      --bg-color: #3B4455;\n",
552 |               "      --fill-color: #D2E3FC;\n",
553 |               "      --hover-bg-color: #434B5C;\n",
554 |               "      --hover-fill-color: #FFFFFF;\n",
555 |               "      --disabled-bg-color: #3B4455;\n",
556 |               "      --disabled-fill-color: #666;\n",
557 |               "  }\n",
558 |               "\n",
559 |               "  .colab-df-quickchart {\n",
560 |               "    background-color: var(--bg-color);\n",
561 |               "    border: none;\n",
562 |               "    border-radius: 50%;\n",
563 |               "    cursor: pointer;\n",
564 |               "    display: none;\n",
565 |               "    fill: var(--fill-color);\n",
566 |               "    height: 32px;\n",
567 |               "    padding: 0;\n",
568 |               "    width: 32px;\n",
569 |               "  }\n",
570 |               "\n",
571 |               "  .colab-df-quickchart:hover {\n",
572 |               "    background-color: var(--hover-bg-color);\n",
573 |               "    box-shadow: 0 1px 2px rgba(60, 64, 67, 0.3), 0 1px 3px 1px rgba(60, 64, 67, 0.15);\n",
574 |               "    fill: var(--button-hover-fill-color);\n",
575 |               "  }\n",
576 |               "\n",
577 |               "  .colab-df-quickchart-complete:disabled,\n",
578 |               "  .colab-df-quickchart-complete:disabled:hover {\n",
579 |               "    background-color: var(--disabled-bg-color);\n",
580 |               "    fill: var(--disabled-fill-color);\n",
581 |               "    box-shadow: none;\n",
582 |               "  }\n",
583 |               "\n",
584 |               "  .colab-df-spinner {\n",
585 |               "    border: 2px solid var(--fill-color);\n",
586 |               "    border-color: transparent;\n",
587 |               "    border-bottom-color: var(--fill-color);\n",
588 |               "    animation:\n",
589 |               "      spin 1s steps(1) infinite;\n",
590 |               "  }\n",
591 |               "\n",
592 |               "  @keyframes spin {\n",
593 |               "    0% {\n",
594 |               "      border-color: transparent;\n",
595 |               "      border-bottom-color: var(--fill-color);\n",
596 |               "      border-left-color: var(--fill-color);\n",
597 |               "    }\n",
598 |               "    20% {\n",
599 |               "      border-color: transparent;\n",
600 |               "      border-left-color: var(--fill-color);\n",
601 |               "      border-top-color: var(--fill-color);\n",
602 |               "    }\n",
603 |               "    30% {\n",
604 |               "      border-color: transparent;\n",
605 |               "      border-left-color: var(--fill-color);\n",
606 |               "      border-top-color: var(--fill-color);\n",
607 |               "      border-right-color: var(--fill-color);\n",
608 |               "    }\n",
609 |               "    40% {\n",
610 |               "      border-color: transparent;\n",
611 |               "      border-right-color: var(--fill-color);\n",
612 |               "      border-top-color: var(--fill-color);\n",
613 |               "    }\n",
614 |               "    60% {\n",
615 |               "      border-color: transparent;\n",
616 |               "      border-right-color: var(--fill-color);\n",
617 |               "    }\n",
618 |               "    80% {\n",
619 |               "      border-color: transparent;\n",
620 |               "      border-right-color: var(--fill-color);\n",
621 |               "      border-bottom-color: var(--fill-color);\n",
622 |               "    }\n",
623 |               "    90% {\n",
624 |               "      border-color: transparent;\n",
625 |               "      border-bottom-color: var(--fill-color);\n",
626 |               "    }\n",
627 |               "  }\n",
628 |               "</style>\n",
629 |               "\n",
630 |               "  <script>\n",
631 |               "    async function quickchart(key) {\n",
632 |               "      const quickchartButtonEl =\n",
633 |               "        document.querySelector('#' + key + ' button');\n",
634 |               "      quickchartButtonEl.disabled = true;  // To prevent multiple clicks.\n",
635 |               "      quickchartButtonEl.classList.add('colab-df-spinner');\n",
636 |               "      try {\n",
637 |               "        const charts = await google.colab.kernel.invokeFunction(\n",
638 |               "            'suggestCharts', [key], {});\n",
639 |               "      } catch (error) {\n",
640 |               "        console.error('Error during call to suggestCharts:', error);\n",
641 |               "      }\n",
642 |               "      quickchartButtonEl.classList.remove('colab-df-spinner');\n",
643 |               "      quickchartButtonEl.classList.add('colab-df-quickchart-complete');\n",
644 |               "    }\n",
645 |               "    (() => {\n",
646 |               "      let quickchartButtonEl =\n",
647 |               "        document.querySelector('#df-efeae3b3-0bad-4a74-8bf6-ee48a3c43d68 button');\n",
648 |               "      quickchartButtonEl.style.display =\n",
649 |               "        google.colab.kernel.accessAllowed ? 'block' : 'none';\n",
650 |               "    })();\n",
651 |               "  </script>\n",
652 |               "</div>\n",
653 |               "    </div>\n",
654 |               "  </div>\n"
655 |             ],
656 |             "application/vnd.google.colaboratory.intrinsic+json": {
657 |               "type": "dataframe",
658 |               "summary": "{\n  \"name\": \"distiset\",\n  \"rows\": 2,\n  \"fields\": [\n    {\n      \"column\": \"input\",\n      \"properties\": {\n        \"dtype\": \"string\",\n        \"num_unique_values\": 2,\n        \"samples\": [\n          \"F\\u00edsica\",\n          \"Matem\\u00e1ticas\"\n        ],\n        \"semantic_type\": \"\",\n        \"description\": \"\"\n      }\n    },\n    {\n      \"column\": \"generation_model\",\n      \"properties\": {\n        \"dtype\": \"object\",\n        \"semantic_type\": \"\",\n        \"description\": \"\"\n      }\n    },\n    {\n      \"column\": \"generation_prompt\",\n      \"properties\": {\n        \"dtype\": \"object\",\n        \"semantic_type\": \"\",\n        \"description\": \"\"\n      }\n    },\n    {\n      \"column\": \"raw_generation_responses\",\n      \"properties\": {\n        \"dtype\": \"object\",\n        \"semantic_type\": \"\",\n        \"description\": \"\"\n      }\n    },\n    {\n      \"column\": \"instructions\",\n      \"properties\": {\n        \"dtype\": \"object\",\n        \"semantic_type\": \"\",\n        \"description\": \"\"\n      }\n    }\n  ]\n}"
659 |             }
660 |           },
661 |           "metadata": {},
662 |           "execution_count": 11
663 |         }
664 |       ]
665 |     },
666 |     {
667 |       "cell_type": "markdown",
668 |       "source": [
669 |         "### Inspeccionar el dataset en argilla\n",
670 |         "\n",
671 |         "A continuación vamos a crear un espacio en argilla para poder inspeccionar las instrucciones generadas en nuestra pipeline. Podemos crear una instancia de argilla como un espacio de HuggingFace. A continuación se ofrece un ejemplo para hacerlo utilizando la librería de `huggingface_hub`."
672 |       ],
673 |       "metadata": {
674 |         "id": "lN6xA_xUPQE4"
675 |       }
676 |     },
677 |     {
678 |       "cell_type": "code",
679 |       "source": [
680 |         "rg_distiset = distiset.to_argilla(vector_strategy=False, metric_strategy=False)"
681 |       ],
682 |       "metadata": {
683 |         "id": "oYxJzfM8J1gJ"
684 |       },
685 |       "execution_count": null,
686 |       "outputs": []
687 |     },
688 |     {
689 |       "cell_type": "code",
690 |       "source": [
691 |         "from huggingface_hub import duplicate_space\n",
692 |         "\n",
693 |         "# Crea un HF Space de argilla programáticamente\n",
694 |         "from_id = \"argilla/argilla-template-space\"\n",
695 |         "# Recuerda actualizar esta variable con el nombre del dataset\n",
696 |         "dataset_name = \"mi-dataset\"\n",
697 |         "to_id = f\"{dataset_name}-distiset\"\n",
698 |         "new_space = duplicate_space(from_id, to_id=to_id)\n",
699 |         "new_space"
700 |       ],
701 |       "metadata": {
702 |         "id": "3p8R57j_MYLb"
703 |       },
704 |       "execution_count": null,
705 |       "outputs": []
706 |     },
707 |     {
708 |       "cell_type": "markdown",
709 |       "source": [
710 |         "Esto puede llevar unos minutos, puedes visitar el espacio accediendo a `new_space.url`. Una vez que esté listo, el usuario para acceder y contraseña son los que vienen por defecto\n",
711 |         "\n",
712 |         "- usuario: `argilla`\n",
713 |         "- contraseña: `12345678`"
714 |       ],
715 |       "metadata": {
716 |         "id": "NwKsoncNNN6V"
717 |       }
718 |     },
719 |     {
720 |       "cell_type": "markdown",
721 |       "source": [
722 |         "A continuación nos conectamos a nuestra instancia para poder subir el dataset:"
723 |       ],
724 |       "metadata": {
725 |         "id": "oAhqCd8ONwpL"
726 |       }
727 |     },
728 |     {
729 |       "cell_type": "code",
730 |       "source": [
731 |         "import argilla as rg\n",
732 |         "\n",
733 |         "argilla_api_key = \"admin.apikey\"\n",
734 |         "argilla_space_url = f\"https://{new_space.namespace}-{to_id}.hf.space\"\n",
735 |         "\n",
736 |         "workspace = \"admin\"\n",
737 |         "\n",
738 |         "rg.init(\n",
739 |         "    api_key=argilla_api_key,\n",
740 |         "    api_url=argilla_space_url,\n",
741 |         "    workspace=workspace\n",
742 |         ")"
743 |       ],
744 |       "metadata": {
745 |         "id": "vUC9x_6TN42N"
746 |       },
747 |       "execution_count": null,
748 |       "outputs": []
749 |     },
750 |     {
751 |       "cell_type": "markdown",
752 |       "source": [
753 |         "Y estamos listos para subir nuestro dataset con las instrucciones para revisarlas antes de avanzar al siguiente paso. Para ello transformamos nuestro dataset al formato necesario de argilla utilizando `to_argilla`, y subimos el dataset a la instancia de argilla utilizando `push_to_argilla`."
754 |       ],
755 |       "metadata": {
756 |         "id": "i6kMlgbBOvvL"
757 |       }
758 |     },
759 |     {
760 |       "cell_type": "code",
761 |       "source": [
762 |         "rg_distiset = distiset.to_argilla(vector_strategy=False, metric_strategy=False)"
763 |       ],
764 |       "metadata": {
765 |         "id": "PgEDtg3-QBba"
766 |       },
767 |       "execution_count": null,
768 |       "outputs": []
769 |     },
770 |     {
771 |       "cell_type": "code",
772 |       "source": [
773 |         "rg_distiset.push_to_argilla(name=\"instrucciones-distiset\", workspace=workspace)"
774 |       ],
775 |       "metadata": {
776 |         "id": "P_SEu8GPOYCc"
777 |       },
778 |       "execution_count": null,
779 |       "outputs": []
780 |     },
781 |     {
782 |       "cell_type": "markdown",
783 |       "source": [
784 |         "### Transformar a un dataset para generación de respuestas\n",
785 |         "\n",
786 |         "A continuación vamos a transformar nuestro dataset con instrucciones al formato esperado por `distilabel` para la generación, extrayendo todas las instrucciones anidadas, y poniendo la columna \"input\"."
787 |       ],
788 |       "metadata": {
789 |         "id": "KZHm-_XIQZqQ"
790 |       }
791 |     },
792 |     {
793 |       "cell_type": "code",
794 |       "source": [
795 |         "rows = []\n",
796 |         "from datasets import Dataset\n",
797 |         "\n",
798 |         "generations = []\n",
799 |         "for row in distiset:\n",
800 |         "    for instructions in row[\"instructions\"]:\n",
801 |         "        for generation in instructions:\n",
802 |         "            generations.append(generation)\n",
803 |         "\n",
804 |         "generation_dataset = Dataset.from_dict({\"input\": generations})"
805 |       ],
806 |       "metadata": {
807 |         "id": "eWTS5xvUQjdH"
808 |       },
809 |       "execution_count": null,
810 |       "outputs": []
811 |     },
812 |     {
813 |       "cell_type": "code",
814 |       "source": [
815 |         "generation_dataset"
816 |       ],
817 |       "metadata": {
818 |         "id": "-qy6v5HZRzHx",
819 |         "outputId": "749ee2f1-acbe-44bf-d0d4-35ad392e5b73",
820 |         "colab": {
821 |           "base_uri": "https://localhost:8080/"
822 |         }
823 |       },
824 |       "execution_count": null,
825 |       "outputs": [
826 |         {
827 |           "output_type": "execute_result",
828 |           "data": {
829 |             "text/plain": [
830 |               "Dataset({\n",
831 |               "    features: ['input'],\n",
832 |               "    num_rows: 14\n",
833 |               "})"
834 |             ]
835 |           },
836 |           "metadata": {},
837 |           "execution_count": 53
838 |         }
839 |       ]
840 |     },
841 |     {
842 |       "cell_type": "markdown",
843 |       "source": [
844 |         "# Generación de respuestas con HF Inference endpoints\n",
845 |         "\n",
846 |         "En esta sección vamos a utilizar el dataset previo `generation_dataset` para generar conjuntos de instrucciones y problemas sintéticos para poder poder ajustar nuestro propio modelo utilizando Supervised Fine Tuning (SFT):"
847 |       ],
848 |       "metadata": {
849 |         "id": "AjDTjpmSsxte"
850 |       }
851 |     },
852 |     {
853 |       "cell_type": "markdown",
854 |       "source": [
855 |         "Vamos a crear una tarea genérica para generación de texto, reutilizando la misma descripción que pasamos a nuestra tarea previa a modo de *system_prompt*, para guiar al modelo:"
856 |       ],
857 |       "metadata": {
858 |         "id": "Q-DLvtByUfpJ"
859 |       }
860 |     },
861 |     {
862 |       "cell_type": "code",
863 |       "source": [
864 |         "text_generation_task = TextGenerationTask(system_prompt=application_description)\n",
865 |         "text_generation_task"
866 |       ],
867 |       "metadata": {
868 |         "id": "4mwFUBpvS_EH",
869 |         "outputId": "1de97222-02fb-4645-bfe7-95945d1fa65b",
870 |         "colab": {
871 |           "base_uri": "https://localhost:8080/"
872 |         }
873 |       },
874 |       "execution_count": null,
875 |       "outputs": [
876 |         {
877 |           "output_type": "execute_result",
878 |           "data": {
879 |             "text/plain": [
880 |               "TextGenerationTask(system_prompt='An AI assistant adept at answering a wide array of math, logic, and reasoning puzzles, trivia, and general questions. Users of this assistant love to ask the assistant to think and outlines the solutions step by step. It expects complete questions from users providing all the details to solve the proposed problem or respond to general knowledge questions. It covers general knowledge about math, puzzles, reasoning exercises, and real-life scenarios where math and reasoning are important. Highly important!! You can only generate text in SPANISH', principles_distribution=None)"
881 |             ]
882 |           },
883 |           "metadata": {},
884 |           "execution_count": 57
885 |         }
886 |       ]
887 |     },
888 |     {
889 |       "cell_type": "markdown",
890 |       "source": [
891 |         "La forma de llamar a nuestra `pipeline` va a ser muy similar en este caso, tendremos una nueva `Task`, y dado que los problemas pueden requerir mayor cantidad de texto, vamos a modificar `max_new_tokens` a 1024."
892 |       ],
893 |       "metadata": {
894 |         "id": "VVWn-XgOYIye"
895 |       }
896 |     },
897 |     {
898 |       "cell_type": "code",
899 |       "source": [
900 |         "llm = InferenceEndpointsLLM(\n",
901 |         "    endpoint_name_or_model_id=ENDPOINT_NAME,\n",
902 |         "    task=text_generation_task,\n",
903 |         "    token=hf_token,\n",
904 |         "    prompt_format=\"llama2\",\n",
905 |         "    max_new_tokens=1024,\n",
906 |         "    num_threads=4\n",
907 |         ")\n",
908 |         "\n",
909 |         "pipeline = Pipeline(generator=llm)\n",
910 |         "distiset_generations = pipeline.generate(\n",
911 |         "    dataset=generation_dataset,\n",
912 |         "    num_generations=1,\n",
913 |         "    batch_size=8,\n",
914 |         ")"
915 |       ],
916 |       "metadata": {
917 |         "id": "m6KHFPtqSnGq"
918 |       },
919 |       "execution_count": null,
920 |       "outputs": []
921 |     },
922 |     {
923 |       "cell_type": "markdown",
924 |       "source": [
925 |         "Igual que hicimos con nuestras instrucciones, vamos a subir ahora nuestro dataset junto con las respuestas generadas para ver lo que ha generado nuestro modelo."
926 |       ],
927 |       "metadata": {
928 |         "id": "UDnGb_B6XZeu"
929 |       }
930 |     },
931 |     {
932 |       "cell_type": "code",
933 |       "source": [
934 |         "rg_distiset_generations = distiset_generations.to_argilla(vector_strategy=False, metric_strategy=False)"
935 |       ],
936 |       "metadata": {
937 |         "id": "mwzJnwSiWSej"
938 |       },
939 |       "execution_count": null,
940 |       "outputs": []
941 |     },
942 |     {
943 |       "cell_type": "code",
944 |       "source": [
945 |         "rg_distiset_generations.push_to_argilla(name=\"sciency-distiset\", workspace=workspace)"
946 |       ],
947 |       "metadata": {
948 |         "id": "-9GPSj1SWf7q"
949 |       },
950 |       "execution_count": null,
951 |       "outputs": []
952 |     },
953 |     {
954 |       "cell_type": "markdown",
955 |       "source": [
956 |         "# Push al hub\n",
957 |         "\n",
958 |         "Una vez esté el dataset listo, súbelo a la organización de [SomosNLP](https://huggingface.co/organizations/somosnlp/share/qgytUhPKvxVxsbZWTzVUAUSUnZmVXNPmjc) del hub de Hugging Face. ¡Este paso es imprescindible para participar en el hackathon!"
959 |       ],
960 |       "metadata": {
961 |         "id": "Br5U9PjNg4Ua"
962 |       }
963 |     }
964 |   ]
965 | }


--------------------------------------------------------------------------------
/hackathon_2024/entrenamiento_llm_instrucciones.ipynb:
--------------------------------------------------------------------------------
  1 | {
  2 |   "cells": [
  3 |     {
  4 |       "cell_type": "markdown",
  5 |       "metadata": {
  6 |         "id": "view-in-github",
  7 |         "colab_type": "text"
  8 |       },
  9 |       "source": [
 10 |         "<a href=\"https://colab.research.google.com/github/somosnlp/recursos/blob/main/hackathon_2024/entrenamiento_llm_instrucciones.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
 11 |       ]
 12 |     },
 13 |     {
 14 |       "cell_type": "markdown",
 15 |       "metadata": {
 16 |         "id": "UvszEncV1g7-"
 17 |       },
 18 |       "source": [
 19 |         "# Hackathon SomosNLP 2024: Entrenamiento de LLMs\n",
 20 |         "\n",
 21 |         "En este tutorial veremos cómo entrenar LLMs para instrucciones / chat con las herramientas de HuggingFace. En la siguiente parte del notebook veremos cómo hacer esto mismo con [autotransformers](https://github.com/lenguajenatural-ai/autotransformers), añadiendo el entrenamiento con NEFTune."
 22 |       ]
 23 |     },
 24 |     {
 25 |       "cell_type": "markdown",
 26 |       "metadata": {
 27 |         "id": "VIUWAjOe1g7_"
 28 |       },
 29 |       "source": [
 30 |         "Lo primero de todo instalamos la librería `autotransformers` que ya nos va a traer directamente el resto de dependencias que necesitamos."
 31 |       ]
 32 |     },
 33 |     {
 34 |       "cell_type": "code",
 35 |       "execution_count": null,
 36 |       "metadata": {
 37 |         "id": "X5VJCdZS1g7_"
 38 |       },
 39 |       "outputs": [],
 40 |       "source": [
 41 |         "!pip install autotransformers"
 42 |       ]
 43 |     },
 44 |     {
 45 |       "cell_type": "markdown",
 46 |       "metadata": {
 47 |         "id": "T4LgPOTi1g8A"
 48 |       },
 49 |       "source": [
 50 |         "## Importación de Librerías\n",
 51 |         "\n",
 52 |         "Este bloque de código se encarga de importar todas las librerías necesarias para el funcionamiento del script. Se importan herramientas para la manipulación de modelos de aprendizaje automático como `torch` y `transformers`, así como librerías específicas para la preparación y configuración de modelos (`peft`), carga y procesamiento de conjuntos de datos (`datasets`), y una librería especial (`trl`) para el entrenamiento de modelos de lenguaje mediante técnicas de fine-tuning."
 53 |       ]
 54 |     },
 55 |     {
 56 |       "cell_type": "code",
 57 |       "execution_count": null,
 58 |       "metadata": {
 59 |         "id": "c3RjcDtZ1g8A"
 60 |       },
 61 |       "outputs": [],
 62 |       "source": [
 63 |         "from peft import LoraConfig, prepare_model_for_kbit_training, get_peft_model\n",
 64 |         "from datasets import load_dataset\n",
 65 |         "from transformers import BitsAndBytesConfig, TrainingArguments,  AutoTokenizer, AutoModelForCausalLM\n",
 66 |         "from trl import SFTTrainer\n",
 67 |         "import torch\n",
 68 |         "from peft.tuners.lora import LoraLayer"
 69 |       ]
 70 |     },
 71 |     {
 72 |       "cell_type": "markdown",
 73 |       "metadata": {
 74 |         "id": "QExt_XtS1g8A"
 75 |       },
 76 |       "source": [
 77 |         "## Creando la plantilla de chat\n",
 78 |         "\n",
 79 |         "En esta sección, se crea una plantilla para formatear los mensajes de chat durante el entrenamiento. La plantilla utiliza sintaxis específica para identificar y organizar los roles de los participantes en la conversación (usuario, sistema, asistente, entrada), permitiendo que el modelo comprenda y genere respuestas adecuadas dentro del contexto establecido."
 80 |       ]
 81 |     },
 82 |     {
 83 |       "cell_type": "code",
 84 |       "execution_count": null,
 85 |       "metadata": {
 86 |         "id": "ND64q4yf1g8A"
 87 |       },
 88 |       "outputs": [],
 89 |       "source": [
 90 |         "# create chat template\n",
 91 |         "CHAT_TEMPLATE = \"\"\"{% for message in messages %}\n",
 92 |         "    {% if message['role'] == 'user' %}\n",
 93 |         "        {{'<user> ' + message['content'].strip() + ' </user>' }}\n",
 94 |         "    {% elif message['role'] == 'system' %}\n",
 95 |         "        {{'<system>\\\\n' + message['content'].strip() + '\\\\n</system>\\\\n\\\\n' }}\n",
 96 |         "    {% elif message['role'] == 'assistant' %}\n",
 97 |         "        {{ message['content'].strip() + ' </assistant>' + eos_token }}\n",
 98 |         "    {% elif message['role'] == 'input' %}\n",
 99 |         "        {{'<input> ' + message['content'] + ' </input>' }}\n",
100 |         "    {% endif %}\n",
101 |         "{% endfor %}\"\"\""
102 |       ]
103 |     },
104 |     {
105 |       "cell_type": "markdown",
106 |       "metadata": {
107 |         "id": "UKCbYM6m1g8B"
108 |       },
109 |       "source": [
110 |         "## Carga del dataset y preprocesado\n",
111 |         "\n",
112 |         "Se carga un dataset específico llamado `somosnlp/somos-clean-alpaca-es` usando la librería `datasets`. Posteriormente, se define y aplica una función de preprocesado (`process_alpaca`) que estructura cada muestra del dataset en un formato adecuado para entrenar chatbots, etiquetando cada mensaje con su respectivo rol en la conversación. Finalmente, el dataset procesado se divide en conjuntos de entrenamiento y prueba."
113 |       ]
114 |     },
115 |     {
116 |       "cell_type": "code",
117 |       "execution_count": null,
118 |       "metadata": {
119 |         "id": "Y6YX774V1g8B"
120 |       },
121 |       "outputs": [],
122 |       "source": [
123 |         "alpaca = load_dataset(\"somosnlp/somos-clean-alpaca-es\")\n",
124 |         "\n",
125 |         "def process_alpaca(sample: dict) -> dict:\n",
126 |         "    \"\"\"\n",
127 |         "    Processes a single sample from the alpaca dataset to structure it for chatbot training.\n",
128 |         "\n",
129 |         "    This function transforms the dataset sample into a format suitable for training,\n",
130 |         "    where each message is categorized by its role in the conversation (system, input, user, assistant).\n",
131 |         "    It initializes the conversation with a system message, then conditionally adds an input message,\n",
132 |         "    follows with the user's instruction, and finally, the assistant's output based on the provided inputs.\n",
133 |         "\n",
134 |         "    Parameters\n",
135 |         "    ----------\n",
136 |         "    sample : dict\n",
137 |         "        A dictionary representing a single sample from the dataset. It must contain\n",
138 |         "        keys corresponding to input and output components of the conversation.\n",
139 |         "\n",
140 |         "    Returns\n",
141 |         "    -------\n",
142 |         "    dict\n",
143 |         "        A modified dictionary with a 'messages' key that contains a list of ordered messages,\n",
144 |         "        each annotated with its role in the conversation.\n",
145 |         "    \"\"\"\n",
146 |         "    chat = [\n",
147 |         "        {\"role\": \"system\", \"content\": \"Eres un asistente que resuelve las instrucciones del usuario. Si se proporciona contexto adicional, utiliza esa información para completar la instrucción.\"}\n",
148 |         "    ]\n",
149 |         "    inp_ = sample[\"inputs\"][\"2-input\"]\n",
150 |         "    if inp_ is not None and inp_ != \"\":\n",
151 |         "        chat.append(\n",
152 |         "            {\"role\": \"input\", \"content\": inp_}\n",
153 |         "        )\n",
154 |         "    chat.extend(\n",
155 |         "        [\n",
156 |         "            {\"role\": \"user\", \"content\": sample[\"inputs\"][\"1-instruction\"]},\n",
157 |         "            {\"role\": \"assistant\", \"content\": sample[\"inputs\"][\"3-output\"]}\n",
158 |         "        ]\n",
159 |         "    )\n",
160 |         "    sample[\"messages\"] = chat\n",
161 |         "    return sample\n",
162 |         "\n",
163 |         "alpaca = alpaca.map(\n",
164 |         "    process_alpaca,\n",
165 |         "    batched=False,\n",
166 |         "    num_proc=4,\n",
167 |         "    remove_columns=[col for col in alpaca[\"train\"].column_names if col != \"messages\"])\n",
168 |         "\n",
169 |         "alpaca = alpaca[\"train\"].train_test_split(0.2, seed=203984)"
170 |       ]
171 |     },
172 |     {
173 |       "cell_type": "markdown",
174 |       "metadata": {
175 |         "id": "BZZzvGBl1g8B"
176 |       },
177 |       "source": [
178 |         "## Definición de los argumentos de entrenamiento\n",
179 |         "\n",
180 |         "Se configuran los argumentos de entrenamiento utilizando la clase `TrainingArguments` de la librería `transformers`. Estos argumentos incluyen configuraciones importantes como el tamaño del batch, la tasa de aprendizaje, el tipo de optimizador, y varios otros parámetros que influencian directamente en el rendimiento y la eficiencia del entrenamiento del modelo.\n"
181 |       ]
182 |     },
183 |     {
184 |       "cell_type": "code",
185 |       "execution_count": null,
186 |       "metadata": {
187 |         "id": "Mj3CjGsm1g8B"
188 |       },
189 |       "outputs": [],
190 |       "source": [
191 |         "training_args = TrainingArguments(\n",
192 |         "    output_dir=\"./gemma_2b_alpaca\",\n",
193 |         "    per_device_train_batch_size=1,\n",
194 |         "    per_device_eval_batch_size=1,\n",
195 |         "    gradient_accumulation_steps=16,\n",
196 |         "    warmup_ratio=0.03,\n",
197 |         "    learning_rate=2e-4,\n",
198 |         "    bf16=True,\n",
199 |         "    logging_steps=50,\n",
200 |         "    lr_scheduler_type=\"constant\",\n",
201 |         "    weight_decay=0.001,\n",
202 |         "    eval_steps=200,\n",
203 |         "    save_steps=50,\n",
204 |         "    num_train_epochs=1,\n",
205 |         "    logging_first_step=True,\n",
206 |         "    evaluation_strategy=\"steps\",\n",
207 |         "    save_strategy=\"steps\",\n",
208 |         "    max_grad_norm=0.3,\n",
209 |         "    optim=\"paged_adamw_32bit\",\n",
210 |         "    gradient_checkpointing=True,\n",
211 |         "    group_by_length=False,\n",
212 |         "    save_total_limit=5,\n",
213 |         ")"
214 |       ]
215 |     },
216 |     {
217 |       "cell_type": "markdown",
218 |       "metadata": {
219 |         "id": "D0RGqqlb1g8B"
220 |       },
221 |       "source": [
222 |         "## Carga del tokenizador\n",
223 |         "\n",
224 |         "Se carga un tokenizador preentrenado correspondiente al modelo `google/gemma-2b` usando la librería `transformers`. Además, se configura el tokenizador con la plantilla de chat creada anteriormente y se ajustan parámetros específicos como el token de relleno y la longitud máxima de secuencia.\n"
225 |       ]
226 |     },
227 |     {
228 |       "cell_type": "code",
229 |       "execution_count": null,
230 |       "metadata": {
231 |         "id": "a_TtTuG81g8B"
232 |       },
233 |       "outputs": [],
234 |       "source": [
235 |         "model_name = \"google/gemma-2b\"\n",
236 |         "max_seq_length = 4096\n",
237 |         "tokenizer = AutoTokenizer.from_pretrained(model_name, token=True)\n",
238 |         "tokenizer.add_special_tokens({\"pad_token\": \"[PAD]\"})\n",
239 |         "tokenizer.model_max_length = max_seq_length\n",
240 |         "tokenizer.chat_template=CHAT_TEMPLATE"
241 |       ]
242 |     },
243 |     {
244 |       "cell_type": "markdown",
245 |       "metadata": {
246 |         "id": "hX2JLBVM1g8C"
247 |       },
248 |       "source": [
249 |         "## Función de formateo del chat\n",
250 |         "\n",
251 |         "Esta función toma las muestras del dataset y las procesa aplicando la plantilla de chat configurada previamente. El objetivo es tokenizar las entradas para que el modelo pueda entender y generar respuestas durante el entrenamiento y la evaluación."
252 |       ]
253 |     },
254 |     {
255 |       "cell_type": "code",
256 |       "execution_count": null,
257 |       "metadata": {
258 |         "id": "xZCBnaZx1g8C"
259 |       },
260 |       "outputs": [],
261 |       "source": [
262 |         "def format_chat(\n",
263 |         "    samples: dict,\n",
264 |         ") -> dict:\n",
265 |         "    \"\"\"\n",
266 |         "    Tokenize inputs for chatbot or instruction tuning.\n",
267 |         "\n",
268 |         "    Parameters\n",
269 |         "    ----------\n",
270 |         "    samples: Dict\n",
271 |         "        Dataset samples to process.\n",
272 |         "\n",
273 |         "    Returns\n",
274 |         "    -------\n",
275 |         "    samples: Dict\n",
276 |         "        Processed samples with tokenized data.\n",
277 |         "    \"\"\"\n",
278 |         "    texts = []\n",
279 |         "    for i in range(len(samples[\"messages\"])):\n",
280 |         "        full_text = tokenizer.apply_chat_template(\n",
281 |         "            samples[\"messages\"][i], tokenize=False\n",
282 |         "        )\n",
283 |         "        texts.append(full_text)\n",
284 |         "    return texts"
285 |       ]
286 |     },
287 |     {
288 |       "cell_type": "markdown",
289 |       "metadata": {
290 |         "id": "tK8hPfq71g8C"
291 |       },
292 |       "source": [
293 |         "## Carga del modelo\n",
294 |         "\n",
295 |         "Se configura y carga el modelo de lenguaje causal para entrenamiento con cuantización y ajustes específicos para mejorar el rendimiento y reducir el consumo de memoria. Se utiliza una configuración específica para LoRA (Low-Rank Adaptation) y QLoRA (Quantized LoRA), ajustando parámetros como el rango y la tasa de dropout, y se prepara el modelo para el entrenamiento con estos ajustes."
296 |       ]
297 |     },
298 |     {
299 |       "cell_type": "code",
300 |       "execution_count": null,
301 |       "metadata": {
302 |         "id": "ErjfOZz21g8C"
303 |       },
304 |       "outputs": [],
305 |       "source": [
306 |         "lora_config = LoraConfig(\n",
307 |         "    r=64, # NOTE: Al usar rslora podemos subir el rango con mejoras en el rendimiento.\n",
308 |         "    lora_alpha=32,\n",
309 |         "    target_modules=\"all-linear\", # NOTE: En QLoRA entrenamos todas las capas lineales del modelo.\n",
310 |         "    lora_dropout=0.10,  # 0.1 for <13B models, 0.05 otherwise.\n",
311 |         "    bias=\"none\",\n",
312 |         "    task_type=\"CAUSAL_LM\",\n",
313 |         "    use_rslora=True # NOTE: flag para usar QLoRA.\n",
314 |         ")"
315 |       ]
316 |     },
317 |     {
318 |       "cell_type": "code",
319 |       "execution_count": null,
320 |       "metadata": {
321 |         "id": "k8wppLBw1g8C"
322 |       },
323 |       "outputs": [],
324 |       "source": [
325 |         "\n",
326 |         "qlora_config = BitsAndBytesConfig(\n",
327 |         "    load_in_4bit=True, # NOTE: Lo cargamos en 4bits.\n",
328 |         "    bnb_4bit_use_double_quant=True, # NOTE: Usamos la doble cuantización de QLoRA para ahorrar aún más espacio.\n",
329 |         "    bnb_4bit_quant_type=\"nf4\", # NOTE: Usamos NormalFloat 4bits ya que según el paper de QLoRA funciona mejor.\n",
330 |         "    bnb_4bit_compute_dtype=torch.bfloat16, # NOTE: Utilizamos para los cálculos bfloat16; cambiar a float16 en arquitecturas no Ampere.\n",
331 |         ")\n"
332 |       ]
333 |     },
334 |     {
335 |       "cell_type": "code",
336 |       "execution_count": null,
337 |       "metadata": {
338 |         "id": "MGwV67Cw1g8C"
339 |       },
340 |       "outputs": [],
341 |       "source": [
342 |         "\n",
343 |         "model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=qlora_config, token=True)\n",
344 |         "model = prepare_model_for_kbit_training(model, use_gradient_checkpointing=True)\n",
345 |         "model = get_peft_model(model, lora_config)\n",
346 |         "model.config.use_cache = False\n"
347 |       ]
348 |     },
349 |     {
350 |       "cell_type": "code",
351 |       "execution_count": null,
352 |       "metadata": {
353 |         "id": "gKm1h7zS1g8C"
354 |       },
355 |       "outputs": [],
356 |       "source": [
357 |         "for name, module in model.named_modules():\n",
358 |         "    if isinstance(module, LoraLayer):\n",
359 |         "        module = module.to(torch.bfloat16)\n",
360 |         "    if \"norm\" in name:\n",
361 |         "        module = module.to(torch.float32)\n",
362 |         "    if \"lm_head\" in name or \"embed_tokens\" in name:\n",
363 |         "        if hasattr(module, \"weight\"):\n",
364 |         "            module = module.to(torch.bfloat16)"
365 |       ]
366 |     },
367 |     {
368 |       "cell_type": "markdown",
369 |       "metadata": {
370 |         "id": "aagdFFeT1g8C"
371 |       },
372 |       "source": [
373 |         "# Definición del Trainer y Entrenamiento\n",
374 |         "\n",
375 |         "Se inicializa el `Trainer` (en este caso un `SFTTrainer` específico para entrenamiento de modelos de lenguaje) con el modelo, los argumentos de entrenamiento, y el dataset formateado. Finalmente, se ejecuta el entrenamiento del modelo utilizando el método `.train()`."
376 |       ]
377 |     },
378 |     {
379 |       "cell_type": "code",
380 |       "execution_count": null,
381 |       "metadata": {
382 |         "id": "MdW-bO5N1g8C"
383 |       },
384 |       "outputs": [],
385 |       "source": [
386 |         "trainer = SFTTrainer(\n",
387 |         "    model,\n",
388 |         "    args=training_args,\n",
389 |         "    train_dataset=alpaca[\"train\"],\n",
390 |         "    eval_dataset=alpaca[\"test\"],\n",
391 |         "    formatting_func=format_chat,\n",
392 |         "    max_seq_length=max_seq_length\n",
393 |         ")"
394 |       ]
395 |     },
396 |     {
397 |       "cell_type": "code",
398 |       "execution_count": null,
399 |       "metadata": {
400 |         "id": "haSt3IIp1g8C"
401 |       },
402 |       "outputs": [],
403 |       "source": [
404 |         "trainer.train()"
405 |       ]
406 |     },
407 |     {
408 |       "cell_type": "markdown",
409 |       "metadata": {
410 |         "id": "-d5FzaFh1g8C"
411 |       },
412 |       "source": [
413 |         "# Entrenamiento de LLMs con AutoTransformers.\n",
414 |         "\n",
415 |         "Ahora veremos cómo llevar a cabo esto mismo con `autotransformers`, que simplifica el proceso a la vez que ofrece mayor flexibilidad en cómo se procesan los datos y se lleva a cabo el entrenamiento. Esta parte es una adaptación a español de [este notebook](https://github.com/lenguajenatural-ai/autotransformers/blob/master/notebooks/chatbot_instructions/train_instructional_chatbot.ipynb), que tiene las explicaciones más completas desarrolladas originalmente en inglés."
416 |       ]
417 |     },
418 |     {
419 |       "cell_type": "code",
420 |       "execution_count": null,
421 |       "metadata": {
422 |         "id": "UJzkyEfR1g8D"
423 |       },
424 |       "outputs": [],
425 |       "source": [
426 |         "from autotransformers import AutoTrainer, DatasetConfig, ModelConfig\n",
427 |         "from autotransformers.llm_templates import instructions_to_chat, NEFTuneTrainer, QLoraWrapperModelInit, modify_tokenizer, qlora_config, SavePeftModelCallback\n",
428 |         "from functools import partial\n",
429 |         "from datasets import load_dataset\n",
430 |         "from peft import LoraConfig"
431 |       ]
432 |     },
433 |     {
434 |       "cell_type": "markdown",
435 |       "metadata": {
436 |         "id": "n0oMRAK71g8D"
437 |       },
438 |       "source": [
439 |         "## Creando la Plantilla de Chat\n",
440 |         "\n",
441 |         "Para formatear correctamente las conversaciones para el entrenamiento, definimos una plantilla de chat usando la sintaxis de plantillas Jinja2. Esta plantilla itera a través de cada mensaje en una conversación, categorizándolos y formateándolos basados en su rol:\n",
442 |         "\n",
443 |         "- **Mensajes de Usuario**: Envueltos con etiquetas `<user>` para indicar claramente mensajes del usuario. Estos son las instrucciones o consultas dirigidas al chatbot.\n",
444 |         "\n",
445 |         "- **Mensajes del Sistema**: Encerrados dentro de etiquetas `<system>`, seguidos por saltos de línea para la legibilidad. Estos mensajes podrían incluir instrucciones generadas por el sistema o contexto que guía las respuestas del chatbot.\n",
446 |         "\n",
447 |         "- **Respuestas del Asistente**: Colocadas entre la conversación, después de las etiquetas `</user>` y marcadas con etiquetas `</assistant>` al final, junto con el token de fin de oración (EOS). Estas son las respuestas del chatbot o acciones tomadas en respuesta al mensaje del usuario, en cada intervención o turno en la conversación.\n",
448 |         "\n",
449 |         "- **Datos de Entrada**: Marcados con etiquetas `<input>` para distinguir cualquier entrada adicional o información contextual proporcionada al chatbot.\n",
450 |         "\n",
451 |         "Este formato estructurado es crucial para que el modelo entienda los diferentes componentes de una conversación, permitiéndole generar respuestas apropiadas basadas en el rol de cada mensaje.\n",
452 |         "\n",
453 |         "Típicamente, una conversación empezará con el mensaje del sistema, luego tendrá una entrada conteniendo contexto adicional para el asistente, y luego turnos de usuario-asistente, que pueden ser uno o más.\n"
454 |       ]
455 |     },
456 |     {
457 |       "cell_type": "code",
458 |       "execution_count": null,
459 |       "metadata": {
460 |         "id": "rXkp0ZPH1g8D"
461 |       },
462 |       "outputs": [],
463 |       "source": [
464 |         "CHAT_TEMPLATE = \"\"\"{% for message in messages %}\n",
465 |         "    {% if message['role'] == 'user' %}\n",
466 |         "        {{'<user> ' + message['content'].strip() + ' </user>' }}\n",
467 |         "    {% elif message['role'] == 'system' %}\n",
468 |         "        {{'<system>\\\\n' + message['content'].strip() + '\\\\n</system>\\\\n\\\\n' }}\n",
469 |         "    {% elif message['role'] == 'assistant' %}\n",
470 |         "        {{ message['content'].strip() + ' </assistant>' + eos_token }}\n",
471 |         "    {% elif message['role'] == 'input' %}\n",
472 |         "        {{'<input> ' + message['content'] + ' </input>' }}\n",
473 |         "    {% endif %}\n",
474 |         "{% endfor %}\"\"\""
475 |       ]
476 |     },
477 |     {
478 |       "cell_type": "markdown",
479 |       "metadata": {
480 |         "id": "VUjtujSY1g8D"
481 |       },
482 |       "source": [
483 |         "## Preparación del Dataset\n",
484 |         "\n",
485 |         "La fase de preparación del dataset es crucial para estructurar los datos de manera que sea propicia para el entrenamiento de un chatbot. Primero cargamos el dataset desde el hub y luego utilizamos `instructions_to_chat`, para transformar cada muestra del dataset `somos-clean-alpaca` en un formato que refleje un flujo de conversación real involucrando un mensaje del sistema, la entrada del usuario y la respuesta del asistente.\n",
486 |         "\n",
487 |         "### La Función `instructions_to_chat`\n",
488 |         "\n",
489 |         "`instructions_to_chat` toma un diccionario que representa una sola muestra del dataset y lo reestructura categorizando y ordenando mensajes basados en su rol en una conversación:\n",
490 |         "\n",
491 |         "- Comienza agregando un **mensaje del sistema** que establece el contexto para el chatbot como un asistente diseñado para seguir las instrucciones del usuario.\n",
492 |         "- Si está presente, los **datos de entrada** se agregan a continuación para proporcionar contexto o información adicional necesaria para cumplir con la solicitud del usuario.\n",
493 |         "- La **instrucción del usuario** se añade luego, seguida de la **respuesta del asistente**, que es la respuesta a la solicitud del usuario.\n",
494 |         "\n",
495 |         "Esta reestructuración resulta en una lista `messages` dentro del diccionario de muestra, conteniendo todos los elementos de la conversación en su orden lógico.\n",
496 |         "\n",
497 |         "### Aplicando la Transformación\n",
498 |         "\n",
499 |         "Para aplicar esta transformación a través de todo el dataset:\n",
500 |         "\n",
501 |         "- Utilizamos el método `.map` con `instructions_to_chat` como la función de mapeo, estableciendo `batched=False` para procesar las muestras individualmente y `num_proc=4` para paralelizar la operación, mejorando la eficiencia.\n",
502 |         "- Se eliminan las columnas que no forman parte de la estructura de `messages` para simplificar el dataset.\n",
503 |         "\n",
504 |         "Finalmente, el dataset se divide en conjuntos de entrenamiento y prueba con un 20% para el tamaño de prueba, asegurando que podamos evaluar el rendimiento de nuestro chatbot en datos no vistos. Esta división se logra usando el método `train_test_split`, proporcionando una base sólida para entrenar y validar el modelo del chatbot."
505 |       ]
506 |     },
507 |     {
508 |       "cell_type": "code",
509 |       "execution_count": null,
510 |       "metadata": {
511 |         "id": "UX8NVVYf1g8D"
512 |       },
513 |       "outputs": [],
514 |       "source": [
515 |         "alpaca = load_dataset(\"somosnlp/somos-clean-alpaca-es\")"
516 |       ]
517 |     },
518 |     {
519 |       "cell_type": "code",
520 |       "execution_count": null,
521 |       "metadata": {
522 |         "id": "8NMZAYfH1g8D"
523 |       },
524 |       "outputs": [],
525 |       "source": [
526 |         "alpaca = alpaca.map(\n",
527 |         "    partial(\n",
528 |         "        instructions_to_chat,\n",
529 |         "        input_field=\"1-instruction\",\n",
530 |         "        context_field=\"2-input\",\n",
531 |         "        output_field=\"3-output\",\n",
532 |         "        nested_field=\"inputs\",\n",
533 |         "        system_message=\"Eres un asistente que resuelve las instrucciones que le presenta el usuario. En caso de tener un contexto adicional, utilízalo para resolver la instrucción.\"\n",
534 |         "    ),\n",
535 |         "    batched=False,\n",
536 |         "    num_proc=4,\n",
537 |         "    remove_columns=[col for col in alpaca[\"train\"].column_names if col != \"messages\"])"
538 |       ]
539 |     },
540 |     {
541 |       "cell_type": "code",
542 |       "execution_count": null,
543 |       "metadata": {
544 |         "id": "xkbNpQ5p1g8D"
545 |       },
546 |       "outputs": [],
547 |       "source": [
548 |         "alpaca = alpaca[\"train\"].train_test_split(0.2, seed=203984)"
549 |       ]
550 |     },
551 |     {
552 |       "cell_type": "markdown",
553 |       "metadata": {
554 |         "id": "RIRusbeh1g8D"
555 |       },
556 |       "source": [
557 |         "## Configurando el Dataset para AutoTransformers\n",
558 |         "\n",
559 |         "Para asegurar que nuestro modelo de chatbot instructivo se entrene de manera eficiente y efectiva, configuramos meticulosamente nuestro dataset usando la configuración de dataset (`DatasetConfig`) de la biblioteca `autotransformers`. Este paso es esencial para adaptar el proceso de entrenamiento a nuestras necesidades específicas, incluyendo la configuración de hiperparámetros, detalles del dataset y estrategias de entrenamiento.\n",
560 |         "\n",
561 |         "### Configuración de los Argumentos de Entrenamiento\n",
562 |         "\n",
563 |         "Se define un conjunto de argumentos de entrenamiento fijos (`fixed_train_args`) para controlar varios aspectos del proceso de entrenamiento:\n",
564 |         "\n",
565 |         "- **Tamaños de lote** tanto para el entrenamiento como para la evaluación se establecen en 1, indicando que las muestras se procesan individualmente. Esto puede ser particularmente útil para modelos grandes o cuando la memoria GPU es limitada.\n",
566 |         "- **Acumulación de gradientes** se utiliza con 16 pasos, permitiéndonos simular efectivamente un tamaño de lote más grande y estabilizar el entrenamiento sin exceder los límites de memoria.\n",
567 |         "- Un **ratio de calentamiento** de 0.03 aumenta gradualmente la tasa de aprendizaje al comienzo del entrenamiento para prevenir que el modelo converja demasiado rápido a una solución subóptima.\n",
568 |         "- **Tasa de aprendizaje**, **decaimiento de peso**, y otros ajustes de optimización son cuidadosamente elegidos para equilibrar la velocidad de aprendizaje del modelo y la calidad.\n",
569 |         "- **Estrategias de evaluación y guardado** se configuran para verificar periódicamente el rendimiento del modelo y guardar puntos de control, permitiendo el monitoreo y la continuación del entrenamiento desde el último estado guardado.\n",
570 |         "\n",
571 |         "### Creando la Configuración del Dataset\n",
572 |         "\n",
573 |         "El diccionario `alpaca_config` abarca toda la información necesaria para la preparación e integración del dataset:\n",
574 |         "\n",
575 |         "- **Detalles del dataset** como el nombre, tipo de tarea y columnas específicas a usar para texto y etiquetas aseguran que el modelo se entrene en el formato correcto de datos.\n",
576 |         "- **Parámetros de entrenamiento** se incluyen a través del diccionario `fixed_training_args`.\n",
577 |         "- **Clases de callback**, como `SavePeftModelCallback`, automatizan pasos importantes como el guardado del modelo durante el entrenamiento.\n",
578 |         "- **Optimizaciones de proceso** como establecer una semilla para reproducibilidad, especificar la dirección de optimización y la métrica, y habilitar divisiones parciales para la creación del conjunto de validación.\n"
579 |       ]
580 |     },
581 |     {
582 |       "cell_type": "code",
583 |       "execution_count": null,
584 |       "metadata": {
585 |         "id": "0gB2PiYH1g8D"
586 |       },
587 |       "outputs": [],
588 |       "source": [
589 |         "fixed_train_args = {\n",
590 |         "    \"per_device_train_batch_size\": 1,\n",
591 |         "    \"per_device_eval_batch_size\": 1,\n",
592 |         "    \"gradient_accumulation_steps\": 16,\n",
593 |         "    \"warmup_ratio\": 0.03,\n",
594 |         "    \"learning_rate\": 2e-4,\n",
595 |         "    \"bf16\": True,\n",
596 |         "    \"logging_steps\": 50,\n",
597 |         "    \"lr_scheduler_type\": \"constant\",\n",
598 |         "    \"weight_decay\": 0.001,\n",
599 |         "    \"eval_steps\": 200,\n",
600 |         "    \"save_steps\": 50,\n",
601 |         "    \"num_train_epochs\": 1,\n",
602 |         "    \"logging_first_step\": True,\n",
603 |         "    \"evaluation_strategy\": \"steps\",\n",
604 |         "    \"save_strategy\": \"steps\",\n",
605 |         "    \"max_grad_norm\": 0.3,\n",
606 |         "    \"optim\": \"paged_adamw_32bit\",\n",
607 |         "    \"gradient_checkpointing\": True,\n",
608 |         "    \"group_by_length\": False,\n",
609 |         "    \"save_total_limit\": 50,\n",
610 |         "    \"adam_beta2\": 0.999\n",
611 |         "}"
612 |       ]
613 |     },
614 |     {
615 |       "cell_type": "code",
616 |       "execution_count": null,
617 |       "metadata": {
618 |         "id": "k6ppNLsG1g8D"
619 |       },
620 |       "outputs": [],
621 |       "source": [
622 |         "alpaca_config = {\n",
623 |         "    \"seed\": 9834,\n",
624 |         "    \"callbacks\": [SavePeftModelCallback],\n",
625 |         "    \"fixed_training_args\": fixed_train_args,\n",
626 |         "    \"dataset_name\": \"alpaca\",\n",
627 |         "    \"alias\": \"alpaca\",\n",
628 |         "    \"retrain_at_end\": False,\n",
629 |         "    \"task\": \"chatbot\",\n",
630 |         "    \"text_field\": \"messages\",\n",
631 |         "    \"label_col\": \"messages\",\n",
632 |         "    \"num_proc\": 4, #\n",
633 |         "    \"loaded_dataset\": alpaca, # Aquí metemos el dataset pre-cargado.\n",
634 |         "    \"partial_split\": True, # NOTE: Para crear una partición de validación.\n",
635 |         "}"
636 |       ]
637 |     },
638 |     {
639 |       "cell_type": "code",
640 |       "execution_count": null,
641 |       "metadata": {
642 |         "id": "rIVOvJt01g8D"
643 |       },
644 |       "outputs": [],
645 |       "source": [
646 |         "alpaca_config = DatasetConfig(**alpaca_config)"
647 |       ]
648 |     },
649 |     {
650 |       "cell_type": "markdown",
651 |       "metadata": {
652 |         "id": "xGMdfE4b1g8D"
653 |       },
654 |       "source": [
655 |         "## Configuración del Modelo\n",
656 |         "\n",
657 |         "En la sección \"Configuración del Modelo\", delineamos cómo configurar las configuraciones del modelo usando `autotransformers`, enfocándonos en integrar LoRA (Adaptación de Bajo Rango) para la adaptación del modelo y aplicar la cuantización para la eficiencia. Estos pasos son cruciales para personalizar el modelo para nuestra tarea y entorno específicos, asegurando un rendimiento óptimo y la utilización de recursos.\n",
658 |         "\n",
659 |         "### Configuración de LoRA\n",
660 |         "\n",
661 |         "El objeto `LoraConfig` se instancia con parámetros diseñados para mejorar la adaptabilidad del modelo mientras se mantiene la eficiencia:\n",
662 |         "\n",
663 |         "- **r (rango)** y **lora_alpha** se establecen para ajustar la capacidad y el multiplicador de la tasa de aprendizaje para las capas LoRA, equilibrando entre la flexibilidad del modelo y el riesgo de sobreajuste.\n",
664 |         "- **target_modules** especifica qué partes del modelo aplicar LoRA. En este caso, se apuntan los módulos \"all-linear\" para la adaptación, ofreciendo una mejora amplia sobre las capacidades del modelo.\n",
665 |         "- **lora_dropout** se ajusta según el tamaño del modelo, asegurando que la regularización esté escalada apropiadamente.\n",
666 |         "- La configuración de **bias** se establece en \"none\", indicando que no se usan términos de bias adicionales en las capas de adaptación LoRA.\n",
667 |         "- El **task_type** se especifica como \"CAUSAL_LM\" para indicar la tarea de modelado del lenguaje causal, alineándose con la naturaleza del chatbot instructivo.\n",
668 |         "- El parámetro **use_rslora** se utiliza para activar rank-stabilized lora que nos permite entrenar con rangos más altos.\n",
669 |         "\n",
670 |         "### Configuración del Modelo GEMMA\n",
671 |         "\n",
672 |         "La `ModelConfig` para el modelo GEMMA incluye varios parámetros clave y personalizaciones:\n",
673 |         "\n",
674 |         "- **Nombre del Modelo**: Especifica el modelo preentrenado a ser adaptado, \"google/gemma-2b-it\" en este caso.\n",
675 |         "- **Nombre de Guardado y Directorio**: Define la convención de nomenclatura y ubicación para guardar el modelo afinado.\n",
676 |         "- **Parámetros Personalizados**: Incluye configuraciones específicas del modelo, como habilitar la confianza en código remoto y configurar el mapeo de dispositivos para el entrenamiento.\n",
677 |         "- **Envoltorio de Inicialización del Modelo**: `QLoraWrapperModelInit` se usa para integrar el marco de cuantización QLoRA con el modelo configurado LoRA, optimizando tanto la adaptabilidad como la eficiencia.\n",
678 |         "- **Configuraciones de Cantidadización y PEFT**: Se aplican a través de los parámetros `quantization_config` y `peft_config`, asegurando que el modelo se beneficie tanto de las adaptaciones LoRA como de la cuantización eficiente después del entrenamiento.\n",
679 |         "- **Modificación del Tokenizador**: Se usa una función parcial para personalizar el tokenizador, ajustando la longitud de secuencia, añadiendo tokens especiales e incorporando la plantilla de chat diseñada para nuestro contexto conversacional.\n"
680 |       ]
681 |     },
682 |     {
683 |       "cell_type": "code",
684 |       "execution_count": null,
685 |       "metadata": {
686 |         "id": "MM3NlVP01g8D"
687 |       },
688 |       "outputs": [],
689 |       "source": [
690 |         "lora_config = LoraConfig(\n",
691 |         "    r=64, # NOTE: Al usar rslora podemos subir el rango con mejoras en el rendimiento.\n",
692 |         "    lora_alpha=32,\n",
693 |         "    target_modules=\"all-linear\", # NOTE: En QLoRA entrenamos todas las capas lineales del modelo.\n",
694 |         "    lora_dropout=0.10,  # NOTE: 0.1 for <13B models, 0.05 otherwise.\n",
695 |         "    bias=\"none\",\n",
696 |         "    task_type=\"CAUSAL_LM\",\n",
697 |         "    use_rslora=True # NOTE: flag para usar QLoRA.\n",
698 |         ")"
699 |       ]
700 |     },
701 |     {
702 |       "cell_type": "code",
703 |       "execution_count": null,
704 |       "metadata": {
705 |         "id": "x_Aab63P1g8D"
706 |       },
707 |       "outputs": [],
708 |       "source": [
709 |         "gemma_config = ModelConfig(\n",
710 |         "    name=\"google/gemma-2b-it\",\n",
711 |         "    save_name=\"gemma_2b\",\n",
712 |         "    save_dir=\"./gemma_2b_alpaca\",\n",
713 |         "    model_init_wrap_cls=QLoraWrapperModelInit,\n",
714 |         "    quantization_config=qlora_config,\n",
715 |         "    peft_config=lora_config,\n",
716 |         "    neftune_noise_alpha=10, # NOTE: Este es el parámetro que podemos tocar de NEFTune.\n",
717 |         "    custom_trainer_cls=NEFTuneTrainer, # NOTE: Un Trainer ajustado para usar NEFTune.\n",
718 |         "    func_modify_tokenizer=partial(\n",
719 |         "        modify_tokenizer,\n",
720 |         "        new_model_seq_length=4096, # lower the maximum seq length to 4096 instead of 8192 to fit in google colab GPUs.\n",
721 |         "        add_special_tokens={\"pad_token\": \"[PAD]\"}, # add pad token.\n",
722 |         "        chat_template=CHAT_TEMPLATE # add the new chat template including the system and input roles.\n",
723 |         "    )\n",
724 |         ")"
725 |       ]
726 |     },
727 |     {
728 |       "cell_type": "markdown",
729 |       "metadata": {
730 |         "id": "Z8aAR30p1g8I"
731 |       },
732 |       "source": [
733 |         "## Vamos a Entrenar\n",
734 |         "\n",
735 |         "Con nuestras configuraciones de dataset y modelo en su lugar, ahora estamos listos para iniciar el proceso de entrenamiento. Aquí es donde entra en juego la clase `AutoTrainer` de la biblioteca `autotransformers`, orquestando toda la operación de entrenamiento basada en las especificaciones que hemos proporcionado.\n",
736 |         "\n",
737 |         "### Configurando el AutoTrainer\n",
738 |         "\n",
739 |         "El `AutoTrainer` es una clase integral diseñada para agilizar el entrenamiento de modelos de aprendizaje automático, especialmente adaptada para modelos de lenguaje grandes. Acepta varios parámetros para controlar el proceso de entrenamiento:\n",
740 |         "\n",
741 |         "- **Configuraciones del Modelo**: Una lista de objetos `ModelConfig`, cada uno definiendo las configuraciones y personalizaciones para un modelo. Para nuestro chatbot instructivo, incluimos la configuración para el modelo GEMMA adaptado con LoRA y cuantización.\n",
742 |         "- **Configuraciones del Dataset**: Similar a las configuraciones del modelo, estas se especifican usando objetos `DatasetConfig`. Pasamos la configuración para nuestro dataset `alpaca` preprocesado y estructurado, asegurando que se utilice efectivamente durante el entrenamiento.\n",
743 |         "- **Directorio de Métricas**: Especifica el directorio donde se almacenarán las métricas de entrenamiento, permitiendo el monitoreo y evaluación del rendimiento.\n",
744 |         "- **Modo de Búsqueda de Hiperparámetros**: Establecido en \"fijo\" en nuestro caso, indicando que no estamos explorando diferentes hiperparámetros sino entrenando con un conjunto predeterminado.\n",
745 |         "- **Limpieza**: Una bandera booleana para limpiar los datos de ejecuciones anteriores, asegurando un nuevo inicio para cada sesión de entrenamiento.\n",
746 |         "- **Limpiador de Métricas**: Especifica la utilidad para manejar datos temporales de métricas, manteniendo nuestro directorio de métricas ordenado y centrado en resultados significativos.\n",
747 |         "- **Usar Token de Autenticación**: Habilita el uso de un token de autenticación, necesario para acceder a ciertos modelos o datasets que pueden tener restricciones de acceso.\n",
748 |         "\n",
749 |         "### Iniciando el Entrenamiento\n",
750 |         "\n",
751 |         "Con el `AutoTrainer` configurado, procedemos a llamar a su método de ejecución. Este paso inicia el proceso de entrenamiento, aprovechando las configuraciones que hemos configurado meticulosamente. El proceso implica:\n",
752 |         "\n",
753 |         "- Cargar y preparar automáticamente el dataset según nuestro `DatasetConfig`.\n",
754 |         "- Adaptar y afinar el modelo basado en el `ModelConfig`, incluyendo cualquier mejora de LoRA o cuantización especificada.\n",
755 |         "- Evaluar regularmente el rendimiento del modelo usando el conjunto de validación proporcionado, permitiéndonos monitorear su efectividad en tiempo real.\n",
756 |         "- Guardar puntos de control del modelo y métricas de entrenamiento, habilitando tanto la introspección del proceso de entrenamiento como la reanudación del entrenamiento desde el último estado guardado.\n",
757 |         "\n",
758 |         "Al completarse, los resultados del entrenamiento, incluyendo métricas de rendimiento y puntos de control del modelo, están disponibles para análisis y despliegue. Este paso marca la culminación de la preparación de nuestro chatbot instructivo, dejándolo listo para pruebas y eventualmente, despliegue en escenarios del mundo real.\n"
759 |       ]
760 |     },
761 |     {
762 |       "cell_type": "code",
763 |       "execution_count": null,
764 |       "metadata": {
765 |         "id": "KNlf6YFT1g8J"
766 |       },
767 |       "outputs": [],
768 |       "source": [
769 |         "autotrainer = AutoTrainer(\n",
770 |         "    model_configs=[gemma_config], # NOTE: Aquí podríamos poner tantos modelos como quisiéramos, y se entrenarían en bucle.\n",
771 |         "    dataset_configs=[alpaca_config], # NOTE: Aquí también podríamos utilizar tantos datasets como quisiéramos.\n",
772 |         "    metrics_dir=\"./metrics_alpaca\",\n",
773 |         "    hp_search_mode=\"fixed\", # NOTE: Normalmente con LLMs no buscamos hiperparámetros ya que sería un proceso demasiado costoso.\n",
774 |         "    use_auth_token=True\n",
775 |         ")"
776 |       ]
777 |     },
778 |     {
779 |       "cell_type": "code",
780 |       "execution_count": null,
781 |       "metadata": {
782 |         "id": "W7DrFr1X1g8J"
783 |       },
784 |       "outputs": [],
785 |       "source": [
786 |         "results = autotrainer()"
787 |       ]
788 |     },
789 |     {
790 |       "cell_type": "code",
791 |       "execution_count": null,
792 |       "metadata": {
793 |         "id": "gP-VEhD61g8J"
794 |       },
795 |       "outputs": [],
796 |       "source": []
797 |     }
798 |   ],
799 |   "metadata": {
800 |     "kernelspec": {
801 |       "display_name": "autotransformers",
802 |       "language": "python",
803 |       "name": "python3"
804 |     },
805 |     "language_info": {
806 |       "codemirror_mode": {
807 |         "name": "ipython",
808 |         "version": 3
809 |       },
810 |       "file_extension": ".py",
811 |       "mimetype": "text/x-python",
812 |       "name": "python",
813 |       "nbconvert_exporter": "python",
814 |       "pygments_lexer": "ipython3",
815 |       "version": "3.10.12"
816 |     },
817 |     "colab": {
818 |       "provenance": [],
819 |       "include_colab_link": true
820 |     }
821 |   },
822 |   "nbformat": 4,
823 |   "nbformat_minor": 0
824 | }


--------------------------------------------------------------------------------
/hackathon_2024/taller_escritura_abstracts_lxai_naacl.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/somosnlp/recursos/ac5d0bfed81fdb8f3cfc453418a59932f81e99be/hackathon_2024/taller_escritura_abstracts_lxai_naacl.pdf


--------------------------------------------------------------------------------
/plantillas_docs_proyectos/README.md:
--------------------------------------------------------------------------------
1 | # Plantillas para documentar tus proyectos
2 | 
3 | Estas plantillas de Dataset Card y Model Card son una adaptación de las de Hugging Face con comentarios adicionales para ayudarte a rellenarlas.
4 | 
5 | ¿Cómo utilizarlas? Copia el contenido **raw** (para incluir los comentarios) en el README.md del repo de tu dataset/modelo en el Hub de Hugging Face y rellena cada sección. Si tienes dudas puedes preguntarle a @mariagrandury en el Discord de la comunidad.
6 | 
7 | Como siempre, se aceptan contribuciones, mejoras y comentarios 🤗
8 | 


--------------------------------------------------------------------------------
/plantillas_docs_proyectos/dataset_card.md:
--------------------------------------------------------------------------------
  1 | <!--
  2 | Esta plantilla de Dataset Card es una adaptación de la de Hugging Face: https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/datasetcard_template.md
  3 | 
  4 | ¿Cómo utilizar esta plantilla? Copia el contenido en el README.md del repo de tu dataset en el Hub de Hugging Face y rellena cada sección.
  5 | 
  6 | Para más información sobre cómo rellenar cada sección ver las docs: https://huggingface.co/docs/hub/datasets-cards y https://huggingface.co/docs/datasets/dataset_card
  7 | 
  8 | Para más información sobre la dataset card metadata ver: https://github.com/huggingface/hub-docs/blob/main/datasetcard.md?plain=1
  9 | -->
 10 | 
 11 | # Dataset Card for < Nombre del corpus >
 12 | 
 13 | <!--
 14 | 
 15 | Nombre del corpus:
 16 | 
 17 | Suele haber un nombre corto ("pretty name") para las URLs, tablas y demás y uno largo más descriptivo. Para crear el pretty name podéis utilizar acrónimos.
 18 | 
 19 | Idioma:
 20 | 
 21 | La Dataset Card puede estar en español o en inglés. Recomendamos que sea en inglés para que la comunidad internacional pueda utilizar vuestro dataset. Teniendo en cuenta que somos una comunidad hispanohablante y no queremos que el idioma sea una barrera, la opción más inclusiva sería escribirla en un idioma y traducirla (automáticamente?) al otro. En el repo entonces habría un README.md (Dataset Card en inglés) que enlazaría a un README_ES.md (Dataset Card en español), o viceversa, README.md y README_EN.md. Si necesitáis apoyo con la traducción os podemos ayudar.
 22 | 
 23 | Qué incluir en esta sección:
 24 | 
 25 | Esta sección es como el abstract. Escribir un resumen del corpus y motivación del proyecto (inc. los ODS relacionados).  Si el proyecto tiene un logo, incluidlo aquí.
 26 | 
 27 | Si queréis incluir una versión de la Dataset Card en español, enlazadla aquí al principio (e.g. "A Spanish version of this Dataset Card can be found under [`README_es.md`](URL)"). De manera análoga para el inglés.
 28 | 
 29 | -->
 30 | 
 31 | ## Dataset Details
 32 | 
 33 | ### Dataset Description
 34 | 
 35 | <!-- Una frase de resumen del dataset. -->
 36 | 
 37 | - **Curated by:** [More Information Needed] <!-- Nombre de los miembros del equipo -->
 38 | - **Funded by:** SomosNLP, HuggingFace, Argilla <!-- Si contasteis con apoyo de otra entidad (e.g. vuestra universidad), añadidla aquí -->
 39 | - **Language(s) (NLP):** [More Information Needed] <!-- Enumerad las lenguas en las que se ha entrenado el modelo, especificando el país de origen. Utilizar códigos ISO. Por ejemplo: Spanish (`es-CL`, `es-ES`, `es-MX`), Catalan (`ca`), Quechua (`qu`).  -->
 40 | - **License:** apache-2.0 <!-- Elegid una licencia lo más permisiva posible teniendo en cuenta la licencia del model pre-entrenado y los datasets utilizados -->
 41 | 
 42 | ### Dataset Sources
 43 | 
 44 | - **Repository:** [More Information Needed] <!-- Enlace al `main` del repo donde tengáis los scripts, i.e.: o del mismo repo del dataset en HuggingFace o a GitHub. -->
 45 | - **Paper [optional]:** [More Information Needed] <!-- Si vais a presentarlo a NAACL poned "WIP", "Comming soon!" o similar. Si no tenéis intención de presentarlo a ninguna conferencia ni escribir un preprint, eliminar. -->
 46 | - **Demo:** [optional] [More Information Needed] <!-- Enlace a la demo del dataset -->
 47 | - **Video presentation:** [optional] [More Information Needed] <!-- Enlace a vuestro vídeo de presentación en YouTube (están todos subidos aquí: https://www.youtube.com/playlist?list=PLTA-KAy8nxaASMwEUWkkTfMaDxWBxn-8J) -->
 48 | 
 49 | ### Dataset Versions & Formats [optional]
 50 | 
 51 | <!-- Si tenéis varias versiones de vuestro dataset podéis combinarlas todas en un mismo repo y simplemente enlazar aquí los commits correspondientes. Ver ejemplo de https://huggingface.co/bertin-project/bertin-roberta-base-spanish -->
 52 | 
 53 | <!-- Si hay varias formatos del dataset (e.g. sin anotar, pregunta/respuesta, gemma) las podéis enumerar aquí. -->
 54 | 
 55 | ## Uses
 56 | 
 57 | <!-- Address questions around how the dataset is intended to be used. -->
 58 | 
 59 | ### Direct Use
 60 | 
 61 | <!-- This section describes suitable use cases for the dataset. -->
 62 | 
 63 | [More Information Needed]
 64 | 
 65 | ### Out-of-Scope Use
 66 | 
 67 | <!-- This section addresses misuse, malicious use, and uses that the dataset will not work well for. -->
 68 | 
 69 | [More Information Needed]
 70 | 
 71 | ## Dataset Structure
 72 | 
 73 | <!-- This section provides a description of the dataset fields, and additional information about the dataset structure such as criteria used to create the splits, relationships between data points, etc. -->
 74 | 
 75 | <!--
 76 | 
 77 | Enumerar y explicar cada columna del corpus. Para cada columna que sea de tipo "categoría" indicar el porcentaje de ejemplos. Podéis encontrar la estructura de corpus propuesta en [estructura_corpus.md](/plantillas_docs_proyectos/estructura_corpus.md).
 78 | 
 79 | Ejemplo:
 80 | 
 81 | El corpus cuenta con un total de X ejemplos y contiene las siguientes columnas:
 82 | - `pregunta`
 83 | - `respuesta`
 84 | - `idioma` (variedad geográfica): código ISO del idioma. Distribución: 33% `es_AR`, 33% `es_UY`, 33% `es_PY`
 85 | - `registro` (variedad funcional): `coloquial`, `medio` o `culto`. Distribución: 100% `coloquial.
 86 | - `periodo` (variedad histórica): `actual`, `moderno` (ss. XVIII-XIX), `clásico` (ss. XVI-XVII) o `medieval`. Distribución: 100% `actual`.
 87 | - `dominio`: dominio de la instrucción. Distribución: 10% `sociales_historia`, ...
 88 | - `tarea`: tarea de la instrucción. Distribución: 100% `resumen`.
 89 | - `país_origen`: código ISO del país de origen de los datos. Distribución:
 90 | - `país_referencia`: código ISO del país al que hace referencia la pregunta. Distribución: 55% en blanco, 5% ..., ...
 91 | 
 92 | -->
 93 | 
 94 | [More Information Needed]
 95 | 
 96 | ## Dataset Creation
 97 | 
 98 | ### Curation Rationale
 99 | 
100 | <!-- Motivation for the creation of this dataset. -->
101 | 
102 | [More Information Needed]
103 | 
104 | ### Source Data
105 | 
106 | <!-- This section describes the source data (e.g. news text and headlines, social media posts, translated sentences, ...). -->
107 | 
108 | <!-- Incluir siempre que sea posible enlaces a los datos de origen. -->
109 | 
110 | #### Data Collection and Processing
111 | 
112 | <!-- This section describes the data collection and processing process such as data selection criteria, filtering and normalization methods, tools and libraries used, etc. -->
113 | 
114 | <!-- Enlazar aquí los scripts y notebooks utilizados para generar el corpus. -->
115 | 
116 | [More Information Needed]
117 | 
118 | #### Who are the source data producers?
119 | 
120 | <!-- This section describes the people or systems who originally created the data. It should also include self-reported demographic or identity information for the source data creators if this information is available. -->
121 | 
122 | [More Information Needed]
123 | 
124 | ### Annotations [optional]
125 | 
126 | <!-- If the dataset contains annotations which are not part of the initial data collection, use this section to describe them. -->
127 | 
128 | #### Annotation process
129 | 
130 | <!-- This section describes the annotation process such as annotation tools used in the process, the amount of data annotated, annotation guidelines provided to the annotators, interannotator statistics, annotation validation, etc. -->
131 | 
132 | <!-- Enlazar aquí el notebook utilizado para crear el espacio de anotación de Argilla y la guía de anotación. -->
133 | 
134 | [More Information Needed]
135 | 
136 | #### Who are the annotators?
137 | 
138 | <!-- This section describes the people or systems who created the annotations. -->
139 | 
140 | [More Information Needed]
141 | 
142 | #### Personal and Sensitive Information
143 | 
144 | <!-- State whether the dataset contains data that might be considered personal, sensitive, or private (e.g., data that reveals addresses, uniquely identifiable names or aliases, racial or ethnic origins, sexual orientations, religious beliefs, political opinions, financial or health data, etc.). If efforts were made to anonymize the data, describe the anonymization process. -->
145 | 
146 | [More Information Needed]
147 | 
148 | ## Bias, Risks, and Limitations
149 | 
150 | <!-- This section is meant to convey both technical and sociotechnical limitations. -->
151 | 
152 | <!-- Aquí podéis mencionar los posibles sesgos heredados según el origen de los datos y de las personas que lo han anotado, hablar del balance de las categorías representadas, los esfuerzos que habéis hecho para intentar mitigar sesgos y riesgos. -->
153 | 
154 | [More Information Needed]
155 | 
156 | ### Recommendations
157 | 
158 | <!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations.
159 | 
160 | Example:
161 | 
162 | Users should be made aware of the risks, biases and limitations of the dataset. More information needed for further recommendations. -->
163 | 
164 | [More Information Needed]
165 | 
166 | ## License
167 | 
168 | <!-- Indicar bajo qué licencia se libera el dataset explicando, si no es apache 2.0, a qué se debe la licencia más restrictiva (i.e. herencia de los datos utilizados). -->
169 | 
170 | ## Citation
171 | 
172 | <!-- If there is a paper or blog post introducing the dataset, the APA and Bibtex information for that should go in this section. -->
173 | 
174 | **BibTeX:**
175 | 
176 | [More Information Needed]
177 | 
178 | <!--
179 | 
180 | Aquí tenéis un ejemplo de cita de un dataset que podéis adaptar:
181 | 
182 | ```
183 | @software{benallal2024cosmopedia,
184 |   author = {Ben Allal, Loubna and Lozhkov, Anton and Penedo, Guilherme and Wolf, Thomas and von Werra, Leandro},
185 |   title = {Cosmopedia},
186 |   month = February,
187 |   year = 2024,
188 |   url = {https://huggingface.co/datasets/HuggingFaceTB/cosmopedia}
189 | }
190 | ```
191 | 
192 | - benallal2024cosmopedia -> nombre + año + nombre del dataset
193 | - author: lista de miembros del equipo
194 | - title: nombre del dataset
195 | - year: año
196 | - url: enlace al dataset
197 | 
198 | -->
199 | 
200 | ## Glossary [optional]
201 | 
202 | <!-- If relevant, include terms and calculations in this section that can help readers understand the dataset or dataset card. -->
203 | 
204 | ## More Information
205 | 
206 | <!-- Indicar aquí que el marco en el que se desarrolló el proyecto, en esta sección podéis incluir agradecimientos y más información sobre los miembros del equipo. Podéis adaptar el ejemplo a vuestro gusto. -->
207 | 
208 | This project was developed during the [Hackathon #Somos600M](https://somosnlp.org/hackathon) organized by SomosNLP. The dataset was created using `distilabel` by Argilla and endpoints sponsored by HuggingFace.
209 | 
210 | **Team:** [More Information Needed]
211 | 
212 | <!--
213 | - [Name 1](Link to Hugging Face profile)
214 | - [Name 2](Link to Hugging Face profile)
215 | -->
216 | 
217 | ## Contact [optional]
218 | 
219 | <!-- Email de contacto para´posibles preguntas sobre el dataset. -->
220 | 


--------------------------------------------------------------------------------
/plantillas_docs_proyectos/estructura_corpus.md:
--------------------------------------------------------------------------------
 1 | # Estructura Corpus
 2 | 
 3 | ## Columnas que incluir
 4 | 
 5 | Por ser corpus de instrucciones debe tener las siguientes columnas:
 6 | 
 7 | - `pregunta`
 8 | - `respuesta`
 9 | 
10 | Además, dado el enfoque en las variedades de la lengua del hackathon, también incluimos las siguientes columnas:
11 | 
12 | - `idioma` (variedad geográfica): código ISO del idioma ("catalán" = `ca`, "quechua" = `qu`), en caso de ser español hay que especificar la variedad geográfica ("español de México" = `es_MX`, "español de Ecuador" = `es_EC`).
13 | - `registro` (variedad funcional): `coloquial`, `medio` o `culto`
14 | - `periodo` (variedad histórica): si es un corpus en español elegid entre `actual`, `moderno` (ss. XVIII-XIX), `clásico` (ss. XVI-XVII) o `medieval`, si es en otro idioma rellenar si tenéis conocimiento.
15 | 
16 | Para completar la información de los ejemplos incluiremos también:
17 | 
18 | - `dominio`: `legal`, `salud` (clínico, biomédico, farmacia), `literatura` (poesía, música, teatro), `sociales` (historia, geografía, etc), `exactas` (física, mates, etc), `prensa`, `gastronomia`, `filosofia` (ética, lógica, etc), `seguros`, ..., `general` (última opción). Si puedes, especifica el subdominio, e.g. `literatura_poesia`, `sociales_historia`.
19 | - `tarea`: `pregunta`, `clasificacion`, `traduccion`, `resumen`, `similitud_semantica`. Si puedes, especifica también la subtarea, e.g. `pregunta_abierta`, `pregunta_opcion_multiple`.
20 | - `país_origen`: código ISO del país de origen de los datos. En general, coincide con la variedad geográfica. Si por ejemplo sabes la zona concreta del país, indícalo también (e.g. `ES (Galicia)`).
21 | - `país_referencia`: código ISO del país al que hace referencia el texto, si aplica.
22 | 
23 | Otras consideraciones:
24 | 
25 | - Si anotáis manual o sintéticamente una base de datos ya existente, incluid en la nueva versión toda la información disponible en la primera (no eliminéis columnas).
26 | - Si tomáis información de internet o documentos de texto, incluid una columna `origen` con el enlace a la web o al documento como referencia.
27 | - Si el ejemplo ha sido generado sintéticamente, incluid columnas `prompt` y `modelo` con el prompt y modelo utilizados.
28 | 
29 | ## Aclaraciones sobre la información de los países
30 | 
31 | - La variedad geográfica y el país de origen de los datos suele coincidir, si habéis tomado los datos de una web ".es" seguramente la variedad sea `es_ES`, si es una ley peruana será `es_PE`, si son datos de una red social paraguaya será `es_PY`. Si el corpus ha sido anotado a mano, la variedad geográfica coincide con el país de origen de la persona anotadora.
32 | - El país de referencia no tiene nada que ver con la variedad de la lengua. Ejemplos:
33 |   - "Decime tres platos típicos de Cuba", `pais_origen: AR/UY, pais_referencia: CU`
34 |   - "¿Cómo le dicen a la micro en Bolivia?", `pais_origen: CL, pais_referencia: BO`
35 |   - "Decime cuáles son los vinos más típicos de Mendoza", `pais_origen: AR, pais_referencia: AR`
36 |   - "Según la ley colombiana, ¿qué pasa si...?", `pais_referencia: CO`
37 |   - "¿Cómo diría un boricua que ...?", `pais_referencia: PR`
38 | 
39 | ## Colaboración y preguntas
40 | 
41 | Esta guía está en desarrollo, las sugerencias y comentarios son más que bienvenidas. A vuestra disposición en Discord :)
42 | 


--------------------------------------------------------------------------------
/plantillas_docs_proyectos/model_card.md:
--------------------------------------------------------------------------------
  1 | <!--
  2 | Esta plantilla de Model Card es una adaptación de la de Hugging Face: https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md
  3 | 
  4 | ¿Cómo utilizar esta plantilla? Copia el contenido en el README.md del repo de tu modelo en el Hub de Hugging Face y rellena cada sección.
  5 | 
  6 | Para más información sobre cómo rellenar cada sección ver las docs: https://huggingface.co/docs/hub/model-cards
  7 | -->
  8 | 
  9 | # Model Card for < Nombre del modelo >
 10 | 
 11 | <!--
 12 | 
 13 | Nombre del modelo:
 14 | 
 15 | Suele haber un nombre corto ("pretty name") para las URLs, tablas y demás y uno largo más descriptivo. Para crear el pretty name podéis utilizar acrónimos.
 16 | 
 17 | Idioma:
 18 | 
 19 | La Model Card puede estar en español o en inglés. Recomendamos que sea en inglés para que la comunidad internacional pueda utilizar vuestro dataset. Teniendo en cuenta que somos una comunidad hispanohablante y no queremos que el idioma sea una barrera, la opción más inclusiva sería escribirla en un idioma y traducirla (automáticamente?) al otro. En el repo entonces habría un README.md (Model Card en inglés) que enlazaría a un README_ES.md (Model Card en español), o viceversa, README.md y README_EN.md. Si necesitáis apoyo con la traducción os podemos ayudar.
 20 | 
 21 | Qué incluir en esta sección:
 22 | 
 23 | Esta sección es como el abstract. Escribir un resumen del modelo y motivación del proyecto (inc. los ODS relacionados).  Si el proyecto tiene un logo, incluidlo aquí.
 24 | 
 25 | Si queréis incluir una versión de la Model Card en español, enlazadla aquí al principio (e.g. "A Spanish version of this Model Card can be found under [`README_es.md`](URL)"). De manera análoga para el inglés.
 26 | 
 27 | -->
 28 | 
 29 | ## Model Details
 30 | 
 31 | ### Model Description
 32 | 
 33 | <!-- Resumen del modelo. -->
 34 | 
 35 | - **Developed by:** [More Information Needed] <!-- Nombre de los miembros del equipo -->
 36 | - **Funded by:** SomosNLP, HuggingFace <!-- Si contasteis con apoyo de otra entidad (e.g. vuestra universidad), añadidla aquí -->
 37 | - **Model type:** Language model, instruction tuned
 38 | - **Language(s):** [More Information Needed] <!-- Enumerar las lenguas en las que se ha entrenado el modelo, especificando el país de origen. Utilizar códigos ISO. Por ejemplo: Spanish (`es-CL`, `es-ES`, `es-MX`), Catalan (`ca`), Quechua (`qu`).  -->
 39 | - **License:** apache-2.0 <!-- Elegid una licencia lo más permisiva posible teniendo en cuenta la licencia del model pre-entrenado y los datasets utilizados -->
 40 | - **Fine-tuned from model:** [More Information Needed] <!-- Enlace al modelo pre-entrenado que habéis utilizado como base -->
 41 | - **Dataset used:** [More Information Needed] <!-- Enlace al dataset utilizado para el ajuste -->
 42 | 
 43 | ### Model Sources
 44 | 
 45 | - **Repository:** [More Information Needed] <!-- Enlace al `main` del repo donde tengáis los scripts, i.e.: o del mismo repo del modelo en HuggingFace o a GitHub. -->
 46 | - **Paper:** [optional] [More Information Needed] <!-- Si vais a presentarlo a NAACL poned "WIP", "Comming soon!" o similar. Si no tenéis intención de presentarlo a ninguna conferencia ni escribir un preprint, eliminar. -->
 47 | - **Demo:** [More Information Needed] <!-- Enlace a la demo -->
 48 | - **Video presentation:** [optional] [More Information Needed] <!-- Enlace a vuestro vídeo de presentación en YouTube (están todos subidos aquí: https://www.youtube.com/playlist?list=PLTA-KAy8nxaASMwEUWkkTfMaDxWBxn-8J) -->
 49 | 
 50 | ### Model Family [optional]
 51 | 
 52 | <!-- Si habéis entrenado varios modelos similares podéis enumerarlos aquí. -->
 53 | 
 54 | ## Uses
 55 | 
 56 | <!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
 57 | 
 58 | ### Direct Use
 59 | 
 60 | <!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
 61 | 
 62 | [More Information Needed]
 63 | 
 64 | ### Downstream Use [optional]
 65 | 
 66 | <!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
 67 | 
 68 | [More Information Needed]
 69 | 
 70 | ### Out-of-Scope Use
 71 | 
 72 | <!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
 73 | 
 74 | [More Information Needed]
 75 | 
 76 | ## Bias, Risks, and Limitations
 77 | 
 78 | <!-- This section is meant to convey both technical and sociotechnical limitations. -->
 79 | 
 80 | [More Information Needed]
 81 | 
 82 | ### Recommendations
 83 | 
 84 | <!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
 85 | 
 86 | <!-- Example: Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations. -->
 87 | 
 88 | ## How to Get Started with the Model
 89 | 
 90 | Use the code below to get started with the model.
 91 | 
 92 | ```
 93 | 
 94 | [More Information Needed]
 95 | 
 96 | ```
 97 | 
 98 | ## Training Details
 99 | 
100 | ### Training Data
101 | 
102 | <!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
103 | 
104 | [More Information Needed]
105 | 
106 | ### Training Procedure
107 | 
108 | <!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
109 | 
110 | <!-- Detallar la técnica de entrenamiento utilizada y enlazar los scripts/notebooks. -->
111 | 
112 | #### Preprocessing [optional]
113 | 
114 | [More Information Needed]
115 | 
116 | #### Training Hyperparameters
117 | 
118 | <!-- Enumerar los valores de los hiperparámetros de entrenamiento. -->
119 | 
120 | - **Training regime:** <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
121 | 
122 | #### Speeds, Sizes, Times [optional]
123 | 
124 | <!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
125 | 
126 | [More Information Needed]
127 | 
128 | ## Evaluation
129 | 
130 | <!-- This section describes the evaluation protocols and provides the results. -->
131 | 
132 | ### Testing Data, Factors & Metrics
133 | 
134 | #### Testing Data
135 | 
136 | <!-- This should link to a Dataset Card. -->
137 | 
138 | [More Information Needed]
139 | 
140 | #### Factors
141 | 
142 | <!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
143 | 
144 | [More Information Needed]
145 | 
146 | #### Metrics
147 | 
148 | <!-- These are the evaluation metrics being used, ideally with a description of why. -->
149 | 
150 | [More Information Needed]
151 | 
152 | ### Results
153 | 
154 | <!-- Enlazar aquí los scripts/notebooks de evaluación y especificar los resultados. -->
155 | 
156 | [More Information Needed]
157 | 
158 | ## Model Examination [optional]
159 | 
160 | <!-- Relevant interpretability work for the model goes here. -->
161 | 
162 | [More Information Needed]
163 | 
164 | ## Environmental Impact
165 | 
166 | <!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly. -->
167 | 
168 | <!-- Rellenar la información de la lista y calcular las emisiones con la página mencionada. -->
169 | 
170 | Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
171 | 
172 | - **Hardware Type:** [More Information Needed]
173 | - **Hours used:** [More Information Needed]
174 | - **Cloud Provider:** [More Information Needed]
175 | - **Compute Region:** [More Information Needed]
176 | - **Carbon Emitted:** [More Information Needed]
177 | 
178 | ## Technical Specifications [optional]
179 | 
180 | <!-- Esta sección es opcional porque seguramente ya habéis mencionado estos detalles más arriba, igualmente está bien incluirlos aquí de nuevo como bullet points a modo de resumen. -->
181 | 
182 | ### Model Architecture and Objective
183 | 
184 | [More Information Needed]
185 | 
186 | ### Compute Infrastructure
187 | 
188 | [More Information Needed]
189 | 
190 | #### Hardware
191 | 
192 | <!-- Indicar el hardware utilizado, podéis agradecer aquí a quien lo patrocinó. -->
193 | 
194 | [More Information Needed]
195 | 
196 | #### Software
197 | 
198 | <!-- Enumerar las librerías utilizadas (e.g. transformers, distilabel). -->
199 | 
200 | [More Information Needed]
201 | 
202 | ## License
203 | 
204 | <!-- Indicar bajo qué licencia se libera el modelo explicando, si no es apache 2.0, a qué se debe la licencia más restrictiva (i.e. herencia de las licencias del modelo pre-entrenado o de los datos utilizados). -->
205 | 
206 | ## Citation
207 | 
208 | **BibTeX:**
209 | 
210 | [More Information Needed]
211 | 
212 | <!--
213 | 
214 | Aquí tenéis un ejemplo de cita de un dataset que podéis adaptar:
215 | 
216 | ```
217 | @software{benallal2024cosmopedia,
218 |   author = {Ben Allal, Loubna and Lozhkov, Anton and Penedo, Guilherme and Wolf, Thomas and von Werra, Leandro},
219 |   title = {Cosmopedia},
220 |   month = February,
221 |   year = 2024,
222 |   url = {https://huggingface.co/datasets/HuggingFaceTB/cosmopedia}
223 | }
224 | ```
225 | 
226 | - benallal2024cosmopedia -> nombre + año + nombre del modelo
227 | - author: lista de miembros del equipo
228 | - title: nombre del modelo
229 | - year: año
230 | - url: enlace al modelo
231 | 
232 | -->
233 | 
234 | ## Glossary [optional]
235 | 
236 | <!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
237 | 
238 | ## More Information
239 | 
240 | <!-- Indicar aquí que el marco en el que se desarrolló el proyecto, en esta sección podéis incluir agradecimientos y más información sobre los miembros del equipo. Podéis adaptar el ejemplo a vuestro gusto. -->
241 | 
242 | This project was developed during the [Hackathon #Somos600M](https://somosnlp.org/hackathon) organized by SomosNLP. The model was trained using GPUs sponsored by HuggingFace.
243 | 
244 | **Team:** [More Information Needed]
245 | 
246 | <!--
247 | - [Name 1](Link to Hugging Face profile)
248 | - [Name 2](Link to Hugging Face profile)
249 | -->
250 | 
251 | ## Contact [optional]
252 | 
253 | <!-- Email de contacto para´posibles preguntas sobre el modelo. -->
254 | 


--------------------------------------------------------------------------------
/proyectos_de_la_comunidad/2023_01_12_biomedia.pdf:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/somosnlp/recursos/ac5d0bfed81fdb8f3cfc453418a59932f81e99be/proyectos_de_la_comunidad/2023_01_12_biomedia.pdf


--------------------------------------------------------------------------------