├── NomesLex-PT.zip ├── names-surnames-NL-UK-IT-PT-ES.zip ├── geo-net-pt02_terms_frequency_wpt05.zip ├── publico-cargos.txt ├── README.md └── PT-stopwords.txt /NomesLex-PT.zip: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/davidsbatista/lexicons/HEAD/NomesLex-PT.zip -------------------------------------------------------------------------------- /names-surnames-NL-UK-IT-PT-ES.zip: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/davidsbatista/lexicons/HEAD/names-surnames-NL-UK-IT-PT-ES.zip -------------------------------------------------------------------------------- /geo-net-pt02_terms_frequency_wpt05.zip: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/davidsbatista/lexicons/HEAD/geo-net-pt02_terms_frequency_wpt05.zip -------------------------------------------------------------------------------- /publico-cargos.txt: -------------------------------------------------------------------------------- 1 | actor 2 | advogada 3 | advogado 4 | almirante 5 | arquitecta 6 | arquitecto 7 | autarca 8 | bispo 9 | candidato 10 | cardeal 11 | chanceler 12 | chefe 13 | comendador 14 | comissário 15 | comunista 16 | conselheiro 17 | constitucionalista 18 | cordeiro 19 | d. 20 | democrata-cristão 21 | deputada 22 | deputado 23 | director 24 | directora 25 | director-geral 26 | diretor 27 | dirigente 28 | doutor 29 | doutora 30 | dr. 31 | dra. 32 | duque 33 | embaixador 34 | eng 35 | eng. 36 | engenheiro 37 | engenheiro 38 | escritora 39 | eurodeputado 40 | ex- 41 | ex-candidato 42 | ex-chefe 43 | ex-director 44 | ex-líder 45 | ex-ministra 46 | ex-ministro 47 | ex-presidente 48 | ex-primeiro-ministro 49 | ex-reitor 50 | ex-secretária 51 | ex-secretário 52 | ex-secretário-geral 53 | fundador 54 | governador 55 | governante 56 | investigador 57 | líder 58 | magistrada 59 | magistrado 60 | ministra 61 | ministro 62 | padre 63 | padre 64 | papa 65 | porta-voz 66 | presidente 67 | primeiro-ministro 68 | princesa 69 | príncipe 70 | prof. 71 | professor 72 | professora 73 | provedor 74 | reitor 75 | secretária 76 | secretária-geral 77 | secretário 78 | secretário de Estado 79 | secretário-geral 80 | senhor 81 | senhora 82 | social-democrata 83 | socialista 84 | subchefe 85 | subchefe 86 | subdirector 87 | subsecretário 88 | sub-secretário 89 | supremo 90 | tenente 91 | tenente 92 | urbanista 93 | vice-chefe 94 | vice-ministro 95 | vice-presidente 96 | vice-presidente 97 | vice-primeiro-ministro 98 | vice-reitor 99 | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | lexica-lists-words 2 | ================== 3 | 4 | Dictionaries and lists of names, acronyms and it's extensions, stop-words, etc., which I gathered for different experiments. Acronyms were automatically extracted with [A Simple Algorithm for Identifying Abbreviation Definitions in Biomedical Text](http://biotext.berkeley.edu/papers/psb03.pdf) by A.S Schwartz and M.A. Hearst. A Java implementation is available [here](http://biotext.berkeley.edu/code/abbrev/). 5 | 6 | - [NomesLex-PT](NomesLex-PT.zip) a lexicon of person names made up of 2,027 first names and 8,019 surnames, more information [here](http://dmir.inesc-id.pt/project/NomesLex-PT_01_in_English). 7 | 8 | - [PT-stopwords.txt](PT-stopwords.txt) a collections of stop-words for Portuguese. 9 | 10 | - [geo-net-pt02_terms_frequency_wpt05.zip](geo-net-pt02_terms_frequency_wpt05.zip) contains the frequency of occurrence of toponyms names from [Geo-Net-PT_02](http://dmir.inesc-id.pt/project/Geo-Net-PT_02_in_English) in [WPT05](http://dmir.inesc-id.pt/project/WPT_05_in_English) a crawl of the Portuguese Web 11 | 12 | - [names-surnames-NL-UK-IT-PT-ES.zip](names-surnames-NL-UK-IT-PT-ES.zip) a list of names and surnames for Dutch, English, Portuguese and Spanish. 13 | 14 | - [publico-cargos.txt](publico-cargos.txt) a list of Portuguese noun quantifiers, i.e., words that occur before a proper noun, gathered from the on-line newspaper [publico.pt](http://www.publico.pt). 15 | 16 | - [publico-acronyms.txt](publico-acronyms.txt) a list of acronyms and it's possible extensions, extracted from a collection of Portuguese news gathered from the on-line newspaper [publico.pt](http://www.publico.pt). 17 | 18 | - [wikipedia-acronyms.txt](wikipedia-acronyms.txt) a list of acronyms and it's possible extesions, extracted from the English Wikipedia. 19 | -------------------------------------------------------------------------------- /PT-stopwords.txt: -------------------------------------------------------------------------------- 1 | 2 | a 3 | à 4 | acerca 5 | agora 6 | ainda 7 | algmas 8 | alguém 9 | algum 10 | alguma 11 | algumas 12 | alguns 13 | ali 14 | ambos 15 | ampla 16 | amplas 17 | amplo 18 | amplos 19 | ante 20 | antes 21 | ao 22 | aos 23 | apontar 24 | após 25 | aquela 26 | aquelas 27 | aquele 28 | aqueles 29 | aqui 30 | aquilo 31 | as 32 | às 33 | até 34 | atrás 35 | através 36 | bem 37 | bom 38 | cada 39 | caminho 40 | cima 41 | coisa 42 | coisas 43 | com 44 | como 45 | comprido 46 | conhecido 47 | contra 48 | contudo 49 | corrente 50 | da 51 | daquele 52 | daqueles 53 | das 54 | de 55 | debaixo 56 | dela 57 | delas 58 | dele 59 | deles 60 | dentro 61 | depois 62 | desde 63 | desligado 64 | dessa 65 | dessas 66 | desse 67 | desses 68 | desta 69 | destas 70 | deste 71 | destes 72 | deve 73 | devem 74 | devendo 75 | dever 76 | deverá 77 | deverão 78 | deveria 79 | deveriam 80 | devia 81 | deviam 82 | direita 83 | disse 84 | disso 85 | disto 86 | dito 87 | diz 88 | dizem 89 | dizer 90 | do 91 | dois 92 | dos 93 | e 94 | é 95 | ela 96 | elas 97 | ele 98 | eles 99 | em 100 | enquanto 101 | então 102 | entre 103 | era 104 | eram 105 | éramos 106 | essa 107 | essas 108 | esse 109 | esses 110 | esta 111 | está 112 | estado 113 | estamos 114 | estão 115 | estará 116 | estas 117 | estava 118 | estavam 119 | estávamos 120 | este 121 | esteja 122 | estejam 123 | estejamos 124 | estes 125 | esteve 126 | estive 127 | estivemos 128 | estiver 129 | estivera 130 | estiveram 131 | estivéramos 132 | estiverem 133 | estivermos 134 | estivesse 135 | estivessem 136 | estivéssemos 137 | estou 138 | eu 139 | fará 140 | faz 141 | fazendo 142 | fazer 143 | fazia 144 | feita 145 | feitas 146 | feito 147 | feitos 148 | fez 149 | fim 150 | foi 151 | fomos 152 | for 153 | fora 154 | foram 155 | fôramos 156 | forem 157 | formos 158 | fosse 159 | fossem 160 | fôssemos 161 | fui 162 | grande 163 | grandes 164 | há 165 | haja 166 | hajam 167 | hajamos 168 | hão 169 | havemos 170 | hei 171 | horas 172 | houve 173 | houvemos 174 | houver 175 | houvera 176 | houverá 177 | houveram 178 | houvéramos 179 | houverão 180 | houverei 181 | houverem 182 | houveremos 183 | houveria 184 | houveriam 185 | houveríamos 186 | houvermos 187 | houvesse 188 | houvessem 189 | houvéssemos 190 | iniciar 191 | inicio 192 | ir 193 | irá 194 | isso 195 | ista 196 | iste 197 | isto 198 | já 199 | la 200 | lá 201 | lhe 202 | lhes 203 | ligado 204 | lo 205 | maioria 206 | maiorias 207 | mais 208 | mas 209 | me 210 | mesma 211 | mesmas 212 | mesmo 213 | mesmos 214 | meu 215 | meus 216 | minha 217 | minhas 218 | muita 219 | muitas 220 | muito 221 | muitos 222 | na 223 | não 224 | nas 225 | nem 226 | nenhum 227 | nessa 228 | nessas 229 | nesta 230 | nestas 231 | ninguém 232 | no 233 | nome 234 | nos 235 | nós 236 | nossa 237 | nossas 238 | nosso 239 | nossos 240 | novo 241 | num 242 | numa 243 | nunca 244 | o 245 | onde 246 | os 247 | ou 248 | outra 249 | outras 250 | outro 251 | outros 252 | para 253 | parte 254 | pegar 255 | pela 256 | pelas 257 | pelo 258 | pelos 259 | pequena 260 | pequenas 261 | pequeno 262 | pequenos 263 | per 264 | perante 265 | pessoas 266 | pode 267 | podendo 268 | poder 269 | poderá 270 | poderia 271 | poderiam 272 | podia 273 | podiam 274 | pois 275 | por 276 | porém 277 | porque 278 | posso 279 | pouca 280 | poucas 281 | pouco 282 | poucos 283 | primeiro 284 | primeiros 285 | própria 286 | próprias 287 | próprio 288 | próprios 289 | pude 290 | quais 291 | qual 292 | quando 293 | quanto 294 | quantos 295 | que 296 | quem 297 | são 298 | se 299 | seja 300 | sejam 301 | sejamos 302 | sem 303 | sempre 304 | sendo 305 | será 306 | serão 307 | serei 308 | seremos 309 | seria 310 | seriam 311 | seríamos 312 | seu 313 | seus 314 | si 315 | sido 316 | só 317 | sob 318 | sobre 319 | somos 320 | sou 321 | sua 322 | suas 323 | talvez 324 | também 325 | tampouco 326 | te 327 | tem 328 | tém 329 | temos 330 | tendo 331 | tenha 332 | tenham 333 | tenhamos 334 | tenho 335 | ter 336 | terá 337 | terão 338 | terei 339 | teremos 340 | teria 341 | teriam 342 | teríamos 343 | teu 344 | teus 345 | teve 346 | ti 347 | tido 348 | tinha 349 | tinham 350 | tínhamos 351 | tive 352 | tivemos 353 | tiver 354 | tivera 355 | tiveram 356 | tivéramos 357 | tiverem 358 | tivermos 359 | tivesse 360 | tivessem 361 | tivéssemos 362 | toda 363 | todas 364 | todavia 365 | todo 366 | todos 367 | tu 368 | tua 369 | tuas 370 | tudo 371 | última 372 | últimas 373 | último 374 | últimos 375 | um 376 | uma 377 | umas 378 | uns 379 | vendo 380 | ver 381 | vez 382 | vindo 383 | vir 384 | você 385 | vocês 386 | vos 387 | vós 388 | --------------------------------------------------------------------------------