├── .gitignore ├── LICENSE ├── README.md ├── data └── stopwords │ ├── README │ ├── danish │ ├── dutch │ ├── english │ ├── finnish │ ├── french │ ├── german │ ├── hungarian │ ├── italian │ ├── kazakh │ ├── norwegian │ ├── portuguese │ ├── russian │ ├── spanish │ ├── swedish │ └── turkish ├── index.js └── package.json /.gitignore: -------------------------------------------------------------------------------- 1 | # Logs 2 | logs 3 | *.log 4 | npm-debug.log* 5 | 6 | # Runtime data 7 | pids 8 | *.pid 9 | *.seed 10 | 11 | # Directory for instrumented libs generated by jscoverage/JSCover 12 | lib-cov 13 | 14 | # Coverage directory used by tools like istanbul 15 | coverage 16 | 17 | # nyc test coverage 18 | .nyc_output 19 | 20 | # Grunt intermediate storage (http://gruntjs.com/creating-plugins#storing-task-files) 21 | .grunt 22 | 23 | # node-waf configuration 24 | .lock-wscript 25 | 26 | # Compiled binary addons (http://nodejs.org/api/addons.html) 27 | build/Release 28 | 29 | # Dependency directories 30 | node_modules 31 | jspm_packages 32 | 33 | # Optional npm cache directory 34 | .npm 35 | 36 | # Optional REPL history 37 | .node_repl_history 38 | -------------------------------------------------------------------------------- /LICENSE: -------------------------------------------------------------------------------- 1 | MIT License 2 | 3 | Copyright (c) 2016 Mengxuan Xia 4 | 5 | Permission is hereby granted, free of charge, to any person obtaining a copy 6 | of this software and associated documentation files (the "Software"), to deal 7 | in the Software without restriction, including without limitation the rights 8 | to use, copy, modify, merge, publish, distribute, sublicense, and/or sell 9 | copies of the Software, and to permit persons to whom the Software is 10 | furnished to do so, subject to the following conditions: 11 | 12 | The above copyright notice and this permission notice shall be included in all 13 | copies or substantial portions of the Software. 14 | 15 | THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR 16 | IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, 17 | FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE 18 | AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER 19 | LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, 20 | OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE 21 | SOFTWARE. 22 | -------------------------------------------------------------------------------- /README.md: -------------------------------------------------------------------------------- 1 | # node-nltk-stopwords 2 | A node module exposing nltk stopwords corpora and provide utility functions for removing stopwords 3 | 4 | [![Homepage](https://img.shields.io/badge/Home-Page-green.svg)](http://xiamx.github.io/node-nltk-stopwords) 5 | [![GitHub tag](https://img.shields.io/github/tag/xiamx/node-nltk-stopwords.svg?maxAge=2592000)](https://github.com/xiamx/node-nltk-stopwords) 6 | [![npm](https://img.shields.io/npm/v/nltk-stopwords.svg?maxAge=2592000)](https://www.npmjs.com/package/nltk-stopwords) 7 | [![license](https://img.shields.io/npm/l/nltk-stopwords.svg?maxAge=2592000)](https://github.com/xiamx/node-nltk-stopwords/blob/master/LICENSE) 8 | 9 | ## Usage 10 | ```bash 11 | npm install --save nltk-stopwords 12 | ``` 13 | 14 | ```javascript 15 | var stopwords = require('nltk-stopwords') 16 | 17 | // let's load english stopwords 18 | var english = stopwords.load('english') 19 | 20 | // Remove stopwords from a sentence 21 | stopwords.remove("A sentence can not be without stopwords", english) 22 | // This should output 23 | // 'A sentence without stopwords' 24 | 25 | // You can also pass a string of language in the second parameter, `stopwords.remove` will handle stopword loading. 26 | stopwords.remove("J'essaye de trouver un bon example", "french") 27 | // This should output 28 | // "J'essaye trouver bon example" 29 | ``` 30 | 31 | 32 | By default, the sentence is tokenized by whitespace. You can also pass an array of tokenized string instead. 33 | 34 | ```javascript 35 | stopwords.remove([ 'A', 'sentence', 'can', 'not', 'be', 'without', 'stopwords' ], english) 36 | // This should output 37 | // [ 'A', 'sentence', 'without', 'stopwords' ] 38 | 39 | ``` 40 | 41 | If a string input is passed, `stopwords.remove` will return a string, if an array input is passed instead, the resulting return value will also be an array. -------------------------------------------------------------------------------- /data/stopwords/README: -------------------------------------------------------------------------------- 1 | Stopwords Corpus 2 | 3 | This corpus contains lists of stop words for several languages. These 4 | are high-frequency grammatical words which are usually ignored in text 5 | retrieval applications. 6 | 7 | They were obtained from: 8 | http://anoncvs.postgresql.org/cvsweb.cgi/pgsql/src/backend/snowball/stopwords/ 9 | 10 | The English list has been augmented 11 | https://github.com/nltk/nltk_data/issues/22 12 | 13 | The German list has been corrected 14 | https://github.com/nltk/nltk_data/pull/49 15 | 16 | A Kazakh list has been added 17 | https://github.com/nltk/nltk_data/pull/52 18 | 19 | -------------------------------------------------------------------------------- /data/stopwords/danish: -------------------------------------------------------------------------------- 1 | og 2 | i 3 | jeg 4 | det 5 | at 6 | en 7 | den 8 | til 9 | er 10 | som 11 | på 12 | de 13 | med 14 | han 15 | af 16 | for 17 | ikke 18 | der 19 | var 20 | mig 21 | sig 22 | men 23 | et 24 | har 25 | om 26 | vi 27 | min 28 | havde 29 | ham 30 | hun 31 | nu 32 | over 33 | da 34 | fra 35 | du 36 | ud 37 | sin 38 | dem 39 | os 40 | op 41 | man 42 | hans 43 | hvor 44 | eller 45 | hvad 46 | skal 47 | selv 48 | her 49 | alle 50 | vil 51 | blev 52 | kunne 53 | ind 54 | når 55 | være 56 | dog 57 | noget 58 | ville 59 | jo 60 | deres 61 | efter 62 | ned 63 | skulle 64 | denne 65 | end 66 | dette 67 | mit 68 | også 69 | under 70 | have 71 | dig 72 | anden 73 | hende 74 | mine 75 | alt 76 | meget 77 | sit 78 | sine 79 | vor 80 | mod 81 | disse 82 | hvis 83 | din 84 | nogle 85 | hos 86 | blive 87 | mange 88 | ad 89 | bliver 90 | hendes 91 | været 92 | thi 93 | jer 94 | sådan 95 | -------------------------------------------------------------------------------- /data/stopwords/dutch: -------------------------------------------------------------------------------- 1 | de 2 | en 3 | van 4 | ik 5 | te 6 | dat 7 | die 8 | in 9 | een 10 | hij 11 | het 12 | niet 13 | zijn 14 | is 15 | was 16 | op 17 | aan 18 | met 19 | als 20 | voor 21 | had 22 | er 23 | maar 24 | om 25 | hem 26 | dan 27 | zou 28 | of 29 | wat 30 | mijn 31 | men 32 | dit 33 | zo 34 | door 35 | over 36 | ze 37 | zich 38 | bij 39 | ook 40 | tot 41 | je 42 | mij 43 | uit 44 | der 45 | daar 46 | haar 47 | naar 48 | heb 49 | hoe 50 | heeft 51 | hebben 52 | deze 53 | u 54 | want 55 | nog 56 | zal 57 | me 58 | zij 59 | nu 60 | ge 61 | geen 62 | omdat 63 | iets 64 | worden 65 | toch 66 | al 67 | waren 68 | veel 69 | meer 70 | doen 71 | toen 72 | moet 73 | ben 74 | zonder 75 | kan 76 | hun 77 | dus 78 | alles 79 | onder 80 | ja 81 | eens 82 | hier 83 | wie 84 | werd 85 | altijd 86 | doch 87 | wordt 88 | wezen 89 | kunnen 90 | ons 91 | zelf 92 | tegen 93 | na 94 | reeds 95 | wil 96 | kon 97 | niets 98 | uw 99 | iemand 100 | geweest 101 | andere 102 | -------------------------------------------------------------------------------- /data/stopwords/english: -------------------------------------------------------------------------------- 1 | i 2 | me 3 | my 4 | myself 5 | we 6 | our 7 | ours 8 | ourselves 9 | you 10 | your 11 | yours 12 | yourself 13 | yourselves 14 | he 15 | him 16 | his 17 | himself 18 | she 19 | her 20 | hers 21 | herself 22 | it 23 | its 24 | itself 25 | they 26 | them 27 | their 28 | theirs 29 | themselves 30 | what 31 | which 32 | who 33 | whom 34 | this 35 | that 36 | these 37 | those 38 | am 39 | is 40 | are 41 | was 42 | were 43 | be 44 | been 45 | being 46 | have 47 | has 48 | had 49 | having 50 | do 51 | does 52 | did 53 | doing 54 | a 55 | an 56 | the 57 | and 58 | but 59 | if 60 | or 61 | because 62 | as 63 | until 64 | while 65 | of 66 | at 67 | by 68 | for 69 | with 70 | about 71 | against 72 | between 73 | into 74 | through 75 | during 76 | before 77 | after 78 | above 79 | below 80 | to 81 | from 82 | up 83 | down 84 | in 85 | out 86 | on 87 | off 88 | over 89 | under 90 | again 91 | further 92 | then 93 | once 94 | here 95 | there 96 | when 97 | where 98 | why 99 | how 100 | all 101 | any 102 | both 103 | each 104 | few 105 | more 106 | most 107 | other 108 | some 109 | such 110 | no 111 | nor 112 | not 113 | only 114 | own 115 | same 116 | so 117 | than 118 | too 119 | very 120 | s 121 | t 122 | can 123 | will 124 | just 125 | don 126 | should 127 | now 128 | d 129 | ll 130 | m 131 | o 132 | re 133 | ve 134 | y 135 | ain 136 | aren 137 | couldn 138 | didn 139 | doesn 140 | hadn 141 | hasn 142 | haven 143 | isn 144 | ma 145 | mightn 146 | mustn 147 | needn 148 | shan 149 | shouldn 150 | wasn 151 | weren 152 | won 153 | wouldn 154 | -------------------------------------------------------------------------------- /data/stopwords/finnish: -------------------------------------------------------------------------------- 1 | olla 2 | olen 3 | olet 4 | on 5 | olemme 6 | olette 7 | ovat 8 | ole 9 | oli 10 | olisi 11 | olisit 12 | olisin 13 | olisimme 14 | olisitte 15 | olisivat 16 | olit 17 | olin 18 | olimme 19 | olitte 20 | olivat 21 | ollut 22 | olleet 23 | en 24 | et 25 | ei 26 | emme 27 | ette 28 | eivät 29 | minä 30 | minun 31 | minut 32 | minua 33 | minussa 34 | minusta 35 | minuun 36 | minulla 37 | minulta 38 | minulle 39 | sinä 40 | sinun 41 | sinut 42 | sinua 43 | sinussa 44 | sinusta 45 | sinuun 46 | sinulla 47 | sinulta 48 | sinulle 49 | hän 50 | hänen 51 | hänet 52 | häntä 53 | hänessä 54 | hänestä 55 | häneen 56 | hänellä 57 | häneltä 58 | hänelle 59 | me 60 | meidän 61 | meidät 62 | meitä 63 | meissä 64 | meistä 65 | meihin 66 | meillä 67 | meiltä 68 | meille 69 | te 70 | teidän 71 | teidät 72 | teitä 73 | teissä 74 | teistä 75 | teihin 76 | teillä 77 | teiltä 78 | teille 79 | he 80 | heidän 81 | heidät 82 | heitä 83 | heissä 84 | heistä 85 | heihin 86 | heillä 87 | heiltä 88 | heille 89 | tämä 90 | tämän 91 | tätä 92 | tässä 93 | tästä 94 | tähän 95 | tallä 96 | tältä 97 | tälle 98 | tänä 99 | täksi 100 | tuo 101 | tuon 102 | tuotä 103 | tuossa 104 | tuosta 105 | tuohon 106 | tuolla 107 | tuolta 108 | tuolle 109 | tuona 110 | tuoksi 111 | se 112 | sen 113 | sitä 114 | siinä 115 | siitä 116 | siihen 117 | sillä 118 | siltä 119 | sille 120 | sinä 121 | siksi 122 | nämä 123 | näiden 124 | näitä 125 | näissä 126 | näistä 127 | näihin 128 | näillä 129 | näiltä 130 | näille 131 | näinä 132 | näiksi 133 | nuo 134 | noiden 135 | noita 136 | noissa 137 | noista 138 | noihin 139 | noilla 140 | noilta 141 | noille 142 | noina 143 | noiksi 144 | ne 145 | niiden 146 | niitä 147 | niissä 148 | niistä 149 | niihin 150 | niillä 151 | niiltä 152 | niille 153 | niinä 154 | niiksi 155 | kuka 156 | kenen 157 | kenet 158 | ketä 159 | kenessä 160 | kenestä 161 | keneen 162 | kenellä 163 | keneltä 164 | kenelle 165 | kenenä 166 | keneksi 167 | ketkä 168 | keiden 169 | ketkä 170 | keitä 171 | keissä 172 | keistä 173 | keihin 174 | keillä 175 | keiltä 176 | keille 177 | keinä 178 | keiksi 179 | mikä 180 | minkä 181 | minkä 182 | mitä 183 | missä 184 | mistä 185 | mihin 186 | millä 187 | miltä 188 | mille 189 | minä 190 | miksi 191 | mitkä 192 | joka 193 | jonka 194 | jota 195 | jossa 196 | josta 197 | johon 198 | jolla 199 | jolta 200 | jolle 201 | jona 202 | joksi 203 | jotka 204 | joiden 205 | joita 206 | joissa 207 | joista 208 | joihin 209 | joilla 210 | joilta 211 | joille 212 | joina 213 | joiksi 214 | että 215 | ja 216 | jos 217 | koska 218 | kuin 219 | mutta 220 | niin 221 | sekä 222 | sillä 223 | tai 224 | vaan 225 | vai 226 | vaikka 227 | kanssa 228 | mukaan 229 | noin 230 | poikki 231 | yli 232 | kun 233 | niin 234 | nyt 235 | itse 236 | -------------------------------------------------------------------------------- /data/stopwords/french: -------------------------------------------------------------------------------- 1 | au 2 | aux 3 | avec 4 | ce 5 | ces 6 | dans 7 | de 8 | des 9 | du 10 | elle 11 | en 12 | et 13 | eux 14 | il 15 | je 16 | la 17 | le 18 | leur 19 | lui 20 | ma 21 | mais 22 | me 23 | même 24 | mes 25 | moi 26 | mon 27 | ne 28 | nos 29 | notre 30 | nous 31 | on 32 | ou 33 | par 34 | pas 35 | pour 36 | qu 37 | que 38 | qui 39 | sa 40 | se 41 | ses 42 | son 43 | sur 44 | ta 45 | te 46 | tes 47 | toi 48 | ton 49 | tu 50 | un 51 | une 52 | vos 53 | votre 54 | vous 55 | c 56 | d 57 | j 58 | l 59 | à 60 | m 61 | n 62 | s 63 | t 64 | y 65 | été 66 | étée 67 | étées 68 | étés 69 | étant 70 | étante 71 | étants 72 | étantes 73 | suis 74 | es 75 | est 76 | sommes 77 | êtes 78 | sont 79 | serai 80 | seras 81 | sera 82 | serons 83 | serez 84 | seront 85 | serais 86 | serait 87 | serions 88 | seriez 89 | seraient 90 | étais 91 | était 92 | étions 93 | étiez 94 | étaient 95 | fus 96 | fut 97 | fûmes 98 | fûtes 99 | furent 100 | sois 101 | soit 102 | soyons 103 | soyez 104 | soient 105 | fusse 106 | fusses 107 | fût 108 | fussions 109 | fussiez 110 | fussent 111 | ayant 112 | ayante 113 | ayantes 114 | ayants 115 | eu 116 | eue 117 | eues 118 | eus 119 | ai 120 | as 121 | avons 122 | avez 123 | ont 124 | aurai 125 | auras 126 | aura 127 | aurons 128 | aurez 129 | auront 130 | aurais 131 | aurait 132 | aurions 133 | auriez 134 | auraient 135 | avais 136 | avait 137 | avions 138 | aviez 139 | avaient 140 | eut 141 | eûmes 142 | eûtes 143 | eurent 144 | aie 145 | aies 146 | ait 147 | ayons 148 | ayez 149 | aient 150 | eusse 151 | eusses 152 | eût 153 | eussions 154 | eussiez 155 | eussent 156 | -------------------------------------------------------------------------------- /data/stopwords/german: -------------------------------------------------------------------------------- 1 | aber 2 | alle 3 | allem 4 | allen 5 | aller 6 | alles 7 | als 8 | also 9 | am 10 | an 11 | ander 12 | andere 13 | anderem 14 | anderen 15 | anderer 16 | anderes 17 | anderm 18 | andern 19 | anderr 20 | anders 21 | auch 22 | auf 23 | aus 24 | bei 25 | bin 26 | bis 27 | bist 28 | da 29 | damit 30 | dann 31 | der 32 | den 33 | des 34 | dem 35 | die 36 | das 37 | daß 38 | derselbe 39 | derselben 40 | denselben 41 | desselben 42 | demselben 43 | dieselbe 44 | dieselben 45 | dasselbe 46 | dazu 47 | dein 48 | deine 49 | deinem 50 | deinen 51 | deiner 52 | deines 53 | denn 54 | derer 55 | dessen 56 | dich 57 | dir 58 | du 59 | dies 60 | diese 61 | diesem 62 | diesen 63 | dieser 64 | dieses 65 | doch 66 | dort 67 | durch 68 | ein 69 | eine 70 | einem 71 | einen 72 | einer 73 | eines 74 | einig 75 | einige 76 | einigem 77 | einigen 78 | einiger 79 | einiges 80 | einmal 81 | er 82 | ihn 83 | ihm 84 | es 85 | etwas 86 | euer 87 | eure 88 | eurem 89 | euren 90 | eurer 91 | eures 92 | für 93 | gegen 94 | gewesen 95 | hab 96 | habe 97 | haben 98 | hat 99 | hatte 100 | hatten 101 | hier 102 | hin 103 | hinter 104 | ich 105 | mich 106 | mir 107 | ihr 108 | ihre 109 | ihrem 110 | ihren 111 | ihrer 112 | ihres 113 | euch 114 | im 115 | in 116 | indem 117 | ins 118 | ist 119 | jede 120 | jedem 121 | jeden 122 | jeder 123 | jedes 124 | jene 125 | jenem 126 | jenen 127 | jener 128 | jenes 129 | jetzt 130 | kann 131 | kein 132 | keine 133 | keinem 134 | keinen 135 | keiner 136 | keines 137 | können 138 | könnte 139 | machen 140 | man 141 | manche 142 | manchem 143 | manchen 144 | mancher 145 | manches 146 | mein 147 | meine 148 | meinem 149 | meinen 150 | meiner 151 | meines 152 | mit 153 | muss 154 | musste 155 | nach 156 | nicht 157 | nichts 158 | noch 159 | nun 160 | nur 161 | ob 162 | oder 163 | ohne 164 | sehr 165 | sein 166 | seine 167 | seinem 168 | seinen 169 | seiner 170 | seines 171 | selbst 172 | sich 173 | sie 174 | ihnen 175 | sind 176 | so 177 | solche 178 | solchem 179 | solchen 180 | solcher 181 | solches 182 | soll 183 | sollte 184 | sondern 185 | sonst 186 | über 187 | um 188 | und 189 | uns 190 | unsere 191 | unserem 192 | unseren 193 | unser 194 | unseres 195 | unter 196 | viel 197 | vom 198 | von 199 | vor 200 | während 201 | war 202 | waren 203 | warst 204 | was 205 | weg 206 | weil 207 | weiter 208 | welche 209 | welchem 210 | welchen 211 | welcher 212 | welches 213 | wenn 214 | werde 215 | werden 216 | wie 217 | wieder 218 | will 219 | wir 220 | wird 221 | wirst 222 | wo 223 | wollen 224 | wollte 225 | würde 226 | würden 227 | zu 228 | zum 229 | zur 230 | zwar 231 | zwischen 232 | -------------------------------------------------------------------------------- /data/stopwords/hungarian: -------------------------------------------------------------------------------- 1 | a 2 | ahogy 3 | ahol 4 | aki 5 | akik 6 | akkor 7 | alatt 8 | által 9 | általában 10 | amely 11 | amelyek 12 | amelyekben 13 | amelyeket 14 | amelyet 15 | amelynek 16 | ami 17 | amit 18 | amolyan 19 | amíg 20 | amikor 21 | át 22 | abban 23 | ahhoz 24 | annak 25 | arra 26 | arról 27 | az 28 | azok 29 | azon 30 | azt 31 | azzal 32 | azért 33 | aztán 34 | azután 35 | azonban 36 | bár 37 | be 38 | belül 39 | benne 40 | cikk 41 | cikkek 42 | cikkeket 43 | csak 44 | de 45 | e 46 | eddig 47 | egész 48 | egy 49 | egyes 50 | egyetlen 51 | egyéb 52 | egyik 53 | egyre 54 | ekkor 55 | el 56 | elég 57 | ellen 58 | elõ 59 | elõször 60 | elõtt 61 | elsõ 62 | én 63 | éppen 64 | ebben 65 | ehhez 66 | emilyen 67 | ennek 68 | erre 69 | ez 70 | ezt 71 | ezek 72 | ezen 73 | ezzel 74 | ezért 75 | és 76 | fel 77 | felé 78 | hanem 79 | hiszen 80 | hogy 81 | hogyan 82 | igen 83 | így 84 | illetve 85 | ill. 86 | ill 87 | ilyen 88 | ilyenkor 89 | ison 90 | ismét 91 | itt 92 | jó 93 | jól 94 | jobban 95 | kell 96 | kellett 97 | keresztül 98 | keressünk 99 | ki 100 | kívül 101 | között 102 | közül 103 | legalább 104 | lehet 105 | lehetett 106 | legyen 107 | lenne 108 | lenni 109 | lesz 110 | lett 111 | maga 112 | magát 113 | majd 114 | majd 115 | már 116 | más 117 | másik 118 | meg 119 | még 120 | mellett 121 | mert 122 | mely 123 | melyek 124 | mi 125 | mit 126 | míg 127 | miért 128 | milyen 129 | mikor 130 | minden 131 | mindent 132 | mindenki 133 | mindig 134 | mint 135 | mintha 136 | mivel 137 | most 138 | nagy 139 | nagyobb 140 | nagyon 141 | ne 142 | néha 143 | nekem 144 | neki 145 | nem 146 | néhány 147 | nélkül 148 | nincs 149 | olyan 150 | ott 151 | össze 152 | õ 153 | õk 154 | õket 155 | pedig 156 | persze 157 | rá 158 | s 159 | saját 160 | sem 161 | semmi 162 | sok 163 | sokat 164 | sokkal 165 | számára 166 | szemben 167 | szerint 168 | szinte 169 | talán 170 | tehát 171 | teljes 172 | tovább 173 | továbbá 174 | több 175 | úgy 176 | ugyanis 177 | új 178 | újabb 179 | újra 180 | után 181 | utána 182 | utolsó 183 | vagy 184 | vagyis 185 | valaki 186 | valami 187 | valamint 188 | való 189 | vagyok 190 | van 191 | vannak 192 | volt 193 | voltam 194 | voltak 195 | voltunk 196 | vissza 197 | vele 198 | viszont 199 | volna 200 | -------------------------------------------------------------------------------- /data/stopwords/italian: -------------------------------------------------------------------------------- 1 | ad 2 | al 3 | allo 4 | ai 5 | agli 6 | all 7 | agl 8 | alla 9 | alle 10 | con 11 | col 12 | coi 13 | da 14 | dal 15 | dallo 16 | dai 17 | dagli 18 | dall 19 | dagl 20 | dalla 21 | dalle 22 | di 23 | del 24 | dello 25 | dei 26 | degli 27 | dell 28 | degl 29 | della 30 | delle 31 | in 32 | nel 33 | nello 34 | nei 35 | negli 36 | nell 37 | negl 38 | nella 39 | nelle 40 | su 41 | sul 42 | sullo 43 | sui 44 | sugli 45 | sull 46 | sugl 47 | sulla 48 | sulle 49 | per 50 | tra 51 | contro 52 | io 53 | tu 54 | lui 55 | lei 56 | noi 57 | voi 58 | loro 59 | mio 60 | mia 61 | miei 62 | mie 63 | tuo 64 | tua 65 | tuoi 66 | tue 67 | suo 68 | sua 69 | suoi 70 | sue 71 | nostro 72 | nostra 73 | nostri 74 | nostre 75 | vostro 76 | vostra 77 | vostri 78 | vostre 79 | mi 80 | ti 81 | ci 82 | vi 83 | lo 84 | la 85 | li 86 | le 87 | gli 88 | ne 89 | il 90 | un 91 | uno 92 | una 93 | ma 94 | ed 95 | se 96 | perché 97 | anche 98 | come 99 | dov 100 | dove 101 | che 102 | chi 103 | cui 104 | non 105 | più 106 | quale 107 | quanto 108 | quanti 109 | quanta 110 | quante 111 | quello 112 | quelli 113 | quella 114 | quelle 115 | questo 116 | questi 117 | questa 118 | queste 119 | si 120 | tutto 121 | tutti 122 | a 123 | c 124 | e 125 | i 126 | l 127 | o 128 | ho 129 | hai 130 | ha 131 | abbiamo 132 | avete 133 | hanno 134 | abbia 135 | abbiate 136 | abbiano 137 | avrò 138 | avrai 139 | avrà 140 | avremo 141 | avrete 142 | avranno 143 | avrei 144 | avresti 145 | avrebbe 146 | avremmo 147 | avreste 148 | avrebbero 149 | avevo 150 | avevi 151 | aveva 152 | avevamo 153 | avevate 154 | avevano 155 | ebbi 156 | avesti 157 | ebbe 158 | avemmo 159 | aveste 160 | ebbero 161 | avessi 162 | avesse 163 | avessimo 164 | avessero 165 | avendo 166 | avuto 167 | avuta 168 | avuti 169 | avute 170 | sono 171 | sei 172 | è 173 | siamo 174 | siete 175 | sia 176 | siate 177 | siano 178 | sarò 179 | sarai 180 | sarà 181 | saremo 182 | sarete 183 | saranno 184 | sarei 185 | saresti 186 | sarebbe 187 | saremmo 188 | sareste 189 | sarebbero 190 | ero 191 | eri 192 | era 193 | eravamo 194 | eravate 195 | erano 196 | fui 197 | fosti 198 | fu 199 | fummo 200 | foste 201 | furono 202 | fossi 203 | fosse 204 | fossimo 205 | fossero 206 | essendo 207 | faccio 208 | fai 209 | facciamo 210 | fanno 211 | faccia 212 | facciate 213 | facciano 214 | farò 215 | farai 216 | farà 217 | faremo 218 | farete 219 | faranno 220 | farei 221 | faresti 222 | farebbe 223 | faremmo 224 | fareste 225 | farebbero 226 | facevo 227 | facevi 228 | faceva 229 | facevamo 230 | facevate 231 | facevano 232 | feci 233 | facesti 234 | fece 235 | facemmo 236 | faceste 237 | fecero 238 | facessi 239 | facesse 240 | facessimo 241 | facessero 242 | facendo 243 | sto 244 | stai 245 | sta 246 | stiamo 247 | stanno 248 | stia 249 | stiate 250 | stiano 251 | starò 252 | starai 253 | starà 254 | staremo 255 | starete 256 | staranno 257 | starei 258 | staresti 259 | starebbe 260 | staremmo 261 | stareste 262 | starebbero 263 | stavo 264 | stavi 265 | stava 266 | stavamo 267 | stavate 268 | stavano 269 | stetti 270 | stesti 271 | stette 272 | stemmo 273 | steste 274 | stettero 275 | stessi 276 | stesse 277 | stessimo 278 | stessero 279 | stando 280 | -------------------------------------------------------------------------------- /data/stopwords/kazakh: -------------------------------------------------------------------------------- 1 | ах 2 | ох 3 | эх 4 | ай 5 | эй 6 | ой 7 | тағы 8 | тағыда 9 | әрине 10 | жоқ 11 | сондай 12 | осындай 13 | осылай 14 | солай 15 | мұндай 16 | бұндай 17 | мен 18 | сен 19 | ол 20 | біз 21 | біздер 22 | олар 23 | сіз 24 | сіздер 25 | маған 26 | оған 27 | саған 28 | біздің 29 | сіздің 30 | оның 31 | бізге 32 | сізге 33 | оларға 34 | біздерге 35 | сіздерге 36 | оларға 37 | менімен 38 | сенімен 39 | онымен 40 | бізбен 41 | сізбен 42 | олармен 43 | біздермен 44 | сіздермен 45 | менің 46 | сенің 47 | біздің 48 | сіздің 49 | оның 50 | біздердің 51 | сіздердің 52 | олардың 53 | маған 54 | саған 55 | оған 56 | менен 57 | сенен 58 | одан 59 | бізден 60 | сізден 61 | олардан 62 | біздерден 63 | сіздерден 64 | олардан 65 | айтпақшы 66 | сонымен 67 | сондықтан 68 | бұл 69 | осы 70 | сол 71 | анау 72 | мынау 73 | сонау 74 | осынау 75 | ана 76 | мына 77 | сона 78 | әні 79 | міне 80 | өй 81 | үйт 82 | бүйт 83 | біреу 84 | кейбіреу 85 | кейбір 86 | қайсыбір 87 | әрбір 88 | бірнеше 89 | бірдеме 90 | бірнеше 91 | әркім 92 | әрне 93 | әрқайсы 94 | әрқалай 95 | әлдекім 96 | әлдене 97 | әлдеқайдан 98 | әлденеше 99 | әлдеқалай 100 | әлдеқашан 101 | алдақашан 102 | еш 103 | ешкім 104 | ешбір 105 | ештеме 106 | дәнеңе 107 | ешқашан 108 | ешқандай 109 | ешқайсы 110 | емес 111 | бәрі 112 | барлық 113 | барша 114 | бар 115 | күллі 116 | бүкіл 117 | түгел 118 | өз 119 | өзім 120 | өзің 121 | өзінің 122 | өзіме 123 | өзіне 124 | өзімнің 125 | өзі 126 | өзге 127 | менде 128 | сенде 129 | онда 130 | менен 131 | сенен онан 132 | одан 133 | ау 134 | па 135 | ей 136 | әй 137 | е 138 | уа 139 | уау 140 | уай 141 | я 142 | пай 143 | ә 144 | о 145 | оһо 146 | ой 147 | ие 148 | аһа 149 | ау 150 | беу 151 | мәссаған 152 | бәрекелді 153 | әттегенай 154 | жаракімалла 155 | масқарай 156 | астапыралла 157 | япырмай 158 | ойпырмай 159 | кәне 160 | кәнеки 161 | ал 162 | әйда 163 | кәні 164 | міне 165 | әні 166 | сорап 167 | қош-қош 168 | пфша 169 | пішә 170 | құрау-құрау 171 | шәйт 172 | шек 173 | моһ 174 | тәк 175 | құрау 176 | құр 177 | кә 178 | кәһ 179 | күшім 180 | күшім 181 | мышы 182 | пырс 183 | әукім 184 | алақай 185 | паһ-паһ 186 | бәрекелді 187 | ура 188 | әттең 189 | әттеген-ай 190 | қап 191 | түге 192 | пішту 193 | шіркін 194 | алатау 195 | пай-пай 196 | үшін 197 | сайын 198 | сияқты 199 | туралы 200 | арқылы 201 | бойы 202 | бойымен 203 | шамалы 204 | шақты 205 | қаралы 206 | ғұрлы 207 | ғұрлым 208 | шейін 209 | дейін 210 | қарай 211 | таман 212 | салым 213 | тарта 214 | жуық 215 | таяу 216 | гөрі 217 | бері 218 | кейін 219 | соң 220 | бұрын 221 | бетер 222 | қатар 223 | бірге 224 | қоса 225 | арс 226 | 227 | гүрс 228 | 229 | дүрс 230 | 231 | қорс 232 | 233 | тарс 234 | 235 | тырс 236 | 237 | ырс 238 | 239 | барқ 240 | 241 | борт 242 | 243 | күрт 244 | 245 | кірт 246 | 247 | морт 248 | 249 | сарт 250 | 251 | шырт 252 | 253 | дүңк 254 | 255 | күңк 256 | 257 | қыңқ 258 | 259 | мыңқ 260 | 261 | маңқ 262 | 263 | саңқ 264 | 265 | шаңқ 266 | 267 | шіңк 268 | 269 | сыңқ 270 | 271 | таңқ 272 | 273 | тыңқ 274 | 275 | ыңқ 276 | 277 | болп 278 | 279 | былп 280 | 281 | жалп 282 | 283 | желп 284 | 285 | қолп 286 | 287 | ірк 288 | 289 | ырқ 290 | 291 | сарт-сұрт 292 | 293 | тарс-тұрс 294 | 295 | арс-ұрс 296 | 297 | жалт-жалт 298 | 299 | жалт-жұлт 300 | 301 | қалт-қалт 302 | 303 | қалт-құлт 304 | 305 | қаңқ-қаңқ 306 | 307 | қаңқ-құңқ 308 | 309 | шаңқ-шаңқ 310 | 311 | шаңқ-шұңқ 312 | 313 | арбаң-арбаң 314 | 315 | бүгжең-бүгжең 316 | 317 | арсалаң-арсалаң 318 | 319 | ербелең-ербелең 320 | 321 | батыр-бұтыр 322 | 323 | далаң-далаң 324 | 325 | тарбаң-тарбаң 326 | 327 | қызараң-қызараң 328 | 329 | қаңғыр-күңгір 330 | 331 | қайқаң-құйқаң 332 | 333 | митың-митың 334 | 335 | салаң-сұлаң 336 | 337 | ыржың-тыржың 338 | бірақ 339 | алайда 340 | дегенмен 341 | әйтпесе 342 | әйткенмен 343 | себебі 344 | өйткені 345 | сондықтан 346 | үшін 347 | сайын 348 | сияқты 349 | туралы 350 | арқылы 351 | бойы 352 | бойымен 353 | шамалы 354 | шақты 355 | қаралы 356 | ғұрлы 357 | ғұрлым 358 | гөрі 359 | бері 360 | кейін 361 | соң 362 | бұрын 363 | бетер 364 | қатар 365 | бірге 366 | қоса 367 | шейін 368 | дейін 369 | қарай 370 | таман 371 | салым 372 | тарта 373 | жуық 374 | таяу 375 | арнайы 376 | осындай 377 | ғана 378 | қана 379 | тек 380 | әншейін 381 | -------------------------------------------------------------------------------- /data/stopwords/norwegian: -------------------------------------------------------------------------------- 1 | og 2 | i 3 | jeg 4 | det 5 | at 6 | en 7 | et 8 | den 9 | til 10 | er 11 | som 12 | på 13 | de 14 | med 15 | han 16 | av 17 | ikke 18 | ikkje 19 | der 20 | så 21 | var 22 | meg 23 | seg 24 | men 25 | ett 26 | har 27 | om 28 | vi 29 | min 30 | mitt 31 | ha 32 | hadde 33 | hun 34 | nå 35 | over 36 | da 37 | ved 38 | fra 39 | du 40 | ut 41 | sin 42 | dem 43 | oss 44 | opp 45 | man 46 | kan 47 | hans 48 | hvor 49 | eller 50 | hva 51 | skal 52 | selv 53 | sjøl 54 | her 55 | alle 56 | vil 57 | bli 58 | ble 59 | blei 60 | blitt 61 | kunne 62 | inn 63 | når 64 | være 65 | kom 66 | noen 67 | noe 68 | ville 69 | dere 70 | som 71 | deres 72 | kun 73 | ja 74 | etter 75 | ned 76 | skulle 77 | denne 78 | for 79 | deg 80 | si 81 | sine 82 | sitt 83 | mot 84 | å 85 | meget 86 | hvorfor 87 | dette 88 | disse 89 | uten 90 | hvordan 91 | ingen 92 | din 93 | ditt 94 | blir 95 | samme 96 | hvilken 97 | hvilke 98 | sånn 99 | inni 100 | mellom 101 | vår 102 | hver 103 | hvem 104 | vors 105 | hvis 106 | både 107 | bare 108 | enn 109 | fordi 110 | før 111 | mange 112 | også 113 | slik 114 | vært 115 | være 116 | båe 117 | begge 118 | siden 119 | dykk 120 | dykkar 121 | dei 122 | deira 123 | deires 124 | deim 125 | di 126 | då 127 | eg 128 | ein 129 | eit 130 | eitt 131 | elles 132 | honom 133 | hjå 134 | ho 135 | hoe 136 | henne 137 | hennar 138 | hennes 139 | hoss 140 | hossen 141 | ikkje 142 | ingi 143 | inkje 144 | korleis 145 | korso 146 | kva 147 | kvar 148 | kvarhelst 149 | kven 150 | kvi 151 | kvifor 152 | me 153 | medan 154 | mi 155 | mine 156 | mykje 157 | no 158 | nokon 159 | noka 160 | nokor 161 | noko 162 | nokre 163 | si 164 | sia 165 | sidan 166 | so 167 | somt 168 | somme 169 | um 170 | upp 171 | vere 172 | vore 173 | verte 174 | vort 175 | varte 176 | vart 177 | -------------------------------------------------------------------------------- /data/stopwords/portuguese: -------------------------------------------------------------------------------- 1 | de 2 | a 3 | o 4 | que 5 | e 6 | do 7 | da 8 | em 9 | um 10 | para 11 | com 12 | não 13 | uma 14 | os 15 | no 16 | se 17 | na 18 | por 19 | mais 20 | as 21 | dos 22 | como 23 | mas 24 | ao 25 | ele 26 | das 27 | à 28 | seu 29 | sua 30 | ou 31 | quando 32 | muito 33 | nos 34 | já 35 | eu 36 | também 37 | só 38 | pelo 39 | pela 40 | até 41 | isso 42 | ela 43 | entre 44 | depois 45 | sem 46 | mesmo 47 | aos 48 | seus 49 | quem 50 | nas 51 | me 52 | esse 53 | eles 54 | você 55 | essa 56 | num 57 | nem 58 | suas 59 | meu 60 | às 61 | minha 62 | numa 63 | pelos 64 | elas 65 | qual 66 | nós 67 | lhe 68 | deles 69 | essas 70 | esses 71 | pelas 72 | este 73 | dele 74 | tu 75 | te 76 | vocês 77 | vos 78 | lhes 79 | meus 80 | minhas 81 | teu 82 | tua 83 | teus 84 | tuas 85 | nosso 86 | nossa 87 | nossos 88 | nossas 89 | dela 90 | delas 91 | esta 92 | estes 93 | estas 94 | aquele 95 | aquela 96 | aqueles 97 | aquelas 98 | isto 99 | aquilo 100 | estou 101 | está 102 | estamos 103 | estão 104 | estive 105 | esteve 106 | estivemos 107 | estiveram 108 | estava 109 | estávamos 110 | estavam 111 | estivera 112 | estivéramos 113 | esteja 114 | estejamos 115 | estejam 116 | estivesse 117 | estivéssemos 118 | estivessem 119 | estiver 120 | estivermos 121 | estiverem 122 | hei 123 | há 124 | havemos 125 | hão 126 | houve 127 | houvemos 128 | houveram 129 | houvera 130 | houvéramos 131 | haja 132 | hajamos 133 | hajam 134 | houvesse 135 | houvéssemos 136 | houvessem 137 | houver 138 | houvermos 139 | houverem 140 | houverei 141 | houverá 142 | houveremos 143 | houverão 144 | houveria 145 | houveríamos 146 | houveriam 147 | sou 148 | somos 149 | são 150 | era 151 | éramos 152 | eram 153 | fui 154 | foi 155 | fomos 156 | foram 157 | fora 158 | fôramos 159 | seja 160 | sejamos 161 | sejam 162 | fosse 163 | fôssemos 164 | fossem 165 | for 166 | formos 167 | forem 168 | serei 169 | será 170 | seremos 171 | serão 172 | seria 173 | seríamos 174 | seriam 175 | tenho 176 | tem 177 | temos 178 | tém 179 | tinha 180 | tínhamos 181 | tinham 182 | tive 183 | teve 184 | tivemos 185 | tiveram 186 | tivera 187 | tivéramos 188 | tenha 189 | tenhamos 190 | tenham 191 | tivesse 192 | tivéssemos 193 | tivessem 194 | tiver 195 | tivermos 196 | tiverem 197 | terei 198 | terá 199 | teremos 200 | terão 201 | teria 202 | teríamos 203 | teriam 204 | -------------------------------------------------------------------------------- /data/stopwords/russian: -------------------------------------------------------------------------------- 1 | и 2 | в 3 | во 4 | не 5 | что 6 | он 7 | на 8 | я 9 | с 10 | со 11 | как 12 | а 13 | то 14 | все 15 | она 16 | так 17 | его 18 | но 19 | да 20 | ты 21 | к 22 | у 23 | же 24 | вы 25 | за 26 | бы 27 | по 28 | только 29 | ее 30 | мне 31 | было 32 | вот 33 | от 34 | меня 35 | еще 36 | нет 37 | о 38 | из 39 | ему 40 | теперь 41 | когда 42 | даже 43 | ну 44 | вдруг 45 | ли 46 | если 47 | уже 48 | или 49 | ни 50 | быть 51 | был 52 | него 53 | до 54 | вас 55 | нибудь 56 | опять 57 | уж 58 | вам 59 | ведь 60 | там 61 | потом 62 | себя 63 | ничего 64 | ей 65 | может 66 | они 67 | тут 68 | где 69 | есть 70 | надо 71 | ней 72 | для 73 | мы 74 | тебя 75 | их 76 | чем 77 | была 78 | сам 79 | чтоб 80 | без 81 | будто 82 | чего 83 | раз 84 | тоже 85 | себе 86 | под 87 | будет 88 | ж 89 | тогда 90 | кто 91 | этот 92 | того 93 | потому 94 | этого 95 | какой 96 | совсем 97 | ним 98 | здесь 99 | этом 100 | один 101 | почти 102 | мой 103 | тем 104 | чтобы 105 | нее 106 | сейчас 107 | были 108 | куда 109 | зачем 110 | всех 111 | никогда 112 | можно 113 | при 114 | наконец 115 | два 116 | об 117 | другой 118 | хоть 119 | после 120 | над 121 | больше 122 | тот 123 | через 124 | эти 125 | нас 126 | про 127 | всего 128 | них 129 | какая 130 | много 131 | разве 132 | три 133 | эту 134 | моя 135 | впрочем 136 | хорошо 137 | свою 138 | этой 139 | перед 140 | иногда 141 | лучше 142 | чуть 143 | том 144 | нельзя 145 | такой 146 | им 147 | более 148 | всегда 149 | конечно 150 | всю 151 | между 152 | -------------------------------------------------------------------------------- /data/stopwords/spanish: -------------------------------------------------------------------------------- 1 | de 2 | la 3 | que 4 | el 5 | en 6 | y 7 | a 8 | los 9 | del 10 | se 11 | las 12 | por 13 | un 14 | para 15 | con 16 | no 17 | una 18 | su 19 | al 20 | lo 21 | como 22 | más 23 | pero 24 | sus 25 | le 26 | ya 27 | o 28 | este 29 | sí 30 | porque 31 | esta 32 | entre 33 | cuando 34 | muy 35 | sin 36 | sobre 37 | también 38 | me 39 | hasta 40 | hay 41 | donde 42 | quien 43 | desde 44 | todo 45 | nos 46 | durante 47 | todos 48 | uno 49 | les 50 | ni 51 | contra 52 | otros 53 | ese 54 | eso 55 | ante 56 | ellos 57 | e 58 | esto 59 | mí 60 | antes 61 | algunos 62 | qué 63 | unos 64 | yo 65 | otro 66 | otras 67 | otra 68 | él 69 | tanto 70 | esa 71 | estos 72 | mucho 73 | quienes 74 | nada 75 | muchos 76 | cual 77 | poco 78 | ella 79 | estar 80 | estas 81 | algunas 82 | algo 83 | nosotros 84 | mi 85 | mis 86 | tú 87 | te 88 | ti 89 | tu 90 | tus 91 | ellas 92 | nosotras 93 | vosostros 94 | vosostras 95 | os 96 | mío 97 | mía 98 | míos 99 | mías 100 | tuyo 101 | tuya 102 | tuyos 103 | tuyas 104 | suyo 105 | suya 106 | suyos 107 | suyas 108 | nuestro 109 | nuestra 110 | nuestros 111 | nuestras 112 | vuestro 113 | vuestra 114 | vuestros 115 | vuestras 116 | esos 117 | esas 118 | estoy 119 | estás 120 | está 121 | estamos 122 | estáis 123 | están 124 | esté 125 | estés 126 | estemos 127 | estéis 128 | estén 129 | estaré 130 | estarás 131 | estará 132 | estaremos 133 | estaréis 134 | estarán 135 | estaría 136 | estarías 137 | estaríamos 138 | estaríais 139 | estarían 140 | estaba 141 | estabas 142 | estábamos 143 | estabais 144 | estaban 145 | estuve 146 | estuviste 147 | estuvo 148 | estuvimos 149 | estuvisteis 150 | estuvieron 151 | estuviera 152 | estuvieras 153 | estuviéramos 154 | estuvierais 155 | estuvieran 156 | estuviese 157 | estuvieses 158 | estuviésemos 159 | estuvieseis 160 | estuviesen 161 | estando 162 | estado 163 | estada 164 | estados 165 | estadas 166 | estad 167 | he 168 | has 169 | ha 170 | hemos 171 | habéis 172 | han 173 | haya 174 | hayas 175 | hayamos 176 | hayáis 177 | hayan 178 | habré 179 | habrás 180 | habrá 181 | habremos 182 | habréis 183 | habrán 184 | habría 185 | habrías 186 | habríamos 187 | habríais 188 | habrían 189 | había 190 | habías 191 | habíamos 192 | habíais 193 | habían 194 | hube 195 | hubiste 196 | hubo 197 | hubimos 198 | hubisteis 199 | hubieron 200 | hubiera 201 | hubieras 202 | hubiéramos 203 | hubierais 204 | hubieran 205 | hubiese 206 | hubieses 207 | hubiésemos 208 | hubieseis 209 | hubiesen 210 | habiendo 211 | habido 212 | habida 213 | habidos 214 | habidas 215 | soy 216 | eres 217 | es 218 | somos 219 | sois 220 | son 221 | sea 222 | seas 223 | seamos 224 | seáis 225 | sean 226 | seré 227 | serás 228 | será 229 | seremos 230 | seréis 231 | serán 232 | sería 233 | serías 234 | seríamos 235 | seríais 236 | serían 237 | era 238 | eras 239 | éramos 240 | erais 241 | eran 242 | fui 243 | fuiste 244 | fue 245 | fuimos 246 | fuisteis 247 | fueron 248 | fuera 249 | fueras 250 | fuéramos 251 | fuerais 252 | fueran 253 | fuese 254 | fueses 255 | fuésemos 256 | fueseis 257 | fuesen 258 | sintiendo 259 | sentido 260 | sentida 261 | sentidos 262 | sentidas 263 | siente 264 | sentid 265 | tengo 266 | tienes 267 | tiene 268 | tenemos 269 | tenéis 270 | tienen 271 | tenga 272 | tengas 273 | tengamos 274 | tengáis 275 | tengan 276 | tendré 277 | tendrás 278 | tendrá 279 | tendremos 280 | tendréis 281 | tendrán 282 | tendría 283 | tendrías 284 | tendríamos 285 | tendríais 286 | tendrían 287 | tenía 288 | tenías 289 | teníamos 290 | teníais 291 | tenían 292 | tuve 293 | tuviste 294 | tuvo 295 | tuvimos 296 | tuvisteis 297 | tuvieron 298 | tuviera 299 | tuvieras 300 | tuviéramos 301 | tuvierais 302 | tuvieran 303 | tuviese 304 | tuvieses 305 | tuviésemos 306 | tuvieseis 307 | tuviesen 308 | teniendo 309 | tenido 310 | tenida 311 | tenidos 312 | tenidas 313 | tened 314 | -------------------------------------------------------------------------------- /data/stopwords/swedish: -------------------------------------------------------------------------------- 1 | och 2 | det 3 | att 4 | i 5 | en 6 | jag 7 | hon 8 | som 9 | han 10 | på 11 | den 12 | med 13 | var 14 | sig 15 | för 16 | så 17 | till 18 | är 19 | men 20 | ett 21 | om 22 | hade 23 | de 24 | av 25 | icke 26 | mig 27 | du 28 | henne 29 | då 30 | sin 31 | nu 32 | har 33 | inte 34 | hans 35 | honom 36 | skulle 37 | hennes 38 | där 39 | min 40 | man 41 | ej 42 | vid 43 | kunde 44 | något 45 | från 46 | ut 47 | när 48 | efter 49 | upp 50 | vi 51 | dem 52 | vara 53 | vad 54 | över 55 | än 56 | dig 57 | kan 58 | sina 59 | här 60 | ha 61 | mot 62 | alla 63 | under 64 | någon 65 | eller 66 | allt 67 | mycket 68 | sedan 69 | ju 70 | denna 71 | själv 72 | detta 73 | åt 74 | utan 75 | varit 76 | hur 77 | ingen 78 | mitt 79 | ni 80 | bli 81 | blev 82 | oss 83 | din 84 | dessa 85 | några 86 | deras 87 | blir 88 | mina 89 | samma 90 | vilken 91 | er 92 | sådan 93 | vår 94 | blivit 95 | dess 96 | inom 97 | mellan 98 | sådant 99 | varför 100 | varje 101 | vilka 102 | ditt 103 | vem 104 | vilket 105 | sitta 106 | sådana 107 | vart 108 | dina 109 | vars 110 | vårt 111 | våra 112 | ert 113 | era 114 | vilkas 115 | -------------------------------------------------------------------------------- /data/stopwords/turkish: -------------------------------------------------------------------------------- 1 | acaba 2 | ama 3 | aslında 4 | az 5 | bazı 6 | belki 7 | biri 8 | birkaç 9 | birşey 10 | biz 11 | bu 12 | çok 13 | çünkü 14 | da 15 | daha 16 | de 17 | defa 18 | diye 19 | eğer 20 | en 21 | gibi 22 | hem 23 | hep 24 | hepsi 25 | her 26 | hiç 27 | için 28 | ile 29 | ise 30 | kez 31 | ki 32 | kim 33 | mı 34 | mu 35 | mü 36 | nasıl 37 | ne 38 | neden 39 | nerde 40 | nerede 41 | nereye 42 | niçin 43 | niye 44 | o 45 | sanki 46 | şey 47 | siz 48 | şu 49 | tüm 50 | ve 51 | veya 52 | ya 53 | yani 54 | -------------------------------------------------------------------------------- /index.js: -------------------------------------------------------------------------------- 1 | var fs = require('fs'); 2 | var path = require('path'); 3 | 4 | function load(language) { 5 | f = fs.readFileSync(path.join(__dirname, 'data', 'stopwords', language), { 6 | encoding: "utf-8" 7 | }); 8 | return new Set(f.split('\n')); 9 | } 10 | 11 | function remove(input, stopwords) { 12 | if (typeof stopwords === "string") { 13 | stopwords = load(stopwords) 14 | } 15 | 16 | if (!Array.isArray(input)) { 17 | // Lazy tokenization by whitespace 18 | input = input.split(' '); 19 | return input.filter(function (word) { 20 | return !stopwords.has(word) 21 | }).join(' '); 22 | } else { 23 | return input.filter(function (word) { 24 | return !stopwords.has(word) 25 | }); 26 | } 27 | } 28 | 29 | module.exports = { 30 | load: load, 31 | remove: remove 32 | } -------------------------------------------------------------------------------- /package.json: -------------------------------------------------------------------------------- 1 | { 2 | "name": "nltk-stopwords", 3 | "version": "1.0.3", 4 | "description": "A node module exposing nltk stopwords corpora and provide utility functions for removing stopwords", 5 | "main": "index.js", 6 | "scripts": { 7 | "test": "echo \"Error: no test specified\" && exit 1" 8 | }, 9 | "repository": { 10 | "type": "git", 11 | "url": "git+https://github.com/xiamx/node-nltk-stopwords.git" 12 | }, 13 | "keywords": [ 14 | "nltk", 15 | "stopword", 16 | "stopwords" 17 | ], 18 | "author": "Mengxuan Xia ", 19 | "license": "MIT", 20 | "bugs": { 21 | "url": "https://github.com/xiamx/node-nltk-stopwords/issues" 22 | }, 23 | "homepage": "https://xiamx.github.io/node-nltk-stopwords/" 24 | } 25 | --------------------------------------------------------------------------------