├── ext
    └── ots
    │   ├── version.h
    │   ├── ots.h
    │   ├── extconf.rb
    │   ├── libots
    │       ├── grader-tc.h
    │       ├── grader.c
    │       ├── text.c
    │       ├── grader-tf.c
    │       ├── article.c
    │       ├── highlighter.c
    │       ├── html.c
    │       ├── parser.c
    │       ├── relations.c
    │       ├── grader-tc.c
    │       ├── libots.h
    │       ├── wordlist.c
    │       └── stemmer.c
    │   └── ots.c
├── test
    ├── helper.rb
    ├── test_grader.rb
    ├── test_ots.rb
    └── test_article.rb
├── .gitignore
├── lib
    ├── ots.rb
    └── ots
    │   └── grader.rb
├── CHANGELOG
├── dictionaries
    ├── tr.xml
    ├── tl.xml
    ├── mt.xml
    ├── id.xml
    ├── mi.xml
    ├── lv.xml
    ├── eu.xml
    ├── el.xml
    ├── pl.xml
    ├── ia.xml
    ├── uk.xml
    ├── bg.xml
    ├── fi.xml
    ├── cy.xml
    ├── ga.xml
    ├── da.xml
    ├── ca.xml
    ├── ru.xml
    ├── cs.xml
    ├── ro.xml
    ├── ms.xml
    ├── eo.xml
    ├── et.xml
    ├── fr.xml
    ├── is.xml
    ├── it.xml
    ├── nl.xml
    ├── sv.xml
    ├── nn.xml
    ├── hu.xml
    ├── gl.xml
    ├── yi.xml
    ├── he.xml
    ├── de.xml
    ├── es.xml
    └── pt.xml
├── Rakefile
├── README.md
└── ots.gemspec


/ext/ots/version.h:
--------------------------------------------------------------------------------
1 | #pragma once
2 | #define RUBY_OTS_VERSION            "0.5.4"
3 | 


--------------------------------------------------------------------------------
/test/helper.rb:
--------------------------------------------------------------------------------
1 | require 'ots'
2 | require 'minitest/spec'
3 | require 'minitest/autorun'
4 | 


--------------------------------------------------------------------------------
/.gitignore:
--------------------------------------------------------------------------------
1 | ext/*
2 | !ext/extconf.rb
3 | !ext/*.c
4 | !ext/*.h
5 | ext/*.so
6 | pkg/
7 | tmp/
8 | *.gem
9 | 


--------------------------------------------------------------------------------
/test/test_grader.rb:
--------------------------------------------------------------------------------
 1 | # encoding: utf-8
 2 | require 'helper'
 3 | require 'ots/grader'
 4 | 
 5 | describe 'OTS::Grader' do
 6 |   it 'should load the dictionary & return stop words' do
 7 |     assert OTS::Grader.new(language: 'en').stop_words
 8 |   end
 9 | end
10 | 


--------------------------------------------------------------------------------
/lib/ots.rb:
--------------------------------------------------------------------------------
1 | require 'ots/ots'
2 | 
3 | module OTS
4 |   DICTIONARY_PATH = File.absolute_path(File.dirname(__FILE__) + '/../dictionaries')
5 |   # set the dictionary path, so the c extension can read files.
6 |   # we can set this at compile time but bundler sometimes compiles the extension inside a temp directory.
7 |   set_dictionary_path DICTIONARY_PATH
8 | end
9 | 


--------------------------------------------------------------------------------
/lib/ots/grader.rb:
--------------------------------------------------------------------------------
 1 | require 'nokogiri'
 2 | 
 3 | module OTS
 4 |   class Grader
 5 |     def initialize options = {}
 6 |       path = options[:path] || File.join(DICTIONARY_PATH, options.fetch(:language, 'en').to_s + '.xml')
 7 |       @xml = Nokogiri::XML(File.read(path))
 8 |     end
 9 | 
10 |     def stop_words
11 |       @xml.xpath('//grader-tc/word').map {|word| word.text.downcase}
12 |     end
13 |   end
14 | end
15 | 


--------------------------------------------------------------------------------
/ext/ots/ots.h:
--------------------------------------------------------------------------------
 1 | #pragma once
 2 | 
 3 | #include <ruby.h>
 4 | #include <ruby/encoding.h>
 5 | 
 6 | #include <stdio.h>
 7 | #include <stdlib.h>
 8 | #include <string.h>
 9 | 
10 | #include <libots.h>
11 | #include "version.h"
12 | 
13 | #define TO_S(v)                     rb_funcall(v, rb_intern("to_s"), 0)
14 | #define CSTRING(v)                  RSTRING_PTR(TO_S(v))
15 | #define rb_enc_str_new2(text, enc)  rb_enc_str_new(text, strlen(text), enc)
16 | 


--------------------------------------------------------------------------------
/test/test_ots.rb:
--------------------------------------------------------------------------------
 1 | require 'helper'
 2 | 
 3 | describe 'OTS' do
 4 |   it 'parse() should return an article instance' do
 5 |     OTS.parse("hello world").must_be_kind_of OTS::Article
 6 |   end
 7 | 
 8 |   it 'parse() should raise ArgumentError on invalid text' do
 9 |     assert_raises(ArgumentError) do
10 |       OTS.parse(1)
11 |     end
12 |   end
13 | 
14 |   it 'should return a list of dictonaries' do
15 |     languages = OTS.languages
16 | 
17 |     %w(en fr it es de ru).each do |name|
18 |       assert languages.include?(name), "has #{name} language dictionary"
19 |     end
20 | 
21 |     assert_empty languages.reject {|name| name.size == 2}, "dictionaries path should not have other junk"
22 |   end
23 | end
24 | 


--------------------------------------------------------------------------------
/CHANGELOG:
--------------------------------------------------------------------------------
 1 | === 0.5.4 (2012-02-03)
 2 | 
 3 | * move extension into subdirectory.
 4 | * added OTS#set_dictionary_path to avoid compile time path resolution.
 5 | 
 6 | === 0.5.3 (2012-01-27)
 7 | 
 8 | * cleanup dependencies.
 9 | 
10 | === 0.5.2 (2012-01-25)
11 | 
12 | * added OTS::Grader
13 | 
14 | === 0.5.1 (2012-01-11)
15 | 
16 | * GC bugfix: hang on to encoding index rather than rb_encoding pointer.
17 | 
18 | === 0.5.0 (2012-01-10)
19 | 
20 | api rewrite and some dictionary parser fixes
21 | 
22 | renamed:
23 | 
24 | * OTS.dictionaries => OTS.languages
25 | 
26 | api changes:
27 | 
28 | * OTS.parse, takes an options hash now with language or dictionary options
29 | * removed OTS::Article#title
30 | * added OTS::Article#topics, returns the most important keywords
31 | * renamed the lines option in OTS::Article#summarize to sentences
32 | 
33 | xml parser fixes:
34 | 
35 | * uses xmlReadFile instead of xmlParseFile
36 | 


--------------------------------------------------------------------------------
/ext/ots/extconf.rb:
--------------------------------------------------------------------------------
 1 | require 'mkmf'
 2 | 
 3 | glib_cflags   = %x{pkg-config --cflags  glib-2.0}.strip
 4 | glib_ldflags  = %x{pkg-config --libs    glib-2.0}.strip
 5 | 
 6 | if glib_cflags.empty?
 7 |   warn %q{WARNING: No pkg-config found for glib-2.0, using defaults. Set GLIB_INCLUDE_DIR env to override.}
 8 |   dirs = ENV.fetch('GLIB_INCLUDE_DIR', '/usr/include/glib-2.0 /usr/lib/glib-2.0/include')
 9 |   glib_cflags = dirs.split(/\s+/).map {|dir| "-I#{dir}"}.join(' ')
10 | end
11 | 
12 | if glib_ldflags.empty?
13 |   warn %q{WARNING: No pkg-config found for glib-2.0, using defaults. Set GLIB_LIB env to override.}
14 |   libs = ENV.fetch('GLIB_LIB', 'glib-2.0')
15 |   glib_ldflags = libs.split(/\s+/).map {|lib| "-l#{lib}"}.join(' ')
16 | end
17 | 
18 | $CFLAGS  = glib_cflags   + %Q{ -Ilibots -I/usr/include/libxml2}
19 | $LDFLAGS = glib_ldflags  + %Q{ -Llibots}
20 | 
21 | find_library('glib-2.0', 'main') or raise "unable to find glib-2.0"
22 | find_library('xml2',     'main') or raise "unable to find libxml2"
23 | 
24 | # ugly mkmf hack: manually assign source and object directories.
25 | $srcs = Dir["{libots/*.c,*.c}"]
26 | $objs = $srcs.map {|name| File.join(File.dirname(name), File.basename(name, ".c") + ".o")}
27 | 
28 | class File
29 |   def self.basename name
30 |     name
31 |   end
32 | end
33 | 
34 | create_makefile 'ots'
35 | 


--------------------------------------------------------------------------------
/dictionaries/tr.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="turkish">
 3 |  <stemmer>
 4 |      <step1_pre> 
 5 | 	  <rule>"|</rule> 
 6 | 	  <rule>(|</rule> 
 7 | 	 </step1_pre>
 8 | 	 
 9 | 	 
10 |     <step1_post>
11 |       <rule>."|</rule> 
12 | 	  <rule>,"|</rule> 
13 | 	  <rule>.|</rule>
14 | 	  <rule>,|</rule> 
15 | 	  <rule>"|</rule>
16 | 	  <rule>)|</rule> 
17 | 	  <rule>?|</rule> 
18 | 	  <rule>:|</rule> 
19 | 	  <rule>;|</rule> 
20 | 	  <rule>!|</rule> 
21 | 	 </step1_post>
22 | 	 
23 | 	 
24 |     <manual>
25 | 	  <rule>wrote|write</rule>
26 | 	  <rule>came|come</rule> 
27 | 	  <rule>went|go</rule>
28 | 	 </manual>
29 |   
30 |     <post>
31 |        <rule>before1|1after</rule>
32 |     </post>
33 |    <pre>
34 |        <rule>before1|1after</rule>
35 |    </pre> 
36 |   </stemmer>
37 |    <parser>
38 |     
39 |  	 <linebreak>
40 | 	  <rule>."</rule>
41 | 	  <rule>?"</rule>
42 | 	  <rule>!"</rule>
43 | 	  <rule>,"</rule>
44 | 	  <rule>.</rule>
45 | 	  <rule>?</rule>  
46 | 	  <rule>;</rule>
47 | 	  <rule>|</rule>
48 | 	  <rule>!</rule>  
49 | 	 </linebreak>
50 | 	 
51 |  	 <linedontbreak>
52 | 	  <rule>Dr.</rule>
53 | 	  <rule>Mr.</rule>  
54 | 	  <rule>Mrs.</rule>
55 | 	  <rule>U.S.</rule>  
56 | 	  <rule>Rep.</rule>  
57 | 	  <rule>Sen.</rule>  
58 | 	 </linedontbreak>
59 |    </parser>
60 |  <grader-tc>
61 | <word>bir</word>
62 | <word>bu</word>
63 | <word>o</word>
64 |  </grader-tc>
65 | </dictionary>
66 | 


--------------------------------------------------------------------------------
/dictionaries/tl.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="tamil?">
 3 |  <stemmer>
 4 |      <step1_pre> 
 5 | 	  <rule>"|</rule> 
 6 | 	  <rule>(|</rule> 
 7 | 	 </step1_pre>
 8 | 	 
 9 | 	 
10 |     <step1_post>
11 |       <rule>."|</rule> 
12 | 	  <rule>,"|</rule> 
13 | 	  <rule>.|</rule>
14 | 	  <rule>,|</rule> 
15 | 	  <rule>"|</rule>
16 | 	  <rule>)|</rule> 
17 | 	  <rule>?|</rule> 
18 | 	  <rule>:|</rule> 
19 | 	  <rule>;|</rule> 
20 | 	  <rule>!|</rule> 
21 | 	 </step1_post>
22 | 	 
23 | 	 
24 |     <manual>
25 | 	  <rule>wrote|write</rule>
26 | 	  <rule>came|come</rule> 
27 | 	  <rule>went|go</rule>
28 | 	 </manual>
29 |   
30 |     <post>
31 |        <rule>before1|1after</rule>
32 |     </post>
33 |    <pre>
34 |        <rule>before1|1after</rule>
35 |    </pre> 
36 |   </stemmer>
37 |    <parser>
38 |     
39 |  	 <linebreak>
40 | 	  <rule>."</rule>
41 | 	  <rule>?"</rule>
42 | 	  <rule>!"</rule>
43 | 	  <rule>,"</rule>
44 | 	  <rule>.</rule>
45 | 	  <rule>?</rule>  
46 | 	  <rule>;</rule>
47 | 	  <rule>|</rule>
48 | 	  <rule>!</rule>  
49 | 	 </linebreak>
50 | 	 
51 |  	 <linedontbreak>
52 | 	  <rule>Dr.</rule>
53 | 	  <rule>Mr.</rule>  
54 | 	  <rule>Mrs.</rule>
55 | 	  <rule>U.S.</rule>  
56 | 	  <rule>Rep.</rule>  
57 | 	  <rule>Sen.</rule>  
58 | 	 </linedontbreak>
59 |    </parser>
60 |  <grader-tc>
61 | <word>ako1</word>
62 | <word>amin</word>
63 | <word>atin</word>
64 | <word>mo</word>
65 | <word>nila</word>
66 |  </grader-tc>
67 | </dictionary>
68 | 


--------------------------------------------------------------------------------
/dictionaries/mt.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="english">
 3 |  <stemmer> 
 4 |      <step1_pre> 
 5 | 	  <rule>"|</rule> 
 6 | 	  <rule>(|</rule> 
 7 | 	 </step1_pre>
 8 | 	 
 9 | 	 
10 |     <step1_post>
11 |       <rule>."|</rule> 
12 | 	  <rule>,"|</rule> 
13 | 	  <rule>.|</rule>
14 | 	  <rule>,|</rule> 
15 | 	  <rule>"|</rule>
16 | 	  <rule>)|</rule> 
17 | 	  <rule>?|</rule> 
18 | 	  <rule>:|</rule> 
19 | 	  <rule>;|</rule> 
20 | 	  <rule>!|</rule> 
21 | 	 </step1_post>
22 | 	 
23 | 	 
24 |     <manual>
25 | 	  <rule>wrote|write</rule>
26 | 	  <rule>came|come</rule> 
27 | 	  <rule>went|go</rule>
28 | 	 </manual>
29 |  
30 |     <post>
31 |        <rule>before1|1after</rule>
32 |     </post>
33 |    <pre>
34 |        <rule>before1|1after</rule>
35 |    </pre> 
36 |   </stemmer>
37 |    <parser>
38 |     
39 |  	 <linebreak>
40 | 	  <rule>."</rule>
41 | 	  <rule>?"</rule>
42 | 	  <rule>!"</rule>
43 | 	  <rule>,"</rule>
44 | 	  <rule>.</rule>
45 | 	  <rule>?</rule>  
46 | 	  <rule>;</rule>
47 | 	  <rule>|</rule>
48 | 	  <rule>!</rule>  
49 | 	 </linebreak>
50 | 	 
51 |  	 <linedontbreak>
52 | 	  <rule>Dr.</rule>
53 | 	  <rule>Mr.</rule>  
54 | 	  <rule>Mrs.</rule>
55 | 	  <rule>U.S.</rule>  
56 | 	  <rule>Rep.</rule>  
57 | 	  <rule>Sen.</rule>  
58 | 	 </linedontbreak>
59 |    </parser>
60 |  <grader-tc>
61 | <word>jiena</word>
62 | <word>aħna</word>
63 | <word>inti</word>
64 | <word>iva</word>
65 | <word>iwa</word>
66 | <word>le</word>
67 | <word>mingħajr</word>
68 | <word>taħt</word>
69 | <word>wieħed</word>
70 | <word>tnejn</word>
71 | <word>għandi</word>
72 |  </grader-tc>
73 | </dictionary>
74 | 


--------------------------------------------------------------------------------
/dictionaries/id.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="Indonesian">
 3 |  <stemmer> 
 4 |      <step1_pre> 
 5 | 	  <rule>"|</rule> 
 6 | 	  <rule>(|</rule> 
 7 | 	 </step1_pre>
 8 | 	 
 9 | 	 
10 |     <step1_post>
11 |       <rule>."|</rule> 
12 | 	  <rule>,"|</rule> 
13 | 	  <rule>.|</rule>
14 | 	  <rule>,|</rule> 
15 | 	  <rule>"|</rule>
16 | 	  <rule>)|</rule> 
17 | 	  <rule>?|</rule> 
18 | 	  <rule>:|</rule> 
19 | 	  <rule>;|</rule> 
20 | 	  <rule>!|</rule> 
21 | 	 </step1_post>
22 | 	 
23 | 	 
24 |     <manual>
25 | 	  <rule>wrote|write</rule>
26 | 	  <rule>came|come</rule> 
27 | 	  <rule>went|go</rule>
28 | 	 </manual>
29 |  
30 |     <post>
31 |        <rule>before1|1after</rule>
32 |     </post>
33 |    <pre>
34 |        <rule>before1|1after</rule>
35 |    </pre> 
36 |   </stemmer>
37 |    <parser>
38 |     
39 |  	 <linebreak>
40 | 	  <rule>."</rule>
41 | 	  <rule>?"</rule>
42 | 	  <rule>!"</rule>
43 | 	  <rule>,"</rule>
44 | 	  <rule>.</rule>
45 | 	  <rule>?</rule>  
46 | 	  <rule>;</rule>
47 | 	  <rule>|</rule>
48 | 	  <rule>!</rule>  
49 | 	 </linebreak>
50 | 	 
51 |  	 <linedontbreak>
52 | 	  <rule>Dr.</rule>
53 | 	  <rule>Mr.</rule>  
54 | 	  <rule>Mrs.</rule>
55 | 	  <rule>U.S.</rule>  
56 | 	  <rule>Rep.</rule>  
57 | 	  <rule>Sen.</rule>  
58 | 	 </linedontbreak>
59 |    </parser>
60 |  <grader-tc>
61 | <word>aku</word>
62 | <word>anda</word>
63 | <word>bapak</word>
64 | <word>dia</word>
65 | <word>engkau</word>
66 | <word>ibu</word>
67 | <word>kalian</word>
68 | <word>kami</word>
69 | <word>kamu</word>
70 | <word>kita</word>
71 | <word>mereka</word>
72 | <word>saudara</word>
73 | <word>saya</word>
74 |  </grader-tc>
75 | </dictionary>
76 | 


--------------------------------------------------------------------------------
/dictionaries/mi.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="english">
 3 |  <stemmer> 
 4 |      <step1_pre> 
 5 | 	  <rule>"|</rule> 
 6 | 	  <rule>(|</rule> 
 7 | 	 </step1_pre>
 8 | 	 
 9 | 	 
10 |     <step1_post>
11 |       <rule>."|</rule> 
12 | 	  <rule>,"|</rule> 
13 | 	  <rule>.|</rule>
14 | 	  <rule>,|</rule> 
15 | 	  <rule>"|</rule>
16 | 	  <rule>)|</rule> 
17 | 	  <rule>?|</rule> 
18 | 	  <rule>:|</rule> 
19 | 	  <rule>;|</rule> 
20 | 	  <rule>!|</rule> 
21 | 	 </step1_post>
22 |  
23 |  
24 |     <manual>
25 | 	  <rule>wrote|write</rule>
26 | 	  <rule>came|come</rule> 
27 | 	  <rule>went|go</rule>
28 | 	 </manual>
29 | 	 
30 |     <post>
31 |        <rule>before1|1after</rule>
32 |     </post>
33 |    <pre>
34 |        <rule>before1|1after</rule>
35 |    </pre> 
36 |   </stemmer>
37 |    <parser>
38 |     
39 |  	 <linebreak>
40 | 	  <rule>."</rule>
41 | 	  <rule>?"</rule>
42 | 	  <rule>!"</rule>
43 | 	  <rule>,"</rule>
44 | 	  <rule>.</rule>
45 | 	  <rule>?</rule>  
46 | 	  <rule>;</rule>
47 | 	  <rule>|</rule>
48 | 	  <rule>!</rule>  
49 | 	 </linebreak>
50 | 	 
51 |  	 <linedontbreak>
52 | 	  <rule>Dr.</rule>
53 | 	  <rule>Mr.</rule>  
54 | 	  <rule>Mrs.</rule>
55 | 	  <rule>U.S.</rule>  
56 | 	  <rule>Rep.</rule>  
57 | 	  <rule>Sen.</rule>  
58 | 	 </linedontbreak>
59 |    </parser>
60 |  <grader-tc>
61 | <word>ahau</word>
62 | <word>au</word>
63 | <word>ia</word>
64 | <word>koe</word>
65 | <word>koorua</word>
66 | <word>koutou</word>
67 | <word>maatou</word>
68 | <word>maaua</word>
69 | <word>ngā</word>
70 | <word>raatou</word>
71 | <word>raaua</word>
72 | <word>taatou</word>
73 | <word>taaua</word>
74 | <word>te</word>
75 |  </grader-tc>
76 | </dictionary>
77 | 


--------------------------------------------------------------------------------
/dictionaries/lv.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="latvian">
 3 |  <stemmer> 
 4 |  
 5 |      <step1_pre> 
 6 | 	  <rule>"|</rule> 
 7 | 	  <rule>(|</rule> 
 8 | 	 </step1_pre>
 9 | 	 
10 | 	 
11 |     <step1_post>
12 |       <rule>."|</rule> 
13 | 	  <rule>,"|</rule> 
14 | 	  <rule>.|</rule>
15 | 	  <rule>,|</rule> 
16 | 	  <rule>"|</rule>
17 | 	  <rule>)|</rule> 
18 | 	  <rule>?|</rule> 
19 | 	  <rule>:|</rule> 
20 | 	  <rule>;|</rule> 
21 | 	  <rule>!|</rule> 
22 | 	 </step1_post>
23 |  
24 |  
25 |     <manual>
26 | 	  <rule>wrote|write</rule>
27 | 	  <rule>came|come</rule> 
28 | 	  <rule>went|go</rule>
29 | 	 </manual>
30 |  
31 |     <post>
32 |        <rule>before1|1after</rule>
33 |     </post>
34 |    <pre>
35 |        <rule>before1|1after</rule>
36 |    </pre> 
37 |   </stemmer>
38 |    <parser>
39 |     
40 |  	 <linebreak>
41 | 	  <rule>."</rule>
42 | 	  <rule>?"</rule>
43 | 	  <rule>!"</rule>
44 | 	  <rule>,"</rule>
45 | 	  <rule>.</rule>
46 | 	  <rule>?</rule>  
47 | 	  <rule>;</rule>
48 | 	  <rule>|</rule>
49 | 	  <rule>!</rule>  
50 | 	 </linebreak>
51 | 	 
52 |  	 <linedontbreak>
53 | 	  <rule>Dr.</rule>
54 | 	  <rule>Mr.</rule>  
55 | 	  <rule>Mrs.</rule>
56 | 	  <rule>U.S.</rule>  
57 | 	  <rule>Rep.</rule>  
58 | 	  <rule>Sen.</rule>  
59 | 	 </linedontbreak>
60 |    </parser>
61 |  <grader-tc>
62 | <word>pa</word>
63 | <word>par</word>
64 | <word>pat</word>
65 | <word>pats</word>
66 | <word>pār</word>
67 | <word>pārāk</word>
68 | <word>pārējais</word>
69 | <word>pāri</word>
70 | <word>pēc</word>
71 | <word>pie</word>
72 | <word>pirms</word>
73 | <word>pret</word>
74 | <word>priekšu</word>
75 | <word>projām</word>
76 |  </grader-tc>
77 | </dictionary>
78 | 


--------------------------------------------------------------------------------
/dictionaries/eu.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="basque">
 3 |  <stemmer>
 4 |      <step1_pre> 
 5 | 	  <rule>"|</rule> 
 6 | 	  <rule>(|</rule> 
 7 | 	 </step1_pre>
 8 | 	 
 9 | 	 
10 |     <step1_post>
11 |       <rule>."|</rule> 
12 | 	  <rule>,"|</rule> 
13 | 	  <rule>.|</rule>
14 | 	  <rule>,|</rule> 
15 | 	  <rule>"|</rule>
16 | 	  <rule>)|</rule> 
17 | 	  <rule>?|</rule> 
18 | 	  <rule>:|</rule> 
19 | 	  <rule>;|</rule> 
20 | 	  <rule>!|</rule> 
21 | 	 </step1_post>
22 | 
23 | 
24 |     <manual>
25 | 	  <rule>wrote|write</rule>
26 | 	  <rule>came|come</rule> 
27 | 	  <rule>went|go</rule>
28 | 	 </manual>
29 | 	   
30 |     <post>
31 |        <rule>before1|1after</rule>
32 |     </post>
33 |    <pre>
34 |        <rule>before1|1after</rule>
35 |    </pre> 
36 |   </stemmer>
37 |    <parser>
38 |     
39 |  	 <linebreak>
40 | 	  <rule>."</rule>
41 | 	  <rule>?"</rule>
42 | 	  <rule>!"</rule>
43 | 	  <rule>,"</rule>
44 | 	  <rule>.</rule>
45 | 	  <rule>?</rule>  
46 | 	  <rule>;</rule>
47 | 	  <rule>|</rule>
48 | 	  <rule>!</rule>  
49 | 	 </linebreak>
50 | 	 
51 |  	 <linedontbreak>
52 | 	  <rule>Dr.</rule>
53 | 	  <rule>Mr.</rule>  
54 | 	  <rule>Mrs.</rule>
55 | 	  <rule>U.S.</rule>  
56 | 	  <rule>Rep.</rule>  
57 | 	  <rule>Sen.</rule>  
58 | 	 </linedontbreak>
59 |    </parser>
60 |  <grader-tc>
61 | <word>bai</word>
62 | <word>baita</word>
63 | <word>bere</word>
64 | <word>edo</word>
65 | <word>egon</word>
66 | <word>ere</word>
67 | <word>eta</word>
68 | <word>ez</word>
69 | <word>gabe</word>
70 | <word>hau</word>
71 | <word>hori</word>
72 | <word>hura</word>
73 | <word>inor</word>
74 | <word>izan</word>
75 | <word>kaixo</word>
76 |  </grader-tc>
77 | </dictionary>
78 | 


--------------------------------------------------------------------------------
/Rakefile:
--------------------------------------------------------------------------------
 1 | require 'date'
 2 | require 'pathname'
 3 | require 'rake'
 4 | require 'rake/clean'
 5 | require 'rake/testtask'
 6 | require 'rake/extensiontask'
 7 | 
 8 | $rootdir = Pathname.new(__FILE__).dirname
 9 | $gemspec = Gem::Specification.new do |s|
10 |   s.name              = 'ots'
11 |   s.version           = '0'           # modify ext/version.h
12 |   s.date              = Date.today    
13 |   s.authors           = ['Bharanee Rathna']
14 |   s.email             = ['deepfryed@gmail.com']
15 |   s.summary           = 'Open Text Summarizer interface for Ruby.'
16 |   s.description       = 'Ruby interface to libots libraries for unix.'
17 |   s.homepage          = 'http://github.com/deepfryed/ots'
18 |   s.files             = Dir['ext/**/*.{c,h}'] + Dir['{ext,test,lib}/**/*.rb'] + %w(README.md CHANGELOG) + Dir['*/*.xml']
19 |   s.extensions        = %w(ext/ots/extconf.rb)
20 |   s.require_paths     = %w(lib ext)
21 | 
22 |   s.add_development_dependency('rake')
23 |   s.add_development_dependency('rake-compiler')
24 | end
25 | 
26 | desc 'Generate ots gemspec'
27 | task :gemspec do 
28 |   $gemspec.date    = Date.today
29 |   $gemspec.version = File.read($rootdir + 'ext/ots/version.h').scan(/[\d.]+/).first
30 |   File.open('ots.gemspec', 'w') {|fh| fh.write($gemspec.to_ruby)}
31 | end
32 | 
33 | desc 'compile extension'
34 | task :compile do
35 |   Dir.chdir('ext/ots') do
36 |     system('ruby extconf.rb && make clean && make -j2') or raise 'unable to compile ots'
37 |   end
38 | end
39 | 
40 | Rake::TestTask.new(:test) do |test|
41 |   test.libs   << 'ext' << 'lib' << 'test'
42 |   test.pattern = 'test/**/test_*.rb'
43 |   test.verbose = true
44 | end
45 | 
46 | task default: :test
47 | task :test => [:compile]
48 | 


--------------------------------------------------------------------------------
/dictionaries/el.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="greek">
 3 |  <stemmer>
 4 |      <step1_pre> 
 5 | 	  <rule>"|</rule> 
 6 | 	  <rule>(|</rule> 
 7 | 	 </step1_pre>
 8 | 	 
 9 | 	 
10 |     <step1_post>
11 |       <rule>."|</rule> 
12 | 	  <rule>,"|</rule> 
13 | 	  <rule>.|</rule>
14 | 	  <rule>,|</rule> 
15 | 	  <rule>"|</rule>
16 | 	  <rule>)|</rule> 
17 | 	  <rule>?|</rule> 
18 | 	  <rule>:|</rule> 
19 | 	  <rule>;|</rule> 
20 | 	  <rule>!|</rule> 
21 | 	 </step1_post>
22 | 	 
23 | 	 
24 |     <manual>
25 | 	  <rule>wrote|write</rule>
26 | 	  <rule>came|come</rule> 
27 | 	  <rule>went|go</rule>
28 | 	 </manual>
29 |   
30 |     <post>
31 |        <rule>before1|1after</rule>
32 |     </post>
33 |    <pre>
34 |        <rule>before1|1after</rule>
35 |    </pre> 
36 |   </stemmer>
37 |    <parser>
38 |     
39 |  	 <linebreak>
40 | 	  <rule>."</rule>
41 | 	  <rule>?"</rule>
42 | 	  <rule>!"</rule>
43 | 	  <rule>,"</rule>
44 | 	  <rule>.</rule>
45 | 	  <rule>?</rule>  
46 | 	  <rule>;</rule>
47 | 	  <rule>|</rule>
48 | 	  <rule>!</rule>  
49 | 	 </linebreak>
50 | 	 
51 |  	 <linedontbreak>
52 | 	  <rule>Dr.</rule>
53 | 	  <rule>Mr.</rule>  
54 | 	  <rule>Mrs.</rule>
55 | 	  <rule>U.S.</rule>  
56 | 	  <rule>Rep.</rule>  
57 | 	  <rule>Sen.</rule>  
58 | 	 </linedontbreak>
59 |    </parser>
60 |  <grader-tc>
61 | <word>από</word>
62 | <word>για</word>
63 | <word>δεν</word>
64 | <word>επειδή</word>
65 | <word>η</word>
66 | <word>ή</word>
67 | <word>κάθε</word>
68 | <word>καθένας</word>
69 | <word>και</word>
70 | <word>κανείς</word>
71 | <word>κατά</word>
72 | <word>με</word>
73 | <word>να</word>
74 | <word>πρέπει</word>
75 | <word>σε</word>
76 | <word>τα</word>
77 | <word>το</word>
78 | <word>ως</word>
79 |  </grader-tc>
80 | </dictionary>
81 | 


--------------------------------------------------------------------------------
/dictionaries/pl.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="polish">
 3 |  <stemmer> 
 4 |  
 5 |      <step1_pre> 
 6 | 	  <rule>"|</rule> 
 7 | 	  <rule>(|</rule> 
 8 | 	 </step1_pre>
 9 | 	 
10 | 	 
11 |     <step1_post>
12 |       <rule>."|</rule> 
13 | 	  <rule>,"|</rule> 
14 | 	  <rule>.|</rule>
15 | 	  <rule>,|</rule> 
16 | 	  <rule>"|</rule>
17 | 	  <rule>)|</rule> 
18 | 	  <rule>?|</rule> 
19 | 	  <rule>:|</rule> 
20 | 	  <rule>;|</rule> 
21 | 	  <rule>!|</rule> 
22 | 	 </step1_post>
23 |  
24 |  
25 |     <manual>
26 | 	  <rule>wrote|write</rule>
27 | 	  <rule>came|come</rule> 
28 | 	  <rule>went|go</rule>
29 | 	 </manual>
30 | 	 
31 |     <post>
32 |        <rule>before1|1after</rule>
33 |     </post>
34 |    <pre>
35 |        <rule>before1|1after</rule>
36 |    </pre> 
37 |   </stemmer>
38 |    <parser>
39 |     
40 |  	 <linebreak>
41 | 	  <rule>."</rule>
42 | 	  <rule>?"</rule>
43 | 	  <rule>!"</rule>
44 | 	  <rule>,"</rule>
45 | 	  <rule>.</rule>
46 | 	  <rule>?</rule>  
47 | 	  <rule>;</rule>
48 | 	  <rule>|</rule>
49 | 	  <rule>!</rule>  
50 | 	 </linebreak>
51 | 	 
52 |  	 <linedontbreak>
53 | 	  <rule>Dr.</rule>
54 | 	  <rule>Mr.</rule>  
55 | 	  <rule>Mrs.</rule>
56 | 	  <rule>U.S.</rule>  
57 | 	  <rule>Rep.</rule>  
58 | 	  <rule>Sen.</rule>  
59 | 	 </linedontbreak>
60 |    </parser>
61 |  <grader-tc>
62 | <word>bez</word>
63 | <word>dla</word>
64 | <word>do</word>
65 | <word>ja</word>
66 | <word>ku</word>
67 | <word>my</word>
68 | <word>na</word>
69 | <word>nad</word>
70 | <word>nie</word>
71 | <word>o</word>
72 | <word>obok</word>
73 | <word>od</word>
74 | <word>on</word>
75 | <word>oni</word>
76 | <word>po</word>
77 | <word>pod</word>
78 | <word>przeciw</word>
79 | <word>przeciwko</word>
80 | <word>przed</word>
81 | <word>przez</word>
82 | <word>robić</word>
83 | <word>ty</word>
84 | <word>u</word>
85 | <word>w</word>
86 | <word>we</word>
87 | <word>wy</word>
88 | <word>z</word>
89 | <word>za</word>
90 | <word>ze</word>
91 |  </grader-tc>
92 | </dictionary>
93 | 


--------------------------------------------------------------------------------
/dictionaries/ia.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="Interlingua">
 3 |  <stemmer> 
 4 |      <step1_pre> 
 5 | 	  <rule>"|</rule> 
 6 | 	  <rule>(|</rule> 
 7 | 	 </step1_pre>
 8 | 	 
 9 | 	 
10 |     <step1_post>
11 |       <rule>."|</rule> 
12 | 	  <rule>,"|</rule> 
13 | 	  <rule>.|</rule>
14 | 	  <rule>,|</rule> 
15 | 	  <rule>"|</rule>
16 | 	  <rule>)|</rule> 
17 | 	  <rule>?|</rule> 
18 | 	  <rule>:|</rule> 
19 | 	  <rule>;|</rule> 
20 | 	  <rule>!|</rule> 
21 | 	 </step1_post>
22 |  
23 |  
24 |     <manual>
25 | 	  <rule>wrote|write</rule>
26 | 	  <rule>came|come</rule> 
27 | 	  <rule>went|go</rule>
28 | 	 </manual>
29 |  
30 |     <post>
31 |        <rule>before1|1after</rule>
32 |     </post>
33 |    <pre>
34 |        <rule>before1|1after</rule>
35 |    </pre> 
36 |   </stemmer>
37 |    <parser>
38 |     
39 |  	 <linebreak>
40 | 	  <rule>."</rule>
41 | 	  <rule>?"</rule>
42 | 	  <rule>!"</rule>
43 | 	  <rule>,"</rule>
44 | 	  <rule>.</rule>
45 | 	  <rule>?</rule>  
46 | 	  <rule>;</rule>
47 | 	  <rule>|</rule>
48 | 	  <rule>!</rule>  
49 | 	 </linebreak>
50 | 	 
51 |  	 <linedontbreak>
52 | 	  <rule>Dr.</rule>
53 | 	  <rule>Mr.</rule>  
54 | 	  <rule>Mrs.</rule>
55 | 	  <rule>U.S.</rule>  
56 | 	  <rule>Rep.</rule>  
57 | 	  <rule>Sen.</rule>  
58 | 	 </linedontbreak>
59 |    </parser>
60 |  <grader-tc>
61 | <word>duo</word>
62 | <word>e</word>
63 | <word>es</word>
64 | <word>esser</word>
65 | <word>ha</word>
66 | <word>haber</word>
67 | <word>illa</word>
68 | <word>illas</word>
69 | <word>ille</word>
70 | <word>illes</word>
71 | <word>illo</word>
72 | <word>illos</word>
73 | <word>in</word>
74 | <word>io</word>
75 | <word>la</word>
76 | <word>las</word>
77 | <word>le</word>
78 | <word>les</word>
79 | <word>lo</word>
80 | <word>los</word>
81 | <word>me</word>
82 | <word>minus</word>
83 | <word>non</word>
84 | <word>nos</word>
85 | <word>ora</word>
86 | <word>plus</word>
87 | <word>quando</word>
88 | <word>se</word>
89 | <word>sed</word>
90 | <word>te</word>
91 | <word>tu</word>
92 | <word>un</word>
93 | <word>va</word>
94 | <word>vader</word>
95 | <word>vos</word>
96 |  </grader-tc>
97 | </dictionary>
98 | 


--------------------------------------------------------------------------------
/ext/ots/libots/grader-tc.h:
--------------------------------------------------------------------------------
 1 | /*
 2 |  *  grader-tc.h
 3 |  *
 4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
 5 |  *
 6 |  *  This program is free software; you can redistribute it and/or modify
 7 |  *  it under the terms of the GNU General Public License as published by
 8 |  *  the Free Software Foundation; either version 2 of the License, or
 9 |  *  (at your option) any later version.
10 |  *
11 |  *  This program is distributed in the hope that it will be useful,
12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14 |  *  GNU Library General Public License for more details.
15 |  *
16 |  *  You should have received a copy of the GNU General Public License
17 |  *  along with this program; if not, write to the Free Software
18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
19 |  */
20 | 
21 | #ifndef HAVE_GRADERTC_H
22 | #define HAVE_GRADERTC_H
23 | 
24 | 
25 | #include <glib.h>
26 | #include "libots.h"
27 | 
28 | G_BEGIN_DECLS 
29 | 
30 | 
31 | typedef struct
32 | {
33 |   gchar *word;    /* the word */
34 |   gchar *stem;    /*stem of the word*/
35 |   gint occ;			/* how many times have we seen this word in the text? */
36 | } OtsWordEntery;
37 | 
38 | /*Word list manipulations*/
39 | void ots_free_wordlist (GList *aList);
40 | 
41 | 
42 | 
43 | OtsWordEntery *ots_copy_wordEntery (OtsWordEntery * obj);
44 | OtsWordEntery *ots_new_wordEntery (unsigned const char *wordString);
45 | OtsWordEntery *ots_new_wordEntery_strip (unsigned const char *wordString,const OtsStemRule *rule);
46 | void ots_free_wordEntery (OtsWordEntery * WC);
47 | 
48 | GList *ots_sort_list (GList* aList);
49 | GList *ots_union_list (const GList *aLst, const GList * bLst);
50 | 
51 | char *ots_word_in_list (const GList *aList,const int index);
52 | char *ots_stem_in_list (const GList *aList,const int index);
53 | void ots_add_wordstat (OtsArticle * Doc,unsigned const char *wordString);
54 | 
55 | 
56 | /*grader*/
57 | 
58 | void ots_grade_doc_tc (OtsArticle * Doc);
59 | 
60 | G_END_DECLS
61 | 
62 | 
63 | 
64 | #endif /* HAVE_GRADERTC_H */
65 | 


--------------------------------------------------------------------------------
/dictionaries/uk.xml:
--------------------------------------------------------------------------------
 1 | <?xml version="1.0"?>
 2 | <dictionary lang="ukranian">
 3 |  <stemmer>
 4 |      <step1_pre> 
 5 | 	  <rule>"|</rule> 
 6 | 	  <rule>(|</rule> 
 7 | 	 </step1_pre>
 8 | 	 
 9 | 	 
10 |     <step1_post>
11 |       <rule>."|</rule> 
12 | 	  <rule>,"|</rule> 
13 | 	  <rule>.|</rule>
14 | 	  <rule>,|</rule> 
15 | 	  <rule>"|</rule>
16 | 	  <rule>)|</rule> 
17 | 	  <rule>?|</rule> 
18 | 	  <rule>:|</rule> 
19 | 	  <rule>;|</rule> 
20 | 	  <rule>!|</rule> 
21 | 	 </step1_post>
22 |   
23 |   
24 |     <manual>
25 | 	  <rule>wrote|write</rule>
26 | 	  <rule>came|come</rule> 
27 | 	  <rule>went|go</rule>
28 | 	 </manual>
29 | 	 
30 |     <post>
31 |        <rule>before1|1after</rule>
32 |     </post>
33 |    <pre>
34 |        <rule>before1|1after</rule>
35 |    </pre> 
36 |   </stemmer>
37 |    <parser>
38 |     
39 |  	 <linebreak>
40 | 	  <rule>."</rule>
41 | 	  <rule>?"</rule>
42 | 	  <rule>!"</rule>
43 | 	  <rule>,"</rule>
44 | 	  <rule>.</rule>
45 | 	  <rule>?</rule>  
46 | 	  <rule>;</rule>
47 | 	  <rule>|</rule>
48 | 	  <rule>!</rule>  
49 | 	 </linebreak>
50 | 	 
51 |  	 <linedontbreak>
52 | 	  <rule>Dr.</rule>
53 | 	  <rule>Mr.</rule>  
54 | 	  <rule>Mrs.</rule>
55 | 	  <rule>U.S.</rule>  
56 | 	  <rule>Rep.</rule>  
57 | 	  <rule>Sen.</rule>  
58 | 	 </linedontbreak>
59 |    </parser>
60 |  <grader-tc>
61 | <word>іноді</word>
62 | <word>відкіля</word>
63 | <word>вітаю</word>
64 | <word>два</word>
65 | <word>де</word>
66 | <word>з</word>
67 | <word>завжди</word>
68 | <word>зараз</word>
69 | <word>ким</word>
70 | <word>коли</word>
71 | <word>котрий</word>
72 | <word>куди</word>
73 | <word>ні</word>
74 | <word>ніколи</word>
75 | <word>нікуди</word>
76 | <word>навіщо</word>
77 | <word>нагорі</word>
78 | <word>незабаром</word>
79 | <word>нуль</word>
80 | <word>один</word>
81 | <word>позаду</word>
82 | <word>скільки</word>
83 | <word>сюди</word>
84 | <word>так</word>
85 | <word>там</word>
86 | <word>тоді</word>
87 | <word>туди</word>
88 | <word>тут</word>
89 | <word>унизу</word>
90 | <word>усе</word>
91 | <word>хто</word>
92 | <word>часто</word>
93 | <word>чому</word>
94 | <word>що</word>
95 | <word>як</word>
96 | <word>який</word>
97 |  </grader-tc>
98 | </dictionary>
99 | 


--------------------------------------------------------------------------------
/README.md:
--------------------------------------------------------------------------------
 1 | # OTS
 2 | 
 3 | ots is an interface to libots - The [Open Text Summarizer](http://libots.sourceforge.net/).
 4 | 
 5 | ## Dependencies
 6 | 
 7 |   * ruby 1.9.1 or later
 8 |   * libxml2
 9 |   * glib2.0
10 |   * homebrew (on MacOSX)
11 | 
12 | ## Installation
13 | 
14 | ### Debian flavors of Linux
15 | 
16 | ```
17 | 
18 |   # ruby & ruby development libraries (not needed if you use rvm)
19 |   sudo apt-get install ruby1.9.1-dev ruby1.9.1
20 | 
21 |   # libxml2 and glib development libraries
22 |   sudo apt-get install libxml2-dev libglib2.0-dev
23 | 
24 |   # install ots
25 |   gem install ots
26 | 
27 | ```
28 | 
29 | ### MacOSX
30 | 
31 | 
32 | ```
33 | 
34 |  # update homebrew to latest & greatest version
35 |  GIT_SSL_NO_VERIFY=1 brew update
36 | 
37 |  # optional: macosx normally has libxml2 installed if not try
38 |  brew install libxml2
39 | 
40 |  # install glib
41 |  brew install glib
42 | 
43 |  # setup the environment variables in order to install ots
44 |  export CPPFLAGS=-I/usr/local/Cellar/glib/2.30.2/include/glib-2.0/
45 |  export LDFLAGS=-L/usr/local/Cellar/glib/2.30.2/lib/
46 |  export PKG_CONFIG_PATH=/usr/local/Cellar/glib/2.30.2/lib/pkgconfig/
47 |  
48 |  # install ots
49 |  gem install ots
50 | 
51 | ```
52 | 
53 | ## API
54 | 
55 | ```
56 |   OTS
57 |     .parse        #=> OTS::Article
58 |     .languages    #=> Array
59 | 
60 |   OTS::Article
61 |     .new
62 |     #topics       #=> Array
63 |     #keywords     #=> Array
64 |     #summarize    #=> Array
65 | 
66 | ```
67 | 
68 | ## Usage
69 | 
70 | ```ruby
71 |   require 'ots'
72 |   article = OTS.parse("I think I need some ice cream to cool me off. It is too hot down under")
73 |   article = OTS.parse("j'ai besoin de la crème glacée. il fait trop chaud en australie.", language: "fr")
74 |   article = OTS.parse("j'ai besoin de la crème glacée. il fait trop chaud en australie.", dictionary: "custom.xml")
75 | 
76 |   article.topics
77 |   article.keywords
78 |   article.summarize(percent: 50)
79 |   article.summarize(sentences: 1)
80 | 
81 |   OTS.languages #=> list of supported language dictionaries baked-in to libots
82 | ```
83 | 
84 | ## See Also
85 | 
86 | [https://github.com/ssoper/summarize](https://github.com/ssoper/summarize)
87 | 
88 | ## License
89 | 
90 | MIT
91 | 


--------------------------------------------------------------------------------
/dictionaries/bg.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="bulgarian">
  3 |  <stemmer>
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 |   
 23 |   
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 |   
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |       <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>август</word>
 62 | <word>април</word>
 63 | <word>в</word>
 64 | <word>всеки</word>
 65 | <word>всичко</word>
 66 | <word>вторник</word>
 67 | <word>да</word>
 68 | <word>декември</word>
 69 | <word>за</word>
 70 | <word>и</word>
 71 | <word>или</word>
 72 | <word>има</word>
 73 | <word>което</word>
 74 | <word>към</word>
 75 | <word>май</word>
 76 | <word>март</word>
 77 | <word>на</word>
 78 | <word>не</word>
 79 | <word>неделя</word>
 80 | <word>ноември</word>
 81 | <word>октомври</word>
 82 | <word>от</word>
 83 | <word>петък</word>
 84 | <word>по</word>
 85 | <word>понеделник</word>
 86 | <word>при</word>
 87 | <word>с</word>
 88 | <word>септември</word>
 89 | <word>сряда</word>
 90 | <word>сто</word>
 91 | <word>събота</word>
 92 | <word>трябва</word>
 93 | <word>февруари</word>
 94 | <word>хиляда</word>
 95 | <word>че</word>
 96 | <word>четвъртък</word>
 97 | <word>юли</word>
 98 | <word>юни</word>
 99 | <word>януари</word>
100 |  </grader-tc>
101 | </dictionary>
102 | 


--------------------------------------------------------------------------------
/dictionaries/fi.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="finnish">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 |  
 23 |  
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 | 	 
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>ehkä</word>
 62 | <word>enemmän</word>
 63 | <word>että</word>
 64 | <word>he</word>
 65 | <word>hei</word>
 66 | <word>hän</word>
 67 | <word>ja</word>
 68 | <word>jahka</word>
 69 | <word>joo</word>
 70 | <word>joskus</word>
 71 | <word>jotta</word>
 72 | <word>kaikki</word>
 73 | <word>kuinka</word>
 74 | <word>kun</word>
 75 | <word>me</word>
 76 | <word>mikä</word>
 77 | <word>minä</word>
 78 | <word>miten</word>
 79 | <word>mutta</word>
 80 | <word>myös</word>
 81 | <word>ne</word>
 82 | <word>no</word>
 83 | <word>nyt</word>
 84 | <word>olen</word>
 85 | <word>paitsi</word>
 86 | <word>sekä</word>
 87 | <word>siis</word>
 88 | <word>sillä</word>
 89 | <word>sinä</word>
 90 | <word>tahi</word>
 91 | <word>tahikka</word>
 92 | <word>tai</word>
 93 | <word>taikka</word>
 94 | <word>te</word>
 95 | <word>tällä</word>
 96 | <word>tämä</word>
 97 | <word>tässä</word>
 98 | <word>vaan</word>
 99 | <word>vai</word>
100 | <word>vain</word>
101 | <word>vasta</word>
102 | <word>vielä</word>
103 | <word>yli</word>
104 |  </grader-tc>
105 | </dictionary>
106 | 


--------------------------------------------------------------------------------
/ext/ots/libots/grader.c:
--------------------------------------------------------------------------------
 1 | /*
 2 |  *  grader.c
 3 |  *
 4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
 5 |  * 
 6 |  *  This program is free software; you can redistribute it and/or modify
 7 |  *  it under the terms of the GNU General Public License as published by
 8 |  *  the Free Software Foundation; either version 2 of the License, or
 9 |  *  (at your option) any later version.
10 |  *
11 |  *  This program is distributed in the hope that it will be useful,
12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14 |  *  GNU Library General Public License for more details.
15 |  *
16 |  *  You should have received a copy of the GNU General Public License
17 |  *  along with this program; if not, write to the Free Software
18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
19 |  */
20 | 
21 | #include <stdio.h>
22 | #include <stdlib.h>
23 | #include <string.h>
24 | #include "libots.h"
25 | 
26 | extern void ots_grade_doc_tc (OtsArticle * Doc);
27 | 
28 | /*Grader driver - will call one of the grading algorithm*/
29 | 
30 | 
31 | 
32 | void
33 | ots_grade_structure (OtsArticle * Doc) /*must be called after the first grader*/
34 | {
35 |   GList *li;
36 |   GList *first;
37 |   GList *second;
38 |   OtsSentence *first_line=NULL;
39 | 
40 |   first = NULL;
41 |   second = NULL;
42 | 
43 |  if (Doc==NULL) return;
44 |   
45 |  if (Doc->lines!=NULL) 
46 |   first_line= ((OtsSentence *) (Doc->lines->data));
47 |   if (NULL!=first_line) first_line->score *= 2;	/*first line/title is very important so we increase its score */
48 | 
49 |  	 /*This loop will *1.6 the score of each line that
50 |  	 starts with \n \n , in other words a new paragraph*/
51 |  
52 |   for (li = (GList *) Doc->lines; li != NULL; li = li->next)
53 |   {
54 |       OtsSentence *aLine = (li->data);
55 |       if (NULL != aLine)	/*line is there */
56 | 		{
57 | 		  first = aLine->words;	/*first word? */
58 | 		  if (NULL != first)
59 | 	  	  second = first->next;	/*second word? */
60 | 	  		if ((NULL != first) && (NULL != second))	/*have content? */
61 | 	    	if (strcmp (first->data, "\n") && strcmp (second->data, "\n"))	/*new paragraph? */
62 | 	   		  	 aLine->score *= 1.6;
63 | 		}
64 | 
65 |   }
66 | 
67 | }
68 | 
69 | /** 
70 | Each grader needs to do:
71 | 1.give a ->score to each line 
72 | 2.Set the ->title of the document
73 | **/
74 | 
75 | void
76 | ots_grade_doc (OtsArticle * Doc)
77 | {
78 | 
79 |  if (Doc==NULL) return;
80 |   ots_grade_doc_tc(Doc);  /*Term count*/
81 | 
82 | 	/* or   ots_grade_doc_fc (Doc); Term Frequency  */
83 | 		
84 |   ots_grade_structure (Doc);
85 | }
86 | 


--------------------------------------------------------------------------------
/dictionaries/cy.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="welsh">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 |  
 23 |  
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 | 	 
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>a</word>
 62 | <word>â</word>
 63 | <word>ac</word>
 64 | <word>achos</word>
 65 | <word>am</word>
 66 | <word>ar</word>
 67 | <word>at</word>
 68 | <word>chi</word>
 69 | <word>dau</word>
 70 | <word>dim</word>
 71 | <word>diolch</word>
 72 | <word>dwy</word>
 73 | <word>e</word>
 74 | <word>ei</word>
 75 | <word>eto</word>
 76 | <word>fe</word>
 77 | <word>fi</word>
 78 | <word>gan</word>
 79 | <word>ger</word>
 80 | <word>gyda</word>
 81 | <word>heb</word>
 82 | <word>heblaw</word>
 83 | <word>hefyd</word>
 84 | <word>hi</word>
 85 | <word>hon</word>
 86 | <word>hwn</word>
 87 | <word>i</word>
 88 | <word>iawn</word>
 89 | <word>mewn</word>
 90 | <word>na</word>
 91 | <word>neb</word>
 92 | <word>nes</word>
 93 | <word>nhw</word>
 94 | <word>ni</word>
 95 | <word>o</word>
 96 | <word>ond</word>
 97 | <word>os</word>
 98 | <word>paham</word>
 99 | <word>pam</word>
100 | <word>pe</word>
101 | <word>popeth</word>
102 | <word>pwy</word>
103 | <word>rhag</word>
104 | <word>ti</word>
105 | <word>trwy</word>
106 | <word>un</word>
107 | <word>unwaith</word>
108 | <word>wedi</word>
109 | <word>wedyn</word>
110 | <word>weithiau</word>
111 | <word>wrth</word>
112 | <word>ychydig</word>
113 | <word>ymhlith</word>
114 | <word>ymlaen</word>
115 | <word>yn</word>
116 | <word>yrŵan</word>
117 |  </grader-tc>
118 | </dictionary>
119 | 


--------------------------------------------------------------------------------
/ots.gemspec:
--------------------------------------------------------------------------------
 1 | # -*- encoding: utf-8 -*-
 2 | 
 3 | Gem::Specification.new do |s|
 4 |   s.name = %q{ots}
 5 |   s.version = "0.5.4"
 6 | 
 7 |   s.required_rubygems_version = Gem::Requirement.new(">= 0") if s.respond_to? :required_rubygems_version=
 8 |   s.authors = ["Bharanee Rathna"]
 9 |   s.date = %q{2012-02-03}
10 |   s.description = %q{Ruby interface to libots libraries for unix.}
11 |   s.email = ["deepfryed@gmail.com"]
12 |   s.extensions = ["ext/ots/extconf.rb"]
13 |   s.files = ["ext/ots/ots.c", "ext/ots/libots/text.c", "ext/ots/libots/grader-tf.c", "ext/ots/libots/stemmer.c", "ext/ots/libots/article.c", "ext/ots/libots/grader-tc.c", "ext/ots/libots/html.c", "ext/ots/libots/grader.c", "ext/ots/libots/relations.c", "ext/ots/libots/parser.c", "ext/ots/libots/dictionary.c", "ext/ots/libots/highlighter.c", "ext/ots/libots/wordlist.c", "ext/ots/ots.h", "ext/ots/version.h", "ext/ots/libots/grader-tc.h", "ext/ots/libots/libots.h", "ext/ots/extconf.rb", "test/test_article.rb", "test/test_ots.rb", "test/helper.rb", "test/test_grader.rb", "lib/ots.rb", "lib/ots/grader.rb", "README.md", "CHANGELOG", "dictionaries/cy.xml", "dictionaries/tr.xml", "dictionaries/fr.xml", "dictionaries/yi.xml", "dictionaries/ms.xml", "dictionaries/ia.xml", "dictionaries/lv.xml", "dictionaries/gl.xml", "dictionaries/cs.xml", "dictionaries/sv.xml", "dictionaries/is.xml", "dictionaries/fi.xml", "dictionaries/bg.xml", "dictionaries/uk.xml", "dictionaries/et.xml", "dictionaries/tl.xml", "dictionaries/da.xml", "dictionaries/it.xml", "dictionaries/ru.xml", "dictionaries/nl.xml", "dictionaries/eo.xml", "dictionaries/mi.xml", "dictionaries/ro.xml", "dictionaries/pl.xml", "dictionaries/ga.xml", "dictionaries/he.xml", "dictionaries/mt.xml", "dictionaries/eu.xml", "dictionaries/hu.xml", "dictionaries/en.xml", "dictionaries/de.xml", "dictionaries/el.xml", "dictionaries/pt.xml", "dictionaries/ca.xml", "dictionaries/es.xml", "dictionaries/nn.xml", "dictionaries/id.xml"]
14 |   s.homepage = %q{http://github.com/deepfryed/ots}
15 |   s.require_paths = ["lib", "ext"]
16 |   s.rubygems_version = %q{1.3.7}
17 |   s.summary = %q{Open Text Summarizer interface for Ruby.}
18 | 
19 |   if s.respond_to? :specification_version then
20 |     current_version = Gem::Specification::CURRENT_SPECIFICATION_VERSION
21 |     s.specification_version = 3
22 | 
23 |     if Gem::Version.new(Gem::VERSION) >= Gem::Version.new('1.2.0') then
24 |       s.add_development_dependency(%q<rake>, [">= 0"])
25 |       s.add_development_dependency(%q<rake-compiler>, [">= 0"])
26 |     else
27 |       s.add_dependency(%q<rake>, [">= 0"])
28 |       s.add_dependency(%q<rake-compiler>, [">= 0"])
29 |     end
30 |   else
31 |     s.add_dependency(%q<rake>, [">= 0"])
32 |     s.add_dependency(%q<rake-compiler>, [">= 0"])
33 |   end
34 | end
35 | 


--------------------------------------------------------------------------------
/test/test_article.rb:
--------------------------------------------------------------------------------
 1 | # encoding: utf-8
 2 | require 'helper'
 3 | 
 4 | describe 'OTS::Article' do
 5 |   before do
 6 |     @sample = <<-TEXT
 7 |       The hawksbill turtle is a critically endangered sea turtle belonging to the family Cheloniidae.
 8 |       It is the only species in its genus. The species has a worldwide distribution, with Atlantic and
 9 |       Pacific subspecies.
10 |     TEXT
11 | 
12 |     @article = OTS::Article.new(@sample)
13 |   end
14 | 
15 |   it 'should extract topic keywords from given document' do
16 |     assert_equal %w(species turtle subspecies pacific atlantic), @article.topics
17 |   end
18 | 
19 |   it 'should extract keywords from given document' do
20 |     expect = %w{
21 |       species turtle subspecies pacific atlantic distribution worldwide genus cheloniidae family
22 |       belonging sea endangered critically hawksbill
23 |     }
24 | 
25 |     assert_equal expect, @article.keywords
26 |   end
27 | 
28 | 
29 |   it 'should summarize sentences from given document' do
30 |     lines  = @article.summarize(sentences: 2).map {|line| [line[:sentence].gsub(/\s+/, ' ').strip, line[:score]]}
31 |     expect = [
32 |       ["The hawksbill turtle is a critically endangered sea turtle belonging to the family Cheloniidae.", 48],
33 |       ["The species has a worldwide distribution, with Atlantic and Pacific subspecies.", 20],
34 |     ]
35 | 
36 |     assert_equal expect, lines
37 |   end
38 | 
39 |   it 'should utf8 encode strings properly' do
40 |     text    = "The hawksbill turtle\xE2\x80\x93is critically endangered.".force_encoding('utf-8')
41 |     article = OTS.parse(text)
42 |     summary = article.summarize(sentences: 1).first[:sentence]
43 |     assert_equal text, summary
44 |   end
45 | 
46 |   describe 'dictionaries' do
47 |     before do
48 |       @text = "j'ai besoin de la crème glacée. il fait trop chaud en australie."
49 |     end
50 | 
51 |     it 'should load the french dictionary' do
52 |       article = OTS.parse(@text, language: "fr")
53 |       assert_equal "j'ai besoin de la crème glacée.", article.summarize(sentences: 1).first[:sentence]
54 |     end
55 | 
56 |     it 'should load the french dictionary given path' do
57 |       article = OTS.parse(@text, dictionary: File.join(File.dirname(__FILE__), '..', 'dictionaries', 'fr.xml'))
58 |       assert_equal "j'ai besoin de la crème glacée.", article.summarize(sentences: 1).first[:sentence]
59 |     end
60 | 
61 |     it 'should raise LoadError on invalid language or dictionaries' do
62 |       assert_raises(LoadError) do
63 |         OTS.parse('hello world', language: "xxx")
64 |       end
65 | 
66 |       assert_raises(LoadError) do
67 |         OTS.parse('hello world', dictionary: "xxx")
68 |       end
69 | 
70 |       assert_raises(LoadError) do
71 |         OTS.parse('hello world', dictionary: __FILE__)
72 |       end
73 |     end
74 |   end
75 | end
76 | 


--------------------------------------------------------------------------------
/dictionaries/ga.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="irish">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <manual>
 11 | 	  <rule>wrote|write</rule>
 12 | 	  <rule>came|come</rule> 
 13 | 	  <rule>went|go</rule>
 14 | 	 </manual>
 15 | 	 
 16 |     <step1_post>
 17 |       <rule>."|</rule> 
 18 | 	  <rule>,"|</rule> 
 19 | 	  <rule>.|</rule>
 20 | 	  <rule>,|</rule> 
 21 | 	  <rule>"|</rule>
 22 | 	  <rule>)|</rule> 
 23 | 	  <rule>?|</rule> 
 24 | 	  <rule>:|</rule> 
 25 | 	  <rule>;|</rule> 
 26 | 	  <rule>!|</rule> 
 27 | 	 </step1_post>
 28 |  
 29 |     <post>
 30 |        <rule>before1|1after</rule>
 31 |     </post>
 32 |    <pre>
 33 |        <rule>before1|1after</rule>
 34 |    </pre> 
 35 |   </stemmer>
 36 |    <parser>
 37 |     
 38 |  	 <linebreak>
 39 | 	  <rule>."</rule>
 40 | 	  <rule>?"</rule>
 41 | 	  <rule>!"</rule>
 42 | 	  <rule>,"</rule>
 43 | 	  <rule>.</rule>
 44 | 	  <rule>?</rule>  
 45 | 	  <rule>;</rule>
 46 | 	  <rule>|</rule>
 47 | 	  <rule>!</rule>  
 48 | 	 </linebreak>
 49 | 	 
 50 |  	 <linedontbreak>
 51 | 	  <rule>Dr.</rule>
 52 | 	  <rule>Mr.</rule>  
 53 | 	  <rule>Mrs.</rule>
 54 | 	  <rule>U.S.</rule>  
 55 | 	  <rule>Rep.</rule>  
 56 | 	  <rule>Sen.</rule>  
 57 | 	 </linedontbreak>
 58 |    </parser>
 59 |  <grader-tc>
 60 | <word>a</word>
 61 | <word>ach</word>
 62 | <word>acu</word>
 63 | <word>agaibh</word>
 64 | <word>againn</word>
 65 | <word>agam</word>
 66 | <word>agat</word>
 67 | <word>agus</word>
 68 | <word>aici</word>
 69 | <word>an</word>
 70 | <word>anois</word>
 71 | <word>anseo</word>
 72 | <word>aois</word>
 73 | <word>aon</word>
 74 | <word>cad</word>
 75 | <word>conas</word>
 76 | <word>de</word>
 77 | <word>dhá</word>
 78 | <word>do</word>
 79 | <word>dó</word>
 80 | <word>dol</word>
 81 | <word>é</word>
 82 | <word>faic</word>
 83 | <word>féad</word>
 84 | <word>fós</word>
 85 | <word>freisin</word>
 86 | <word>gach</word>
 87 | <word>gairid</word>
 88 | <word>gan</word>
 89 | <word>i</word>
 90 | <word>í</word>
 91 | <word>iad</word>
 92 | <word>iadsan</word>
 93 | <word>iomarca</word>
 94 | <word>istigh</word>
 95 | <word>le</word>
 96 | <word>mé</word>
 97 | <word>mise</word>
 98 | <word>mo</word>
 99 | <word>muid</word>
100 | <word>ná</word>
101 | <word>naid</word>
102 | <word>náid</word>
103 | <word>ó</word>
104 | <word>óir</word>
105 | <word>seisean</word>
106 | <word>seo</word>
107 | <word>siadsan</word>
108 | <word>sibh</word>
109 | <word>sibhse</word>
110 | <word>sinne</word>
111 | <word>tá</word>
112 | <word>tagann</word>
113 | <word>tagtha</word>
114 | <word>téann</word>
115 | <word>téigh</word>
116 | <word>thall</word>
117 | <word>thíos</word>
118 | <word>thuas</word>
119 | <word>timpeall</word>
120 | <word>tusa</word>
121 | <word>uiareanta</word>
122 | <word>uile</word>
123 |  </grader-tc>
124 | </dictionary>
125 | 


--------------------------------------------------------------------------------
/dictionaries/da.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="danish">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 | 	 
 23 | 	 
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 |  
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>aldrig</word>
 62 | <word>anden</word>
 63 | <word>at</word>
 64 | <word>burde</word>
 65 | <word>de</word>
 66 | <word>den</word>
 67 | <word>der</word>
 68 | <word>det</word>
 69 | <word>dig</word>
 70 | <word>du</word>
 71 | <word>eller</word>
 72 | <word>en</word>
 73 | <word>er</word>
 74 | <word>et</word>
 75 | <word>fordi</word>
 76 | <word>fra</word>
 77 | <word>før</word>
 78 | <word>første</word>
 79 | <word>gide</word>
 80 | <word>ham</word>
 81 | <word>han</word>
 82 | <word>har</word>
 83 | <word>hej</word>
 84 | <word>hende</word>
 85 | <word>hun</word>
 86 | <word>hvad</word>
 87 | <word>hvem</word>
 88 | <word>hvilke</word>
 89 | <word>hvilken</word>
 90 | <word>hvilket</word>
 91 | <word>hvis</word>
 92 | <word>hvor</word>
 93 | <word>hvordan</word>
 94 | <word>hvorfor</word>
 95 | <word>hvornår</word>
 96 | <word>i</word>
 97 | <word>ikke</word>
 98 | <word>ingen</word>
 99 | <word>ingenting</word>
100 | <word>ja</word>
101 | <word>jeg</word>
102 | <word>kan</word>
103 | <word>kunne</word>
104 | <word>kunne</word>
105 | <word>med</word>
106 | <word>men</word>
107 | <word>mens</word>
108 | <word>mere</word>
109 | <word>mest</word>
110 | <word>mig</word>
111 | <word>min</word>
112 | <word>måtte</word>
113 | <word>nej</word>
114 | <word>nogen</word>
115 | <word>noget</word>
116 | <word>når</word>
117 | <word>og</word>
118 | <word>om</word>
119 | <word>sig</word>
120 | <word>skulle</word>
121 | <word>som</word>
122 | <word>så</word>
123 | <word>tit</word>
124 | <word>to</word>
125 | <word>turde</word>
126 | <word>vi</word>
127 | <word>ville</word>
128 |  </grader-tc>
129 | </dictionary>
130 | 


--------------------------------------------------------------------------------
/ext/ots/libots/text.c:
--------------------------------------------------------------------------------
 1 | /*
 2 |  *  text.c
 3 |  *
 4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
 5 |  *
 6 |  *  This program is free software; you can redistribute it and/or modify
 7 |  *  it under the terms of the GNU General Public License as published by
 8 |  *  the Free Software Foundation; either version 2 of the License, or
 9 |  *  (at your option) any later version.
10 |  *
11 |  *  This program is distributed in the hope that it will be useful,
12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14 |  *  GNU Library General Public License for more details.
15 |  *
16 |  *  You should have received a copy of the GNU General Public License
17 |  *  along with this program; if not, write to the Free Software
18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
19 |  */
20 | 
21 | #include <stdio.h>
22 | #include <stdlib.h>
23 | #include <string.h>
24 | 
25 | #include "libots.h"
26 | 
27 | unsigned char *
28 | ots_get_line_text (const OtsSentence * aLine, gboolean only_if_selected, size_t * out_size)
29 | {
30 |   GList *li;
31 |   GString *text;
32 |   unsigned char *utf8_data;
33 | 
34 |   if (!(aLine))
35 |     return NULL;
36 | 
37 |   text = g_string_new (NULL);
38 | 
39 |   if (!only_if_selected || aLine->selected)
40 |     {
41 |       for (li = (GList *) aLine->words; li != NULL; li = li->next)	/* for each word in the sentence Do: */
42 | 			if (li->data && strlen (li->data)) /*if word exists*/
43 | 	  			g_string_append (text, (char *) li->data);
44 | 			
45 |     }
46 |     
47 |   if (out_size)
48 |     *out_size = text->len;
49 | 
50 |   utf8_data = text->str;
51 |   g_string_free (text, FALSE);
52 | 
53 |   return utf8_data;
54 | }
55 | 
56 | static void
57 | ots_print_line (FILE * stream, const OtsSentence * aLine)
58 | {
59 |   unsigned char *utf8_txt;
60 |   size_t len;
61 |   utf8_txt = ots_get_line_text (aLine, TRUE, &len);
62 |   fwrite (utf8_txt, 1, len, stream);
63 |   g_free (utf8_txt);
64 | }
65 | 
66 | unsigned char *
67 | ots_get_doc_text (const OtsArticle * Doc, size_t * out_len)
68 | {
69 |   GList *li;
70 |   GString *text;
71 |   unsigned char *utf8_data;
72 |   size_t line_len;
73 | 
74 |   text = g_string_new (NULL);
75 | 
76 |   for (li = (GList *) Doc->lines; li != NULL; li = li->next)
77 |     {
78 |       utf8_data = ots_get_line_text ((OtsSentence *) li->data, TRUE, &line_len);
79 |       g_string_append_len (text, utf8_data, line_len);
80 |       g_free (utf8_data);
81 |     }
82 | 
83 |   if (out_len)
84 |     *out_len = text->len;
85 |   utf8_data = text->str;
86 | 
87 |   g_string_free (text, FALSE);
88 |   return utf8_data;
89 | }
90 | 
91 | void
92 | ots_print_doc (FILE * stream, const OtsArticle * Doc)
93 | {
94 |   GList *li;
95 |   for (li = (GList *) Doc->lines; li != NULL; li = li->next)	/* for each line in Article Do: */
96 |     ots_print_line (stream, (OtsSentence *) li->data);
97 |   fputc ('\n', stream);
98 | }
99 | 


--------------------------------------------------------------------------------
/ext/ots/libots/grader-tf.c:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  grader-tf.c
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  * 
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 | 
 21 | #include <stdio.h>
 22 | #include <stdlib.h>
 23 | #include <string.h>
 24 | #include "libots.h"
 25 | 
 26 | /*Grader - using the Term frequency algorithm. Will give each line a score*/
 27 | 
 28 | 
 29 | 
 30 | OtsWordTF* 
 31 | ots_new_OtsWordTF(const char* word,const double tf)
 32 | {
 33 |  OtsWordTF* obj=g_new0(OtsWordTF,1);
 34 |  if (word!=NULL) obj->word=g_strdup(word);
 35 |  obj->tf=tf;
 36 |  return obj;
 37 | }
 38 | 
 39 | void 
 40 | ots_free_OtsWordTF(OtsWordTF *obj)
 41 | {
 42 |  if (obj!=NULL)
 43 |   {
 44 |    if (obj->word!=NULL) g_free(obj->word);
 45 |    g_free(obj);
 46 |   }
 47 | }
 48 | 
 49 | void
 50 | ots_free_TF_wordlist (GList * aList)
 51 | {  
 52 |   if (aList != NULL)
 53 |     {
 54 |   		 	g_list_foreach(aList,(GFunc)ots_free_OtsWordTF, NULL);
 55 |     			g_list_free(aList);
 56 |     }
 57 | }
 58 | 
 59 | 
 60 | void 
 61 | ots_grade_line_tf (OtsSentence * aLine)
 62 | {
 63 | 
 64 | return;
 65 | }
 66 |       
 67 | 
 68 | 
 69 | void
 70 | ots_grade_doc_tf (OtsArticle * Doc)
 71 | {
 72 | 
 73 |  GList *li;
 74 |   
 75 |   /*Load tf list*/
 76 |   /*Load idf list*/
 77 |     
 78 |  if (0 == Doc->lineCount) return;
 79 | 
 80 |   for (li = (GList *) Doc->lines; li != NULL; li = li->next)
 81 |     {
 82 |       ots_grade_line_tf ((OtsSentence *) li->data /* , tf list , idf list*/);
 83 |     }
 84 |     
 85 | return; 
 86 | }
 87 | 
 88 | 
 89 | double
 90 | ots_tf_word_score (const double tf,const double idf)
 91 | /*IDF: how rare is word across the collection
 92 |   TF: how often is word in doc */
 93 | {
 94 | 
 95 | return tf*idf; 
 96 | }
 97 | 
 98 | /*
 99 | Determine frequency of query words
100 | n = (num-of-sentences words appears in) 
101 | N = (total-number-of-sentences)
102 | f = n/N
103 | */
104 | 
105 | double
106 | ots_calc_idf (const int term_count,const int doc_word_count)
107 | {
108 | return -log(doc_word_count/term_count);
109 | }
110 | 
111 | double
112 | ots_calc_tf (const int term_count,const int doc_word_count)
113 | {
114 | if (term_count==0) return 0; else 
115 | return 0.5+0.5*(doc_word_count/term_count);
116 | }
117 | 


--------------------------------------------------------------------------------
/dictionaries/ca.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="catalan">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 |  
 23 |  
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 | 	 
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>a</word>
 62 | <word>abans</word>
 63 | <word>al</word>
 64 | <word>amb</word>
 65 | <word>ambdós</word>
 66 | <word>anar</word>
 67 | <word>ara</word>
 68 | <word>baix</word>
 69 | <word>cap</word>
 70 | <word>cert</word>
 71 | <word>com</word>
 72 | <word>cuál</word>
 73 | <word>damunt</word>
 74 | <word>de</word>
 75 | <word>dins</word>
 76 | <word>doble</word>
 77 | <word>dos</word>
 78 | <word>dues</word>
 79 | <word>el</word>
 80 | <word>ell</word>
 81 | <word>ella</word>
 82 | <word>elles</word>
 83 | <word>ells</word>
 84 | <word>els</word>
 85 | <word>en</word>
 86 | <word>ésser</word>
 87 | <word>estar</word>
 88 | <word>excepte</word>
 89 | <word>jo</word>
 90 | <word>la</word>
 91 | <word>les</word>
 92 | <word>lluny</word>
 93 | <word>lo</word>
 94 | <word>los</word>
 95 | <word>mai</word>
 96 | <word>me</word>
 97 | <word>meu</word>
 98 | <word>meus</word>
 99 | <word>meva</word>
100 | <word>meves</word>
101 | <word>mí</word>
102 | <word>na</word>
103 | <word>nos</word>
104 | <word>nosaltres</word>
105 | <word>nostra</word>
106 | <word>nostre</word>
107 | <word>nostres</word>
108 | <word>qual</word>
109 | <word>quals</word>
110 | <word>quan</word>
111 | <word>quelcom</word>
112 | <word>quin</word>
113 | <word>quina</word>
114 | <word>quines</word>
115 | <word>quins</word>
116 | <word>se</word>
117 | <word>ser</word>
118 | <word>seu</word>
119 | <word>seus</word>
120 | <word>seva</word>
121 | <word>seves</word>
122 | <word>sí</word>
123 | <word>tenir</word>
124 | <word>teu</word>
125 | <word>teus</word>
126 | <word>teva</word>
127 | <word>teves</word>
128 | <word>tu</word>
129 | <word>u</word>
130 | <word>un</word>
131 | <word>una</word>
132 | <word>unes</word>
133 | <word>uns</word>
134 | <word>vosaltres</word>
135 | <word>vostè</word>
136 | <word>vostès</word>
137 | <word>vostra</word>
138 | <word>vostre</word>
139 | <word>vostres</word>
140 |  </grader-tc>
141 | </dictionary>
142 | 


--------------------------------------------------------------------------------
/dictionaries/ru.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="russian">
  3 |  <stemmer> 
  4 |  
  5 |      <step1_pre> 
  6 | 	  <rule>"|</rule> 
  7 | 	  <rule>(|</rule> 
  8 | 	 </step1_pre>
  9 | 	 
 10 | 	 
 11 |     <step1_post>
 12 |       <rule>."|</rule> 
 13 | 	  <rule>,"|</rule> 
 14 | 	  <rule>.|</rule>
 15 | 	  <rule>,|</rule> 
 16 | 	  <rule>"|</rule>
 17 | 	  <rule>)|</rule> 
 18 | 	  <rule>?|</rule> 
 19 | 	  <rule>:|</rule> 
 20 | 	  <rule>;|</rule> 
 21 | 	  <rule>!|</rule> 
 22 | 	 </step1_post>
 23 |  
 24 |  
 25 |     <manual>
 26 | 	  <rule>wrote|write</rule>
 27 | 	  <rule>came|come</rule> 
 28 | 	  <rule>went|go</rule>
 29 | 	 </manual>
 30 | 	 
 31 |     <post>
 32 |        <rule>before1|1after</rule>
 33 |     </post>
 34 |    <pre>
 35 |        <rule>before1|1after</rule>
 36 |    </pre> 
 37 |   </stemmer>
 38 |    <parser>
 39 |     
 40 |  	 <linebreak>
 41 | 	  <rule>."</rule>
 42 | 	  <rule>?"</rule>
 43 | 	  <rule>!"</rule>
 44 | 	  <rule>,"</rule>
 45 | 	  <rule>.</rule>
 46 | 	  <rule>?</rule>  
 47 | 	  <rule>;</rule>
 48 | 	  <rule>|</rule>
 49 | 	  <rule>!</rule>  
 50 | 	 </linebreak>
 51 | 	 
 52 |  	 <linedontbreak>
 53 | 	  <rule>Dr.</rule>
 54 | 	  <rule>Mr.</rule>  
 55 | 	  <rule>Mrs.</rule>
 56 | 	  <rule>U.S.</rule>  
 57 | 	  <rule>Rep.</rule>  
 58 | 	  <rule>Sen.</rule>  
 59 | 	 </linedontbreak>
 60 |    </parser>
 61 |  <grader-tc>
 62 | <word>а</word>
 63 | <word>без</word>
 64 | <word>бытовать</word>
 65 | <word>быть</word>
 66 | <word>в</word>
 67 | <word>вещь</word>
 68 | <word>вниз</word>
 69 | <word>внизу</word>
 70 | <word>во</word>
 71 | <word>все</word>
 72 | <word>всегда</word>
 73 | <word>всё</word>
 74 | <word>где</word>
 75 | <word>да</word>
 76 | <word>даже</word>
 77 | <word>два</word>
 78 | <word>две</word>
 79 | <word>для</word>
 80 | <word>должен</word>
 81 | <word>друго</word>
 82 | <word>его</word>
 83 | <word>её</word>
 84 | <word>ей</word>
 85 | <word>ему</word>
 86 | <word>если</word>
 87 | <word>же</word>
 88 | <word>за</word>
 89 | <word>и</word>
 90 | <word>из</word>
 91 | <word>из-за</word>
 92 | <word>или</word>
 93 | <word>им</word>
 94 | <word>к</word>
 95 | <word>каждый</word>
 96 | <word>как</word>
 97 | <word>меня</word>
 98 | <word>мне</word>
 99 | <word>мной</word>
100 | <word>может</word>
101 | <word>на</word>
102 | <word>наверх</word>
103 | <word>наверху</word>
104 | <word>над</word>
105 | <word>не</word>
106 | <word>ней</word>
107 | <word>нет</word>
108 | <word>нём</word>
109 | <word>нигде</word>
110 | <word>никто</word>
111 | <word>ноль</word>
112 | <word>о</word>
113 | <word>оба</word>
114 | <word>обе</word>
115 | <word>одна</word>
116 | <word>одно</word>
117 | <word>около</word>
118 | <word>он</word>
119 | <word>она</word>
120 | <word>оно</word>
121 | <word>от</word>
122 | <word>по</word>
123 | <word>пока</word>
124 | <word>поперёк</word>
125 | <word>после</word>
126 | <word>потом</word>
127 | <word>почему</word>
128 | <word>при</word>
129 | <word>с</word>
130 | <word>скоро</word>
131 | <word>сначала</word>
132 | <word>так</word>
133 | <word>также</word>
134 | <word>тебе</word>
135 | <word>тебя</word>
136 | <word>теперь</word>
137 | <word>тобой</word>
138 | <word>тогда</word>
139 | <word>тоже</word>
140 | <word>только</word>
141 | <word>ты</word>
142 | <word>у</word>
143 | <word>уже</word>
144 | <word>что</word>
145 | <word>чтобы</word>
146 | <word>это</word>
147 | <word>я</word>
148 |  </grader-tc>
149 | </dictionary>
150 | 
151 | 


--------------------------------------------------------------------------------
/ext/ots/libots/article.c:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  article.c
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  * 
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 | 
 21 | #include <stdio.h>
 22 | #include <stdlib.h>
 23 | #include <string.h>
 24 | 
 25 | #include "libots.h"
 26 | #include "grader-tc.h"
 27 | 
 28 | extern void ots_free_TF_wordlist (GList * aList);
 29 | 
 30 | #define MAX_WORD_LENGTH 35
 31 | 
 32 | /*Data structure related functions*/
 33 | 
 34 | OtsSentence *
 35 | ots_new_sentence (void)
 36 | {
 37 |   OtsSentence *aLine = g_new0 (OtsSentence, 1);
 38 |   aLine->words = NULL;
 39 |   aLine->wc = 0;
 40 |   aLine->selected = 0;
 41 |   aLine->score = 0;
 42 |   return aLine;
 43 | }
 44 | 
 45 | void
 46 | ots_free_sentence (OtsSentence * sen)
 47 | {
 48 |   if (sen != NULL)
 49 |     {
 50 |       g_list_foreach (sen->words, (GFunc) g_free, NULL);
 51 |       g_list_free (sen->words);
 52 |       g_free (sen);
 53 |     }
 54 | sen=NULL;
 55 | }
 56 | 
 57 | OtsArticle *
 58 | ots_new_article (void)
 59 | {
 60 |   OtsArticle *Doc;
 61 |   Doc = g_new0 (OtsArticle, 1);
 62 |   Doc->lineCount = 0;
 63 |   Doc->title = NULL;
 64 |   Doc->stem=new_stem_rule ();
 65 |   Doc->lines=NULL;
 66 |   Doc->dict = NULL;
 67 |   Doc->ImpWords = NULL;
 68 |   Doc->wordStat = NULL;
 69 |   
 70 |   Doc->tf_terms=NULL;
 71 |   return Doc;
 72 | }
 73 | 
 74 | void
 75 | ots_free_article (OtsArticle * art)
 76 | {
 77 |   if (NULL != art)
 78 |     {
 79 |       free_stem_rule (art->stem);
 80 |   	   ots_free_wordlist (art->dict);
 81 |   	   ots_free_wordlist (art->ImpWords);
 82 | 	   ots_free_wordlist (art->wordStat);
 83 |       
 84 |       ots_free_TF_wordlist(art->tf_terms);
 85 |       
 86 | 	   g_list_foreach (art->lines, (GFunc) ots_free_sentence, NULL);
 87 |       g_list_free (art->lines);
 88 |       
 89 |       if (art->title != NULL) g_free (art->title);
 90 |       g_free (art);
 91 |     } 
 92 | art=NULL;
 93 | }
 94 | 
 95 | OtsSentence *
 96 | ots_append_line (OtsArticle * Doc)
 97 | {
 98 |   OtsSentence *aLine = ots_new_sentence ();
 99 |   Doc->lineCount++;
100 |   Doc->lines = g_list_append (Doc->lines, aLine);
101 |   return aLine;
102 | }
103 | 
104 | void
105 | ots_append_word (OtsSentence * aLine,unsigned const char *aWord)
106 | {
107 |   if ((aWord == NULL) || (0==strlen(aWord)) ||(NULL==aLine)) return;
108 |   aLine->wc++;
109 |   aLine->words = g_list_append (aLine->words, (gpointer) g_strdup (aWord));
110 |   return;
111 | }
112 | 
113 | 
114 | gboolean
115 | ots_is_line_selected(const OtsSentence *aLine)
116 | {
117 |   if (aLine==NULL) {printf("Warning:Line=NULL\n"); return FALSE;}
118 |   return (aLine->selected);
119 | }
120 | 


--------------------------------------------------------------------------------
/ext/ots/libots/highlighter.c:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  highlighter
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  * 
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 | 
 21 | #include <stdio.h>
 22 | #include <stdlib.h>
 23 | #include <string.h>
 24 | #include "libots.h"
 25 | 
 26 | /*After the grader has graded the article and each
 27 |  sentence has a score the highlighter will select
 28 |  some of the sentences*/
 29 | 
 30 | static int
 31 | ots_highlight_max_line (OtsArticle * Doc)
 32 | {
 33 |   GList *li;
 34 |   int max = 0;
 35 |   for (li = (GList *) Doc->lines; li != NULL; li = li->next)
 36 |     {
 37 |       if (0 == (((OtsSentence *) li->data)->selected))	/* if not selected , count me in */
 38 | 	max = MAX (((OtsSentence *) li->data)->score, max);
 39 | 
 40 |     }
 41 | 
 42 |   for (li = (GList *) Doc->lines; li != NULL; li = li->next)
 43 |     {
 44 | 
 45 |       if ((((OtsSentence *) li->data)->score == max) && (((OtsSentence *) li->data)->selected == 0))	/* if score==max && not selected before ,select me; */
 46 | 	{
 47 | 	  ((OtsSentence *) li->data)->selected = 1;
 48 | 	  return ((OtsSentence *) li->data)->wc;
 49 | 	}
 50 |     }
 51 | 
 52 |   return 0;
 53 | }
 54 | 
 55 | 
 56 | /* todo: impement this
 57 | 
 58 | void
 59 | ots_highlight_doc_wordcount (OtsArticle * Doc, int wordCount)
 60 | 
 61 | void
 62 | ots_highlight_doc_linecount (OtsArticle * Doc, int wordCount)
 63 | 
 64 | 
 65 | 
 66 | void
 67 | ots_highlight_doc_soft (OtsArticle * Doc, int percent) //blur selection by avrage of near sentences , will mark blocks
 68 | */
 69 | 
 70 | void
 71 | ots_highlight_doc (OtsArticle * Doc, int percent)
 72 | {
 73 |   int i;
 74 |   double ratio;
 75 |   int wordCount;
 76 | 
 77 |   if (0 == Doc->lineCount)
 78 |     return;
 79 | 
 80 |   if (percent > 100)
 81 |     percent = 100;
 82 |   else if (percent < 0)
 83 |     percent = 0;
 84 | 
 85 |   ratio = ((double) (percent)) / (100.0);
 86 | 
 87 |   wordCount = ots_get_article_word_count (Doc);
 88 | 
 89 |   for (i = 0; i < (ratio * (double) wordCount);)
 90 |     {
 91 |       i += ots_highlight_max_line (Doc);
 92 |     }
 93 | }
 94 | 
 95 | void
 96 | ots_highlight_doc_lines (OtsArticle * Doc, int lines)
 97 | {
 98 |   int i;
 99 |   int lineCount;
100 |   int tmp; 
101 |   
102 |   if (0 == Doc->lineCount) return;
103 | 
104 |   lineCount = Doc->lineCount;
105 |   i=0;
106 |   while ((i<lines)&&(i<lineCount))
107 |   {
108 |   i++;
109 |   tmp=ots_highlight_max_line (Doc);
110 |   }
111 |   
112 | }
113 | 
114 | void ots_highlight_doc_words (OtsArticle * Doc, int words)
115 | {
116 |   int i;
117 |   int docWordCount;
118 | 
119 |   if (0 == Doc->lineCount) return;
120 | 
121 |   docWordCount = ots_get_article_word_count (Doc);
122 | 	
123 | 	i=0;
124 |   while ((i < docWordCount) && (i <= words))
125 |     {
126 |       i += ots_highlight_max_line (Doc);
127 |     }
128 | }
129 | 


--------------------------------------------------------------------------------
/dictionaries/cs.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="czech">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 |  
 23 |  
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 | 	 
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>a</word>
 62 | <word>aby</word>
 63 | <word>ale</word>
 64 | <word>ani</word>
 65 | <word>ano</word>
 66 | <word>až</word>
 67 | <word>být</word>
 68 | <word>co</word>
 69 | <word>dělat</word>
 70 | <word>dnes</word>
 71 | <word>do</word>
 72 | <word>doma</word>
 73 | <word>domů</word>
 74 | <word>i</word>
 75 | <word>já</word>
 76 | <word>jak</word>
 77 | <word>jako</word>
 78 | <word>je</word>
 79 | <word>jen</word>
 80 | <word>jenom</word>
 81 | <word>ještě</word>
 82 | <word>ještěže</word>
 83 | <word>ji</word>
 84 | <word>jinak</word>
 85 | <word>jít</word>
 86 | <word>jsem</word>
 87 | <word>jsi</word>
 88 | <word>jsme</word>
 89 | <word>jsou</word>
 90 | <word>jste</word>
 91 | <word>k</word>
 92 | <word>každý</word>
 93 | <word>kde</word>
 94 | <word>kdo</word>
 95 | <word>když</word>
 96 | <word>konečně</word>
 97 | <word>který</word>
 98 | <word>mají</word>
 99 | <word>mě</word>
100 | <word>mimochodem</word>
101 | <word>mít</word>
102 | <word>moc</word>
103 | <word>moci</word>
104 | <word>moct</word>
105 | <word>mohou</word>
106 | <word>mohu</word>
107 | <word>moje</word>
108 | <word>moji</word>
109 | <word>můj</word>
110 | <word>může</word>
111 | <word>my</word>
112 | <word>na</word>
113 | <word>naproti</word>
114 | <word>náš</word>
115 | <word>naše</word>
116 | <word>ne</word>
117 | <word>nebo</word>
118 | <word>něco</word>
119 | <word>někdy</word>
120 | <word>není</word>
121 | <word>nic</word>
122 | <word>o</word>
123 | <word>od</word>
124 | <word>on</word>
125 | <word>ona</word>
126 | <word>oni</word>
127 | <word>ono</word>
128 | <word>ony</word>
129 | <word>ovšem</word>
130 | <word>po</word>
131 | <word>protože</word>
132 | <word>samozřejmě</word>
133 | <word>se</word>
134 | <word>slečna</word>
135 | <word>tady</word>
136 | <word>tak</word>
137 | <word>také</word>
138 | <word>taky</word>
139 | <word>tam</word>
140 | <word>ten</word>
141 | <word>to</word>
142 | <word>totiž</word>
143 | <word>tu</word>
144 | <word>ty</word>
145 | <word>u</word>
146 | <word>v</word>
147 | <word>váš</word>
148 | <word>vaše</word>
149 | <word>ve</word>
150 | <word>velmi</word>
151 | <word>vlastní</word>
152 | <word>vy</word>
153 | <word>z</word>
154 | <word>za</word>
155 | <word>zase</word>
156 | <word>zde</word>
157 | <word>zítra</word>
158 | <word>znova</word>
159 | <word>že</word>
160 |  </grader-tc>
161 | </dictionary>
162 | 


--------------------------------------------------------------------------------
/dictionaries/ro.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="romanian">
  3 |  <stemmer> 
  4 |  
  5 |      <step1_pre> 
  6 | 	  <rule>"|</rule> 
  7 | 	  <rule>(|</rule> 
  8 | 	 </step1_pre>
  9 | 	 
 10 | 	 
 11 |     <step1_post>
 12 |       <rule>."|</rule> 
 13 | 	  <rule>,"|</rule> 
 14 | 	  <rule>.|</rule>
 15 | 	  <rule>,|</rule> 
 16 | 	  <rule>"|</rule>
 17 | 	  <rule>)|</rule> 
 18 | 	  <rule>?|</rule> 
 19 | 	  <rule>:|</rule> 
 20 | 	  <rule>;|</rule> 
 21 | 	  <rule>!|</rule> 
 22 | 	 </step1_post>
 23 |  
 24 |  
 25 |     <manual>
 26 | 	  <rule>wrote|write</rule>
 27 | 	  <rule>came|come</rule> 
 28 | 	  <rule>went|go</rule>
 29 | 	 </manual>
 30 | 	 
 31 |     <post>
 32 |        <rule>before1|1after</rule>
 33 |     </post>
 34 |    <pre>
 35 |        <rule>before1|1after</rule>
 36 |    </pre> 
 37 |   </stemmer>
 38 |    <parser>
 39 |     
 40 |  	 <linebreak>
 41 | 	  <rule>."</rule>
 42 | 	  <rule>?"</rule>
 43 | 	  <rule>!"</rule>
 44 | 	  <rule>,"</rule>
 45 | 	  <rule>.</rule>
 46 | 	  <rule>?</rule>  
 47 | 	  <rule>;</rule>
 48 | 	  <rule>|</rule>
 49 | 	  <rule>!</rule>  
 50 | 	 </linebreak>
 51 | 	 
 52 |  	 <linedontbreak>
 53 | 	  <rule>Dr.</rule>
 54 | 	  <rule>Mr.</rule>  
 55 | 	  <rule>Mrs.</rule>
 56 | 	  <rule>U.S.</rule>  
 57 | 	  <rule>Rep.</rule>  
 58 | 	  <rule>Sen.</rule>  
 59 | 	 </linedontbreak>
 60 |    </parser>
 61 |  <grader-tc>
 62 | <word>acasă</word>
 63 | <word>acest</word>
 64 | <word>acolo</word>
 65 | <word>acum</word>
 66 | <word>acuma</word>
 67 | <word>ai</word>
 68 | <word>aicea</word>
 69 | <word>aici</word>
 70 | <word>alt</word>
 71 | <word>am</word>
 72 | <word>apoi</word>
 73 | <word>aproape</word>
 74 | <word>apropro</word>
 75 | <word>are</word>
 76 | <word>aşa</word>
 77 | <word>au</word>
 78 | <word>avea</word>
 79 | <word>avem</word>
 80 | <word>aveţi</word>
 81 | <word>ca</word>
 82 | <word>că</word>
 83 | <word>când</word>
 84 | <word>ce</word>
 85 | <word>cine</word>
 86 | <word>cît</word>
 87 | <word>cîtă</word>
 88 | <word>cîte</word>
 89 | <word>cîţi</word>
 90 | <word>cu</word>
 91 | <word>da</word>
 92 | <word>deci</word>
 93 | <word>decît</word>
 94 | <word>deja</word>
 95 | <word>doamna</word>
 96 | <word>doi</word>
 97 | <word>domnişoara</word>
 98 | <word>domnul</word>
 99 | <word>două</word>
100 | <word>dumneaei</word>
101 | <word>dumnealor</word>
102 | <word>dumnealui</word>
103 | <word>dumneata</word>
104 | <word>dumneavoastră</word>
105 | <word>după</word>
106 | <word>ea</word>
107 | <word>ei</word>
108 | <word>el</word>
109 | <word>ele</word>
110 | <word>este</word>
111 | <word>eşti</word>
112 | <word>eu</word>
113 | <word>face</word>
114 | <word>fi</word>
115 | <word>fiindcă</word>
116 | <word>iar</word>
117 | <word>ieri</word>
118 | <word>în</word>
119 | <word>încă</word>
120 | <word>într</word>
121 | <word>între</word>
122 | <word>la</word>
123 | <word>lîngă</word>
124 | <word>lor</word>
125 | <word>lui</word>
126 | <word>mai</word>
127 | <word>merge</word>
128 | <word>meu</word>
129 | <word>mîine</word>
130 | <word>mult</word>
131 | <word>nicăieri</word>
132 | <word>nici</word>
133 | <word>niciodată</word>
134 | <word>nimeni</word>
135 | <word>nimic</word>
136 | <word>nişte</word>
137 | <word>noi</word>
138 | <word>nostru</word>
139 | <word>nu</word>
140 | <word>o</word>
141 | <word>pe</word>
142 | <word>pentru</word>
143 | <word>puţin</word>
144 | <word>sînt</word>
145 | <word>sînt</word>
146 | <word>sîntem</word>
147 | <word>sînteţi</word>
148 | <word>spre</word>
149 | <word>sub</word>
150 | <word>şi</word>
151 | <word>tot</word>
152 | <word>tu</word>
153 | <word>un</word>
154 | <word>una</word>
155 | <word>unde</word>
156 | <word>unei</word>
157 | <word>unor</word>
158 | <word>unu</word>
159 | <word>unui</word>
160 | <word>unul</word>
161 | <word>voi</word>
162 |  </grader-tc>
163 | </dictionary>
164 | 


--------------------------------------------------------------------------------
/ext/ots/libots/html.c:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  html.c
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  * 
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 | 
 21 | #include <stdio.h>
 22 | #include <stdlib.h>
 23 | #include <string.h>
 24 | #include "libots.h"
 25 | 
 26 | static unsigned char *
 27 | ots_get_line_HTML (const OtsSentence * aLine, size_t * out_size)
 28 | {
 29 |   GList *li;
 30 |   GString *text;
 31 |   unsigned char *utf8_data;
 32 |   char *score_str;
 33 |   text = g_string_new (NULL);
 34 | 
 35 |   score_str=g_new0(char,32);
 36 |   sprintf(score_str,"<!--(%ld)-->",aLine->score);
 37 |   g_string_append (text,score_str);
 38 |   g_free(score_str);
 39 | 
 40 |   if ((aLine->selected))
 41 |     {
 42 |       g_string_append (text,
 43 | 		       "<FONT COLOR=\"#16569E\"><span style=\'background:yellow;\'>");
 44 |     }
 45 |   else
 46 |     {
 47 |       g_string_append (text, "<FONT COLOR=\"#16569E\"><span>");
 48 |     }
 49 | 
 50 |   for (li = (GList *) aLine->words; li != NULL; li = li->next)
 51 |     {
 52 |       if (0 == strcmp ((char *) li->data, "\n"))
 53 | 	g_string_append (text, "<br>");
 54 |       else
 55 | 	g_string_append (text, (char *) li->data);
 56 |     }
 57 |   g_string_append (text,"</span></FONT>\n");
 58 | 
 59 |   if (out_size)
 60 |     *out_size = text->len;
 61 | 
 62 |   utf8_data = text->str;
 63 |   g_string_free (text, FALSE);
 64 | 
 65 |   return utf8_data;
 66 | }
 67 | 
 68 | 
 69 | #if 0
 70 | static void
 71 | ots_print_line_HTML (FILE * stream, const OtsSentence * aLine)
 72 | {
 73 |   unsigned char *utf8_txt;
 74 |   size_t len;
 75 | 
 76 |   utf8_txt = ots_get_line_HTML (aLine, &len);
 77 |   fwrite (utf8_txt, 1, len, stream);
 78 |   g_free (utf8_txt);
 79 | }
 80 | #endif
 81 | 
 82 | 
 83 | unsigned char *
 84 | ots_get_doc_HTML (const OtsArticle * Doc, size_t * out_len)
 85 | {
 86 |   GList *li;
 87 |   GString *text;
 88 |   unsigned char *utf8_data;
 89 |   size_t line_len;
 90 | 
 91 |   text = g_string_new (NULL);
 92 | 
 93 | 
 94 |   g_string_append (text,
 95 | 		   "<html>\n<head>\n<title>OTS</title>\n<meta charset=\"utf-8\">\n</head>\n<body>\n");
 96 |   g_string_append (text, "<!-- Generated by OpenTextSummarizer -->\n");
 97 |   g_string_append (text, "<!--");
 98 |   g_string_append (text, Doc->title);
 99 |   g_string_append (text, "-->\n");
100 | 
101 | 
102 |   for (li = (GList *) Doc->lines; li != NULL; li = li->next)
103 |     {
104 |       utf8_data = ots_get_line_HTML ((OtsSentence *) li->data, &line_len);
105 |       g_string_append_len (text, utf8_data, line_len);
106 |       g_free (utf8_data);
107 |     }
108 |   g_string_append (text, "</body></html>\n");
109 | 
110 |   if (out_len)
111 |     *out_len = text->len;
112 |   utf8_data = text->str;
113 | 
114 |   g_string_free (text, FALSE);
115 |   return utf8_data;
116 | 
117 | }
118 | 
119 | 
120 | 
121 | void
122 | ots_print_HTML (FILE * stream, const OtsArticle * Doc)
123 | {
124 |   unsigned char *utf8_txt;
125 |   size_t len;
126 | 
127 |   utf8_txt = ots_get_doc_HTML (Doc, &len);
128 |   fwrite (utf8_txt, 1, len, stream);
129 |   g_free (utf8_txt);
130 | 
131 | }
132 | 


--------------------------------------------------------------------------------
/dictionaries/ms.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="malay">
  3 |  <stemmer> 
  4 |  
  5 |      <step1_pre> 
  6 | 	  <rule>"|</rule> 
  7 | 	  <rule>(|</rule> 
  8 | 	 </step1_pre>
  9 | 	 
 10 | 	 
 11 |     <step1_post>
 12 |       <rule>."|</rule> 
 13 | 	  <rule>,"|</rule> 
 14 | 	  <rule>.|</rule>
 15 | 	  <rule>,|</rule> 
 16 | 	  <rule>"|</rule>
 17 | 	  <rule>)|</rule> 
 18 | 	  <rule>?|</rule> 
 19 | 	  <rule>:|</rule> 
 20 | 	  <rule>;|</rule> 
 21 | 	  <rule>!|</rule> 
 22 | 	 </step1_post>
 23 |  
 24 |  
 25 |     <manual>
 26 | 	  <rule>wrote|write</rule>
 27 | 	  <rule>came|come</rule> 
 28 | 	  <rule>went|go</rule>
 29 | 	 </manual>
 30 | 	 
 31 |     <post>
 32 |        <rule>before1|1after</rule>
 33 |     </post>
 34 |    <pre>
 35 |        <rule>before1|1after</rule>
 36 |    </pre> 
 37 |   </stemmer>
 38 |    <parser>
 39 |     
 40 |  	 <linebreak>
 41 | 	  <rule>."</rule>
 42 | 	  <rule>?"</rule>
 43 | 	  <rule>!"</rule>
 44 | 	  <rule>,"</rule>
 45 | 	  <rule>.</rule>
 46 | 	  <rule>?</rule>  
 47 | 	  <rule>;</rule>
 48 | 	  <rule>|</rule>
 49 | 	  <rule>!</rule>  
 50 | 	 </linebreak>
 51 | 	 
 52 |  	 <linedontbreak>
 53 | 	  <rule>Dr.</rule>
 54 | 	  <rule>Mr.</rule>  
 55 | 	  <rule>Mrs.</rule>
 56 | 	  <rule>U.S.</rule>  
 57 | 	  <rule>Rep.</rule>  
 58 | 	  <rule>Sen.</rule>  
 59 | 	 </linedontbreak>
 60 |    </parser>
 61 |  <grader-tc>
 62 | <word>ada</word>
 63 | <word>adakalanya</word>
 64 | <word>adalah</word>
 65 | <word>adapun</word>
 66 | <word>agar</word>
 67 | <word>amin</word>
 68 | <word>anda</word>
 69 | <word>anti</word>
 70 | <word>anu</word>
 71 | <word>apa</word>
 72 | <word>bagaimana</word>
 73 | <word>banyak</word>
 74 | <word>begini</word>
 75 | <word>begitu</word>
 76 | <word>belaka</word>
 77 | <word>beliau</word>
 78 | <word>berapa</word>
 79 | <word>betapa</word>
 80 | <word>bila</word>
 81 | <word>demikian</word>
 82 | <word>dengan</word>
 83 | <word>di</word>
 84 | <word>dia</word>
 85 | <word>dikau</word>
 86 | <word>hingga</word>
 87 | <word>iaitu</word>
 88 | <word>ialah</word>
 89 | <word>jika</word>
 90 | <word>jikalau</word>
 91 | <word>justeru</word>
 92 | <word>kami</word>
 93 | <word>kamu</word>
 94 | <word>kara</word>
 95 | <word>kenapa</word>
 96 | <word>kendati</word>
 97 | <word>kita</word>
 98 | <word>laku</word>
 99 | <word>lepas</word>
100 | <word>mahupun</word>
101 | <word>maka</word>
102 | <word>mana</word>
103 | <word>mana-mana</word>
104 | <word>masing-masing</word>
105 | <word>mereka</word>
106 | <word>meskipun</word>
107 | <word>nya</word>
108 | <word>pada</word>
109 | <word>paling</word>
110 | <word>patik</word>
111 | <word>pergi</word>
112 | <word>puan</word>
113 | <word>pula</word>
114 | <word>saban</word>
115 | <word>sampai</word>
116 | <word>sangat</word>
117 | <word>saudara</word>
118 | <word>saya</word>
119 | <word>sebanyak</word>
120 | <word>sebanyak-banyaknya</word>
121 | <word>sedang</word>
122 | <word>segala</word>
123 | <word>segala-galanya</word>
124 | <word>sejak</word>
125 | <word>sekaligus</word>
126 | <word>sekalipun</word>
127 | <word>selalu</word>
128 | <word>semayam</word>
129 | <word>semesta</word>
130 | <word>sempena</word>
131 | <word>semua</word>
132 | <word>semuanya</word>
133 | <word>sendiri</word>
134 | <word>sendiri-sendiri</word>
135 | <word>sentiasa</word>
136 | <word>seraya</word>
137 | <word>serba</word>
138 | <word>serba aneka</word>
139 | <word>serba-serbi</word>
140 | <word>sering</word>
141 | <word>seringkali</word>
142 | <word>serta</word>
143 | <word>siapa</word>
144 | <word>sini</word>
145 | <word>supaya</word>
146 | <word>syahdan</word>
147 | <word>telah</word>
148 | <word>terbanyak</word>
149 | <word>tetapi</word>
150 | <word>tiada</word>
151 | <word>tiap</word>
152 | <word>tidak</word>
153 | <word>tuanku</word>
154 | <word>walaupun</word>
155 | <word>walhal</word>
156 | <word>walhasil</word>
157 | <word>wujud</word>
158 | <word>yang</word>
159 |  </grader-tc>
160 | </dictionary>
161 | 


--------------------------------------------------------------------------------
/dictionaries/eo.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="esperanto">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 | 	 
 23 | 	 
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 |  
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>ajn</word>
 62 | <word>al</word>
 63 | <word>almenaŭ</word>
 64 | <word>ambaŭ</word>
 65 | <word>ankaŭ</word>
 66 | <word>ankoraŭ</word>
 67 | <word>anstataŭ</word>
 68 | <word>antaŭ</word>
 69 | <word>antaŭen</word>
 70 | <word>apud</word>
 71 | <word>aŭ</word>
 72 | <word>baldaŭ</word>
 73 | <word>ĉar</word>
 74 | <word>ĉe</word>
 75 | <word>ĉi</word>
 76 | <word>ĉio</word>
 77 | <word>ĉirkaŭ</word>
 78 | <word>ĉiuj</word>
 79 | <word>ĉu</word>
 80 | <word>da</word>
 81 | <word>dankon</word>
 82 | <word>de</word>
 83 | <word>do</word>
 84 | <word>du</word>
 85 | <word>dum</word>
 86 | <word>eĉ</word>
 87 | <word>el</word>
 88 | <word>en</word>
 89 | <word>esti</word>
 90 | <word>ĝi</word>
 91 | <word>ha</word>
 92 | <word>havi</word>
 93 | <word>hieraŭ</word>
 94 | <word>ili</word>
 95 | <word>inter</word>
 96 | <word>iri</word>
 97 | <word>jam</word>
 98 | <word>je</word>
 99 | <word>jen</word>
100 | <word>jes</word>
101 | <word>ĵus</word>
102 | <word>kaj</word>
103 | <word>ke</word>
104 | <word>kelkaj</word>
105 | <word>kia</word>
106 | <word>kial</word>
107 | <word>kiam</word>
108 | <word>kie</word>
109 | <word>kiel</word>
110 | <word>kio</word>
111 | <word>kioj</word>
112 | <word>kiu</word>
113 | <word>kiuj</word>
114 | <word>kontraŭ</word>
115 | <word>kun</word>
116 | <word>la</word>
117 | <word>li</word>
118 | <word>malantaŭ</word>
119 | <word>malantaŭen</word>
120 | <word>malsupren</word>
121 | <word>mi</word>
122 | <word>morgaŭ</word>
123 | <word>multaj</word>
124 | <word>ne</word>
125 | <word>ni</word>
126 | <word>nu</word>
127 | <word>nun</word>
128 | <word>nur</word>
129 | <word>ofte</word>
130 | <word>per</word>
131 | <word>plej</word>
132 | <word>pli</word>
133 | <word>plu</word>
134 | <word>por</word>
135 | <word>post</word>
136 | <word>poste</word>
137 | <word>povi</word>
138 | <word>preni</word>
139 | <word>preskaŭ</word>
140 | <word>preter</word>
141 | <word>pri</word>
142 | <word>pro</word>
143 | <word>propra</word>
144 | <word>saluton</word>
145 | <word>se</word>
146 | <word>sed</word>
147 | <word>sen</word>
148 | <word>si</word>
149 | <word>ŝi</word>
150 | <word>sub</word>
151 | <word>super</word>
152 | <word>supre</word>
153 | <word>supren</word>
154 | <word>sur</word>
155 | <word>tia</word>
156 | <word>tial</word>
157 | <word>tie</word>
158 | <word>tiel</word>
159 | <word>tio</word>
160 | <word>tioj</word>
161 | <word>tiu</word>
162 | <word>tiuj</word>
163 | <word>tra</word>
164 | <word>tre</word>
165 | <word>tuj</word>
166 | <word>unu</word>
167 | <word>uzi</word>
168 | <word>vi</word>
169 | <word>voli</word>
170 |  </grader-tc>
171 | </dictionary>
172 | 


--------------------------------------------------------------------------------
/dictionaries/et.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="estonian">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 | 	 
 23 | 	 
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 |  
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>aga</word>
 62 | <word>ainult</word>
 63 | <word>alates</word>
 64 | <word>alati</word>
 65 | <word>all</word>
 66 | <word>ees</word>
 67 | <word>ei</word>
 68 | <word>esimene</word>
 69 | <word>et</word>
 70 | <word>hoolimata</word>
 71 | <word>iga</word>
 72 | <word>ilma</word>
 73 | <word>ja</word>
 74 | <word>jah</word>
 75 | <word>jaoks</word>
 76 | <word>jooksul</word>
 77 | <word>juures</word>
 78 | <word>ka</word>
 79 | <word>kaheksa</word>
 80 | <word>kaheksakümmend</word>
 81 | <word>kaks</word>
 82 | <word>kakskümmend</word>
 83 | <word>kelle</word>
 84 | <word>kes</word>
 85 | <word>kolm</word>
 86 | <word>kolmkümmend</word>
 87 | <word>koos</word>
 88 | <word>kui</word>
 89 | <word>kümme</word>
 90 | <word>kuni</word>
 91 | <word>kus</word>
 92 | <word>kuus</word>
 93 | <word>kuuskümmend</word>
 94 | <word>läbi</word>
 95 | <word>lähed</word>
 96 | <word>lähema</word>
 97 | <word>lähen</word>
 98 | <word>läks</word>
 99 | <word>läksid</word>
100 | <word>läksime</word>
101 | <word>läksite</word>
102 | <word>ma</word>
103 | <word>me</word>
104 | <word>meie</word>
105 | <word>miks</word>
106 | <word>miljon</word>
107 | <word>mina</word>
108 | <word>mind</word>
109 | <word>minema</word>
110 | <word>mis</word>
111 | <word>missugune</word>
112 | <word>mõnikord</word>
113 | <word>mulle</word>
114 | <word>neli</word>
115 | <word>nelikümmend</word>
116 | <word>nende</word>
117 | <word>ning</word>
118 | <word>null</word>
119 | <word>nüüd</word>
120 | <word>oled</word>
121 | <word>olema</word>
122 | <word>oleme</word>
123 | <word>olen</word>
124 | <word>oli</word>
125 | <word>olnud</word>
126 | <word>omama</word>
127 | <word>on</word>
128 | <word>palju</word>
129 | <word>peal</word>
130 | <word>piki</word>
131 | <word>sa</word>
132 | <word>sada</word>
133 | <word>seal</word>
134 | <word>see</word>
135 | <word>sees</word>
136 | <word>seest</word>
137 | <word>seitse</word>
138 | <word>seitsekümmend</word>
139 | <word>sest</word>
140 | <word>siin</word>
141 | <word>siis</word>
142 | <word>sina</word>
143 | <word>sind</word>
144 | <word>sulle</word>
145 | <word>ta</word>
146 | <word>tagasi</word>
147 | <word>talle</word>
148 | <word>te</word>
149 | <word>teeb</word>
150 | <word>teed</word>
151 | <word>teen</word>
152 | <word>tegema</word>
153 | <word>tegi</word>
154 | <word>tehtud</word>
155 | <word>teie</word>
156 | <word>tema</word>
157 | <word>tuhat</word>
158 | <word>üheksa</word>
159 | <word>üheksakümmend</word>
160 | <word>ükskord</word>
161 | <word>üle</word>
162 | <word>ümber</word>
163 | <word>umbes</word>
164 | <word>vahel</word>
165 | <word>vastas</word>
166 | <word>vastu</word>
167 | <word>veel</word>
168 | <word>viis</word>
169 | <word>viiskümmend</word>
170 | <word>või</word>
171 |  </grader-tc>
172 | </dictionary>
173 | 


--------------------------------------------------------------------------------
/dictionaries/fr.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="french">
  3 |  <stemmer> 
  4 |  
  5 |  
  6 |  <step1_pre> 
  7 | 	  <rule>"|</rule> 
  8 | 	  <rule>(|</rule> 
  9 | 	 </step1_pre>
 10 | 	 
 11 | 	 
 12 |     <step1_post>
 13 |       <rule>."|</rule> 
 14 | 	  <rule>,"|</rule> 
 15 | 	  <rule>.|</rule>
 16 | 	  <rule>,|</rule> 
 17 | 	  <rule>"|</rule>
 18 | 	  <rule>)|</rule> 
 19 | 	  <rule>?|</rule> 
 20 | 	  <rule>:|</rule> 
 21 | 	  <rule>;|</rule> 
 22 | 	  <rule>!|</rule> 
 23 | 	 </step1_post>
 24 |  
 25 |  
 26 |     <manual>
 27 | 	  <rule>wrote|write</rule>
 28 | 	  <rule>came|come</rule> 
 29 | 	  <rule>went|go</rule>
 30 | 	 </manual>
 31 | 	 
 32 |     <post>
 33 |        <rule>before1|1after</rule>
 34 |     </post>
 35 |    <pre>
 36 |        <rule>before1|1after</rule>
 37 |    </pre> 
 38 |    
 39 |    
 40 |    <manual>
 41 | 	  <rule>wrote|write</rule>
 42 | 	</manual>
 43 |    
 44 |     <synonyms>
 45 | 	    <rule>assist|help</rule>
 46 |     </synonyms>
 47 |     
 48 |   </stemmer>
 49 |    <parser>
 50 |     	 <linebreak>
 51 | 	  <rule>."</rule>
 52 | 	  <rule>?"</rule>
 53 | 	  <rule>!"</rule>
 54 | 	  <rule>,"</rule>
 55 | 	  <rule>.</rule>
 56 | 	  <rule>?</rule>  
 57 | 	  <rule>;</rule>
 58 | 	  <rule>|</rule>
 59 | 	  <rule>!</rule>  
 60 | 	 </linebreak>
 61 | 	 
 62 |  	 <linedontbreak>
 63 | 	  <rule>Dr.</rule>
 64 | 	  <rule>Mr.</rule>  
 65 | 	  <rule>Mrs.</rule>
 66 | 	  <rule>U.S.</rule>  
 67 | 	  <rule>Rep.</rule>  
 68 | 	  <rule>Sen.</rule>  
 69 | 	 </linedontbreak>
 70 |    </parser>
 71 |  <grader-tc>
 72 | <word>le</word>
 73 | <word>la</word>
 74 | <word>les</word>
 75 | <word>un</word>
 76 | <word>une</word>
 77 | <word>je</word>
 78 | <word>me</word>
 79 | <word>moi</word>
 80 | <word>mon</word>
 81 | <word>ma</word>
 82 | <word>mes</word>
 83 | <word>nous</word>
 84 | <word>notre</word>
 85 | <word>nos</word>
 86 | <word>tu</word>
 87 | <word>te</word>
 88 | <word>ton</word>
 89 | <word>ta</word>
 90 | <word>tes</word>
 91 | <word>vous</word>
 92 | <word>votre</word>
 93 | <word>vos</word>
 94 | <word>il</word>
 95 | <word>lui</word>
 96 | <word>son</word>
 97 | <word>sa</word>
 98 | <word>ses</word>
 99 | <word>ils</word>
100 | <word>leur</word>
101 | <word>leurs</word>
102 | <word>elle</word>
103 | <word>elles</word>
104 | <word>on</word>
105 | <word>où</word>
106 | <word>quand</word>
107 | <word></word>
108 | <word>à</word>
109 | <word>aussi</word>
110 | <word>autre</word>
111 | <word>avec</word>
112 | <word>ça</word>
113 | <word>ce</word>
114 | <word>cet</word>
115 | <word>cette</word>
116 | <word>ces</word>
117 | <word>ceci</word>
118 | <word>cela</word>
119 | <word>chaque</word>
120 | <word>ci</word>
121 | <word>dans</word>
122 | <word>de</word>
123 | <word>en</word>
124 | <word>et</word>
125 | <word>entre</word>
126 | <word>ici</word>
127 | <word>jamais</word>
128 | <word>là</word>
129 | <word>mais</word>
130 | <word>même</word>
131 | <word>moins</word>
132 | <word>ne</word>
133 | <word>ou</word>
134 | <word>par</word>
135 | <word>parfois</word>
136 | <word>pas</word>
137 | <word>pendant</word>
138 | <word>plus</word>
139 | <word>pour</word>
140 | <word>pourtant</word>
141 | <word>que</word>
142 | <word>quelque</word>
143 | <word>qui</word>
144 | <word>quois</word>
145 | <word>rien</word>
146 | <word>sans</word>
147 | <word>si</word>
148 | <word>sur</word>
149 | <word>tellement</word>
150 | <word>très</word>
151 | <word>trop</word>
152 | <word>y</word>
153 | <word>des</word>
154 | <word>du</word>
155 | <word>n'est</word>
156 | <word>être</word>
157 | <word>suis</word>
158 | <word>es</word>
159 | <word>est</word>
160 | <word>sommes</word>
161 | <word>êtes</word>
162 | <word>sont</word>
163 | <word>étais</word>
164 | <word>était</word>
165 | <word>étions</word>
166 | <word>étiez</word>
167 | <word>étaient</word>
168 | <word>été</word>
169 | <word>avoir</word>
170 | <word>ai</word>
171 | <word>as</word>
172 | <word>a</word>
173 | <word>avons</word>
174 | <word>avez</word>
175 | <word>ont</word>
176 | <word>avais</word>
177 | <word>avait</word>
178 | <word>avions</word>
179 | <word>aviez</word>
180 | <word>avaient</word>
181 | <word>aie</word>
182 | <word>aies</word>
183 | <word>ait</word>
184 | <word>ayons</word>
185 | <word>ayez</word>
186 | <word>aient</word>
187 | <word>eu</word>
188 | <word>devoir</word>
189 | <word>dû</word>
190 | <word>faire</word>
191 | <word>fait</word>
192 | <word>pouvoir</word>
193 | <word>pu</word>
194 | <word>vouloir</word>
195 | <word>voulu</word>
196 | <word>aller</word>
197 | <word></word>
198 |  </grader-tc>
199 | </dictionary>
200 | 


--------------------------------------------------------------------------------
/dictionaries/is.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="icelandic">
  3 |  <stemmer> 
  4 |  
  5 |      <step1_pre> 
  6 | 	  <rule>"|</rule> 
  7 | 	  <rule>(|</rule> 
  8 | 	 </step1_pre>
  9 | 	 
 10 | 	 
 11 |     <step1_post>
 12 |       <rule>."|</rule> 
 13 | 	  <rule>,"|</rule> 
 14 | 	  <rule>.|</rule>
 15 | 	  <rule>,|</rule> 
 16 | 	  <rule>"|</rule>
 17 | 	  <rule>)|</rule> 
 18 | 	  <rule>?|</rule> 
 19 | 	  <rule>:|</rule> 
 20 | 	  <rule>;|</rule> 
 21 | 	  <rule>!|</rule> 
 22 | 	 </step1_post>
 23 |  
 24 |  
 25 |  
 26 |     <manual>
 27 | 	  <rule>wrote|write</rule>
 28 | 	  <rule>came|come</rule> 
 29 | 	  <rule>went|go</rule>
 30 | 	 </manual>
 31 | 	 
 32 |     <post>
 33 |        <rule>before1|1after</rule>
 34 |     </post>
 35 |    <pre>
 36 |        <rule>before1|1after</rule>
 37 |    </pre> 
 38 |   </stemmer>
 39 |    <parser>
 40 |     
 41 |  	 <linebreak>
 42 | 	  <rule>."</rule>
 43 | 	  <rule>?"</rule>
 44 | 	  <rule>!"</rule>
 45 | 	  <rule>,"</rule>
 46 | 	  <rule>.</rule>
 47 | 	  <rule>?</rule>  
 48 | 	  <rule>;</rule>
 49 | 	  <rule>|</rule>
 50 | 	  <rule>!</rule>  
 51 | 	 </linebreak>
 52 | 	 
 53 |  	 <linedontbreak>
 54 | 	  <rule>Dr.</rule>
 55 | 	  <rule>Mr.</rule>  
 56 | 	  <rule>Mrs.</rule>
 57 | 	  <rule>U.S.</rule>  
 58 | 	  <rule>Rep.</rule>  
 59 | 	  <rule>Sen.</rule>  
 60 | 	 </linedontbreak>
 61 |    </parser>
 62 |  <grader-tc>
 63 | <word>að</word>
 64 | <word>af</word>
 65 | <word>andspænis</word>
 66 | <word>annaðhvort</word>
 67 | <word>auk</word>
 68 | <word>austan</word>
 69 | <word>á</word>
 70 | <word>án</word>
 71 | <word>ásamt</word>
 72 | <word>bæði</word>
 73 | <word>eða</word>
 74 | <word>ef</word>
 75 | <word>eftir</word>
 76 | <word>eiga</word>
 77 | <word>en</word>
 78 | <word>er</word>
 79 | <word>ert</word>
 80 | <word>eru</word>
 81 | <word>eruð</word>
 82 | <word>erum</word>
 83 | <word>ég</word>
 84 | <word>fara</word>
 85 | <word>fá</word>
 86 | <word>frá</word>
 87 | <word>fyrir</word>
 88 | <word>fyrst</word>
 89 | <word>gagn</word>
 90 | <word>gagnvart</word>
 91 | <word>gegnt</word>
 92 | <word>gegnum</word>
 93 | <word>geta</word>
 94 | <word>hafa</word>
 95 | <word>hana</word>
 96 | <word>handa</word>
 97 | <word>hann</word>
 98 | <word>hans</word>
 99 | <word>hennar</word>
100 | <word>henni</word>
101 | <word>hið</word>
102 | <word>hin</word>
103 | <word>hina</word>
104 | <word>hinar</word>
105 | <word>hinir</word>
106 | <word>hinn</word>
107 | <word>hinna</word>
108 | <word>hinnar</word>
109 | <word>hinni</word>
110 | <word>hins</word>
111 | <word>hinu</word>
112 | <word>hinum</word>
113 | <word>hjá</word>
114 | <word>honum</word>
115 | <word>hún</word>
116 | <word>hver</word>
117 | <word>hverjum</word>
118 | <word>hvorki</word>
119 | <word>hvort</word>
120 | <word>innan</word>
121 | <word>í</word>
122 | <word>kringum</word>
123 | <word>með</word>
124 | <word>meðal</word>
125 | <word>meðfram</word>
126 | <word>mega</word>
127 | <word>megin</word>
128 | <word>mér</word>
129 | <word>mig</word>
130 | <word>milli</word>
131 | <word>millum</word>
132 | <word>mín</word>
133 | <word>mót</word>
134 | <word>móti</word>
135 | <word>munu</word>
136 | <word>nálægt</word>
137 | <word>neðan</word>
138 | <word>nema</word>
139 | <word>né</word>
140 | <word>norðan</word>
141 | <word>ofan</word>
142 | <word>og</word>
143 | <word>okkur</word>
144 | <word>pro</word>
145 | <word>sakir</word>
146 | <word>sem</word>
147 | <word>sé</word>
148 | <word>sért</word>
149 | <word>séu</word>
150 | <word>séuð</word>
151 | <word>séum</word>
152 | <word>síðan</word>
153 | <word>skulu</word>
154 | <word>sunnan</word>
155 | <word>sökum</word>
156 | <word>til</word>
157 | <word>um</word>
158 | <word>umfram</word>
159 | <word>umhverfis</word>
160 | <word>undan</word>
161 | <word>undir</word>
162 | <word>utan</word>
163 | <word>úr</word>
164 | <word>var</word>
165 | <word>varst</word>
166 | <word>vegna</word>
167 | <word>vera</word>
168 | <word>verandi</word>
169 | <word>vestan</word>
170 | <word>við</word>
171 | <word>voru</word>
172 | <word>voruð</word>
173 | <word>vorum</word>
174 | <word>væri</word>
175 | <word>værir</word>
176 | <word>væru</word>
177 | <word>væruð</word>
178 | <word>værum</word>
179 | <word>yðar</word>
180 | <word>yður</word>
181 | <word>yfir</word>
182 | <word>ykkar</word>
183 | <word>ykkur</word>
184 | <word>það</word>
185 | <word>þau</word>
186 | <word>þá</word>
187 | <word>þegar</word>
188 | <word>þeim</word>
189 | <word>þeir</word>
190 | <word>þeirra</word>
191 | <word>þess</word>
192 | <word>þér</word>
193 | <word>þið</word>
194 | <word>þig</word>
195 | <word>þín</word>
196 | <word>þótt</word>
197 | <word>þú</word>
198 | <word>því</word>
199 | <word>þær</word>
200 |  </grader-tc>
201 | </dictionary>
202 | 


--------------------------------------------------------------------------------
/dictionaries/it.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="italian">
  3 |  <stemmer> 
  4 |  
  5 |      <step1_pre> 
  6 | 	  <rule>"|</rule> 
  7 | 	  <rule>(|</rule> 
  8 | 	 </step1_pre>
  9 | 	 
 10 | 	 
 11 |     <step1_post>
 12 |       <rule>."|</rule> 
 13 | 	  <rule>,"|</rule> 
 14 | 	  <rule>.|</rule>
 15 | 	  <rule>,|</rule> 
 16 | 	  <rule>"|</rule>
 17 | 	  <rule>)|</rule> 
 18 | 	  <rule>?|</rule> 
 19 | 	  <rule>:|</rule> 
 20 | 	  <rule>;|</rule> 
 21 | 	  <rule>!|</rule> 
 22 | 	 </step1_post>
 23 |  
 24 |  
 25 |     <manual>
 26 | 	  <rule>wrote|write</rule>
 27 | 	  <rule>came|come</rule> 
 28 | 	  <rule>went|go</rule>
 29 | 	 </manual>
 30 | 	 
 31 |     <post>
 32 |        <rule>before1|1after</rule>
 33 |     </post>
 34 |    <pre>
 35 |        <rule>before1|1after</rule>
 36 |    </pre> 
 37 |   </stemmer>
 38 |    <parser>
 39 |     
 40 |  	 <linebreak>
 41 | 	  <rule>."</rule>
 42 | 	  <rule>?"</rule>
 43 | 	  <rule>!"</rule>
 44 | 	  <rule>,"</rule>
 45 | 	  <rule>.</rule>
 46 | 	  <rule>?</rule>  
 47 | 	  <rule>;</rule>
 48 | 	  <rule>|</rule>
 49 | 	  <rule>!</rule>  
 50 | 	 </linebreak>
 51 | 	 
 52 |  	 <linedontbreak>
 53 | 	  <rule>Dr.</rule>
 54 | 	  <rule>Mr.</rule>  
 55 | 	  <rule>Mrs.</rule>
 56 | 	  <rule>U.S.</rule>  
 57 | 	  <rule>Rep.</rule>  
 58 | 	  <rule>Sen.</rule>  
 59 | 	 </linedontbreak>
 60 |    </parser>
 61 |  <grader-tc>
 62 | <word>il</word>
 63 | <word>lo</word>
 64 | <word>l'</word>
 65 | <word>i</word>
 66 | <word>gli</word>
 67 | <word>gl'</word>
 68 | <word>la</word>
 69 | <word>le</word>
 70 | <word>un</word>
 71 | <word>uno</word>
 72 | <word>una</word>
 73 | <word>un'</word>
 74 | <word>io</word>
 75 | <word>noi</word>
 76 | <word>mio</word>
 77 | <word>tu</word>
 78 | <word>voi</word>
 79 | <word>vostro</word>
 80 | <word>lui</word>
 81 | <word>lei</word>
 82 | <word>egli</word>
 83 | <word>ella</word>
 84 | <word>esso</word>
 85 | <word>essa</word>
 86 | <word>loro</word>
 87 | <word>essi</word>
 88 | <word>esse</word>
 89 | <word>suo</word>
 90 | <word>sé</word>
 91 | <word>si</word>
 92 | <word>c'è</word>
 93 | <word>a</word>
 94 | <word>ad</word>
 95 | <word>alcuno</word>
 96 | <word>che</word>
 97 | <word>come</word>
 98 | <word>con</word>
 99 | <word>così</word>
100 | <word>da</word>
101 | <word>di</word>
102 | <word>domani</word>
103 | <word>e</word>
104 | <word>ed</word>
105 | <word>in</word>
106 | <word>infine</word>
107 | <word>ma</word>
108 | <word>mai</word>
109 | <word>mentre</word>
110 | <word>molto</word>
111 | <word>né</word>
112 | <word>nessuno</word>
113 | <word>nessun</word>
114 | <word>nessuna</word>
115 | <word>nessun'</word>
116 | <word>niente</word>
117 | <word>no</word>
118 | <word>non</word>
119 | <word>nulla</word>
120 | <word>o</word>
121 | <word>oggi</word>
122 | <word>ora</word>
123 | <word>per</word>
124 | <word>poi</word>
125 | <word>poiché</word>
126 | <word>qualche</word>
127 | <word>qualcuno</word>
128 | <word>quando</word>
129 | <word>questo</word>
130 | <word>qui</word>
131 | <word>se</word>
132 | <word>su</word>
133 | <word>troppo</word>
134 | <word>tutto</word>
135 | <word>al</word>
136 | <word>ai</word>
137 | <word>allo</word>
138 | <word>agli</word>
139 | <word>alla</word>
140 | <word>alle</word>
141 | <word>all'</word>
142 | <word>col</word>
143 | <word>coi</word>
144 | <word>collo</word>
145 | <word>cogli</word>
146 | <word>colla</word>
147 | <word>colle</word>
148 | <word>coll'</word>
149 | <word>dal</word>
150 | <word>dai</word>
151 | <word>dallo</word>
152 | <word>dagli</word>
153 | <word>dalla</word>
154 | <word>dalle</word>
155 | <word>dall'</word>
156 | <word>del</word>
157 | <word>dei</word>
158 | <word>dello</word>
159 | <word>degli</word>
160 | <word>della</word>
161 | <word>delle</word>
162 | <word>dell'</word>
163 | <word>nel</word>
164 | <word>nei</word>
165 | <word>nello</word>
166 | <word>negli</word>
167 | <word>nella</word>
168 | <word>nelle</word>
169 | <word>nell'</word>
170 | <word>pel</word>
171 | <word>pei</word>
172 | <word>sul</word>
173 | <word>sui</word>
174 | <word>sullo</word>
175 | <word>sugli</word>
176 | <word>sulla</word>
177 | <word>sulle</word>
178 | <word>sull'</word>
179 | <word>primo</word>
180 | <word>essere</word>
181 | <word>sono</word>
182 | <word>sei</word>
183 | <word>è</word>
184 | <word>siamo</word>
185 | <word>siete</word>
186 | <word>stare</word>
187 | <word>sto</word>
188 | <word>stai</word>
189 | <word>sta</word>
190 | <word>stiamo</word>
191 | <word>stano</word>
192 | <word></word>
193 | <word>avere</word>
194 | <word>ho</word>
195 | <word>hai</word>
196 | <word>ha</word>
197 | <word>abbiamo</word>
198 | <word>avete</word>
199 | <word>hanno</word>
200 | <word>dovere</word>
201 | <word>potere</word>
202 | <word>andare</word>
203 | <word>va</word>
204 | <word></word>
205 |  </grader-tc>
206 | </dictionary>
207 | 


--------------------------------------------------------------------------------
/ext/ots/libots/parser.c:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  parser.c
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  *
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 | 
 21 | #include <stdio.h>
 22 | #include <stdlib.h>
 23 | #include <string.h>
 24 | #include <strings.h>
 25 | #include "libots.h"
 26 | 
 27 | #define BUFFER_SIZE (1024*8)
 28 | 
 29 | int
 30 | ots_match_post (const char *aWord,const char *post)
 31 | {
 32 |   int i, wlen, plen;
 33 |   
 34 | 
 35 |   wlen = strlen (aWord);
 36 |   plen = strlen (post);
 37 | 
 38 |   if (plen > wlen) return 0;
 39 | 
 40 |   for (i = 0; i < plen; i++)
 41 |     if (aWord[wlen - plen + i] != post[i])
 42 |       return 0;		/* no match */
 43 | 
 44 |   return 1;		/*word match */
 45 | }
 46 | 
 47 | void
 48 | ots_parse_file (FILE * stream, OtsArticle * Doc )
 49 | {
 50 |   unsigned char fread_buffer[BUFFER_SIZE];
 51 |   unsigned char *buffer;
 52 |   size_t nread, total_read, avail_size;
 53 | 
 54 |   buffer = g_new0 (unsigned char, BUFFER_SIZE);
 55 | 
 56 |   avail_size = BUFFER_SIZE;
 57 |   total_read = nread = 0;
 58 |   while ((nread =
 59 | 	  fread (fread_buffer, sizeof (unsigned char), sizeof (fread_buffer),
 60 | 		 stream)) > 0)
 61 |     {
 62 |       if (nread + total_read > avail_size)
 63 | 	{
 64 | 	  avail_size *= 2;
 65 | 	  buffer = g_renew (unsigned char, buffer, avail_size);
 66 | 	}
 67 | 
 68 |       strncpy (buffer + total_read, fread_buffer, nread);
 69 |       total_read += nread;
 70 |     }
 71 | 
 72 |   ots_parse_stream (buffer, total_read, Doc);
 73 |   g_free (buffer);
 74 | }
 75 | 
 76 | 
 77 | 
 78 | 
 79 | 
 80 | int
 81 | ots_parser_should_break(const char *aWord,const OtsStemRule * rule)
 82 | {
 83 |   GList *li;
 84 |   char *postfix;
 85 |   int toBreak=0;
 86 |   
 87 |   for (li = (GList *) rule->ParserBreak; li != NULL; li = li->next)
 88 |     {
 89 |       postfix=li->data;
 90 |       if (ots_match_post (aWord, postfix) )
 91 |       {  
 92 |          toBreak=1;
 93 |      		break; 
 94 |       }
 95 |       
 96 |     }
 97 | 
 98 |   // TODO: single character with a '.' is probably an initial but this needs to be expressed as a language rule.
 99 |   if (strlen(aWord) == 2 && aWord[strlen(aWord) - 1] == '.')
100 |     return 0;
101 | 
102 |   for (li = (GList *) rule->ParserDontBreak; li != NULL; li = li->next)
103 |     {
104 |       postfix=li->data;
105 |       if (ots_match_post (aWord, postfix) )
106 |       {
107 |          toBreak=0;
108 |      		break; 
109 |       }
110 |       
111 |     }
112 | return toBreak;
113 | }
114 |       
115 | 
116 | 
117 | void
118 | ots_parse_stream(const unsigned char *utf8, size_t len, OtsArticle * Doc)	/*parse the unicode stream */
119 | {
120 | 
121 |   OtsSentence *tmpLine = ots_append_line (Doc);
122 |   OtsStemRule * rule=Doc->stem;
123 |   gunichar uc;
124 |   int index = 0;
125 |   char *s = (char *) utf8;
126 |   GString *word_buffer = g_string_new (NULL);
127 | 
128 |    
129 | while ((*s) && (index < len))
130 |     {
131 |   uc = g_utf8_get_char (s);      
132 |      
133 |       if (!g_unichar_isspace (uc))	/* space is the end of a word */
134 | 		{
135 | 
136 | 		g_string_append_unichar(word_buffer,uc); 
137 | 
138 | 		} 
139 | 		else 
140 | 		{
141 | 		  
142 | 		  if (0<word_buffer->len)
143 | 				{
144 | 				ots_append_word (tmpLine, word_buffer->str);
145 |   				
146 |   				if (ots_parser_should_break(word_buffer->str,rule)) {
147 |   					tmpLine = ots_append_line (Doc);	/* Add a new Line */
148 |   					}
149 |   	
150 |   				g_string_assign (word_buffer, "");
151 |   				
152 |   				}
153 | 		
154 | 		if (uc=='\n') {ots_append_word (tmpLine,"\n");}
155 | 		else 
156 | 		{ots_append_word (tmpLine," ");}
157 | 		
158 | 		g_string_assign (word_buffer,"");
159 | 		}
160 | 
161 |       s = g_utf8_next_char (s);
162 | 
163 |       index++;
164 |     }
165 | 
166 | 
167 | 		if (0<word_buffer->len) /*final flush*/
168 | 				{
169 | 				ots_append_word (tmpLine, word_buffer->str);
170 | 				g_string_assign (word_buffer, "");
171 |   				}
172 |   				 
173 |  
174 | 
175 |   g_string_free (word_buffer, TRUE);
176 | }
177 | 


--------------------------------------------------------------------------------
/ext/ots/libots/relations.c:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  relations.c
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  *
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 |  
 21 | #include <stdio.h>
 22 | #include <stdlib.h>
 23 | #include <string.h>
 24 | #include "grader-tc.h"
 25 | 
 26 | #include "libots.h"
 27 | /*
 28 | The Inner product of two texts is defined as the number of topics they
 29 | share. This set of functions implements this relations using the ots
 30 | api.
 31 | 
 32 | Application: a relation between a slashdot article and a comment made
 33 | usage: ots_text_relations(story,"en",comment,"en",n);
 34 | where n is the max number of most important topics to consider; safe to give a high number (ex: 20);
 35 | 
 36 | returns: 
 37 | 	0 - off topic
 38 | 	n - number of topics they share
 39 | 
 40 | */
 41 | 
 42 | #define OTS_MAX_TOPIC_WORD_SIZE 256
 43 | 
 44 | /*Returns the number of topics that two blocks of text share*/
 45 | int ots_text_relations(
 46 | const unsigned char *text1,const unsigned char *lang_code1,
 47 | const unsigned char *text2,const unsigned char *lang_code2,const int topic_num)
 48 | {
 49 | GList* top1;
 50 | GList* top2;
 51 | int score;
 52 | 
 53 | top1=ots_text_stem_list(text1,lang_code1,topic_num);
 54 | top2=ots_text_stem_list(text2,lang_code2,topic_num);
 55 | 
 56 | score=ots_topic_list_score(top1,top2);
 57 | 
 58 | if (top1){g_list_foreach (top1, (GFunc) g_free, NULL);g_list_free (top1);}
 59 | if (top2){g_list_foreach (top2, (GFunc) g_free, NULL);g_list_free (top2);}
 60 | 
 61 | return score;
 62 | }
 63 | 
 64 | 
 65 | 
 66 | 
 67 | /*For a given text, return the list of the topics*/
 68 | char* ots_text_topics(
 69 | const unsigned char *text,const unsigned char *lang_code,int topic_num)
 70 | {
 71 | int i;
 72 | GString *word;
 73 | unsigned char *str;
 74 | unsigned char *tmp;
 75 | OtsArticle *Art;
 76 | 
 77 | if (NULL==text) return NULL;
 78 | word = g_string_new (NULL);
 79 | 
 80 | Art = ots_new_article ();
 81 | 
 82 | ots_load_xml_dictionary(Art,lang_code); /*Load the dictionary*/
 83 | if (text!=NULL) ots_parse_stream (text,strlen(text), Art);   /* read text , put it in struct Article */
 84 | ots_grade_doc (Art);
 85 | 
 86 | 
 87 | for (i=0;i<=topic_num;i++)
 88 | {
 89 | tmp=ots_word_in_list(Art->ImpWords,i);
 90 | if ((tmp!=NULL)&&(strlen(tmp)>0)) {g_string_append(word,tmp);
 91 | 		g_string_append(word," "); }
 92 | }
 93 | 
 94 | 
 95 | str=word->str;
 96 | g_string_free (word, FALSE);
 97 | ots_free_article (Art);
 98 | 
 99 | return str;
100 | }
101 | 
102 | 
103 | 
104 | /*For a given text, return the list of the stemmed topics*/
105 | GList* ots_text_stem_list(const unsigned char *text, const unsigned char *lang_code, int topic_num)
106 | {
107 | int i;
108 | GList *topics=NULL;
109 | unsigned char *tmp;
110 | OtsArticle *Art;
111 | 
112 | if (NULL==text) return NULL;
113 | 
114 | Art = ots_new_article ();
115 | 
116 | ots_load_xml_dictionary(Art,lang_code); 
117 | if (text!=NULL) ots_parse_stream (text,strlen(text), Art);   
118 | ots_grade_doc (Art);
119 | 
120 | 
121 | for (i=0;i<=topic_num;i++)
122 | {
123 | tmp=ots_stem_in_list(Art->ImpWords,i);
124 | if ((tmp)&&(strlen(tmp)>0))
125 | topics=g_list_append(topics,g_strdup(tmp));
126 | }
127 | 
128 | 
129 | ots_free_article (Art);
130 | return topics;
131 | }		
132 | 
133 | /*Gives a score on the relations between two lists of topics; simmilar to the inner product*/
134 | int ots_topic_list_score(
135 | const GList *topic_list1,
136 | const GList *topic_list2)
137 | {
138 | 	int count=0;
139 | 	GList *tmplist1;
140 | 	GList *tmplist2;
141 | 	
142 | 	if (!(topic_list1)) return 0;
143 | 	if (!(topic_list2)) return 0;
144 | 	
145 | 	tmplist1 = g_list_first(topic_list1);
146 | 	while(tmplist1)
147 | 	{
148 | 	tmplist2 = g_list_first(topic_list2);
149 | 	while(tmplist2)
150 | 		{
151 | 		
152 | 		if ((tmplist1->data)&&(tmplist2->data)&&(strlen(tmplist2->data)>1)) 
153 | 			if (0==strncmp(tmplist1->data,tmplist2->data,OTS_MAX_TOPIC_WORD_SIZE)) 
154 | 							{count++;}
155 | 		
156 | 		tmplist2 = g_list_next(tmplist2);
157 | 		}
158 | 	tmplist1 = g_list_next(tmplist1);
159 | 	}
160 | 
161 | return count;
162 | }
163 | 	
164 | 


--------------------------------------------------------------------------------
/ext/ots/libots/grader-tc.c:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  grader-tc.c
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  * 
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 | 
 21 | #include <stdio.h>
 22 | #include <stdlib.h>
 23 | #include <string.h>
 24 | #include "libots.h"
 25 | 
 26 | 
 27 | #include "grader-tc.h"
 28 | 
 29 | 
 30 | /*Grader - Term count algorithm*/
 31 | /*This is non-normelized term frequency algorithm without using inverse document frequency database */
 32 | 
 33 | #define NUM_KEY_WORDS 100 /* use first n key words only */
 34 | 
 35 | int
 36 | ots_get_article_word_count (const OtsArticle * Doc)
 37 | {
 38 |   GList *li;
 39 |   int articleWC;
 40 |   articleWC = 0;
 41 | 
 42 |   if (Doc==NULL) return 0;
 43 | 
 44 |   for (li = (GList *) Doc->lines; li != NULL; li = li->next)
 45 |     {
 46 |       articleWC += ((OtsSentence *) li->data)->wc;
 47 |     }
 48 | 
 49 |   return articleWC;
 50 | }
 51 | 
 52 | 
 53 | /*take this line and add each word to the "wordStat" list
 54 | * this list will hold all of the words in the article and the number 
 55 | * of times they appeared in the article.
 56 | */
 57 | 
 58 | static void 
 59 | ots_line_add_wordlist(OtsArticle * Doc,const OtsSentence * aLine) 
 60 | {
 61 |   GList *li;
 62 |   if ((aLine==NULL) ||(NULL==Doc)) { return;}
 63 |   
 64 |       for (li = (GList *) aLine->words; li != NULL; li = li->next)	/* for each word in the sentence Do: */
 65 | 			if (li->data && strlen (li->data)) ots_add_wordstat (Doc, (char *)li->data);
 66 | 		    
 67 |   return;
 68 | }
 69 | 
 70 | static void 
 71 | ots_create_wordlist(OtsArticle * Doc)
 72 | {
 73 | GList *line;
 74 | if (Doc==NULL) return;
 75 | 
 76 | for (line = (GList *) Doc->lines; line != NULL; line = line->next)	
 77 | 	{ 
 78 | 	OtsSentence * aLine=line->data;
 79 | 	if (aLine)
 80 | 	ots_line_add_wordlist(Doc,aLine);
 81 | 	}
 82 | }
 83 | 
 84 | 
 85 | 	
 86 | 
 87 | static int
 88 | keyVal (const int n)			/* Ugly , I know */
 89 | {
 90 |   if (n == 1) return 3;
 91 |   if (n == 2) return 2;
 92 |   if (n == 3) return 2;
 93 |   if (n == 4) return 2;
 94 |   return 1;
 95 | }
 96 | 
 97 | 
 98 | static void
 99 | ots_grade_line (GList *impList, OtsSentence * aLine,
100 | 		OtsStemRule * rule)
101 | {
102 |   GList *li;
103 |   GList *di;
104 |   int n;
105 |   char *tmp_stem;
106 | 
107 |   if ((aLine==NULL)||(rule==NULL)||(impList==NULL)) return;
108 | 
109 |   for (li = (GList *) aLine->words; li != NULL; li = li->next)	/* for each word */
110 |     {
111 |       n = 0;
112 |       tmp_stem = ots_stem_strip ((unsigned char *) li->data, rule);
113 | 
114 |       for (di = (GList *) impList;
115 | 	   ((di != NULL) && (n < NUM_KEY_WORDS)); di = di->next)
116 | 	{
117 | 	  n++;
118 | 	if ((NULL!=((OtsWordEntery *) di->data)->stem) && (NULL!=tmp_stem))
119 | 	  if (0 == strcmp ((((OtsWordEntery *) di->data)->stem), tmp_stem)) 
120 | 	    {
121 | 	      /* debug:  
122 | 	      if (0!=strcmp((((OtsWordEntery *) di->data)->word),li->data)) 
123 | 	      printf("[%s][%s] stem[%s]\n",(((OtsWordEntery *) di->data)->word),li->data,tmp);*/
124 | 
125 | 	      aLine->score += (((OtsWordEntery *) di->data)->occ) * keyVal (n);
126 | 	    }
127 | 
128 | 	}
129 | 
130 |       g_free (tmp_stem);
131 |     }
132 | 
133 | }
134 | 
135 | 
136 | void
137 | ots_create_title_tc(OtsArticle * Doc)
138 | {
139 | 
140 | 	char *tmp;
141 | 	char *word;
142 | 	int i;
143 |     	GString *title;
144 | 	if (NULL==Doc) return;
145 | 
146 | 	title=g_string_new(NULL);
147 | 	
148 | 	for (i=0;i<5;i++)
149 | 	{
150 | 	word = ots_word_in_list(Doc->ImpWords,i);
151 | 	if (word) g_string_append(title,word); else break;
152 | 	if (i<4) g_string_append(title,",");
153 | 	}
154 | 	
155 | 	tmp=title->str;
156 | 	if (NULL!=title) g_string_free(title,FALSE);
157 | 	Doc->title=tmp;
158 | }
159 | 
160 | 
161 | void
162 | ots_grade_doc_tc (OtsArticle * Doc)
163 | {
164 | 
165 |   GList *li;
166 |   if (NULL==Doc) return;  
167 |   ots_create_wordlist(Doc);
168 |  
169 |   
170 |    Doc->ImpWords=ots_union_list (Doc->wordStat, Doc->dict);	   /* subtract from the Article wordlist all the words in the dic file (on , the , is...) */
171 |    Doc->ImpWords=ots_sort_list (Doc->ImpWords);			  /* sort the list , top 3 is what the article talks about (SARS , virus , cure ... ) */
172 | 
173 |    /*to print wordlist: ots_print_wordlist (stdout, Doc->ImpWords);*/
174 | 
175 |   if (0 == Doc->lineCount) return;
176 | 
177 |   for (li = (GList *) Doc->lines; li != NULL; li = li->next)
178 |     {
179 |     if (li->data)
180 |       ots_grade_line (Doc->ImpWords, (OtsSentence *) li->data, Doc->stem);
181 |     }
182 | 
183 | 
184 |   ots_create_title_tc(Doc);
185 | }
186 | 


--------------------------------------------------------------------------------
/dictionaries/nl.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="dutch">
  3 |  <stemmer> 
  4 |  
  5 |  <step1_pre> 
  6 | 	  <rule>"|</rule> 
  7 | 	  <rule>(|</rule> 
  8 | 	 </step1_pre>
  9 | 	 
 10 | 	 
 11 |     <step1_post>
 12 |       <rule>."|</rule> 
 13 | 	  <rule>,"|</rule> 
 14 | 	  <rule>.|</rule>
 15 | 	  <rule>,|</rule> 
 16 | 	  <rule>"|</rule>
 17 | 	  <rule>)|</rule> 
 18 | 	  <rule>?|</rule> 
 19 | 	  <rule>:|</rule> 
 20 | 	  <rule>;|</rule> 
 21 | 	  <rule>!|</rule> 
 22 | 	 </step1_post>
 23 |  
 24 |  
 25 |  
 26 |     <manual>
 27 | 	  <rule>wrote|write</rule>
 28 | 	  <rule>came|come</rule> 
 29 | 	  <rule>went|go</rule>
 30 | 	 </manual>
 31 | 	 
 32 |     <post>
 33 |        <rule>before1|1after</rule>
 34 |     </post>
 35 |    <pre>
 36 |        <rule>before1|1after</rule>
 37 |    </pre> 
 38 |    
 39 |    
 40 |    <manual>
 41 | 	  <rule>wrote|write</rule>
 42 | 	</manual>
 43 |    
 44 |     <synonyms>
 45 | 	    <rule>assist|help</rule>
 46 |     </synonyms>
 47 |    
 48 |   </stemmer>
 49 |    <parser>
 50 |     	 <linebreak>
 51 | 	  <rule>."</rule>
 52 | 	  <rule>?"</rule>
 53 | 	  <rule>!"</rule>
 54 | 	  <rule>,"</rule>
 55 | 	  <rule>.</rule>
 56 | 	  <rule>?</rule>  
 57 | 	  <rule>;</rule>
 58 | 	  <rule>|</rule>
 59 | 	  <rule>!</rule>  
 60 | 	 </linebreak>
 61 | 	 
 62 |  	 <linedontbreak>
 63 | 	  <rule>Dr.</rule>
 64 | 	  <rule>Mr.</rule>  
 65 | 	  <rule>Mrs.</rule>
 66 | 	  <rule>U.S.</rule>  
 67 | 	  <rule>Rep.</rule>  
 68 | 	  <rule>Sen.</rule>  
 69 | 	 </linedontbreak>
 70 |    </parser>
 71 |  <grader-tc>
 72 | <word>000</word>
 73 | <word>aan</word>
 74 | <word>achter</word>
 75 | <word>af</word>
 76 | <word>al</word>
 77 | <word>als</word>
 78 | <word>altijd</word>
 79 | <word>andere</word>
 80 | <word>anders</word>
 81 | <word>ben</word>
 82 | <word>bent</word>
 83 | <word>bij</word>
 84 | <word>boven</word>
 85 | <word>bovendien</word>
 86 | <word>daar</word>
 87 | <word>daarom</word>
 88 | <word>dan</word>
 89 | <word>dat</word>
 90 | <word>de</word>
 91 | <word>deed</word>
 92 | <word>desondanks</word>
 93 | <word>deze</word>
 94 | <word>die</word>
 95 | <word>dit</word>
 96 | <word>doe</word>
 97 | <word>doen</word>
 98 | <word>door</word>
 99 | <word>dus</word>
100 | <word>echter</word>
101 | <word>een</word>
102 | <word>één</word>
103 | <word>en</word>
104 | <word>er</word>
105 | <word>ga</word>
106 | <word>gaan</word>
107 | <word>gaat</word>
108 | <word>geen</word>
109 | <word>gekund</word>
110 | <word>genoeg</word>
111 | <word>gij</word>
112 | <word>ging</word>
113 | <word>gisteren</word>
114 | <word>haar</word>
115 | <word>had</word>
116 | <word>hadden</word>
117 | <word>hare</word>
118 | <word>heb</word>
119 | <word>hebben</word>
120 | <word>heeft</word>
121 | <word>hem</word>
122 | <word>hen</word>
123 | <word>het</word>
124 | <word>hier</word>
125 | <word>hij</word>
126 | <word>hoe</word>
127 | <word>hoeveel</word>
128 | <word>hoewel</word>
129 | <word>hun</word>
130 | <word>hunne</word>
131 | <word>ik</word>
132 | <word>in</word>
133 | <word>is</word>
134 | <word>ja</word>
135 | <word>je</word>
136 | <word>jij</word>
137 | <word>jou</word>
138 | <word>jouw</word>
139 | <word>jouwe</word>
140 | <word>jullie</word>
141 | <word>kan</word>
142 | <word>kom</word>
143 | <word>komen</word>
144 | <word>komt</word>
145 | <word>kon</word>
146 | <word>konden</word>
147 | <word>kun</word>
148 | <word>kunnen</word>
149 | <word>kunt</word>
150 | <word>kwam</word>
151 | <word>langs</word>
152 | <word>maak</word>
153 | <word>maakt</word>
154 | <word>maakte</word>
155 | <word>maar</word>
156 | <word>maken</word>
157 | <word>me</word>
158 | <word>meer</word>
159 | <word>meest</word>
160 | <word>meestal</word>
161 | <word>met</word>
162 | <word>mij</word>
163 | <word>mijn</word>
164 | <word>mijne</word>
165 | <word>minstens</word>
166 | <word>moeten</word>
167 | <word>mogen</word>
168 | <word>morgen</word>
169 | <word>na</word>
170 | <word>naar</word>
171 | <word>naast</word>
172 | <word>natuurlijk</word>
173 | <word>neen</word>
174 | <word>nergens</word>
175 | <word>niet</word>
176 | <word>nog</word>
177 | <word>nogal</word>
178 | <word>nooit</word>
179 | <word>noord</word>
180 | <word>nu</word>
181 | <word>of</word>
182 | <word>om</word>
183 | <word>omdat</word>
184 | <word>onder</word>
185 | <word>ons</word>
186 | <word>onze</word>
187 | <word>ooit</word>
188 | <word>ook</word>
189 | <word>op</word>
190 | <word>over</word>
191 | <word>overal</word>
192 | <word>soms</word>
193 | <word>steeds</word>
194 | <word>straks</word>
195 | <word>te</word>
196 | <word>tegen</word>
197 | <word>terug</word>
198 | <word>toe</word>
199 | <word>tot</word>
200 | <word>tussen</word>
201 | <word>u</word>
202 | <word>uit</word>
203 | <word>uw</word>
204 | <word>uwe</word>
205 | <word>van</word>
206 | <word>veel</word>
207 | <word>vind</word>
208 | <word>vinden</word>
209 | <word>vindt</word>
210 | <word>voor</word>
211 | <word>vooral</word>
212 | <word>vrijwel</word>
213 | <word>waar</word>
214 | <word>waarom</word>
215 | <word>waarop</word>
216 | <word>want</word>
217 | <word>waren</word>
218 | <word>was</word>
219 | <word>wat</word>
220 | <word>we</word>
221 | <word>weer</word>
222 | <word>wees</word>
223 | <word>weest</word>
224 | <word>wel</word>
225 | <word>wie</word>
226 | <word>wij</word>
227 | <word>word</word>
228 | <word>worden</word>
229 | <word>wordt</word>
230 | <word>zal</word>
231 | <word>ze</word>
232 | <word>zelf</word>
233 | <word>zich</word>
234 | <word>zij</word>
235 | <word>zijn</word>
236 | <word>zijne</word>
237 | <word>zo</word>
238 | <word>zonder</word>
239 | <word>zou</word>
240 | <word>zouden</word>
241 | <word>zoveel</word>
242 | <word>zullen</word>
243 | <word>zult</word>
244 |  </grader-tc>
245 | </dictionary>
246 | 


--------------------------------------------------------------------------------
/ext/ots/libots/libots.h:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  libots.h
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  *
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 | 
 21 | #ifndef HAVE_LIBOTS_H
 22 | #define HAVE_LIBOTS_H
 23 | 
 24 | #include <glib.h>
 25 | 
 26 | G_BEGIN_DECLS
 27 | 
 28 | typedef struct
 29 | { 			/* the Term Frequency data structure */
 30 |   char* word;			
 31 |   double tf; /*Also used for TF*/
 32 | } OtsWordTF;
 33 | 
 34 | 
 35 | typedef struct
 36 | {
 37 | 	/*a GList of char*  */
 38 |   GList *RemovePre;   /* (a|b)  replace string a with b */
 39 |   GList *RemovePost;
 40 |   GList *step1_pre;
 41 |   GList *step1_post;
 42 | 
 43 |   GList *synonyms;
 44 |   GList *manual;
 45 | 	
 46 |   GList *ParserBreak; 	
 47 |   GList *ParserDontBreak; 	
 48 | 	
 49 | 	
 50 | 	/*to be implemented*/
 51 |   GList *ReplaceChars;
 52 | 
 53 | } OtsStemRule;
 54 | 
 55 | 
 56 | typedef struct
 57 | {
 58 |   GList *words;			 /* a Glist of words (char*) */
 59 |   glong score;				 /*score set by the grader*/
 60 |   gboolean selected;     /*is selected?*/
 61 |   gint wc;               /*word count*/
 62 |   void *user_data;       /*pointer to the original sentence , or serial number maybe*/
 63 | } OtsSentence;
 64 | 
 65 | 
 66 | typedef struct
 67 | {
 68 |   GList *lines;			   /* a Glist of sentences (struct Sentence) */
 69 |   gint lineCount;          /*lines in the text*/
 70 |   char *title;              /*title , auto generated*/
 71 | 
 72 |   OtsStemRule *stem;       /*stemming & parsing rules*/
 73 | 
 74 |  /*Term Frequency grader*/
 75 |   GList *tf_terms;
 76 |   GList *idf_terms;
 77 | 
 78 | 
 79 |   /*Term Count grader*/
 80 |   GList *dict; 		/* dictionary from xml*/
 81 |   GList *wordStat;	/* a wordlist of all words in the article and their occ */
 82 |   GList *ImpWords;   /*important words - for term count grader*/
 83 | 
 84 | 
 85 | } OtsArticle;
 86 | 
 87 | 
 88 | OtsArticle *ots_new_article (void);
 89 | void ots_free_article (OtsArticle *art);
 90 | 
 91 | /*parser*/
 92 | void ots_parse_file (FILE * stream, OtsArticle * Doc);	/*file input */
 93 | void ots_parse_stream(const unsigned char *utf8 , size_t len ,OtsArticle *Doc); /*parse unicode stream*/
 94 | 
 95 | OtsSentence *ots_append_line (OtsArticle * Doc);
 96 | void ots_append_word (OtsSentence * aLine,unsigned const char *aWord);
 97 | void ots_add_wordstat (OtsArticle * Doc,unsigned const char *wordString);
 98 | 
 99 | 
100 | /*dictionary*/
101 | gboolean ots_load_xml_dictionary (OtsArticle * Doc, const char *name);
102 | 
103 | int ots_get_article_word_count (const OtsArticle * Doc);
104 | 
105 | 
106 | /*grader*/
107 | void ots_highlight_doc (OtsArticle * Doc, int percent);     /*example: 20%*/
108 | void ots_highlight_doc_lines (OtsArticle * Doc, int lines); /*example: 10 lines*/
109 | void ots_highlight_doc_words (OtsArticle * Doc, int words); /*example: 50 words*/
110 | 
111 | void ots_grade_doc (OtsArticle * Doc);
112 | 
113 | void  ots_free_OtsWordTF(OtsWordTF *obj); /*todo: put in .h file*/
114 | OtsWordTF*  ots_new_OtsWordTF(const char* word,const double idf);
115 | 
116 | 
117 | /*HTML output*/
118 | void ots_print_HTML (FILE * stream, const OtsArticle * Doc);
119 | unsigned char *ots_get_doc_HTML (const OtsArticle * Doc, size_t * out_len);
120 | 
121 | /*TEXT output*/
122 | void ots_print_doc (FILE * stream, const OtsArticle * Doc);
123 | unsigned char *ots_get_doc_text (const OtsArticle * Doc, size_t * out_len);
124 | 
125 | 
126 | /*Plugin writing*/
127 | unsigned char* ots_get_line_text (const OtsSentence *aLine, gboolean only_if_selected, size_t *out_size);
128 | gboolean ots_is_line_selected(const OtsSentence *aLine);
129 | 
130 | /*Stemm support*/
131 | OtsStemRule *new_stem_rule(void);
132 | void free_stem_rule (OtsStemRule *rule);
133 | unsigned char * ots_stem_strip (unsigned const char * aWord, const OtsStemRule *rule); /*returns newly allocated string with the root of the word*/
134 | unsigned char *ots_stem_format (unsigned const char *aWord, const OtsStemRule * rule); /*Remove leading spaces, comas, colons, etc. */
135 | 
136 | /*Relations between texts*/
137 | 
138 | /*Returns the number of topics that two blocks of text share*/
139 | int ots_text_relations(
140 | const unsigned char *text1,const unsigned char *lang_code1,
141 | const unsigned char *text2,const unsigned char *lang_code2,const int topic_num);
142 | 
143 | /*For a given text, return the list of the topics*/
144 | char* ots_text_topics(const unsigned char *text,const unsigned char *lang_code,int topic_num);
145 | 
146 | 
147 | /*For a given text, return the list of the stemmed topics*/
148 | GList* ots_text_stem_list(const unsigned char *text,const unsigned char *lang_code,int topic_num);
149 | 
150 | 
151 | /*Gives a score on the relations between two lists of topics; simmilar to the inner product*/
152 | int ots_topic_list_score(const GList *topic_list1,const GList *topic_list2);
153 | 
154 | G_END_DECLS
155 | 
156 | 
157 | 
158 | #endif /* HAVE_LIBOTS_H */
159 | 


--------------------------------------------------------------------------------
/dictionaries/sv.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="swedish">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 |  
 23 |  
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 | 	 
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>all</word>
 62 | <word>alla</word>
 63 | <word>allestädes</word>
 64 | <word>allra</word>
 65 | <word>alls</word>
 66 | <word>allt</word>
 67 | <word>alltför</word>
 68 | <word>alltid</word>
 69 | <word>allting</word>
 70 | <word>alltjämt</word>
 71 | <word>alltmer</word>
 72 | <word>alltnog</word>
 73 | <word>alltsammans</word>
 74 | <word>alltså</word>
 75 | <word>annorlunda</word>
 76 | <word>ar</word>
 77 | <word>att</word>
 78 | <word>av</word>
 79 | <word>bara</word>
 80 | <word>bland</word>
 81 | <word>blev</word>
 82 | <word>bli</word>
 83 | <word>blir</word>
 84 | <word>blivit</word>
 85 | <word>de</word>
 86 | <word>dem</word>
 87 | <word>den</word>
 88 | <word>denna</word>
 89 | <word>densamme</word>
 90 | <word>dess</word>
 91 | <word>dessa</word>
 92 | <word>dessförinnan</word>
 93 | <word>det</word>
 94 | <word>detta</word>
 95 | <word>dig</word>
 96 | <word>dit</word>
 97 | <word>dittills</word>
 98 | <word>dock</word>
 99 | <word>du</word>
100 | <word>då</word>
101 | <word>där</word>
102 | <word>däremot</word>
103 | <word>därför</word>
104 | <word>eftersom</word>
105 | <word>ej</word>
106 | <word>eller</word>
107 | <word>emedan</word>
108 | <word>emellan</word>
109 | <word>emellanåt</word>
110 | <word>emellertid</word>
111 | <word>en</word>
112 | <word>endast</word>
113 | <word>endera</word>
114 | <word>envar</word>
115 | <word>enär</word>
116 | <word>er</word>
117 | <word>ett</word>
118 | <word>fast</word>
119 | <word>fastän</word>
120 | <word>fick</word>
121 | <word>finnas</word>
122 | <word>flera</word>
123 | <word>flesta</word>
124 | <word>från</word>
125 | <word>få</word>
126 | <word>får</word>
127 | <word>fåt</word>
128 | <word>förrän</word>
129 | <word>ha</word>
130 | <word>han</word>
131 | <word>heller</word>
132 | <word>henne</word>
133 | <word>hit</word>
134 | <word>hittills</word>
135 | <word>hitåt</word>
136 | <word>hon</word>
137 | <word>honom</word>
138 | <word>hur</word>
139 | <word>här</word>
140 | <word>i</word>
141 | <word>icke</word>
142 | <word>ifall</word>
143 | <word>ifrån</word>
144 | <word>igen</word>
145 | <word>igenom</word>
146 | <word>in</word>
147 | <word>ingen</word>
148 | <word>ingendera</word>
149 | <word>inget</word>
150 | <word>innan</word>
151 | <word>innanför</word>
152 | <word>inne</word>
153 | <word>ja</word>
154 | <word>jag</word>
155 | <word>jo</word>
156 | <word>kan</word>
157 | <word>kunde</word>
158 | <word>kunna</word>
159 | <word>kunnat</word>
160 | <word>man</word>
161 | <word>med</word>
162 | <word>medan</word>
163 | <word>mellan</word>
164 | <word>men</word>
165 | <word>mer</word>
166 | <word>mest</word>
167 | <word>mig</word>
168 | <word>mycket</word>
169 | <word>många</word>
170 | <word>måst</word>
171 | <word>måsta</word>
172 | <word>ned</word>
173 | <word>nedanför</word>
174 | <word>nedåt</word>
175 | <word>nej</word>
176 | <word>ni</word>
177 | <word>nu</word>
178 | <word>nyss</word>
179 | <word>någon</word>
180 | <word>någondera</word>
181 | <word>någonsin</word>
182 | <word>någonstans</word>
183 | <word>någonting</word>
184 | <word>några</word>
185 | <word>när</word>
186 | <word>och</word>
187 | <word>också</word>
188 | <word>om</word>
189 | <word>oss</word>
190 | <word>ovan</word>
191 | <word>ovanför</word>
192 | <word>ovanpå</word>
193 | <word>på</word>
194 | <word>sedan</word>
195 | <word>senare</word>
196 | <word>sin</word>
197 | <word>själv</word>
198 | <word>ska</word>
199 | <word>skall</word>
200 | <word>skulle</word>
201 | <word>slags</word>
202 | <word>snart</word>
203 | <word>som</word>
204 | <word>somliga</word>
205 | <word>stundom</word>
206 | <word>så</word>
207 | <word>sådan</word>
208 | <word>således</word>
209 | <word>sålunda</word>
210 | <word>såsom</word>
211 | <word>såvida</word>
212 | <word>såvitt</word>
213 | <word>sällan</word>
214 | <word>tack</word>
215 | <word>tillbaka</word>
216 | <word>tills</word>
217 | <word>upp</word>
218 | <word>ur</word>
219 | <word>ut</word>
220 | <word>utan</word>
221 | <word>va</word>
222 | <word>vad</word>
223 | <word>var</word>
224 | <word>vara</word>
225 | <word>varandra</word>
226 | <word>varav</word>
227 | <word>vardera</word>
228 | <word>varenda</word>
229 | <word>varför</word>
230 | <word>varifrån</word>
231 | <word>varje</word>
232 | <word>vart</word>
233 | <word>vem</word>
234 | <word>vi</word>
235 | <word>vid</word>
236 | <word>vilja</word>
237 | <word>vilka</word>
238 | <word>vilken</word>
239 | <word>vilket</word>
240 | <word>vill</word>
241 | <word>åt</word>
242 | <word>åtskillig</word>
243 | <word>åtskilligt</word>
244 | <word>än</word>
245 | <word>ändå</word>
246 | <word>ännu</word>
247 | <word>äntligen</word>
248 | <word>är</word>
249 | <word>även</word>
250 | <word>ävensom</word>
251 | <word>ömsom</word>
252 | <word>över</word>
253 | <word>överallt</word>
254 |  </grader-tc>
255 | </dictionary>
256 | 


--------------------------------------------------------------------------------
/dictionaries/nn.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="norwegian">
  3 |  <stemmer>
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 |   
 23 |   
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 | 	 
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>er</word>
 62 | <word>og</word>
 63 | <word>det</word>
 64 | <word>i</word>
 65 | <word>som</word>
 66 | <word>på</word>
 67 | <word>å</word>
 68 | <word>til</word>
 69 | <word>ein</word>
 70 | <word>at</word>
 71 | <word>med</word>
 72 | <word>for</word>
 73 | <word>har</word>
 74 | <word>av</word>
 75 | <word>han</word>
 76 | <word>dei</word>
 77 | <word>om</word>
 78 | <word>ikkje</word>
 79 | <word>eg</word>
 80 | <word>eit</word>
 81 | <word>du</word>
 82 | <word>dette</word>
 83 | <word>kan</word>
 84 | <word>den</word>
 85 | <word>men</word>
 86 | <word>ei</word>
 87 | <word>ho</word>
 88 | <word>vil</word>
 89 | <word>seg</word>
 90 | <word>var</word>
 91 | <word>eller</word>
 92 | <word>denne</word>
 93 | <word>òg</word>
 94 | <word>ut</word>
 95 | <word>noko</word>
 96 | <word>når</word>
 97 | <word>frå</word>
 98 | <word>berre</word>
 99 | <word>andre</word>
100 | <word>skal</word>
101 | <word>her</word>
102 | <word>då</word>
103 | <word>me</word>
104 | <word>alle</word>
105 | <word>to</word>
106 | <word>sjølv</word>
107 | <word>så</word>
108 | <word>ser</word>
109 | <word>desse</word>
110 | <word>kjem</word>
111 | <word>må</word>
112 | <word>etter</word>
113 | <word>opp</word>
114 | <word>vere</word>
115 | <word>der</word>
116 | <word>over</word>
117 | <word>kva</word>
118 | <word>blir</word>
119 | <word>slik</word>
120 | <word>no</word>
121 | <word>få</word>
122 | <word>so</word>
123 | <word>ha</word>
124 | <word>får</word>
125 | <word>hadde</word>
126 | <word>fram</word>
127 | <word>inn</word>
128 | <word>går</word>
129 | <word>litt</word>
130 | <word>mellom</word>
131 | <word>tek</word>
132 | <word>fleire</word>
133 | <word>heilt</word>
134 | <word>veldig</word>
135 | <word>meir</word>
136 | <word>vart</word>
137 | <word>enn</word>
138 | <word>vi</word>
139 | <word>ved</word>
140 | <word>mot</word>
141 | <word>meg</word>
142 | <word>nok</word>
143 | <word>nokre</word>
144 | <word>sjå</word>
145 | <word>sin</word>
146 | <word>både</word>
147 | <word>same</word>
148 | <word>sett</word>
149 | <word>alt</word>
150 | <word>første</word>
151 | <word>gjev</word>
152 | <word>heile</word>
153 | <word>mest</word>
154 | <word>mykje</word>
155 | <word>hans</word>
156 | <word>før</word>
157 | <word>gjer</word>
158 | <word>korleis</word>
159 | <word>seie</word>
160 | <word>deg</word>
161 | <word>finst</word>
162 | <word>gjennom</word>
163 | <word>siste</word>
164 | <word>vore</word>
165 | <word>kunne</word>
166 | <word>ulike</word>
167 | <word>viss</word>
168 | <word>gå</word>
169 | <word>bra</word>
170 | <word>en</word>
171 | <word>kor</word>
172 | <word>ta</word>
173 | <word>vera</word>
174 | <word>ned</word>
175 | <word>si</word>
176 | <word>sidan</word>
177 | <word>sitt</word>
178 | <word>henne</word>
179 | <word>kanskje</word>
180 | <word>altså</word>
181 | <word>ville</word>
182 | <word>likevel</word>
183 | <word>tid</word>
184 | <word>vel</word>
185 | <word>anna</word>
186 | <word>sine</word>
187 | <word>under</word>
188 | <word>bruk</word>
189 | <word>fekk</word>
190 | <word>kvar</word>
191 | <word>laga</word>
192 | <word>like</word>
193 | <word>nytt</word>
194 | <word>ting</word>
195 | <word>de</word>
196 | <word>heller</word>
197 | <word>rett</word>
198 | <word>utan</word>
199 | <word>faktisk</word>
200 | <word>hennar</word>
201 | <word>saman</word>
202 | <word>skulle</word>
203 | <word>slike</word>
204 | <word>tre</word>
205 | <word>medan</word>
206 | <word>annan</word>
207 | <word>difor</word>
208 | <word>igjen</word>
209 | <word>også</word>
210 | <word>oss</word>
211 | <word>føre</word>
212 | <word>kom</word>
213 | <word>måte</word>
214 | <word>sagt</word>
215 | <word>står</word>
216 | <word>bli</word>
217 | <word>rundt</word>
218 | <word>tida</word>
219 | <word>veit</word>
220 | <word>finn</word>
221 | <word>meiner</word>
222 | <word>ofte</word>
223 | <word>gjere</word>
224 | <word>alltid</word>
225 | <word>ganske</word>
226 | <word>held</word>
227 | <word>lett</word>
228 | <word>elles</word>
229 | <word>sjølvsagt</word>
230 | <word>synest</word>
231 | <word>gjera</word>
232 | <word>ligg</word>
233 | <word>seinare</word>
234 | <word>styrer</word>
235 | <word>begge</word>
236 | <word>kvart</word>
237 | <word>bruke</word>
238 | <word>kome</word>
239 | <word>lite</word>
240 | <word>bruka</word>
241 | <word>jo</word>
242 | <word>din</word>
243 | <word>neste</word>
244 | <word>store</word>
245 | <word>fire</word>
246 | <word>fått</word>
247 | <word>kort</word>
248 | <word>la</word>
249 | <word>lenge</word>
250 | <word>hos</word>
251 | <word>nokon</word>
252 | <word>bør</word>
253 | <word>beste</word>
254 | <word>kven</word>
255 | <word>derfor</word>
256 | <word>nemleg</word>
257 | <word>slags</word>
258 | <word>treng</word>
259 | <word>grunn</word>
260 | <word>klart</word>
261 | <word>min</word>
262 | <word>blant</word>
263 |  </grader-tc>
264 | </dictionary>
265 | 


--------------------------------------------------------------------------------
/dictionaries/hu.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="hungarian">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 |  
 23 |  
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 | 	 
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>a</word>
 62 | <word>addig</word>
 63 | <word>ám</word>
 64 | <word>annak</word>
 65 | <word>annyi</word>
 66 | <word>arra</word>
 67 | <word>át</word>
 68 | <word>attól</word>
 69 | <word>az</word>
 70 | <word>azért</word>
 71 | <word>azok</word>
 72 | <word>be</word>
 73 | <word>bele</word>
 74 | <word>belé</word>
 75 | <word>beléd</word>
 76 | <word>beléjük</word>
 77 | <word>belém</word>
 78 | <word>belénk</word>
 79 | <word>belétek</word>
 80 | <word>belőle</word>
 81 | <word>belőled</word>
 82 | <word>belőlem</word>
 83 | <word>belőletek</word>
 84 | <word>belőlük</word>
 85 | <word>belőlünk</word>
 86 | <word>benne</word>
 87 | <word>benned</word>
 88 | <word>bennem</word>
 89 | <word>bennetek</word>
 90 | <word>bennük</word>
 91 | <word>bennünk</word>
 92 | <word>csak</word>
 93 | <word>de</word>
 94 | <word>e</word>
 95 | <word>eddig</word>
 96 | <word>egy</word>
 97 | <word>egyik</word>
 98 | <word>el</word>
 99 | <word>én</word>
100 | <word>engem</word>
101 | <word>ennek</word>
102 | <word>ennyi</word>
103 | <word>erre</word>
104 | <word>érte</word>
105 | <word>érted</word>
106 | <word>értem</word>
107 | <word>értetek</word>
108 | <word>értük</word>
109 | <word>értünk</word>
110 | <word>és</word>
111 | <word>év</word>
112 | <word>ez</word>
113 | <word>ezek</word>
114 | <word>ezért</word>
115 | <word>ezt</word>
116 | <word>fel</word>
117 | <word>fog</word>
118 | <word>föl</word>
119 | <word>ha</word>
120 | <word>hanem</word>
121 | <word>három</word>
122 | <word>hogy</word>
123 | <word>hol</word>
124 | <word>honnan</word>
125 | <word>hozzá</word>
126 | <word>hozzád</word>
127 | <word>hozzájuk</word>
128 | <word>hozzám</word>
129 | <word>hozzánk</word>
130 | <word>hozzátok</word>
131 | <word>ide</word>
132 | <word>igen</word>
133 | <word>ilyen</word>
134 | <word>is</word>
135 | <word>ismét</word>
136 | <word>itt</word>
137 | <word>jó</word>
138 | <word>kell</word>
139 | <word>két</word>
140 | <word>kettő</word>
141 | <word>ki</word>
142 | <word>kicsi</word>
143 | <word>kicsit</word>
144 | <word>kis</word>
145 | <word>le</word>
146 | <word>lehet</word>
147 | <word>lesz</word>
148 | <word>lett</word>
149 | <word>ma</word>
150 | <word>majdnem</word>
151 | <word>már</word>
152 | <word>más</word>
153 | <word>másik</word>
154 | <word>meddig</word>
155 | <word>meg</word>
156 | <word>még</word>
157 | <word>megint</word>
158 | <word>mellett</word>
159 | <word>mennyi</word>
160 | <word>merre</word>
161 | <word>mert</word>
162 | <word>mettől</word>
163 | <word>mi</word>
164 | <word>miért</word>
165 | <word>mikor</word>
166 | <word>milyen</word>
167 | <word>minden</word>
168 | <word>mindenki</word>
169 | <word>mindig</word>
170 | <word>minket</word>
171 | <word>most</word>
172 | <word>nagy</word>
173 | <word>nagyon</word>
174 | <word>nála</word>
175 | <word>nálad</word>
176 | <word>nálam</word>
177 | <word>nálatok</word>
178 | <word>náluk</word>
179 | <word>nálunk</word>
180 | <word>ne</word>
181 | <word>négy</word>
182 | <word>neked</word>
183 | <word>nekem</word>
184 | <word>neki</word>
185 | <word>nekik</word>
186 | <word>nektek</word>
187 | <word>nekünk</word>
188 | <word>nem</word>
189 | <word>ő</word>
190 | <word>oda</word>
191 | <word>ők</word>
192 | <word>őket</word>
193 | <word>olyan</word>
194 | <word>ön</word>
195 | <word>önbe</word>
196 | <word>önben</word>
197 | <word>önbol</word>
198 | <word>önért</word>
199 | <word>önhöz</word>
200 | <word>önnek</word>
201 | <word>önnel</word>
202 | <word>önnél</word>
203 | <word>önök</word>
204 | <word>önökbe</word>
205 | <word>önökben</word>
206 | <word>önökből</word>
207 | <word>önökért</word>
208 | <word>önöket</word>
209 | <word>önökhöz</word>
210 | <word>önökkel</word>
211 | <word>önöknek</word>
212 | <word>önöknél</word>
213 | <word>önökön</word>
214 | <word>önökre</word>
215 | <word>önökről</word>
216 | <word>önöktől</word>
217 | <word>önön</word>
218 | <word>önre</word>
219 | <word>önről</word>
220 | <word>önt</word>
221 | <word>öntől</word>
222 | <word>össze</word>
223 | <word>őt</word>
224 | <word>ott</word>
225 | <word>rá</word>
226 | <word>rád</word>
227 | <word>rajta</word>
228 | <word>rajtad</word>
229 | <word>rajtam</word>
230 | <word>rajtatok</word>
231 | <word>rajtuk</word>
232 | <word>rajtunk</word>
233 | <word>rájuk</word>
234 | <word>rám</word>
235 | <word>ránk</word>
236 | <word>rátok</word>
237 | <word>róla</word>
238 | <word>rólad</word>
239 | <word>rólam</word>
240 | <word>rólatok</word>
241 | <word>róluk</word>
242 | <word>rólunk</word>
243 | <word>rossz</word>
244 | <word>s</word>
245 | <word>se</word>
246 | <word>sem</word>
247 | <word>semmi</word>
248 | <word>senki</word>
249 | <word>soha</word>
250 | <word>sok</word>
251 | <word>stb</word>
252 | <word>szét</word>
253 | <word>talán</word>
254 | <word>te</word>
255 | <word>téged</word>
256 | <word>ti</word>
257 | <word>titeket</word>
258 | <word>tőle</word>
259 | <word>tőled</word>
260 | <word>tolem</word>
261 | <word>toletek</word>
262 | <word>tőlük</word>
263 | <word>tőlünk</word>
264 | <word>új</word>
265 | <word>újra</word>
266 | <word>vagy</word>
267 | <word>van</word>
268 | <word>vannak</word>
269 | <word>vele</word>
270 | <word>veled</word>
271 | <word>velem</word>
272 | <word>veletek</word>
273 | <word>velük</word>
274 | <word>velünk</word>
275 | <word>vissza</word>
276 | <word>volt</word>
277 | <word>voltak</word>
278 | <word></word>
279 |  </grader-tc>
280 | </dictionary>
281 | 


--------------------------------------------------------------------------------
/ext/ots/libots/wordlist.c:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  wordlist.c
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  * 
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 | 
 21 | #include <stdio.h>
 22 | #include <stdlib.h>
 23 | #include <string.h>
 24 | 
 25 | #include "libots.h"
 26 | #include "grader-tc.h"
 27 | 
 28 | /*word lists manipulations , mainly for grader-tc */
 29 | 
 30 | OtsWordEntery *
 31 | ots_new_wordEntery_strip(unsigned const char *wordString,const OtsStemRule *rule) /*for real text use*/
 32 | {
 33 |   OtsWordEntery *aWord = g_new0 (OtsWordEntery, 1);
 34 |   aWord->occ = 1;
 35 |   aWord->word = ots_stem_format(wordString,rule);  
 36 |   aWord->stem = ots_stem_strip(wordString,rule);
 37 |   return aWord;
 38 | }
 39 | 
 40 | OtsWordEntery *
 41 | ots_new_wordEntery (unsigned const char *wordString) /*for dictionary use only, no formating here*/
 42 | {
 43 |   OtsWordEntery *aWord = g_new0 (OtsWordEntery, 1);
 44 |   aWord->occ = 1;
 45 |   aWord->word = g_strdup (wordString);  
 46 |   aWord->stem = g_strdup (wordString);
 47 |   return aWord;
 48 | }
 49 | 
 50 | 
 51 | void
 52 | ots_free_wordEntery (OtsWordEntery * WC)
 53 | {
 54 |   if (WC != NULL)
 55 |     {
 56 |       if (NULL!=WC->word) g_free (WC->word);
 57 |       if (NULL!=WC->stem) g_free (WC->stem);
 58 |       g_free (WC);
 59 |     }
 60 | }
 61 | 
 62 | void
 63 | ots_free_wordlist (GList * aList)
 64 | {  
 65 |   if (aList != NULL)
 66 |     {
 67 |   		 	g_list_foreach(aList,(GFunc)ots_free_wordEntery , NULL);
 68 |     		g_list_free(aList);
 69 |     } 
 70 | }
 71 | 
 72 | OtsWordEntery *
 73 | ots_copy_wordEntery (OtsWordEntery * obj)
 74 | {
 75 |   OtsWordEntery *aWord;
 76 |   if (obj == NULL) { return NULL;}
 77 |   aWord = g_new (OtsWordEntery, 1);
 78 |   aWord->occ = obj->occ;
 79 |   aWord->word = g_strdup (obj->word);  
 80 |   if (NULL!=obj->stem)
 81 |   {aWord->stem = g_strdup (obj->stem);} else {aWord->stem=NULL;}
 82 |   return aWord;
 83 | }
 84 | 
 85 | static int
 86 | ots_sort_handler (OtsWordEntery * node1, OtsWordEntery * node2)
 87 | {
 88 |   if (node1->occ > node2->occ)
 89 |     return -1;
 90 |   if (node1->occ < node2->occ)
 91 |     return 1;
 92 |   return 0;
 93 | }
 94 | 
 95 | GList *
 96 | ots_sort_list (GList* aList)
 97 | { 
 98 |   GList *newList; 
 99 |   newList = g_list_sort (aList, (GCompareFunc) ots_sort_handler);	/* sort article */
100 |   return newList;
101 | }
102 | 
103 | GList *
104 | ots_union_list (const GList *aLst, const GList * bLst)
105 | {
106 |   GList *li;
107 |   GList *di;
108 |   int insert;
109 |   GList *newLst=NULL;
110 |   
111 |   for (li = (GList *) aLst; li != NULL; li = li->next)
112 |     {
113 |       insert = 1;
114 |       for (di = (GList *) bLst; di != NULL; di = di->next)
115 | 		{
116 | 		 if(( li->data) && (di->data) && (((OtsWordEntery *) li->data)->word) && (((OtsWordEntery *) di->data)->word)) /*all defined?*/
117 | 	    if (0 == g_strncasecmp ((((OtsWordEntery *) li->data)->word), /*fix me: unicode issue?*/
118 | 				  (((OtsWordEntery *) di->data)->word), 10))
119 | 	    insert = 0;		/* if word in B */
120 | 
121 | 		}
122 |       if (insert == 1) 
123 | 	if ((li->data))
124 |       newLst = g_list_append (newLst,ots_copy_wordEntery ((OtsWordEntery *) li->data));
125 |     }
126 |     
127 |     return newLst;
128 | }
129 | 
130 | 
131 | char *
132 | ots_word_in_list (const GList *aList,const int index)	/* return the String value of the n'th word */
133 | {
134 |   OtsWordEntery *obj = NULL;
135 |   
136 |   GList *item =(GList *)g_list_nth ((GList *)aList, index);
137 |   if (item != NULL) obj = item->data;
138 |   if (obj == NULL)
139 |     {
140 |       return NULL;
141 |     }
142 |   else
143 |     return obj->word;
144 | }
145 | 
146 | char *
147 | ots_stem_in_list (const GList *aList,const int index)	/* return the String value of stem of the n'th word */
148 | {
149 |   OtsWordEntery *obj = NULL;
150 | 
151 |   GList *item =(GList *)g_list_nth ((GList *)aList, index);
152 |   if (item != NULL) obj = item->data;
153 |   if (obj == NULL)
154 |     {
155 |       return NULL;
156 |     }
157 |   else
158 |     return obj->stem;
159 | }
160 | 
161 | /*Adds a word to the word count of the article*/
162 | void
163 | ots_add_wordstat (OtsArticle * Doc,
164 | 		  unsigned const char *wordString)
165 | {
166 |   GList *li;
167 |   OtsWordEntery *stat;
168 |   OtsStemRule * rule=Doc->stem;
169 |   char *tmp = NULL;
170 | 
171 |   if (NULL==wordString) return;
172 |   if (NULL==Doc) return;
173 |     
174 |   if (0==strlen(wordString)) return;
175 |   if (0==strcmp(wordString," ")) return;
176 |   if (0==strcmp(wordString,"\n")) return;
177 |   if (0==strcmp(wordString,"\t")) return;
178 |   
179 |   if (wordString)
180 |   tmp = ots_stem_strip (wordString, rule);
181 | 
182 |   for (li = (GList *) Doc->wordStat; li != NULL; li = li->next)	/* search the word in current wordlist */
183 |     {
184 |       if (li->data)
185 |       if (0 == strcmp (tmp, ((OtsWordEntery *) li->data)->stem))
186 | 	{
187 | 	  ((OtsWordEntery *) li->data)->occ++;	/* occurred in another place in the text now; */
188 | 	  g_free (tmp);
189 | 	
190 | 		/*printf for debug*/
191 | 	    /* 
192 | 	    if (0!=strcmp(((OtsWordEntery *) li->data)->word,wordString)  )
193 | 	     printf("[%s]==[%s]\n",((OtsWordEntery *) li->data)->word,wordString);
194 | 	    */
195 | 
196 | 	  return;
197 | 	}
198 |     }
199 | 
200 |   stat = ots_new_wordEntery_strip (wordString, rule);	/* if not in list , Add  stem  it to the list */
201 |   if ((stat)) 
202 |   Doc->wordStat = g_list_prepend (Doc->wordStat, stat);
203 |   g_free (tmp);
204 |   return;
205 | }		  
206 | 
207 | 
208 | 
209 | 
210 | void
211 | ots_print_wordlist (FILE * stream, const GList * aList)
212 | {
213 |   GList *li;
214 |   for (li = (GList *) aList; li != NULL; li = li->next)
215 |     fprintf (stream, "Word[%d][%s]\n", ((OtsWordEntery *) li->data)->occ,
216 | 	    		 			((OtsWordEntery *) li->data)->word);
217 | }
218 | 
219 | 
220 | 
221 | 


--------------------------------------------------------------------------------
/dictionaries/gl.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="galician">
  3 |  <stemmer>
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 | 	 
 11 |     <step1_post>
 12 |       <rule>."|</rule> 
 13 | 	  <rule>,"|</rule> 
 14 | 	  <rule>.|</rule>
 15 | 	  <rule>,|</rule> 
 16 | 	  <rule>"|</rule>
 17 | 	  <rule>)|</rule> 
 18 | 	  <rule>?|</rule> 
 19 | 	  <rule>:|</rule> 
 20 | 	  <rule>;|</rule> 
 21 | 	  <rule>!|</rule> 
 22 | 	 </step1_post>
 23 |   
 24 |   
 25 |   
 26 |     <manual>
 27 | 	  <rule>wrote|write</rule>
 28 | 	  <rule>came|come</rule> 
 29 | 	  <rule>went|go</rule>
 30 | 	 </manual>
 31 |   
 32 |     <post>
 33 |        <rule>before1|1after</rule>
 34 |     </post>
 35 |    <pre>
 36 |        <rule>before1|1after</rule>
 37 |    </pre> 
 38 |   </stemmer>
 39 |    <parser>
 40 |     
 41 |  	 <linebreak>
 42 | 	  <rule>."</rule>
 43 | 	  <rule>?"</rule>
 44 | 	  <rule>!"</rule>
 45 | 	  <rule>,"</rule>
 46 | 	  <rule>.</rule>
 47 | 	  <rule>?</rule>  
 48 | 	  <rule>;</rule>
 49 | 	  <rule>|</rule>
 50 | 	  <rule>!</rule>  
 51 | 	 </linebreak>
 52 | 	 
 53 |  	 <linedontbreak>
 54 | 	  <rule>Dr.</rule>
 55 | 	  <rule>Mr.</rule>  
 56 | 	  <rule>Mrs.</rule>
 57 | 	  <rule>U.S.</rule>  
 58 | 	  <rule>Rep.</rule>  
 59 | 	  <rule>Sen.</rule>  
 60 | 	 </linedontbreak>
 61 |    </parser>
 62 |  <grader-tc>
 63 | <word>a</word>
 64 | <word>acá</word>
 65 | <word>acó</word>
 66 | <word>actual</word>
 67 | <word>actualmente</word>
 68 | <word>adiante</word>
 69 | <word>agás</word>
 70 | <word>agora</word>
 71 | <word>aí</word>
 72 | <word>ainda</word>
 73 | <word>algo</word>
 74 | <word>alguén</word>
 75 | <word>algun</word>
 76 | <word>alguns</word>
 77 | <word>algures</word>
 78 | <word>ali</word>
 79 | <word>aló</word>
 80 | <word>ambos</word>
 81 | <word>anterior</word>
 82 | <word>anteriormente</word>
 83 | <word>antes</word>
 84 | <word>aparte</word>
 85 | <word>apenas</word>
 86 | <word>aquel</word>
 87 | <word>aquela</word>
 88 | <word>aquelas</word>
 89 | <word>aqueles</word>
 90 | <word>aqui</word>
 91 | <word>aquilo</word>
 92 | <word>as</word>
 93 | <word>asi</word>
 94 | <word>através</word>
 95 | <word>baixo</word>
 96 | <word>ben</word>
 97 | <word>bon</word>
 98 | <word>ca</word>
 99 | <word>cada</word>
100 | <word>cal</word>
101 | <word>cando</word>
102 | <word>canto</word>
103 | <word>cedo</word>
104 | <word>co</word>
105 | <word>coa</word>
106 | <word>coas</word>
107 | <word>comigo</word>
108 | <word>como</word>
109 | <word>con</word>
110 | <word>connosco</word>
111 | <word>consigo</word>
112 | <word>contodo</word>
113 | <word>convosco</word>
114 | <word>cos</word>
115 | <word>cuxa</word>
116 | <word>cuxas</word>
117 | <word>cuxo</word>
118 | <word>cuxos</word>
119 | <word>de</word>
120 | <word>debe</word>
121 | <word>deber</word>
122 | <word>deberia</word>
123 | <word>deberíamos</word>
124 | <word>debes</word>
125 | <word>del</word>
126 | <word>dela</word>
127 | <word>delas</word>
128 | <word>deles</word>
129 | <word>demais</word>
130 | <word>desde</word>
131 | <word>despois</word>
132 | <word>di</word>
133 | <word>dicer</word>
134 | <word>diso</word>
135 | <word>dixemos</word>
136 | <word>dixo</word>
137 | <word>dous</word>
138 | <word>duas</word>
139 | <word>e</word>
140 | <word>é</word>
141 | <word>eis</word>
142 | <word>el</word>
143 | <word>ela</word>
144 | <word>elas</word>
145 | <word>eles</word>
146 | <word>en</word>
147 | <word>entón</word>
148 | <word>entre</word>
149 | <word>era</word>
150 | <word>érades</word>
151 | <word>éramos</word>
152 | <word>eran</word>
153 | <word>eras</word>
154 | <word>es</word>
155 | <word>esta</word>
156 | <word>está</word>
157 | <word>estaba</word>
158 | <word>estábades</word>
159 | <word>estábamos</word>
160 | <word>estaban</word>
161 | <word>estabas</word>
162 | <word>estades</word>
163 | <word>estamos</word>
164 | <word>están</word>
165 | <word>estar</word>
166 | <word>estás</word>
167 | <word>estive</word>
168 | <word>estiveche</word>
169 | <word>estivemos</word>
170 | <word>estiveron</word>
171 | <word>estivo</word>
172 | <word>estou</word>
173 | <word>etc</word>
174 | <word>eu</word>
175 | <word>excepto</word>
176 | <word>final</word>
177 | <word>foche</word>
178 | <word>foi</word>
179 | <word>fomos</word>
180 | <word>foran</word>
181 | <word>fostes</word>
182 | <word>fun</word>
183 | <word>ha</word>
184 | <word>ides</word>
185 | <word>iso</word>
186 | <word>isto</word>
187 | <word>logo</word>
188 | <word>máis</word>
189 | <word>máximo</word>
190 | <word>meu</word>
191 | <word>min</word>
192 | <word>miña</word>
193 | <word>moitas</word>
194 | <word>moito</word>
195 | <word>moitos</word>
196 | <word>nada</word>
197 | <word>nen</word>
198 | <word>nengun</word>
199 | <word>nengunha</word>
200 | <word>ninguén</word>
201 | <word>non</word>
202 | <word>nós</word>
203 | <word>nosa</word>
204 | <word>nosas</word>
205 | <word>noso</word>
206 | <word>nosos</word>
207 | <word>o</word>
208 | <word>obtén</word>
209 | <word>obter</word>
210 | <word>obtido</word>
211 | <word>obtivemos</word>
212 | <word>obtivo</word>
213 | <word>onde</word>
214 | <word>os</word>
215 | <word>outra</word>
216 | <word>outras</word>
217 | <word>outro</word>
218 | <word>outros</word>
219 | <word>par</word>
220 | <word>para</word>
221 | <word>parado</word>
222 | <word>parece</word>
223 | <word>parecer</word>
224 | <word>pensa</word>
225 | <word>pode</word>
226 | <word>poden</word>
227 | <word>poderia</word>
228 | <word>por</word>
229 | <word>primeira</word>
230 | <word>primeiro</word>
231 | <word>própria</word>
232 | <word>próprias</word>
233 | <word>próprio</word>
234 | <word>próprios</word>
235 | <word>que</word>
236 | <word>quen</word>
237 | <word>riba</word>
238 | <word>se</word>
239 | <word>ser</word>
240 | <word>sob</word>
241 | <word>sodes</word>
242 | <word>somos</word>
243 | <word>son</word>
244 | <word>sua</word>
245 | <word>tamén</word>
246 | <word>tan</word>
247 | <word>temos</word>
248 | <word>ten</word>
249 | <word>tendes</word>
250 | <word>teñen</word>
251 | <word>teño</word>
252 | <word>ter</word>
253 | <word>tes</word>
254 | <word>teu</word>
255 | <word>ti</word>
256 | <word>tiña</word>
257 | <word>tíñades</word>
258 | <word>tíñamos</word>
259 | <word>tiñan</word>
260 | <word>tiñas</word>
261 | <word>tiveche</word>
262 | <word>tivemos</word>
263 | <word>tiven</word>
264 | <word>tiveron</word>
265 | <word>tivestes</word>
266 | <word>tivo</word>
267 | <word>todo</word>
268 | <word>tu</word>
269 | <word>tua</word>
270 | <word>último</word>
271 | <word>un</word>
272 | <word>unha</word>
273 | <word>unhas</word>
274 | <word>unicamente</word>
275 | <word>uns</word>
276 | <word>vai</word>
277 | <word>vamos</word>
278 | <word>van</word>
279 | <word>várias</word>
280 | <word>vários</word>
281 | <word>vos</word>
282 | <word>vós</word>
283 | <word>vosa</word>
284 | <word>vosas</word>
285 | <word>voso</word>
286 | <word>vosos</word>
287 | <word>vou</word>
288 | <word>xamais</word>
289 |  </grader-tc>
290 | </dictionary>
291 | 


--------------------------------------------------------------------------------
/dictionaries/yi.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="yiddish">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	  <rule>כ'|</rule> 
  8 | 	  <rule>מ'|</rule> 
  9 | 	  <rule>ס'|</rule> 
 10 | 	  <rule>כ׳|</rule> 
 11 | 	  <rule>מ׳|</rule> 
 12 | 	  <rule>ס׳|</rule> 
 13 | 	 </step1_pre>
 14 | 	 
 15 | 	 
 16 |     <step1_post>
 17 |       <rule>."|</rule> 
 18 | 	  <rule>,"|</rule> 
 19 | 	  <rule>.|</rule>
 20 | 	  <rule>,|</rule> 
 21 | 	  <rule>"|</rule>
 22 | 	  <rule>)|</rule> 
 23 | 	  <rule>?|</rule> 
 24 | 	  <rule>:|</rule> 
 25 | 	  <rule>;|</rule> 
 26 | 	  <rule>!|</rule> 
 27 | 	 </step1_post>
 28 |  
 29 |  
 30 |     <manual>
 31 | 	  <rule>געקומען|קום</rule>
 32 | 	  <rule>געװען|זײַן</rule> 
 33 | 	 </manual>
 34 | 	 
 35 |     <post>
 36 |        <rule>ן|</rule>
 37 |        <rule>ער|</rule>
 38 |        <rule>ע|</rule>
 39 |        <rule>ט|</rule>
 40 |     </post>
 41 |    <pre>
 42 |        <rule>before1|1after</rule>
 43 |    </pre> 
 44 |   </stemmer>
 45 |    <parser>
 46 |     
 47 |  	 <linebreak>
 48 | 	  <rule>."</rule>
 49 | 	  <rule>?"</rule>
 50 | 	  <rule>!"</rule>
 51 | 	  <rule>,"</rule>
 52 | 	  <rule>.</rule>
 53 | 	  <rule>?</rule>  
 54 | 	  <rule>;</rule>
 55 | 	  <rule>|</rule>
 56 | 	  <rule>!</rule>  
 57 | 	 </linebreak>
 58 | 	 
 59 |  	 <linedontbreak>
 60 | 	  <rule>Dr.</rule>
 61 | 	  <rule>Mr.</rule>  
 62 | 	  <rule>Mrs.</rule>
 63 | 	  <rule>U.S.</rule>  
 64 | 	  <rule>Rep.</rule>  
 65 | 	  <rule>Sen.</rule>  
 66 | 	 </linedontbreak>
 67 |    </parser>
 68 |  <grader-tc>
 69 | <word>!</word>
 70 | <word>'</word>
 71 | <word>,</word>
 72 | <word>*</word>
 73 | <word>-</word>
 74 | <word>--</word>
 75 | <word>.</word>
 76 | <word>000</word>
 77 | <word>?</word>
 78 | <word>|</word>
 79 | <word>אַ</word>
 80 | <word>אַװעק</word>
 81 | <word>אַז</word>
 82 | <word>אַזױ</word>
 83 | <word>אַלע</word>
 84 | <word>אַלעמאָל</word>
 85 | <word>אַן</word>
 86 | <word>אַנדער</word>
 87 | <word>אַנדערע</word>
 88 | <word>אַפֿילו</word>
 89 | <word>אַצינד</word>
 90 | <word>אַראָפּ</word>
 91 | <word>אַרױס</word>
 92 | <word>אַרױף</word>
 93 | <word>אַרײַן</word>
 94 | <word>אָבער</word>
 95 | <word>אָדער</word>
 96 | <word>אָט</word>
 97 | <word>אָן</word>
 98 | <word>אָפֿט</word>
 99 | <word>און</word>
100 | <word>אונדזער</word>
101 | <word>אונדזערע</word>
102 | <word>אונטער</word>
103 | <word>איבער</word>
104 | <word>איז</word>
105 | <word>איך</word>
106 | <word>אים</word>
107 | <word>אין</word>
108 | <word>איצט</word>
109 | <word>איר</word>
110 | <word>אירע</word>
111 | <word>אפֿשר</word>
112 | <word>אױב</word>
113 | <word>אױך</word>
114 | <word>אױס</word>
115 | <word>אױף</word>
116 | <word>אױפֿן</word>
117 | <word>אײַער</word>
118 | <word>אײגן</word>
119 | <word>אײגענע</word>
120 | <word>אײגענער</word>
121 | <word>אײדער</word>
122 | <word>אײן</word>
123 | <word>אײנמאָל</word>
124 | <word>אײנס</word>
125 | <word>אַלײן</word>
126 | <word>באַקום</word>
127 | <word>באַקומט</word>
128 | <word>באַקומען </word>
129 | <word>ביז</word>
130 | <word>בין</word>
131 | <word>בלױז</word>
132 | <word>בעסער</word>
133 | <word>בשעת</word>
134 | <word>בײַ</word>
135 | <word>בײדע</word>
136 | <word>גוט</word>
137 | <word>גוטע</word>
138 | <word>גוטער</word>
139 | <word>גלײַך</word>
140 | <word>געדאַרפֿט</word>
141 | <word>געהאַט</word>
142 | <word>געזאָגט</word>
143 | <word>געזאָלט</word>
144 | <word>געטאָן</word>
145 | <word>געמאַכט</word>
146 | <word>געמוזט</word>
147 | <word>געמעגט</word>
148 | <word>געמײנט</word>
149 | <word>גענוג</word>
150 | <word>גענוצט</word>
151 | <word>געשטעלט</word>
152 | <word>געװאָלט</word>
153 | <word>מאָל</word>
154 | <word>מען</word>
155 | <word>נאָר</word>
156 | <word>אַז</word>
157 | <word>געװעזן</word>
158 | <word>נאָך</word>
159 | <word>געװען</word>
160 | <word>גײט</word>
161 | <word>גײען</word>
162 | <word>דאָ</word>
163 | <word>דאַרף</word>
164 | <word>דאָזיקע</word>
165 | <word>דאָזיקער</word>
166 | <word>דאָס</word>
167 | <word>דאָך</word>
168 | <word>דאָרט</word>
169 | <word>דו</word>
170 | <word>די</word>
171 | <word>דיר</word>
172 | <word>דיך</word>
173 | <word>דײַן</word>
174 | <word>דעם</word>
175 | <word>דעמאָלט</word>
176 | <word>דער</word>
177 | <word>דערפֿאַר</word>
178 | <word>דרײַ</word>
179 | <word>האָב</word>
180 | <word>האָבן</word>
181 | <word>האָט</word>
182 | <word>הער</word>
183 | <word>הײסט</word>
184 | <word>זאַך</word>
185 | <word>זאַכן</word>
186 | <word>זאָג</word>
187 | <word>זאָגן</word>
188 | <word>זאָל</word>
189 | <word>זי</word>
190 | <word>זיך</word>
191 | <word>זעט</word>
192 | <word>זעלביקע</word>
193 | <word>זעלביקער</word>
194 | <word>זען</word>
195 | <word>זײ</word>
196 | <word>זײַן</word>
197 | <word>זײַנען</word>
198 | <word>זענען</word>
199 | <word>זײער</word>
200 | <word>טאַקע</word>
201 | <word>טוט</word>
202 | <word>טאָן</word>
203 | <word>יאָ</word>
204 | <word>יעדער</word>
205 | <word>יעצט</word>
206 | <word>כּמעתּ</word>
207 | <word>לאָז</word>
208 | <word>לאָזט</word>
209 | <word>לאָמיך</word>
210 | <word>לאָמיר</word>
211 | <word>לעצט</word>
212 | <word>לעצטע</word>
213 | <word>לעצטער</word>
214 | <word>מאַכט</word>
215 | <word>מוז</word>
216 | <word>מיט</word>
217 | <word>מיך</word>
218 | <word>מיר</word>
219 | <word>מילא</word>
220 | <word>מעג</word>
221 | <word>מײַן</word>
222 | <word>מײנט</word>
223 | <word>נאָך</word>
224 | <word>נאָענט</word>
225 | <word>נאָענטע</word>
226 | <word>נאָר</word>
227 | <word>נו</word>
228 | <word>נוצט</word>
229 | <word>נוצן</word>
230 | <word>ניט</word>
231 | <word>ניצט</word>
232 | <word>ניצן</word>
233 | <word>נישט</word>
234 | <word>נײן</word>
235 | <word>סך</word>
236 | <word>סײַ</word>
237 | <word>סײַדן</word>
238 | <word>עטלעכע</word>
239 | <word>עס</word>
240 | <word>עפּעס</word>
241 | <word>ער</word>
242 | <word>ערשט</word>
243 | <word>ערשטע</word>
244 | <word>ערשטער</word>
245 | <word>פֿאַר</word>
246 | <word>פֿאַרשידן</word>
247 | <word>פֿאַרשידענע</word>
248 | <word>פֿאַרװאָס</word>
249 | <word>פֿון</word>
250 | <word>פֿיר</word>
251 | <word>פֿרי</word>
252 | <word>פֿריִערדיק</word>
253 | <word>פֿריִערדיקע</word>
254 | <word>פֿריִערדיקער</word>
255 | <word>צו</word>
256 | <word>צום</word>
257 | <word>צי</word>
258 | <word>צװישן</word>
259 | <word>צװײ</word>
260 | <word>קומט</word>
261 | <word>קומעדיק</word>
262 | <word>קומעדיקע</word>
263 | <word>קומעדיקער</word>
264 | <word>קען</word>
265 | <word>קענען</word>
266 | <word>קײן</word>
267 | <word>רבֿ</word>
268 | <word>שטעל</word>
269 | <word>שטעלט</word>
270 | <word>שױן</word>
271 | <word>װאָלט</word>
272 | <word>װאָס</word>
273 | <word>װאָסער</word>
274 | <word>װוּ</word>
275 | <word>װי</word>
276 | <word>װידער</word>
277 | <word>װיל</word>
278 | <word>װילט</word>
279 | <word>װינציק</word>
280 | <word>װינציקער</word>
281 | <word>װײַטער</word>
282 | <word>װעג</word>
283 | <word>װעגן</word>
284 | <word>װעט</word>
285 | <word>װעלכער</word>
286 | <word>װעלן</word>
287 | <word>װעמען</word>
288 | <word>װעמענס</word>
289 | <word>װען</word>
290 | <word>װער</word>
291 | <word>װײַל</word>
292 |  </grader-tc>
293 | </dictionary>
294 | 


--------------------------------------------------------------------------------
/ext/ots/ots.c:
--------------------------------------------------------------------------------
  1 | #include "ots.h"
  2 | #include <sys/types.h>
  3 | #include <dirent.h>
  4 | #include <errno.h>
  5 | 
  6 | static VALUE mOTS, cArticle;
  7 | char *DICTIONARY_DIR;
  8 | 
  9 | static void article_free(OtsArticle *article) {
 10 |     if (article)
 11 |       ots_free_article(article);
 12 | }
 13 | 
 14 | rb_encoding* article_encoding(VALUE self) {
 15 |     return rb_enc_from_index((int)rb_iv_get(self, "@encoding"));
 16 | }
 17 | 
 18 | VALUE article_allocate(VALUE klass) {
 19 |     OtsArticle *article = ots_new_article();
 20 |     return Data_Wrap_Struct(klass, 0, article_free, article);
 21 | }
 22 | 
 23 | OtsArticle* article_handle(VALUE self) {
 24 |     OtsArticle *article = 0;
 25 |     Data_Get_Struct(self, OtsArticle, article);
 26 |     if (!article)
 27 |         rb_raise(rb_eArgError, "invalid OTS::Article instance");
 28 |     return article;
 29 | }
 30 | 
 31 | void article_load_dictionary(OtsArticle *article, char *name) {
 32 |   if (!ots_load_xml_dictionary(article, name)) {
 33 |     rb_raise(rb_eLoadError, "Could not find dictionary file: %s", name);
 34 |   }
 35 | }
 36 | 
 37 | VALUE article_initialize(int argc, VALUE *argv, VALUE self) {
 38 |     VALUE text, options, language, dictionary = Qnil;
 39 |     OtsArticle *article = article_handle(self);
 40 | 
 41 |     rb_scan_args(argc, argv, "11", &text, &options);
 42 | 
 43 |     language = rb_str_new2("en");
 44 | 
 45 |     if (TYPE(text) != T_STRING)
 46 |         rb_raise(rb_eArgError, "invalid +text+");
 47 | 
 48 |     if (!NIL_P(options)) {
 49 |         if (TYPE(options) != T_HASH)
 50 |             rb_raise(rb_eArgError, "invalid +options+ hash");
 51 | 
 52 |         dictionary = rb_hash_aref(options, ID2SYM(rb_intern("dictionary")));
 53 |         language   = rb_hash_aref(options, ID2SYM(rb_intern("language")));
 54 |     }
 55 | 
 56 |     if (!NIL_P(dictionary))
 57 |         article_load_dictionary(article, CSTRING(dictionary));
 58 |     else
 59 |         article_load_dictionary(article, CSTRING(language));
 60 | 
 61 |     ots_parse_stream(RSTRING_PTR(text), RSTRING_LEN(text), article);
 62 |     ots_grade_doc(article);
 63 | 
 64 |     rb_iv_set(self, "@encoding", (VALUE)rb_enc_get_index(text));
 65 | 
 66 |     return self;
 67 | }
 68 | 
 69 | 
 70 | VALUE article_summary(OtsArticle *article, rb_encoding *encoding) {
 71 |   OtsSentence *sentence;
 72 | 
 73 |   GList *line_ptr  = article->lines;
 74 |   VALUE summary    = rb_ary_new();
 75 | 
 76 |   while (line_ptr != NULL) {
 77 |     sentence = (OtsSentence *)line_ptr->data;
 78 | 
 79 |     if (sentence->selected) {
 80 |       size_t size;
 81 |       unsigned char* content = ots_get_line_text(sentence, TRUE, &size);
 82 | 
 83 |       VALUE line = rb_hash_new();
 84 |       rb_hash_aset(line, ID2SYM(rb_intern("sentence")), rb_enc_str_new((char *)content, size, encoding));
 85 |       rb_hash_aset(line, ID2SYM(rb_intern("score")),    LONG2FIX(sentence->score));
 86 |       rb_ary_push(summary, line);
 87 | 
 88 |       // reset this so subsequent calls work right.
 89 |       sentence->selected = FALSE;
 90 |     }
 91 | 
 92 |     line_ptr = g_list_next(line_ptr);
 93 |   }
 94 | 
 95 |   return summary;
 96 | }
 97 | 
 98 | VALUE article_summarize(VALUE self, VALUE options) {
 99 |     VALUE lines, percent;
100 |     OtsArticle *article = article_handle(self);
101 | 
102 |     if (TYPE(options) != T_HASH)
103 |         rb_raise(rb_eArgError, "expect an options hash");
104 | 
105 |     lines   = rb_hash_aref(options, ID2SYM(rb_intern("sentences")));
106 |     percent = rb_hash_aref(options, ID2SYM(rb_intern("percent")));
107 | 
108 |     if (NIL_P(lines) && NIL_P(percent))
109 |         rb_raise(rb_eArgError, "expect +sentences+ or +percent+");
110 | 
111 |     if (lines != Qnil)
112 |         ots_highlight_doc_lines(article, NUM2INT(lines));
113 |     else
114 |         ots_highlight_doc(article, NUM2INT(percent));
115 | 
116 |     return article_summary(article, article_encoding(self));
117 | }
118 | 
119 | VALUE article_topics(VALUE self) {
120 |     OtsArticle *article = article_handle(self);
121 | 
122 |     return
123 |         article->title ?
124 |             rb_str_split(rb_enc_str_new2(article->title, article_encoding(self)), ",") :
125 |             Qnil;
126 | }
127 | 
128 | typedef struct {
129 |   gchar *word;    /* the word */
130 |   gchar *stem;    /*stem of the word*/
131 |   gint occ;     /* how many times have we seen this word in the text? */
132 | } OtsWordEntry;
133 | 
134 | 
135 | VALUE article_keywords(VALUE self) {
136 |     OtsArticle *article = article_handle(self);
137 |     rb_encoding *encoding = article_encoding(self);
138 | 
139 |     VALUE words     = rb_ary_new();
140 |     GList* word_ptr = article->ImpWords;
141 | 
142 |     while (word_ptr) {
143 |         OtsWordEntry *data = (OtsWordEntry *)word_ptr->data;
144 |         if (data && strlen(data->word) > 0)
145 |             rb_ary_push(words, rb_enc_str_new2(data->word, encoding));
146 |         word_ptr = word_ptr->next;
147 |     }
148 | 
149 |     return words;
150 | }
151 | 
152 | VALUE ots_parse(int argc, VALUE *argv, VALUE self) {
153 |     VALUE article = article_allocate(cArticle);
154 |     article_initialize(argc, argv, article);
155 |     return article;
156 | }
157 | 
158 | VALUE ots_languages(VALUE self) {
159 |     DIR *dir;
160 |     struct dirent *entry;
161 |     VALUE languages = rb_ary_new();
162 | 
163 |     if ((dir = opendir(DICTIONARY_DIR))) {
164 |         while ((entry = readdir(dir))) {
165 |             // entry->d_type is not portable.
166 |             if (strstr(entry->d_name, ".xml"))
167 |                 rb_ary_push(languages, rb_str_new(entry->d_name, strlen(entry->d_name) - 4));
168 |         }
169 |     }
170 |     else {
171 |         rb_raise(rb_eIOError, "unable to open dictionary directory: %s", strerror(errno));
172 |     }
173 | 
174 |     closedir(dir);
175 |     return languages;
176 | }
177 | 
178 | VALUE ots_set_dictionary_path(VALUE self, VALUE path) {
179 |     char *string = CSTRING(path);
180 |     if (DICTIONARY_DIR)
181 |         free(DICTIONARY_DIR);
182 | 
183 |     DICTIONARY_DIR = (char *)malloc(strlen(string) + 2);
184 |     sprintf(DICTIONARY_DIR, "%s/", string);
185 |     return Qnil;
186 | }
187 | 
188 | /* init */
189 | 
190 | void Init_ots(void) {
191 |     mOTS      = rb_define_module("OTS");
192 |     cArticle  = rb_define_class_under(mOTS, "Article", rb_cObject);
193 | 
194 |     rb_define_method(cArticle, "initialize", RUBY_METHOD_FUNC(article_initialize), -1);
195 |     rb_define_method(cArticle, "summarize",  RUBY_METHOD_FUNC(article_summarize),   1);
196 |     rb_define_method(cArticle, "topics",     RUBY_METHOD_FUNC(article_topics),      0);
197 |     rb_define_method(cArticle, "keywords",   RUBY_METHOD_FUNC(article_keywords),    0);
198 | 
199 |     rb_define_module_function(mOTS, "parse",                RUBY_METHOD_FUNC(ots_parse),              -1);
200 |     rb_define_module_function(mOTS, "languages",            RUBY_METHOD_FUNC(ots_languages),           0);
201 |     rb_define_module_function(mOTS, "set_dictionary_path",  RUBY_METHOD_FUNC(ots_set_dictionary_path), 1);
202 | 
203 |     rb_define_alloc_func(cArticle, article_allocate);
204 | 
205 |     rb_define_const(mOTS, "VERSION", rb_str_new2(RUBY_OTS_VERSION));
206 |     DICTIONARY_DIR = 0;
207 | }
208 | 


--------------------------------------------------------------------------------
/dictionaries/he.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="Hebrew">
  3 |  <stemmer> 
  4 |  
  5 |  <step1_pre> 
  6 | 	  <rule>"|</rule> 
  7 | 	  <rule>(|</rule> 
  8 | 	 </step1_pre>
  9 | 	 
 10 | 	 
 11 |     <step1_post>
 12 |       <rule>."|</rule> 
 13 | 	  <rule>,"|</rule> 
 14 | 	  <rule>.|</rule>
 15 | 	  <rule>,|</rule> 
 16 | 	  <rule>"|</rule>
 17 | 	  <rule>)|</rule> 
 18 | 	  <rule>?|</rule> 
 19 | 	  <rule>:|</rule> 
 20 | 	  <rule>;|</rule> 
 21 | 	  <rule>!|</rule> 
 22 | 	 </step1_post>
 23 |  
 24 |  
 25 |     <manual>
 26 | 	  <rule>|</rule>
 27 | 	 </manual>
 28 |  
 29 |     <post>
 30 |        <rule>תי|</rule>
 31 |        <rule>ה|</rule>
 32 |        <rule>ו|</rule>
 33 |        <rule>ות|</rule>
 34 |        <rule>ים|</rule>
 35 |     </post>
 36 |    <pre>
 37 |        <rule>לכש|</rule>
 38 |        <rule>ב|</rule>
 39 |        <rule>כש|</rule>
 40 |        <rule>ש|</rule>
 41 |        <rule>כ|</rule>
 42 |        <rule>ל|</rule>
 43 |        <rule>ה|</rule>
 44 |    </pre> 
 45 |    
 46 |   </stemmer>
 47 |    <parser>
 48 |     
 49 |  	 <linebreak>
 50 | 	  <rule>."</rule>
 51 | 	  <rule>?"</rule>
 52 | 	  <rule>!"</rule>
 53 | 	  <rule>,"</rule>
 54 | 	  <rule>.</rule>
 55 | 	  <rule>?</rule>  
 56 | 	  <rule>;</rule>
 57 | 	  <rule>|</rule>
 58 | 	  <rule>!</rule>  
 59 | 	 </linebreak>
 60 | 	 
 61 |  	 <linedontbreak>
 62 | 	  <rule>מר.</rule>
 63 | 	  <rule>דר.</rule>  
 64 | 	  </linedontbreak>
 65 |    </parser>
 66 |    
 67 |  <grader-tc>
 68 | <word>אותי</word>
 69 | <word>פ</word>
 70 | <word>מ</word>
 71 | <word>ליד</word>
 72 | <word>שלא</word>
 73 | <word>שאני</word>
 74 | <word>אחרי</word>
 75 | <word>ואני</word>
 76 | <word>אך</word>
 77 | <word>להיות</word>
 78 | <word>בה</word>
 79 | <word>לאחר</word>
 80 | <word>בין</word>
 81 | <word>עוד</word>
 82 | <word>האלה</word>
 83 | <word>כאלה</word>
 84 | <word>דברים</word>
 85 | <word>בערך</word>
 86 | <word>עליו</word>
 87 | <word>בגלל</word>
 88 | <word>מן</word>
 89 | <word>ג</word>
 90 | <word>ם</word>
 91 | <word>ואף</word>
 92 | <word>בו</word>
 93 | <word>קודם</word>
 94 | <word>מייד</word>
 95 | <word>מיד</word>
 96 | <word>במשך</word>
 97 | <word>בה</word>
 98 | <word>והם</word>
 99 | <word>מכל</word>
100 | <word>ללא</word>
101 | <word>אחרי</word>
102 | <word>לפני</word>
103 | <word>שאחרי</word>
104 | <word>מעל</word>
105 | <word>מ</word>
106 | <word>ושם</word>
107 | <word>באותו</word>
108 | <word>באו</word>
109 | <word>לזה</word>
110 | <word>לכן</word>
111 | <word>ו</word>
112 | <word>ואת</word>
113 | <word>כלל</word>
114 | <word>למען</word>
115 | <word>והן</word>
116 | <word>והם</word>
117 | <word>שני</word>
118 | <word>הייתה</word>
119 | <word>ועל</word>
120 | <word>עוד</word>
121 | <word>לאחר</word>
122 | <word>בל</word>
123 | <word>אלא</word>
124 | <word>ניכר</word>
125 | <word>של</word>
126 | <word>כן</word>
127 | <word>לא</word>
128 | <word>כאן</word>
129 | <word>היינו</word>
130 | <word>ובלי</word>
131 | <word>היו</word>
132 | <word>ולא</word>
133 | <word>וכן</word>
134 | <word>כזה</word>
135 | <word>כמעט</word>
136 | <word>וגם</word>
137 | <word>גם</word>
138 | <word>בנוסף</word>
139 | <word>כול</word>
140 | <word>זה</word>
141 | <word>כמו</word>
142 | <word>בגלל</word>
143 | <word>היה</word>
144 | <word>יהי</word>
145 | <word>שניהם</word>
146 | <word>שניהן</word>
147 | <word>אבל</word>
148 | <word>יכול</word>
149 | <word>עלול</word>
150 | <word>עשה</word>
151 | <word>יעשה</word>
152 | <word>אפילו</word>
153 | <word>מעט</word>
154 | <word>הרבה</word>
155 | <word>כמה</word>
156 | <word>אז</word>
157 | <word>יש</word>
158 | <word>אין</word>
159 | <word>ראשון</word>
160 | <word>כזה</word>
161 | <word>לנו</word>
162 | <word>להם</word>
163 | <word>להן</word>
164 | <word>לי</word>
165 | <word>לו</word>
166 | <word>לה</word>
167 | <word>הוא</word>
168 | <word>היא</word>
169 | <word>שהוא</word>
170 | <word>שהיא</word>
171 | <word>שהם</word>
172 | <word>שהן</word>
173 | <word>הם</word>
174 | <word>הן</word>
175 | <word>שהיה</word>
176 | <word>אנחנו</word>
177 | <word>שלה</word>
178 | <word>שלו</word>
179 | <word>איך</word>
180 | <word>ככה</word>
181 | <word>אבל</word>
182 | <word>אני</word>
183 | <word>אם</word>
184 | <word>עם</word>
185 | <word>זה</word>
186 | <word>זו</word>
187 | <word>רק</word>
188 | <word>ועל</word>
189 | <word>ולא</word>
190 | <word>וכן</word>
191 | <word>אכן</word>
192 | <word>כמו</word>
193 | <word>בערך</word>
194 | <word>יותר</word>
195 | <word>פחות</word>
196 | <word>הכי</word>
197 | <word>שלי</word>
198 | <word>שלה</word>
199 | <word>שלהם</word>
200 | <word>שלנו</word>
201 | <word>לא</word>
202 | <word>כן</word>
203 | <word>על</word>
204 | <word>או</word>
205 | <word>וגם</word>
206 | <word>גם</word>
207 | <word>אחר</word>
208 | <word>אולי</word>
209 | <word>אבל</word>
210 | <word>נראה</word>
211 | <word>צריך</word>
212 | <word>אז</word>
213 | <word>כמה</word>
214 | <word>כמו</word>
215 | <word>משהו</word>
216 | <word>עדיין</word>
217 | <word>עד</word>
218 | <word>זה</word>
219 | <word>עד</word>
220 | <word>אנחנו</word>
221 | <word>הם</word>
222 | <word>הן</word>
223 | <word>מאוד</word>
224 | <word>היה</word>
225 | <word>יהיה</word>
226 | <word>דרך</word>
227 | <word>מה</word>
228 | <word>מי</word>
229 | <word>עם</word>
230 | <word>כן</word>
231 | <word>לא</word>
232 | <word>אמר</word>
233 | <word>אמרה</word>
234 | <word>שוב</word>
235 | <word>אף</word>
236 | <word>אחד</word>
237 | <word>בגלל</word>
238 | <word>כי</word>
239 | <word>גם</word>
240 | <word>לפני</word>
241 | <word>הכי</word>
242 | <word>מספיק</word>
243 | <word>כול</word>
244 | <word>למה</word>
245 | <word>מתחת</word>
246 | <word>את</word>
247 | <word>של</word>
248 | <word>על-ידי</word>
249 | <word>עם</word>
250 | <word>כדי</word>
251 | <word>בכך</word>
252 | <word>הן</word>
253 | <word>לפי</word>
254 | <word>על-פי</word>
255 | <word>לו</word>
256 | <word>לה</word>
257 | <word>מה</word>
258 | <word>אין</word>
259 | <word>כשזה</word>
260 | <word>כך</word>
261 | <word>כיוון</word>
262 | <word>זו</word>
263 | <word>וגם</word>
264 | <word>הכי</word>
265 | <word>ואלה</word>
266 | <word>ואלו</word>
267 | <word>הם</word>
268 | <word>לבין</word>
269 | <word>למה</word>
270 | <word>לכאורה</word>
271 | <word>כך</word>
272 | <word>משום</word>
273 | <word>זוהי</word>
274 | <word>כי</word>
275 | <word>וכי</word>
276 | <word>אם</word>
277 | <word>אכן</word>
278 | <word>לכך</word>
279 | <word>את</word>
280 | <word>כל</word>
281 | <word>וכל</word>
282 | <word>השני</word>
283 | <word>הראשון</word>
284 | <word>השלישי</word>
285 | <word>הוא</word>
286 | <word>ומי</word>
287 | <word>מאז</word>
288 | <word>אל</word>
289 | <word>על</word>
290 | <word>הזו</word>
291 | <word>הזה</word>
292 | <word>ל</word>
293 | <word>נ</word>
294 | <word>פעם</word>
295 | <word>אחת</word>
296 | <word>אותו</word>
297 | <word>ב</word>
298 | <word>ר</word>
299 | <word>שום</word>
300 | <word>ממש</word>
301 | <word>היכן</word>
302 | <word>בכל</word>
303 | <word>בכל</word>
304 | <word>היתה</word>
305 | <word>אשר</word>
306 | <word>הכל</word>
307 | <word>זאת</word>
308 | <word>מהם</word>
309 | <word>כזו</word>
310 | <word>כבר</word>
311 | <word>מנת</word>
312 | <word>שהיו</word>
313 | <word>אפשר</word>
314 | <word>יהיו</word>
315 | <word>נ</word>
316 | <word>אחד</word>
317 | <word>שלך</word>
318 | <word>שאתה</word>
319 | <word>אינו</word>
320 | <word>איננו</word>
321 | <word>בעיקר</word>
322 | <word>ואם</word>
323 | <word>ועם</word>
324 | <word>אזי</word>
325 | <word>בקשר</word>
326 | <word>איך</word>
327 | <word>באיזו</word>
328 | <word>באיזה</word>
329 | <word>שזה</word>
330 | <word>אליו</word>
331 | <word>אליהם</word>
332 | <word>וכמו</word>
333 |  </grader-tc>
334 | </dictionary>
335 | 


--------------------------------------------------------------------------------
/dictionaries/de.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="german">
  3 |  <stemmer> 
  4 |      <step1_pre> 
  5 | 	  <rule>"|</rule> 
  6 | 	  <rule>(|</rule> 
  7 | 	 </step1_pre>
  8 | 	 
  9 | 	 
 10 |     <step1_post>
 11 |       <rule>."|</rule> 
 12 | 	  <rule>,"|</rule> 
 13 | 	  <rule>.|</rule>
 14 | 	  <rule>,|</rule> 
 15 | 	  <rule>"|</rule>
 16 | 	  <rule>)|</rule> 
 17 | 	  <rule>?|</rule> 
 18 | 	  <rule>:|</rule> 
 19 | 	  <rule>;|</rule> 
 20 | 	  <rule>!|</rule> 
 21 | 	 </step1_post>
 22 | 	 
 23 | 	 
 24 |     <manual>
 25 | 	  <rule>wrote|write</rule>
 26 | 	  <rule>came|come</rule> 
 27 | 	  <rule>went|go</rule>
 28 | 	 </manual>
 29 |  
 30 |     <post>
 31 |        <rule>before1|1after</rule>
 32 |     </post>
 33 |    <pre>
 34 |        <rule>before1|1after</rule>
 35 |    </pre> 
 36 |   </stemmer>
 37 |    <parser>
 38 |     
 39 |  	 <linebreak>
 40 | 	  <rule>."</rule>
 41 | 	  <rule>?"</rule>
 42 | 	  <rule>!"</rule>
 43 | 	  <rule>,"</rule>
 44 | 	  <rule>.</rule>
 45 | 	  <rule>?</rule>  
 46 | 	  <rule>;</rule>
 47 | 	  <rule>|</rule>
 48 | 	  <rule>!</rule>  
 49 | 	 </linebreak>
 50 | 	 
 51 |  	 <linedontbreak>
 52 | 	  <rule>Dr.</rule>
 53 | 	  <rule>Mr.</rule>  
 54 | 	  <rule>Mrs.</rule>
 55 | 	  <rule>U.S.</rule>  
 56 | 	  <rule>Rep.</rule>  
 57 | 	  <rule>Sen.</rule>  
 58 | 	 </linedontbreak>
 59 |    </parser>
 60 |  <grader-tc>
 61 | <word>ab</word>
 62 | <word>aber</word>
 63 | <word>ähnlich</word>
 64 | <word>aehnlich</word>
 65 | <word>all</word>
 66 | <word>alle</word>
 67 | <word>allein</word>
 68 | <word>alles</word>
 69 | <word>als</word>
 70 | <word>also</word>
 71 | <word>am</word>
 72 | <word>an</word>
 73 | <word>andere</word>
 74 | <word>anderes</word>
 75 | <word>anstatt</word>
 76 | <word>auch</word>
 77 | <word>auf</word>
 78 | <word>aus</word>
 79 | <word>ausser</word>
 80 | <word>ausserhalb</word>
 81 | <word>bald</word>
 82 | <word>bei</word>
 83 | <word>beide</word>
 84 | <word>beim</word>
 85 | <word>bin</word>
 86 | <word>bis</word>
 87 | <word>bist</word>
 88 | <word>bitte</word>
 89 | <word>brauche</word>
 90 | <word>brauchen</word>
 91 | <word>braucht</word>
 92 | <word>co</word>
 93 | <word>da</word>
 94 | <word>damit</word>
 95 | <word>dann</word>
 96 | <word>darf</word>
 97 | <word>darüber</word>
 98 | <word>darueber</word>
 99 | <word>das</word>
100 | <word>daß</word>
101 | <word>dass</word>
102 | <word>dein</word>
103 | <word>deine</word>
104 | <word>dem</word>
105 | <word>den</word>
106 | <word>denen</word>
107 | <word>denke</word>
108 | <word>denken</word>
109 | <word>denkst</word>
110 | <word>der</word>
111 | <word>des</word>
112 | <word>dich</word>
113 | <word>die</word>
114 | <word>diese</word>
115 | <word>dieser</word>
116 | <word>dir</word>
117 | <word>doch</word>
118 | <word>dort</word>
119 | <word>drei</word>
120 | <word>du</word>
121 | <word>durch</word>
122 | <word>dürfen</word>
123 | <word>duerfen</word>
124 | <word>ehemalig</word>
125 | <word>eher</word>
126 | <word>ein</word>
127 | <word>eine</word>
128 | <word>einem</word>
129 | <word>einen</word>
130 | <word>einer</word>
131 | <word>eines</word>
132 | <word>einmal</word>
133 | <word>entlang</word>
134 | <word>er</word>
135 | <word>erhalt</word>
136 | <word>erhalten</word>
137 | <word>erste</word>
138 | <word>es</word>
139 | <word>etliche</word>
140 | <word>etwa</word>
141 | <word>etwas</word>
142 | <word>fahre</word>
143 | <word>fahren</word>
144 | <word>fahrt</word>
145 | <word>fast</word>
146 | <word>frau</word>
147 | <word>fuer</word>
148 | <word>für</word>
149 | <word>fuer</word>
150 | <word>geben</word>
151 | <word>gegen</word>
152 | <word>gegenüber</word>
153 | <word>gegenueber</word>
154 | <word>geh</word>
155 | <word>gehabt</word>
156 | <word>gehen</word>
157 | <word>geht</word>
158 | <word>gekonnt</word>
159 | <word>gelegen</word>
160 | <word>gelasse</word>
161 | <word>gelassen</word>
162 | <word>gelasst</word>
163 | <word>genug</word>
164 | <word>gerade</word>
165 | <word>gesagt</word>
166 | <word>gesetzt</word>
167 | <word>getan</word>
168 | <word>gewesen</word>
169 | <word>gibt</word>
170 | <word>gmbh</word>
171 | <word>gut</word>
172 | <word>guten</word>
173 | <word>gutes</word>
174 | <word>hab</word>
175 | <word>habe</word>
176 | <word>haben</word>
177 | <word>habt</word>
178 | <word>hast</word>
179 | <word>hat</word>
180 | <word>hatte</word>
181 | <word>häufig</word>
182 | <word>haeufig</word>
183 | <word>herr</word>
184 | <word>heute</word>
185 | <word>hier</word>
186 | <word>ich</word>
187 | <word>ihn</word>
188 | <word>ihr</word>
189 | <word>im</word>
190 | <word>immer</word>
191 | <word>in</word>
192 | <word>initiale</word>
193 | <word>irgend</word>
194 | <word>irgendein</word>
195 | <word>ist</word>
196 | <word>ja</word>
197 | <word>jede</word>
198 | <word>jeden</word>
199 | <word>jeder</word>
200 | <word>jedes</word>
201 | <word>jedoch</word>
202 | <word>jemand</word>
203 | <word>jetzt</word>
204 | <word>kann</word>
205 | <word>kein</word>
206 | <word>keine</word>
207 | <word>keinen</word>
208 | <word>kenne</word>
209 | <word>kennen</word>
210 | <word>kennst</word>
211 | <word>kennt</word>
212 | <word>klein</word>
213 | <word>kleiner</word>
214 | <word>komm</word>
215 | <word>kommen</word>
216 | <word>kommt</word>
217 | <word>können</word>
218 | <word>koennen</word>
219 | <word>konnte</word>
220 | <word>lag</word>
221 | <word>letztes</word>
222 | <word>liegen</word>
223 | <word>los</word>
224 | <word>mache</word>
225 | <word>machen</word>
226 | <word>machst</word>
227 | <word>macht</word>
228 | <word>mag</word>
229 | <word>man</word>
230 | <word>manchmal</word>
231 | <word>mann</word>
232 | <word>mehr</word>
233 | <word>mein</word>
234 | <word>meisten</word>
235 | <word>mich</word>
236 | <word>mir</word>
237 | <word>mit</word>
238 | <word>möglicherweise</word>
239 | <word>moeglicherweise</word>
240 | <word>muss</word>
241 | <word>müssen</word>
242 | <word>muessen</word>
243 | <word>musste</word>
244 | <word>nach</word>
245 | <word>nächst</word>
246 | <word>naechst</word>
247 | <word>nahe</word>
248 | <word>nein</word>
249 | <word>nicht</word>
250 | <word>nichts</word>
251 | <word>nie</word>
252 | <word>niemand</word>
253 | <word>noch</word>
254 | <word>nur</word>
255 | <word>oberhalb</word>
256 | <word>oder</word>
257 | <word>oft</word>
258 | <word>ohne</word>
259 | <word>ok</word>
260 | <word>okay</word>
261 | <word>per</word>
262 | <word>sache</word>
263 | <word>sachen</word>
264 | <word>sagen</word>
265 | <word>sagt</word>
266 | <word>satz</word>
267 | <word>schon</word>
268 | <word>sehe</word>
269 | <word>sehen</word>
270 | <word>sehr</word>
271 | <word>seid</word>
272 | <word>seiht</word>
273 | <word>sein</word>
274 | <word>seine</word>
275 | <word>seiner</word>
276 | <word>seit</word>
277 | <word>selbar</word>
278 | <word>selben</word>
279 | <word>selbst</word>
280 | <word>selten</word>
281 | <word>sich</word>
282 | <word>sie</word>
283 | <word>sind</word>
284 | <word>sitzen</word>
285 | <word>so</word>
286 | <word>sobald</word>
287 | <word>sollt</word>
288 | <word>sollte</word>
289 | <word>sollten</word>
290 | <word>sowie</word>
291 | <word>tat</word>
292 | <word>trotz</word>
293 | <word>tue</word>
294 | <word>tun</word>
295 | <word>tust</word>
296 | <word>tut</word>
297 | <word>über</word>
298 | <word>ueber</word>
299 | <word>um</word>
300 | <word>und</word>
301 | <word>uns</word>
302 | <word>unser</word>
303 | <word>unten</word>
304 | <word>unter</word>
305 | <word>unterhalb</word>
306 | <word>unterschiedlich</word>
307 | <word>viel</word>
308 | <word>viele</word>
309 | <word>vier</word>
310 | <word>von</word>
311 | <word>vor</word>
312 | <word>vorher</word>
313 | <word>während</word>
314 | <word>waehrend</word>
315 | <word>wann</word>
316 | <word>war</word>
317 | <word>warum</word>
318 | <word>was</word>
319 | <word>wegen</word>
320 | <word>weil</word>
321 | <word>weise</word>
322 | <word>welche</word>
323 | <word>welchem</word>
324 | <word>wem</word>
325 | <word>wen</word>
326 | <word>wenige</word>
327 | <word>wenn</word>
328 | <word>wer</word>
329 | <word>werde</word>
330 | <word>werden</word>
331 | <word>wessen</word>
332 | <word>wie</word>
333 | <word>wieder</word>
334 | <word>will</word>
335 | <word>willst</word>
336 | <word>wir</word>
337 | <word>wird</word>
338 | <word>wirklich</word>
339 | <word>wirst</word>
340 | <word>wissen</word>
341 | <word>wo</word>
342 | <word>wollen</word>
343 | <word>wurde</word>
344 | <word>z.b.</word>
345 | <word>zu</word>
346 | <word>zuerst</word>
347 | <word>zum</word>
348 | <word>zur</word>
349 | <word>zurück</word>
350 | <word>zurueck</word>
351 | <word>zwei</word>
352 | <word>zwischen</word>
353 |  </grader-tc>
354 | </dictionary>
355 | 


--------------------------------------------------------------------------------
/dictionaries/es.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="spanish">
  3 |  <stemmer> 
  4 |  
  5 |  
  6 |      <step1_pre> 
  7 | 	  <rule>"|</rule> 
  8 | 	  <rule>(|</rule> 
  9 | 	 </step1_pre>
 10 | 	 
 11 | 	 
 12 |     <step1_post>
 13 |       <rule>."|</rule> 
 14 | 	  <rule>,"|</rule> 
 15 | 	  <rule>.|</rule>
 16 | 	  <rule>,|</rule> 
 17 | 	  <rule>"|</rule>
 18 | 	  <rule>)|</rule> 
 19 | 	  <rule>?|</rule> 
 20 | 	  <rule>:|</rule> 
 21 | 	  <rule>;|</rule> 
 22 | 	  <rule>!|</rule> 
 23 | 	 </step1_post>
 24 | 	 
 25 | 	 
 26 |     <manual>
 27 | 	  <rule>wrote|write</rule>
 28 | 	  <rule>came|come</rule> 
 29 | 	  <rule>went|go</rule>
 30 | 	 </manual>
 31 |  
 32 |  
 33 |     <post>
 34 |        <rule>before1|1after</rule>
 35 |     </post>
 36 |    <pre>
 37 |        <rule>before1|1after</rule>
 38 |    </pre> 
 39 |    
 40 |    
 41 |    <manual>
 42 | 	  <rule>wrote|write</rule>
 43 | 	</manual>
 44 |    
 45 |     <synonyms>
 46 | 	    <rule>assist|help</rule>
 47 |     </synonyms>
 48 |     
 49 |   </stemmer>
 50 |    <parser>
 51 |     	 <linebreak>
 52 | 	  <rule>."</rule>
 53 | 	  <rule>?"</rule>
 54 | 	  <rule>!"</rule>
 55 | 	  <rule>,"</rule>
 56 | 	  <rule>.</rule>
 57 | 	  <rule>?</rule>  
 58 | 	  <rule>;</rule>
 59 | 	  <rule>|</rule>
 60 | 	  <rule>!</rule>  
 61 | 	 </linebreak>
 62 | 	 
 63 |  	 <linedontbreak>
 64 | 	  <rule>Dr.</rule>
 65 | 	  <rule>Mr.</rule>  
 66 | 	  <rule>Mrs.</rule>
 67 | 	  <rule>U.S.</rule>  
 68 | 	  <rule>Rep.</rule>  
 69 | 	  <rule>Sen.</rule>  
 70 | 	 </linedontbreak>
 71 |    </parser>
 72 |  <grader-tc>
 73 | <word>a</word>
 74 | <word>acá</word>
 75 | <word>además</word>
 76 | <word>adiós</word>
 77 | <word>afuera</word>
 78 | <word>ahí</word>
 79 | <word>ahora</word>
 80 | <word>al</word>
 81 | <word>algo</word>
 82 | <word>alguien</word>
 83 | <word>algún</word>
 84 | <word>alguno</word>
 85 | <word>algunos</word>
 86 | <word>alguna</word>
 87 | <word>algunas</word>
 88 | <word>allá</word>
 89 | <word>allí</word>
 90 | <word>alrededor</word>
 91 | <word>ambos</word>
 92 | <word>antes</word>
 93 | <word>apenas</word>
 94 | <word>aquel</word>
 95 | <word>aquél</word>
 96 | <word>aquello</word>
 97 | <word>aquellos</word>
 98 | <word>aquella</word>
 99 | <word>aquellas</word>
100 | <word>aquí</word>
101 | <word>arriba</word>
102 | <word>así</word>
103 | <word>aun</word>
104 | <word>aún</word>
105 | <word>aunque</word>
106 | <word>ayer</word>
107 | <word>bajo</word>
108 | <word>bajos</word>
109 | <word>baja</word>
110 | <word>bajas</word>
111 | <word>bien</word>
112 | <word>cada</word>
113 | <word>casi</word>
114 | <word>cerca</word>
115 | <word>cero</word>
116 | <word>como</word>
117 | <word>cómo</word>
118 | <word>con</word>
119 | <word>conmigo</word>
120 | <word>contigo</word>
121 | <word>contra</word>
122 | <word>cual</word>
123 | <word>cuál</word>
124 | <word>cuales</word>
125 | <word>cualquier</word>
126 | <word>cualquiera</word>
127 | <word>cuando</word>
128 | <word>cuándo</word>
129 | <word>cuanta</word>
130 | <word>cuantas</word>
131 | <word>cuanto</word>
132 | <word>cuantos</word>
133 | <word>cuánta</word>
134 | <word>cuántas</word>
135 | <word>cuánto</word>
136 | <word>cuántos</word>
137 | <word>cuya</word>
138 | <word>cuyas</word>
139 | <word>cuyo</word>
140 | <word>cuyos</word>
141 | <word>de</word>
142 | <word>deber</word>
143 | <word>decena</word>
144 | <word>del</word>
145 | <word>delante</word>
146 | <word>demás</word>
147 | <word>demasiada</word>
148 | <word>demasiadas</word>
149 | <word>demasiado</word>
150 | <word>demasiados</word>
151 | <word>dentro</word>
152 | <word>desde</word>
153 | <word>después</word>
154 | <word>detrás</word>
155 | <word>docena</word>
156 | <word>donde</word>
157 | <word>dónde</word>
158 | <word>dos</word>
159 | <word>durante</word>
160 | <word>e</word>
161 | <word>el</word>
162 | <word>él</word>
163 | <word>ella</word>
164 | <word>ellas</word>
165 | <word>ello</word>
166 | <word>ellos</word>
167 | <word>en</word>
168 | <word>encima</word>
169 | <word>entonces</word>
170 | <word>entre</word>
171 | <word>era</word>
172 | <word>erais</word>
173 | <word>éramos</word>
174 | <word>eran</word>
175 | <word>eras</word>
176 | <word>eres</word>
177 | <word>es</word>
178 | <word>esa</word>
179 | <word>esas</word>
180 | <word>ese</word>
181 | <word>ése</word>
182 | <word>eso</word>
183 | <word>esos</word>
184 | <word>esta</word>
185 | <word>está</word>
186 | <word>ésta</word>
187 | <word>estado</word>
188 | <word>están</word>
189 | <word>estar</word>
190 | <word>estas</word>
191 | <word>estás</word>
192 | <word>este</word>
193 | <word>éste</word>
194 | <word>estes</word>
195 | <word>esto</word>
196 | <word>estoy</word>
197 | <word>estuve</word>
198 | <word>estuvieron</word>
199 | <word>estuvo</word>
200 | <word>fue</word>
201 | <word>fuera</word>
202 | <word>fueron</word>
203 | <word>fui</word>
204 | <word>gusta</word>
205 | <word>gustan</word>
206 | <word>gustar</word>
207 | <word>gustas</word>
208 | <word>ha</word>
209 | <word>haber</word>
210 | <word>hacer</word>
211 | <word>hacia</word>
212 | <word>haga</word>
213 | <word>hagamos</word>
214 | <word>hagan</word>
215 | <word>hagas</word>
216 | <word>hago</word>
217 | <word>han</word>
218 | <word>has</word>
219 | <word>hasta</word>
220 | <word>hay</word>
221 | <word>he</word>
222 | <word>hecho</word>
223 | <word>hemos</word>
224 | <word>hizo</word>
225 | <word>hoy</word>
226 | <word>hube</word>
227 | <word>hubiera</word>
228 | <word>hubo</word>
229 | <word>iba</word>
230 | <word>ibais</word>
231 | <word>ibamos</word>
232 | <word>iban</word>
233 | <word>ibas</word>
234 | <word>incluso</word>
235 | <word>ir</word>
236 | <word>jamás</word>
237 | <word>juntos</word>
238 | <word>la</word>
239 | <word>las</word>
240 | <word>le</word>
241 | <word>les</word>
242 | <word>lo</word>
243 | <word>los</word>
244 | <word>luego</word>
245 | <word>más</word>
246 | <word>me</word>
247 | <word>menos</word>
248 | <word>mi</word>
249 | <word>mí</word>
250 | <word>mía</word>
251 | <word>mientras</word>
252 | <word>mío</word>
253 | <word>muy</word>
254 | <word>nada</word>
255 | <word>nadie</word>
256 | <word>ni</word>
257 | <word>ningún</word>
258 | <word>ninguna</word>
259 | <word>ningunas</word>
260 | <word>ninguno</word>
261 | <word>ningunos</word>
262 | <word>no</word>
263 | <word>nos</word>
264 | <word>nosotros</word>
265 | <word>nuestra</word>
266 | <word>nuestras</word>
267 | <word>nuestro</word>
268 | <word>nuestros</word>
269 | <word>nunca</word>
270 | <word>o</word>
271 | <word>obstante</word>
272 | <word>otra</word>
273 | <word>otras</word>
274 | <word>otro</word>
275 | <word>otros</word>
276 | <word>para</word>
277 | <word>pero</word>
278 | <word>poder</word>
279 | <word>por</word>
280 | <word>porque</word>
281 | <word>primer</word>
282 | <word>primera</word>
283 | <word>primeras</word>
284 | <word>primero</word>
285 | <word>primeros</word>
286 | <word>pronto</word>
287 | <word>propia</word>
288 | <word>propias</word>
289 | <word>propio</word>
290 | <word>propios</word>
291 | <word>pude</word>
292 | <word>pues</word>
293 | <word>que</word>
294 | <word>qué</word>
295 | <word>quien</word>
296 | <word>quién</word>
297 | <word>quienes</word>
298 | <word>quiénes</word>
299 | <word>quizá</word>
300 | <word>quizás</word>
301 | <word>reciente</word>
302 | <word>se</word>
303 | <word>según</word>
304 | <word>segunda</word>
305 | <word>segundo</word>
306 | <word>ser</word>
307 | <word>si</word>
308 | <word>sí</word>
309 | <word>siempre</word>
310 | <word>sino</word>
311 | <word>siquiera</word>
312 | <word>sobre</word>
313 | <word>sois</word>
314 | <word>somos</word>
315 | <word>son</word>
316 | <word>sos</word>
317 | <word>soy</word>
318 | <word>su</word>
319 | <word>sus</word>
320 | <word>suya</word>
321 | <word>suyas</word>
322 | <word>suyo</word>
323 | <word>suyos</word>
324 | <word>tal</word>
325 | <word>también</word>
326 | <word>tampoco</word>
327 | <word>tan</word>
328 | <word>tanta</word>
329 | <word>tantas</word>
330 | <word>tanto</word>
331 | <word>tantos</word>
332 | <word>te</word>
333 | <word>ten</word>
334 | <word>tener</word>
335 | <word>ti</word>
336 | <word>todavía</word>
337 | <word>toda</word>
338 | <word>todas</word>
339 | <word>todo</word>
340 | <word>todos</word>
341 | <word>tras</word>
342 | <word>través</word>
343 | <word>tu</word>
344 | <word>tú</word>
345 | <word>tuve</word>
346 | <word>tuvo</word>
347 | <word>tuya</word>
348 | <word>tuyas</word>
349 | <word>tuyo</word>
350 | <word>tuyos</word>
351 | <word>u</word>
352 | <word>un</word>
353 | <word>una</word>
354 | <word>unas</word>
355 | <word>única</word>
356 | <word>único</word>
357 | <word>uno</word>
358 | <word>unos</word>
359 | <word>usted</word>
360 | <word>ustedes</word>
361 | <word>vais</word>
362 | <word>vos</word>
363 | <word>vosotros</word>
364 | <word>voy</word>
365 | <word>y</word>
366 | <word>ya</word>
367 | <word>yo</word>
368 |  </grader-tc>
369 | </dictionary>
370 | 


--------------------------------------------------------------------------------
/dictionaries/pt.xml:
--------------------------------------------------------------------------------
  1 | <?xml version="1.0"?>
  2 | <dictionary lang="portuguese">
  3 |  <stemmer>
  4 |  
  5 |      <step1_pre> 
  6 | 	  <rule>"|</rule> 
  7 | 	  <rule>(|</rule> 
  8 | 	 </step1_pre>
  9 | 	 
 10 | 	 
 11 |     <step1_post>
 12 |       <rule>."|</rule> 
 13 | 	  <rule>,"|</rule> 
 14 | 	  <rule>.|</rule>
 15 | 	  <rule>,|</rule> 
 16 | 	  <rule>"|</rule>
 17 | 	  <rule>)|</rule> 
 18 | 	  <rule>?|</rule> 
 19 | 	  <rule>:|</rule> 
 20 | 	  <rule>;|</rule> 
 21 | 	  <rule>!|</rule> 
 22 | 	 </step1_post>
 23 | 	 
 24 | 	 
 25 |     <manual>
 26 | 	  <rule>wrote|write</rule>
 27 | 	  <rule>came|come</rule> 
 28 | 	  <rule>went|go</rule>
 29 | 	 </manual>
 30 |   
 31 |     <post>
 32 |        <rule>before1|1after</rule>
 33 |     </post>
 34 |    <pre>
 35 |        <rule>before1|1after</rule>
 36 |    </pre> 
 37 |   </stemmer>
 38 |    <parser>
 39 |     
 40 |  	 <linebreak>
 41 | 	  <rule>."</rule>
 42 | 	  <rule>?"</rule>
 43 | 	  <rule>!"</rule>
 44 | 	  <rule>,"</rule>
 45 | 	  <rule>.</rule>
 46 | 	  <rule>?</rule>  
 47 | 	  <rule>;</rule>
 48 | 	  <rule>|</rule>
 49 | 	  <rule>!</rule>  
 50 | 	 </linebreak>
 51 | 	 
 52 |  	 <linedontbreak>
 53 | 	  <rule>Dr.</rule>
 54 | 	  <rule>Mr.</rule>  
 55 | 	  <rule>Mrs.</rule>
 56 | 	  <rule>U.S.</rule>  
 57 | 	  <rule>Rep.</rule>  
 58 | 	  <rule>Sen.</rule>  
 59 | 	 </linedontbreak>
 60 |    </parser>
 61 |  <grader-tc>
 62 | <word>000</word>
 63 | <word>a</word>
 64 | <word>abaixo</word>
 65 | <word>acerca</word>
 66 | <word>acima</word>
 67 | <word>adiante</word>
 68 | <word>agora</word>
 69 | <word>ah</word>
 70 | <word>ah-ah</word>
 71 | <word>ai</word>
 72 | <word>ainda</word>
 73 | <word>além</word>
 74 | <word>algo</word>
 75 | <word>alguém</word>
 76 | <word>algum</word>
 77 | <word>alguns</word>
 78 | <word>algures</word>
 79 | <word>alhures</word>
 80 | <word>ali</word>
 81 | <word>alô</word>
 82 | <word>ambos</word>
 83 | <word>anterior</word>
 84 | <word>anteriormente</word>
 85 | <word>antes</word>
 86 | <word>apart</word>
 87 | <word>apenas</word>
 88 | <word>aqueles</word>
 89 | <word>aqui</word>
 90 | <word>aquilo</word>
 91 | <word>as</word>
 92 | <word>assim</word>
 93 | <word>através</word>
 94 | <word>atual</word>
 95 | <word>atualmente</word>
 96 | <word>been</word>
 97 | <word>bem</word>
 98 | <word>bom</word>
 99 | <word>cá</word>
100 | <word>cada</word>
101 | <word>caminho</word>
102 | <word>causa</word>
103 | <word>cedo</word>
104 | <word>chamada</word>
105 | <word>chamado</word>
106 | <word>co</word>
107 | <word>coisas</word>
108 | <word>colocado</word>
109 | <word>colocar</word>
110 | <word>com</word>
111 | <word>como</word>
112 | <word>contudo</word>
113 | <word>couldn</word>
114 | <word>cujo</word>
115 | <word>d</word>
116 | <word>de</word>
117 | <word>define</word>
118 | <word>deixar</word>
119 | <word>dela</word>
120 | <word>dele</word>
121 | <word>deles</word>
122 | <word>demais</word>
123 | <word>demasiadamente</word>
124 | <word>depois</word>
125 | <word>depressa</word>
126 | <word>desde</word>
127 | <word>desligado</word>
128 | <word>deve</word>
129 | <word>deveria</word>
130 | <word>didn</word>
131 | <word>diferente</word>
132 | <word>directamente</word>
133 | <word>disse</word>
134 | <word>disso</word>
135 | <word>dito</word>
136 | <word>diz</word>
137 | <word>doesn</word>
138 | <word>dois</word>
139 | <word>don</word>
140 | <word>e</word>
141 | <word>é</word>
142 | <word>eis</word>
143 | <word>ela</word>
144 | <word>elas</word>
145 | <word>ele</word>
146 | <word>eles</word>
147 | <word>Eles</word>
148 | <word>eles</word>
149 | <word>em</word>
150 | <word>enquanto</word>
151 | <word>Enquanto</word>
152 | <word>então</word>
153 | <word>entre</word>
154 | <word>era</word>
155 | <word>eram</word>
156 | <word>éramos</word>
157 | <word>eras</word>
158 | <word>éreis</word>
159 | <word>és</word>
160 | <word>esta</word>
161 | <word>está</word>
162 | <word>estais</word>
163 | <word>estamos</word>
164 | <word>estão</word>
165 | <word>estar</word>
166 | <word>estás</word>
167 | <word>estava</word>
168 | <word>estavam</word>
169 | <word>estávamos</word>
170 | <word>estavas</word>
171 | <word>estáveis</word>
172 | <word>este</word>
173 | <word>estes</word>
174 | <word>esteve</word>
175 | <word>estive</word>
176 | <word>estivemos</word>
177 | <word>estiveram</word>
178 | <word>estiveste</word>
179 | <word>estou</word>
180 | <word>etc</word>
181 | <word>eu</word>
182 | <word>excepcionalmente</word>
183 | <word>excepto</word>
184 | <word>exceto</word>
185 | <word>faz</word>
186 | <word>fazer</word>
187 | <word>feito</word>
188 | <word>fez</word>
189 | <word>final</word>
190 | <word>finalizado</word>
191 | <word>foi</word>
192 | <word>fomos</word>
193 | <word>fora</word>
194 | <word>foram</word>
195 | <word>foste</word>
196 | <word>fostes</word>
197 | <word>frequente</word>
198 | <word>fui</word>
199 | <word>há</word>
200 | <word>i.e</word>
201 | <word>ides</word>
202 | <word>inicial</word>
203 | <word>ir</word>
204 | <word>isn</word>
205 | <word>isso</word>
206 | <word>it's</word>
207 | <word>itself</word>
208 | <word>já</word>
209 | <word>jamais</word>
210 | <word>ligado</word>
211 | <word>ll</word>
212 | <word>logo</word>
213 | <word>m</word>
214 | <word>mais</word>
215 | <word>mas</word>
216 | <word>máximo</word>
217 | <word>menor</word>
218 | <word>menos</word>
219 | <word>mesmo</word>
220 | <word>meu</word>
221 | <word>minha</word>
222 | <word>muito</word>
223 | <word>muitos</word>
224 | <word>must</word>
225 | <word>nada</word>
226 | <word>não</word>
227 | <word>nele</word>
228 | <word>nem</word>
229 | <word>nisso</word>
230 | <word>nither</word>
231 | <word>nos</word>
232 | <word>Nos</word>
233 | <word>nós</word>
234 | <word>nossa</word>
235 | <word>nosso</word>
236 | <word>novamente</word>
237 | <word>nt</word>
238 | <word>o</word>
239 | <word>obter</word>
240 | <word>obtido</word>
241 | <word>Oh</word>
242 | <word>ok</word>
243 | <word>okay</word>
244 | <word>onde</word>
245 | <word>ora</word>
246 | <word>os</word>
247 | <word>ou</word>
248 | <word>outra</word>
249 | <word>outrem</word>
250 | <word>outro</word>
251 | <word>outrora</word>
252 | <word>outrossim</word>
253 | <word>par</word>
254 | <word>para</word>
255 | <word>parada</word>
256 | <word>parado</word>
257 | <word>parece</word>
258 | <word>pensa</word>
259 | <word>pensar</word>
260 | <word>pode</word>
261 | <word>podem</word>
262 | <word>podia</word>
263 | <word>por</word>
264 | <word>porém</word>
265 | <word>porque</word>
266 | <word>porquê</word>
267 | <word>pot</word>
268 | <word>pouco</word>
269 | <word>poucos</word>
270 | <word>precisa</word>
271 | <word>prefer</word>
272 | <word>preferia</word>
273 | <word>preferir</word>
274 | <word>primeiro</word>
275 | <word>própria</word>
276 | <word>próprio</word>
277 | <word>próximo</word>
278 | <word>qualquer</word>
279 | <word>Quando</word>
280 | <word>quando</word>
281 | <word>quase</word>
282 | <word>quatro</word>
283 | <word>que</word>
284 | <word>quem</word>
285 | <word>Quem</word>
286 | <word>quer</word>
287 | <word>re</word>
288 | <word>realmente</word>
289 | <word>repetir</word>
290 | <word>s</word>
291 | <word>sabe</word>
292 | <word>são</word>
293 | <word>se</word>
294 | <word>seguinte</word>
295 | <word>sem</word>
296 | <word>sempre</word>
297 | <word>sendo</word>
298 | <word>ser</word>
299 | <word>seu</word>
300 | <word>sim</word>
301 | <word>sob</word>
302 | <word>sobre</word>
303 | <word>sois</word>
304 | <word>somos</word>
305 | <word>sou</word>
306 | <word>Sr</word>
307 | <word>sua</word>
308 | <word>suficiente</word>
309 | <word>t</word>
310 | <word>tal</word>
311 | <word>Talvês</word>
312 | <word>talvez</word>
313 | <word>também</word>
314 | <word>tanto</word>
315 | <word>tão</word>
316 | <word>tem</word>
317 | <word>têm</word>
318 | <word>temos</word>
319 | <word>tendes</word>
320 | <word>tenho</word>
321 | <word>tens</word>
322 | <word>ter</word>
323 | <word>teu</word>
324 | <word>teve</word>
325 | <word>tinha</word>
326 | <word>tinham</word>
327 | <word>tínhamos</word>
328 | <word>tinhas</word>
329 | <word>tínheis</word>
330 | <word>tive</word>
331 | <word>tivemos</word>
332 | <word>tiveram</word>
333 | <word>tiveste</word>
334 | <word>tivestes</word>
335 | <word>to</word>
336 | <word>todo</word>
337 | <word>topo</word>
338 | <word>três</word>
339 | <word>tu</word>
340 | <word>tua</word>
341 | <word>tudo</word>
342 | <word>último</word>
343 | <word>um</word>
344 | <word>uma</word>
345 | <word>unicamente</word>
346 | <word>up</word>
347 | <word>us</word>
348 | <word>use</word>
349 | <word>vai</word>
350 | <word>vais</word>
351 | <word>vamos</word>
352 | <word>vão</word>
353 | <word>várias</word>
354 | <word>vários</word>
355 | <word>ve</word>
356 | <word>vê</word>
357 | <word>vem</word>
358 | <word>vistas</word>
359 | <word>você</word>
360 | <word>vocês</word>
361 | <word>vós</word>
362 | <word>vosso</word>
363 | <word>vou</word>
364 |  </grader-tc>
365 | </dictionary>
366 | 


--------------------------------------------------------------------------------
/ext/ots/libots/stemmer.c:
--------------------------------------------------------------------------------
  1 | /*
  2 |  *  stemmer.c
  3 |  *
  4 |  *  Copyright (C) 2003 Nadav Rotem <nadav256@hotmail.com>
  5 |  *
  6 |  *  This program is free software; you can redistribute it and/or modify
  7 |  *  it under the terms of the GNU General Public License as published by
  8 |  *  the Free Software Foundation; either version 2 of the License, or
  9 |  *  (at your option) any later version.
 10 |  *
 11 |  *  This program is distributed in the hope that it will be useful,
 12 |  *  but WITHOUT ANY WARRANTY; without even the implied warranty of
 13 |  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 14 |  *  GNU Library General Public License for more details.
 15 |  *
 16 |  *  You should have received a copy of the GNU General Public License
 17 |  *  along with this program; if not, write to the Free Software
 18 |  *  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA 02111-1307, USA.
 19 |  */
 20 | 
 21 | 
 22 | #include <stdio.h>
 23 | #include <stdlib.h>
 24 | #include <string.h>
 25 | #include "libots.h"
 26 | 
 27 | #define MAX_PREFIX_SIZE 256
 28 | 
 29 | OtsStemRule *
 30 | new_stem_rule ()
 31 | {
 32 |   OtsStemRule *rule = g_new0 (OtsStemRule, 1);
 33 |   return rule;
 34 | }
 35 | 
 36 | void
 37 | free_stem_rule (OtsStemRule *rule)
 38 | {
 39 | 
 40 | if (rule != NULL)
 41 |     {
 42 |       g_list_foreach (rule->RemovePre, (GFunc) g_free, NULL);
 43 |       g_list_free (rule->RemovePre);
 44 |       g_list_foreach (rule->RemovePost, (GFunc) g_free, NULL);
 45 |       g_list_free (rule->RemovePost);
 46 | 
 47 |       g_list_foreach (rule->step1_pre, (GFunc) g_free, NULL);
 48 |       g_list_free (rule->step1_pre);      
 49 |       g_list_foreach (rule->step1_post, (GFunc) g_free, NULL);
 50 |       g_list_free (rule->step1_post);
 51 | 
 52 |       g_list_foreach (rule->synonyms, (GFunc) g_free, NULL);
 53 |       g_list_free (rule->synonyms);
 54 |       g_list_foreach (rule->manual, (GFunc) g_free, NULL);
 55 |       g_list_free (rule->manual);
 56 | 
 57 |       g_list_foreach (rule->ParserBreak, (GFunc) g_free, NULL);
 58 |       g_list_free (rule->ParserBreak);
 59 |       g_list_foreach (rule->ParserDontBreak, (GFunc) g_free, NULL);
 60 |       g_list_free (rule->ParserDontBreak);
 61 | 
 62 |       g_list_foreach (rule->ReplaceChars, (GFunc) g_free, NULL);
 63 |       g_list_free (rule->ReplaceChars);           
 64 |  
 65 |       g_free (rule);
 66 |     } 
 67 |   return;
 68 | }
 69 | 
 70 | static void
 71 | ots_stem_break (unsigned const char *comp,unsigned char *part_a,unsigned char *part_b)	/*given already alocated part_a and b */
 72 | {				/*example "red|blue" */
 73 |   int i, j, clen;
 74 |   i = 0;
 75 |   j = 0;
 76 |   
 77 |   if (comp==NULL) return;
 78 |   if (part_a==NULL) return;
 79 |   if (part_b==NULL) return;
 80 | 
 81 |   clen = strlen (comp);
 82 | 
 83 | 
 84 |   part_a[0] = 0;
 85 |   part_b[0] = 0;
 86 | 
 87 |   while ((i < clen) && (i < MAX_PREFIX_SIZE) && (comp[i] != '|'))
 88 |     {
 89 |       part_a[i] = comp[i];
 90 |       i++;
 91 |     }
 92 |   part_a[i] = 0;
 93 | 
 94 |   i++;				/*skip the | mark */
 95 |   while (i < clen && (j < MAX_PREFIX_SIZE))
 96 |     {
 97 |       part_b[j] = comp[i];
 98 |       i++;
 99 |       j++;
100 |     }
101 |   part_b[j] = 0;
102 |   return;
103 | }
104 | 
105 | 
106 | static unsigned char *
107 | ots_stem_remove_pre (unsigned const char *aWord,unsigned const char *pre,unsigned const char *new)
108 | {
109 |   int i, plen, wlen, nlen;
110 |   unsigned char *new_str = NULL;
111 | 
112 |   if (aWord==NULL) return NULL;
113 | 
114 |   plen = strlen (pre);
115 |   wlen = strlen (aWord);
116 |   nlen = strlen (new);
117 | 
118 |   for (i = 0; i < plen; i++)
119 |     if (aWord[i] != pre[i])
120 |       return NULL;		/*no match */
121 | 
122 |   new_str = g_new0 (char, wlen + nlen +5);
123 |   for (i = 0; i <= nlen; i++)
124 |     new_str[i] = new[i];
125 | 
126 |   for (i = nlen; i <= nlen + wlen - plen; i++)
127 |     new_str[i] = aWord[i + plen - nlen];
128 | 
129 |   new_str[i + 1] = 0;
130 |   return new_str;
131 | }
132 | 
133 | 
134 | 
135 | static unsigned char *
136 | ots_stem_remove_post (unsigned const char *aWord,unsigned const char *post,unsigned const char *new)
137 | {
138 |   unsigned int i, wlen, plen, nlen;
139 |   unsigned char *new_str = NULL;
140 | 
141 |   if ((NULL==aWord)||(NULL==post)||(NULL==new)) return NULL;
142 | 
143 |   wlen = strlen (aWord);
144 |   plen = strlen (post);
145 |   nlen = strlen (new);
146 | 
147 |   if (plen>wlen) return NULL;
148 | 
149 | 
150 |   for (i = 0; i < plen; i++)
151 |     if (aWord[wlen - plen + i]!= post[i])
152 |       return NULL;		/* no match */
153 | 
154 |   new_str = g_new0 (char, wlen + nlen +5);
155 | 
156 |   for (i = 0; i <= wlen - plen; i++)	/*place word */
157 |     new_str[i] = aWord[i];
158 | 
159 |   for (i = 0; i <= nlen; i++)	/*place newfix */
160 |     new_str[wlen - plen + i] = new[i];
161 | 
162 |   return new_str;		/*word replaced */
163 | }  
164 |   
165 | 
166 | 
167 | static unsigned char *
168 | ots_stem_replace_word (unsigned const char *aWord,unsigned const char *old,unsigned const char *new)
169 | {
170 | 
171 |   if (aWord==NULL) return NULL;
172 |   
173 | if ((aWord)&&(0 == strcmp (aWord, old)))
174 |     {
175 |       return g_strdup (new);
176 |     }
177 |   else
178 |     {
179 |       return NULL;
180 |     }
181 | 
182 | }
183 | 
184 | 
185 | 
186 | 
187 | 
188 | unsigned char *
189 | ots_stem_format (unsigned const char *aWord, const OtsStemRule * rule)
190 | {
191 |   GList *li;
192 |   unsigned char *rep = NULL;
193 |   unsigned char *normWord = NULL;
194 | 
195 |   if (aWord==NULL) return NULL;
196 |   
197 |   normWord = g_utf8_strdown (aWord, -1);	/*lowercase the word */
198 | 
199 |   char *prefix;
200 |   char *newfix;
201 | 
202 |   prefix = g_new0 (char, MAX_PREFIX_SIZE);
203 |   newfix = g_new0 (char, MAX_PREFIX_SIZE);
204 | 
205 |  for (li = (GList *) rule->step1_pre; li != NULL; li = li->next)
206 |     {
207 |       ots_stem_break (li->data, prefix, newfix);
208 |       rep = ots_stem_remove_pre (normWord, prefix, newfix);
209 |       if (NULL != rep)
210 | 		{
211 | 	  		g_free (normWord);
212 | 	  		normWord = rep;
213 | 	  		rep = NULL;
214 | 		}
215 |     }
216 | 
217 | 
218 |  for (li = (GList *) rule->step1_post; li != NULL; li = li->next)
219 |     {
220 |       ots_stem_break (li->data, prefix, newfix);
221 |       rep = ots_stem_remove_post(normWord, prefix, newfix);
222 |       if (NULL != rep)
223 | 		{
224 | 	  		g_free (normWord);
225 | 	  		normWord = rep;
226 | 	  		rep = NULL;
227 | 		}
228 |     }
229 | 
230 |   g_free (prefix);
231 |   g_free (newfix);
232 | 
233 |   return normWord;
234 | }
235 | 
236 | 
237 | 
238 | 
239 | 
240 | 
241 | 
242 | 
243 | unsigned char *
244 | ots_stem_strip (unsigned const char *aWord,const OtsStemRule * rule)
245 | {
246 |   GList *li;
247 |   unsigned char *rep = NULL;
248 | 
249 |   unsigned char *prefix;
250 |   unsigned char *newfix;
251 |   unsigned char *normWord=NULL;
252 | 
253 |   prefix = g_new0 (char, MAX_PREFIX_SIZE);
254 |   newfix = g_new0 (char, MAX_PREFIX_SIZE);
255 | 
256 |   if (aWord==NULL) return NULL;
257 | 
258 |   normWord = ots_stem_format (aWord,rule);
259 | 
260 | 
261 |   for (li = (GList *) rule->manual; li != NULL; li = li->next)
262 |     {
263 |       ots_stem_break (li->data, prefix, newfix);
264 |       rep = ots_stem_replace_word (normWord, prefix, newfix);
265 |       if (NULL != rep)
266 | 	{
267 | 	  g_free (normWord);
268 | 	  normWord = rep;
269 | 	  rep = NULL;
270 | 	  break;
271 | 	}
272 |     }
273 | 
274 | 
275 | 
276 | 
277 |   for (li = (GList *) rule->RemovePre; li != NULL; li = li->next)
278 |     {
279 |       ots_stem_break (li->data, prefix, newfix);
280 |       rep = ots_stem_remove_pre (normWord, prefix, newfix);
281 |       if (NULL != rep)
282 | 	{
283 | 	  g_free (normWord);
284 | 	  normWord = rep;
285 | 	  rep = NULL;
286 | 	  break;
287 | 	}
288 |     }
289 | 
290 | 
291 |   for (li = (GList *) rule->RemovePost; li != NULL; li = li->next)
292 |     {
293 |       ots_stem_break (li->data, prefix, newfix);
294 |       rep = ots_stem_remove_post (normWord, prefix, newfix);
295 |       if (NULL != rep)
296 | 	{
297 | 	  g_free (normWord);
298 | 	  normWord = rep;
299 | 	  rep = NULL;
300 | 	  break;
301 | 	}
302 | 
303 |     }
304 | 
305 | 
306 |   for (li = (GList *) rule->synonyms; li != NULL; li = li->next)
307 |     {
308 |       ots_stem_break (li->data, prefix, newfix);
309 |       rep = ots_stem_replace_word (normWord, prefix, newfix);
310 |       if (NULL != rep)
311 | 	{
312 | 	  g_free (normWord);
313 | 	  normWord = rep;
314 | 	  rep = NULL;
315 | 	  break;
316 | 	}
317 |     }
318 | 
319 | 
320 |   g_free (prefix);
321 |   g_free (newfix);
322 | 
323 | 
324 |   if (strlen(normWord)<3)  /*stem is two letter long. thats not right. N(eed)==N(ation) ?*/
325 | 		{ 
326 | 		g_free(normWord);  
327 | 		normWord = ots_stem_format (aWord,rule);	/*lowercase the word */	
328 | 		}
329 | 
330 | 
331 |   return normWord;
332 | }
333 | 


--------------------------------------------------------------------------------