├── .asf.yaml ├── .gitattributes ├── .github ├── CONTRIBUTING.md ├── PULL_REQUEST_TEMPLATE.md ├── dependabot.yml └── workflows │ ├── license.yml │ ├── maven.yml │ ├── publish-snapshots.yml │ └── shell-tests.yml ├── .gitignore ├── .mvn └── wrapper │ └── maven-wrapper.properties ├── LICENSE ├── NOTICE ├── README.md ├── checkstyle.xml ├── dev └── Snowball-Stemmer.md ├── mvnw ├── mvnw.cmd ├── opennlp-distr ├── README_FOOTER.html ├── README_HEADER.html ├── pom.xml └── src │ ├── main │ ├── assembly │ │ ├── bin.xml │ │ └── src.xml │ ├── bin │ │ ├── opennlp │ │ └── opennlp.bat │ ├── docker │ │ └── Dockerfile │ ├── readme │ │ ├── LICENSE │ │ └── NOTICE │ └── resources │ │ └── log4j2.xml │ └── test │ ├── ps │ └── test_opennlp.Tests.ps1 │ └── sh │ └── test_opennlp.bats ├── opennlp-dl-gpu ├── README.md └── pom.xml ├── opennlp-dl ├── README.md ├── pom.xml └── src │ ├── main │ └── java │ │ └── opennlp │ │ └── dl │ │ ├── AbstractDL.java │ │ ├── InferenceOptions.java │ │ ├── SpanEnd.java │ │ ├── Tokens.java │ │ ├── doccat │ │ ├── DocumentCategorizerConfig.java │ │ ├── DocumentCategorizerDL.java │ │ └── scoring │ │ │ ├── AverageClassificationScoringStrategy.java │ │ │ └── ClassificationScoringStrategy.java │ │ ├── namefinder │ │ └── NameFinderDL.java │ │ └── vectors │ │ └── SentenceVectorsDL.java │ └── test │ └── java │ └── opennlp │ └── dl │ ├── AbstractDLTest.java │ ├── doccat │ ├── DocumentCategorizerConfigTest.java │ ├── DocumentCategorizerDLEval.java │ └── scoring │ │ └── AverageClassificationScoringStrategyTest.java │ ├── namefinder │ └── NameFinderDLEval.java │ └── vectors │ └── SentenceVectorsDLEval.java ├── opennlp-docs ├── pom.xml └── src │ ├── docbkx │ ├── chunker.xml │ ├── cli.xml │ ├── coref.xml │ ├── corpora.xml │ ├── css │ │ └── opennlp-docs.css │ ├── doccat.xml │ ├── evaltest.xml │ ├── extension.xml │ ├── images │ │ ├── brat.png │ │ ├── opennlp-logo.png │ │ └── parsetree1.png │ ├── introduction.xml │ ├── langdetect.xml │ ├── lemmatizer.xml │ ├── machine-learning.xml │ ├── model-loading.xml │ ├── morfologik-addon.xml │ ├── namefinder.xml │ ├── opennlp.xml │ ├── parser.xml │ ├── postagger.xml │ ├── sentdetect.xml │ ├── tokenizer.xml │ └── uima-integration.xml │ └── main │ └── resources │ └── xsl │ └── html.xsl ├── opennlp-morfologik-addon ├── bin │ ├── morfologik-addon │ └── morfologik-addon.bat ├── pom.xml └── src │ ├── main │ ├── bin │ │ ├── morfologik-addon │ │ └── morfologik-addon.bat │ └── java │ │ └── opennlp │ │ └── morfologik │ │ ├── builder │ │ └── MorfologikDictionaryBuilder.java │ │ ├── cmdline │ │ ├── CLI.java │ │ └── builder │ │ │ ├── MorfologikDictionaryBuilderParams.java │ │ │ ├── MorfologikDictionaryBuilderTool.java │ │ │ ├── XMLDictionaryToTableParams.java │ │ │ └── XMLDictionaryToTableTool.java │ │ ├── lemmatizer │ │ └── MorfologikLemmatizer.java │ │ ├── tagdict │ │ ├── MorfologikPOSTaggerFactory.java │ │ └── MorfologikTagDictionary.java │ │ └── util │ │ └── MorfologikUtil.java │ └── test │ ├── java │ └── opennlp │ │ └── morfologik │ │ ├── AbstractMorfologikTest.java │ │ ├── builder │ │ └── MorfologikDictionaryBuilderTest.java │ │ ├── lemmatizer │ │ └── MorfologikLemmatizerTest.java │ │ └── tagdict │ │ ├── MorfologikPOSTaggerFactoryTest.java │ │ └── MorfologikTagDictionaryTest.java │ └── resources │ ├── AnnotatedSentences.txt │ ├── dictionaryWithLemma.dict │ ├── dictionaryWithLemma.info │ └── dictionaryWithLemma.txt ├── opennlp-tools-models ├── pom.xml └── src │ ├── main │ └── java │ │ └── opennlp │ │ └── tools │ │ └── models │ │ ├── AbstractClassPathModelFinder.java │ │ ├── ClassPathLoaderException.java │ │ ├── ClassPathModel.java │ │ ├── ClassPathModelEntry.java │ │ ├── ClassPathModelFinder.java │ │ ├── ClassPathModelLoader.java │ │ ├── ClassPathModelProvider.java │ │ ├── DefaultClassPathModelProvider.java │ │ ├── classgraph │ │ └── ClassgraphModelFinder.java │ │ └── simple │ │ └── SimpleClassPathModelFinder.java │ └── test │ └── java │ └── opennlp │ └── tools │ └── models │ ├── AbstractClassPathFinderTest.java │ ├── AbstractClassPathModelTest.java │ ├── AbstractModelLoaderTest.java │ ├── AbstractModelUsageTest.java │ ├── ClassPathModelLoaderTest.java │ ├── DefaultClassPathModelProviderTest.java │ ├── classgraph │ ├── ClassgraphModelFinderTest.java │ ├── ClassgraphModelLoaderTest.java │ └── ClassgraphModelUsageTest.java │ └── simple │ ├── SimpleClassPathModelFinderTest.java │ ├── SimpleModelLoaderTest.java │ └── SimpleModelUsageTest.java ├── opennlp-tools ├── bin │ ├── opennlp │ └── opennlp.bat ├── lang │ ├── de │ │ ├── abb_DE.xml │ │ └── namefinder │ │ │ ├── de-namefinder.xml │ │ │ └── fg-conll03-deu.xml │ ├── en │ │ ├── namefinder │ │ │ └── en-namefinder.xml │ │ ├── parser │ │ │ └── en-head_rules │ │ ├── postag │ │ │ └── en-tagdict.xml │ │ └── tokenizer │ │ │ └── en-detokenizer.xml │ ├── es │ │ ├── abb_ES.xml │ │ └── parser │ │ │ └── es-head-rules │ ├── fr │ │ ├── abb_FR.xml │ │ └── tokenizer │ │ │ └── fr-detokenizer.xml │ ├── ga │ │ ├── abb_GA.xml │ │ └── tokenizer │ │ │ └── ga-detokenizer.xml │ ├── general │ │ └── tokenizer │ │ │ └── special_char_dict.xml │ ├── it │ │ └── abb_IT.xml │ ├── ml │ │ ├── MaxentQNTrainerParams.txt │ │ ├── MaxentTrainerParams.txt │ │ ├── NaiveBayesTrainerParams.txt │ │ ├── PerceptronSequenceTrainerParams.txt │ │ └── PerceptronTrainerParams.txt │ ├── nl │ │ └── abb_NL.xml │ ├── pl │ │ └── abb_PL.xml │ └── pt │ │ ├── abb_PT.xml │ │ └── tokenizer │ │ └── pt-detokenizer.xml ├── pom.xml └── src │ ├── jmh │ └── java │ │ └── opennlp │ │ └── tools │ │ └── util │ │ └── jvm │ │ ├── BenchmarkRunner.java │ │ ├── StringDeduplicationBenchmark.java │ │ ├── StringListBenchmark.java │ │ └── jmh │ │ └── ExecutionPlan.java │ ├── main │ ├── java │ │ └── opennlp │ │ │ └── tools │ │ │ ├── chunker │ │ │ ├── ChunkSample.java │ │ │ ├── ChunkSampleSequenceStream.java │ │ │ ├── ChunkSampleStream.java │ │ │ ├── Chunker.java │ │ │ ├── ChunkerContextGenerator.java │ │ │ ├── ChunkerCrossValidator.java │ │ │ ├── ChunkerEvaluationMonitor.java │ │ │ ├── ChunkerEvaluator.java │ │ │ ├── ChunkerEventStream.java │ │ │ ├── ChunkerFactory.java │ │ │ ├── ChunkerME.java │ │ │ ├── ChunkerModel.java │ │ │ ├── DefaultChunkerContextGenerator.java │ │ │ ├── DefaultChunkerSequenceValidator.java │ │ │ ├── ThreadSafeChunkerME.java │ │ │ └── package-info.java │ │ │ ├── cmdline │ │ │ ├── AbstractConverterTool.java │ │ │ ├── AbstractCrossValidatorTool.java │ │ │ ├── AbstractEvaluatorTool.java │ │ │ ├── AbstractTrainerTool.java │ │ │ ├── AbstractTypedParamTool.java │ │ │ ├── ArgumentParser.java │ │ │ ├── BasicCmdLineTool.java │ │ │ ├── CLI.java │ │ │ ├── CmdLineTool.java │ │ │ ├── CmdLineUtil.java │ │ │ ├── DetailedFMeasureListener.java │ │ │ ├── EvaluationErrorPrinter.java │ │ │ ├── FineGrainedReportListener.java │ │ │ ├── GenerateManualTool.java │ │ │ ├── ModelLoader.java │ │ │ ├── ObjectStreamFactory.java │ │ │ ├── PerformanceMonitor.java │ │ │ ├── StreamFactoryRegistry.java │ │ │ ├── SystemInputStreamFactory.java │ │ │ ├── TerminateToolException.java │ │ │ ├── TypedCmdLineTool.java │ │ │ ├── chunker │ │ │ │ ├── ChunkEvaluationErrorListener.java │ │ │ │ ├── ChunkerConverterTool.java │ │ │ │ ├── ChunkerCrossValidatorTool.java │ │ │ │ ├── ChunkerDetailedFMeasureListener.java │ │ │ │ ├── ChunkerEvaluatorTool.java │ │ │ │ ├── ChunkerMETool.java │ │ │ │ ├── ChunkerModelLoader.java │ │ │ │ ├── ChunkerTrainerTool.java │ │ │ │ └── TrainingParams.java │ │ │ ├── dictionary │ │ │ │ ├── DictionaryBuilderParams.java │ │ │ │ └── DictionaryBuilderTool.java │ │ │ ├── doccat │ │ │ │ ├── DoccatConverterTool.java │ │ │ │ ├── DoccatCrossValidatorTool.java │ │ │ │ ├── DoccatEvaluationErrorListener.java │ │ │ │ ├── DoccatEvaluatorTool.java │ │ │ │ ├── DoccatFineGrainedReportListener.java │ │ │ │ ├── DoccatModelLoader.java │ │ │ │ ├── DoccatTool.java │ │ │ │ ├── DoccatTrainerTool.java │ │ │ │ └── TrainingParams.java │ │ │ ├── entitylinker │ │ │ │ └── EntityLinkerTool.java │ │ │ ├── langdetect │ │ │ │ ├── LanguageDetectorConverterTool.java │ │ │ │ ├── LanguageDetectorCrossValidatorTool.java │ │ │ │ ├── LanguageDetectorEvaluationErrorListener.java │ │ │ │ ├── LanguageDetectorEvaluatorTool.java │ │ │ │ ├── LanguageDetectorFineGrainedReportListener.java │ │ │ │ ├── LanguageDetectorModelLoader.java │ │ │ │ ├── LanguageDetectorTool.java │ │ │ │ ├── LanguageDetectorTrainerTool.java │ │ │ │ └── TrainingParams.java │ │ │ ├── languagemodel │ │ │ │ └── NGramLanguageModelTool.java │ │ │ ├── lemmatizer │ │ │ │ ├── LemmaEvaluationErrorListener.java │ │ │ │ ├── LemmatizerEvaluatorTool.java │ │ │ │ ├── LemmatizerFineGrainedReportListener.java │ │ │ │ ├── LemmatizerMETool.java │ │ │ │ ├── LemmatizerModelLoader.java │ │ │ │ ├── LemmatizerTrainerTool.java │ │ │ │ ├── TrainingParams.java │ │ │ │ └── package-info.java │ │ │ ├── namefind │ │ │ │ ├── CensusDictionaryCreatorTool.java │ │ │ │ ├── NameEvaluationErrorListener.java │ │ │ │ ├── NameSampleCountersStream.java │ │ │ │ ├── TokenNameFinderConverterTool.java │ │ │ │ ├── TokenNameFinderCrossValidatorTool.java │ │ │ │ ├── TokenNameFinderDetailedFMeasureListener.java │ │ │ │ ├── TokenNameFinderEvaluatorTool.java │ │ │ │ ├── TokenNameFinderFineGrainedReportListener.java │ │ │ │ ├── TokenNameFinderModelLoader.java │ │ │ │ ├── TokenNameFinderTool.java │ │ │ │ ├── TokenNameFinderTrainerTool.java │ │ │ │ └── TrainingParams.java │ │ │ ├── params │ │ │ │ ├── BasicFormatParams.java │ │ │ │ ├── BasicTrainingParams.java │ │ │ │ ├── CVParams.java │ │ │ │ ├── DetokenizerParameter.java │ │ │ │ ├── EncodingParameter.java │ │ │ │ ├── EvaluatorParams.java │ │ │ │ ├── FineGrainedEvaluatorParams.java │ │ │ │ ├── LanguageParams.java │ │ │ │ └── TrainingToolParams.java │ │ │ ├── parser │ │ │ │ ├── BuildModelUpdaterTool.java │ │ │ │ ├── CheckModelUpdaterTool.java │ │ │ │ ├── ModelUpdaterTool.java │ │ │ │ ├── ParserConverterTool.java │ │ │ │ ├── ParserEvaluatorTool.java │ │ │ │ ├── ParserModelLoader.java │ │ │ │ ├── ParserTool.java │ │ │ │ ├── ParserTrainerTool.java │ │ │ │ ├── TaggerModelReplacerTool.java │ │ │ │ └── TrainingParams.java │ │ │ ├── postag │ │ │ │ ├── POSEvaluationErrorListener.java │ │ │ │ ├── POSModelLoader.java │ │ │ │ ├── POSTaggerConverterTool.java │ │ │ │ ├── POSTaggerCrossValidatorTool.java │ │ │ │ ├── POSTaggerEvaluatorTool.java │ │ │ │ ├── POSTaggerFineGrainedReportListener.java │ │ │ │ ├── POSTaggerTool.java │ │ │ │ ├── POSTaggerTrainerTool.java │ │ │ │ └── TrainingParams.java │ │ │ ├── sentdetect │ │ │ │ ├── SentenceDetectorConverterTool.java │ │ │ │ ├── SentenceDetectorCrossValidatorTool.java │ │ │ │ ├── SentenceDetectorEvaluatorTool.java │ │ │ │ ├── SentenceDetectorTool.java │ │ │ │ ├── SentenceDetectorTrainerTool.java │ │ │ │ ├── SentenceEvaluationErrorListener.java │ │ │ │ ├── SentenceModelLoader.java │ │ │ │ └── TrainingParams.java │ │ │ └── tokenizer │ │ │ │ ├── CommandLineTokenizer.java │ │ │ │ ├── DetokenEvaluationErrorListener.java │ │ │ │ ├── DetokenizationDictionaryLoader.java │ │ │ │ ├── DictionaryDetokenizerTool.java │ │ │ │ ├── SimpleTokenizerTool.java │ │ │ │ ├── TokenEvaluationErrorListener.java │ │ │ │ ├── TokenizerConverterTool.java │ │ │ │ ├── TokenizerCrossValidatorTool.java │ │ │ │ ├── TokenizerMEEvaluatorTool.java │ │ │ │ ├── TokenizerMETool.java │ │ │ │ ├── TokenizerModelLoader.java │ │ │ │ ├── TokenizerTrainerTool.java │ │ │ │ └── TrainingParams.java │ │ │ ├── commons │ │ │ ├── Internal.java │ │ │ ├── Sample.java │ │ │ ├── ThreadSafe.java │ │ │ ├── Trainer.java │ │ │ └── package-info.java │ │ │ ├── dictionary │ │ │ ├── Dictionary.java │ │ │ ├── Index.java │ │ │ ├── package-info.java │ │ │ └── serializer │ │ │ │ ├── Attributes.java │ │ │ │ ├── DictionaryEntryPersistor.java │ │ │ │ ├── Entry.java │ │ │ │ └── EntryInserter.java │ │ │ ├── doccat │ │ │ ├── BagOfWordsFeatureGenerator.java │ │ │ ├── DoccatCrossValidator.java │ │ │ ├── DoccatEvaluationMonitor.java │ │ │ ├── DoccatFactory.java │ │ │ ├── DoccatModel.java │ │ │ ├── DocumentCategorizer.java │ │ │ ├── DocumentCategorizerContextGenerator.java │ │ │ ├── DocumentCategorizerEvaluator.java │ │ │ ├── DocumentCategorizerEventStream.java │ │ │ ├── DocumentCategorizerME.java │ │ │ ├── DocumentSample.java │ │ │ ├── DocumentSampleStream.java │ │ │ ├── FeatureGenerator.java │ │ │ ├── NGramFeatureGenerator.java │ │ │ └── package-info.java │ │ │ ├── entitylinker │ │ │ ├── BaseLink.java │ │ │ ├── EntityLinker.java │ │ │ ├── EntityLinkerFactory.java │ │ │ ├── EntityLinkerProperties.java │ │ │ ├── LinkedSpan.java │ │ │ └── package-info.java │ │ │ ├── formats │ │ │ ├── AbstractSampleStreamFactory.java │ │ │ ├── BioNLP2004NameSampleStream.java │ │ │ ├── BioNLP2004NameSampleStreamFactory.java │ │ │ ├── ChunkerSampleStreamFactory.java │ │ │ ├── Conll02NameSampleStream.java │ │ │ ├── Conll02NameSampleStreamFactory.java │ │ │ ├── Conll03NameSampleStream.java │ │ │ ├── Conll03NameSampleStreamFactory.java │ │ │ ├── ConllXPOSSampleStream.java │ │ │ ├── ConllXPOSSampleStreamFactory.java │ │ │ ├── ConllXSentenceSampleStreamFactory.java │ │ │ ├── ConllXTokenSampleStreamFactory.java │ │ │ ├── DetokenizerSampleStreamFactory.java │ │ │ ├── DirectorySampleStream.java │ │ │ ├── DocumentSampleStreamFactory.java │ │ │ ├── EvalitaNameSampleStream.java │ │ │ ├── EvalitaNameSampleStreamFactory.java │ │ │ ├── LanguageDetectorSampleStreamFactory.java │ │ │ ├── LanguageSampleStreamFactory.java │ │ │ ├── LemmatizerSampleStreamFactory.java │ │ │ ├── NameFinderCensus90NameStream.java │ │ │ ├── NameSampleDataStreamFactory.java │ │ │ ├── ParseSampleStreamFactory.java │ │ │ ├── SentenceSampleStreamFactory.java │ │ │ ├── TokenSampleStreamFactory.java │ │ │ ├── TwentyNewsgroupSampleStream.java │ │ │ ├── TwentyNewsgroupSampleStreamFactory.java │ │ │ ├── WordTagSampleStreamFactory.java │ │ │ ├── ad │ │ │ │ ├── ADChunkSampleStream.java │ │ │ │ ├── ADChunkSampleStreamFactory.java │ │ │ │ ├── ADNameSampleStream.java │ │ │ │ ├── ADNameSampleStreamFactory.java │ │ │ │ ├── ADPOSSampleStream.java │ │ │ │ ├── ADPOSSampleStreamFactory.java │ │ │ │ ├── ADSentenceSampleStream.java │ │ │ │ ├── ADSentenceSampleStreamFactory.java │ │ │ │ ├── ADSentenceStream.java │ │ │ │ ├── ADTokenSampleStreamFactory.java │ │ │ │ ├── PortugueseContractionUtility.java │ │ │ │ └── package-info.java │ │ │ ├── brat │ │ │ │ ├── AnnotationConfiguration.java │ │ │ │ ├── AnnotatorNoteAnnotation.java │ │ │ │ ├── AttributeAnnotation.java │ │ │ │ ├── BratAnnotation.java │ │ │ │ ├── BratAnnotationStream.java │ │ │ │ ├── BratDocument.java │ │ │ │ ├── BratDocumentParser.java │ │ │ │ ├── BratDocumentStream.java │ │ │ │ ├── BratNameSampleStream.java │ │ │ │ ├── BratNameSampleStreamFactory.java │ │ │ │ ├── EventAnnotation.java │ │ │ │ ├── RelationAnnotation.java │ │ │ │ ├── SegmenterObjectStream.java │ │ │ │ ├── SpanAnnotation.java │ │ │ │ └── package-info.java │ │ │ ├── conllu │ │ │ │ ├── ConlluLemmaSampleStream.java │ │ │ │ ├── ConlluLemmaSampleStreamFactory.java │ │ │ │ ├── ConlluPOSSampleStream.java │ │ │ │ ├── ConlluPOSSampleStreamFactory.java │ │ │ │ ├── ConlluSentence.java │ │ │ │ ├── ConlluSentenceSampleStream.java │ │ │ │ ├── ConlluSentenceSampleStreamFactory.java │ │ │ │ ├── ConlluStream.java │ │ │ │ ├── ConlluTagset.java │ │ │ │ ├── ConlluTokenSampleStream.java │ │ │ │ ├── ConlluTokenSampleStreamFactory.java │ │ │ │ ├── ConlluWordLine.java │ │ │ │ └── package-info.java │ │ │ ├── convert │ │ │ │ ├── AbstractToSentenceSampleStream.java │ │ │ │ ├── FileToByteArraySampleStream.java │ │ │ │ ├── FileToStringSampleStream.java │ │ │ │ ├── NameToSentenceSampleStream.java │ │ │ │ ├── NameToSentenceSampleStreamFactory.java │ │ │ │ ├── NameToTokenSampleStream.java │ │ │ │ ├── NameToTokenSampleStreamFactory.java │ │ │ │ ├── POSToSentenceSampleStream.java │ │ │ │ ├── POSToSentenceSampleStreamFactory.java │ │ │ │ ├── POSToTokenSampleStream.java │ │ │ │ ├── POSToTokenSampleStreamFactory.java │ │ │ │ ├── ParseToPOSSampleStream.java │ │ │ │ ├── ParseToPOSSampleStreamFactory.java │ │ │ │ ├── ParseToSentenceSampleStreamFactory.java │ │ │ │ └── ParseToTokenSampleStreamFactory.java │ │ │ ├── frenchtreebank │ │ │ │ ├── ConstitDocumentHandler.java │ │ │ │ ├── ConstitParseSampleStream.java │ │ │ │ ├── ConstitParseSampleStreamFactory.java │ │ │ │ └── package-info.java │ │ │ ├── irishsentencebank │ │ │ │ ├── IrishSentenceBankDocument.java │ │ │ │ ├── IrishSentenceBankSentenceStream.java │ │ │ │ ├── IrishSentenceBankSentenceStreamFactory.java │ │ │ │ ├── IrishSentenceBankTokenSampleStream.java │ │ │ │ ├── IrishSentenceBankTokenSampleStreamFactory.java │ │ │ │ └── package-info.java │ │ │ ├── leipzig │ │ │ │ ├── LeipzigLanguageSampleStream.java │ │ │ │ ├── LeipzigLanguageSampleStreamFactory.java │ │ │ │ ├── SampleShuffleStream.java │ │ │ │ ├── SampleSkipStream.java │ │ │ │ └── package-info.java │ │ │ ├── letsmt │ │ │ │ ├── DetokenizeSentenceSampleStream.java │ │ │ │ ├── LetsmtDocument.java │ │ │ │ ├── LetsmtSentenceStream.java │ │ │ │ ├── LetsmtSentenceStreamFactory.java │ │ │ │ └── package-info.java │ │ │ ├── masc │ │ │ │ ├── Masc.java │ │ │ │ ├── MascDocument.java │ │ │ │ ├── MascDocumentStream.java │ │ │ │ ├── MascNamedEntityParser.java │ │ │ │ ├── MascNamedEntitySampleStream.java │ │ │ │ ├── MascNamedEntitySampleStreamFactory.java │ │ │ │ ├── MascPOSSampleStream.java │ │ │ │ ├── MascPOSSampleStreamFactory.java │ │ │ │ ├── MascPennTagParser.java │ │ │ │ ├── MascSentence.java │ │ │ │ ├── MascSentenceParser.java │ │ │ │ ├── MascSentenceSampleStream.java │ │ │ │ ├── MascSentenceSampleStreamFactory.java │ │ │ │ ├── MascToken.java │ │ │ │ ├── MascTokenSampleStream.java │ │ │ │ ├── MascTokenSampleStreamFactory.java │ │ │ │ ├── MascWord.java │ │ │ │ ├── MascWordParser.java │ │ │ │ └── package-info.java │ │ │ ├── moses │ │ │ │ ├── MosesSentenceSampleStream.java │ │ │ │ └── MosesSentenceSampleStreamFactory.java │ │ │ ├── muc │ │ │ │ ├── DocumentSplitterStream.java │ │ │ │ ├── Muc6NameSampleStreamFactory.java │ │ │ │ ├── MucElementNames.java │ │ │ │ ├── MucNameContentHandler.java │ │ │ │ ├── MucNameSampleStream.java │ │ │ │ ├── SgmlParser.java │ │ │ │ └── package-info.java │ │ │ ├── nkjp │ │ │ │ ├── NKJPSegmentationDocument.java │ │ │ │ ├── NKJPSentenceSampleStream.java │ │ │ │ ├── NKJPSentenceSampleStreamFactory.java │ │ │ │ ├── NKJPTextDocument.java │ │ │ │ └── package-info.java │ │ │ ├── ontonotes │ │ │ │ ├── DocumentToLineStream.java │ │ │ │ ├── OntoNotesFormatParameters.java │ │ │ │ ├── OntoNotesNameSampleStream.java │ │ │ │ ├── OntoNotesNameSampleStreamFactory.java │ │ │ │ ├── OntoNotesPOSSampleStreamFactory.java │ │ │ │ ├── OntoNotesParseSampleStream.java │ │ │ │ ├── OntoNotesParseSampleStreamFactory.java │ │ │ │ └── package-info.java │ │ │ └── package-info.java │ │ │ ├── langdetect │ │ │ ├── DefaultLanguageDetectorContextGenerator.java │ │ │ ├── Language.java │ │ │ ├── LanguageDetector.java │ │ │ ├── LanguageDetectorConfig.java │ │ │ ├── LanguageDetectorContextGenerator.java │ │ │ ├── LanguageDetectorCrossValidator.java │ │ │ ├── LanguageDetectorEvaluationMonitor.java │ │ │ ├── LanguageDetectorEvaluator.java │ │ │ ├── LanguageDetectorEventStream.java │ │ │ ├── LanguageDetectorFactory.java │ │ │ ├── LanguageDetectorME.java │ │ │ ├── LanguageDetectorModel.java │ │ │ ├── LanguageDetectorSampleStream.java │ │ │ ├── LanguageSample.java │ │ │ ├── ProbingLanguageDetectionResult.java │ │ │ ├── ThreadSafeLanguageDetectorME.java │ │ │ └── package-info.java │ │ │ ├── languagemodel │ │ │ ├── LanguageModel.java │ │ │ ├── NGramLanguageModel.java │ │ │ └── package-info.java │ │ │ ├── lemmatizer │ │ │ ├── DefaultLemmatizerContextGenerator.java │ │ │ ├── DefaultLemmatizerSequenceValidator.java │ │ │ ├── DictionaryLemmatizer.java │ │ │ ├── LemmaSample.java │ │ │ ├── LemmaSampleEventStream.java │ │ │ ├── LemmaSampleSequenceStream.java │ │ │ ├── LemmaSampleStream.java │ │ │ ├── Lemmatizer.java │ │ │ ├── LemmatizerContextGenerator.java │ │ │ ├── LemmatizerEvaluationMonitor.java │ │ │ ├── LemmatizerEvaluator.java │ │ │ ├── LemmatizerFactory.java │ │ │ ├── LemmatizerME.java │ │ │ ├── LemmatizerModel.java │ │ │ ├── ThreadSafeLemmatizerME.java │ │ │ └── package-info.java │ │ │ ├── log │ │ │ ├── LogPrintStream.java │ │ │ └── package-info.java │ │ │ ├── ml │ │ │ ├── AbstractEventModelSequenceTrainer.java │ │ │ ├── AbstractEventTrainer.java │ │ │ ├── AbstractMLModelWriter.java │ │ │ ├── AbstractTrainer.java │ │ │ ├── ArrayMath.java │ │ │ ├── BeamSearch.java │ │ │ ├── EventModelSequenceTrainer.java │ │ │ ├── EventTrainer.java │ │ │ ├── SequenceTrainer.java │ │ │ ├── TrainerFactory.java │ │ │ ├── maxent │ │ │ │ ├── AllEnglishAffixes.txt │ │ │ │ ├── BasicContextGenerator.java │ │ │ │ ├── ContextGenerator.java │ │ │ │ ├── DataStream.java │ │ │ │ ├── GISFormat │ │ │ │ ├── GISModel.java │ │ │ │ ├── GISTrainer.java │ │ │ │ ├── RealBasicEventStream.java │ │ │ │ ├── io │ │ │ │ │ ├── BinaryGISModelReader.java │ │ │ │ │ ├── BinaryGISModelWriter.java │ │ │ │ │ ├── BinaryQNModelReader.java │ │ │ │ │ ├── BinaryQNModelWriter.java │ │ │ │ │ ├── GISModelReader.java │ │ │ │ │ ├── GISModelWriter.java │ │ │ │ │ ├── QNModelReader.java │ │ │ │ │ ├── QNModelWriter.java │ │ │ │ │ ├── package-info.java │ │ │ │ │ └── package.html │ │ │ │ ├── package-info.java │ │ │ │ ├── package.html │ │ │ │ └── quasinewton │ │ │ │ │ ├── Function.java │ │ │ │ │ ├── LineSearch.java │ │ │ │ │ ├── NegLogLikelihood.java │ │ │ │ │ ├── ParallelNegLogLikelihood.java │ │ │ │ │ ├── QNMinimizer.java │ │ │ │ │ ├── QNModel.java │ │ │ │ │ ├── QNTrainer.java │ │ │ │ │ └── package-info.java │ │ │ ├── model │ │ │ │ ├── AbstractDataIndexer.java │ │ │ │ ├── AbstractModel.java │ │ │ │ ├── AbstractModelReader.java │ │ │ │ ├── AbstractModelWriter.java │ │ │ │ ├── BinaryFileDataReader.java │ │ │ │ ├── ChecksumEventStream.java │ │ │ │ ├── ComparableEvent.java │ │ │ │ ├── ComparablePredicate.java │ │ │ │ ├── Context.java │ │ │ │ ├── DataIndexer.java │ │ │ │ ├── DataIndexerFactory.java │ │ │ │ ├── DataReader.java │ │ │ │ ├── DynamicEvalParameters.java │ │ │ │ ├── EvalParameters.java │ │ │ │ ├── Event.java │ │ │ │ ├── FileEventStream.java │ │ │ │ ├── GenericModelReader.java │ │ │ │ ├── GenericModelWriter.java │ │ │ │ ├── MaxentModel.java │ │ │ │ ├── ModelParameterChunker.java │ │ │ │ ├── MutableContext.java │ │ │ │ ├── ObjectDataReader.java │ │ │ │ ├── OnePassDataIndexer.java │ │ │ │ ├── OnePassRealValueDataIndexer.java │ │ │ │ ├── PlainTextFileDataReader.java │ │ │ │ ├── Prior.java │ │ │ │ ├── RealValueFileEventStream.java │ │ │ │ ├── Sequence.java │ │ │ │ ├── SequenceClassificationModel.java │ │ │ │ ├── SequenceStream.java │ │ │ │ ├── SequenceStreamEventStream.java │ │ │ │ ├── TwoPassDataIndexer.java │ │ │ │ ├── UniformPrior.java │ │ │ │ └── package-info.java │ │ │ ├── naivebayes │ │ │ │ ├── BinaryNaiveBayesModelReader.java │ │ │ │ ├── BinaryNaiveBayesModelWriter.java │ │ │ │ ├── LogProbabilities.java │ │ │ │ ├── LogProbability.java │ │ │ │ ├── NaiveBayesEvalParameters.java │ │ │ │ ├── NaiveBayesModel.java │ │ │ │ ├── NaiveBayesModelReader.java │ │ │ │ ├── NaiveBayesModelWriter.java │ │ │ │ ├── NaiveBayesTrainer.java │ │ │ │ ├── PlainTextNaiveBayesModelReader.java │ │ │ │ ├── PlainTextNaiveBayesModelWriter.java │ │ │ │ ├── Probabilities.java │ │ │ │ ├── Probability.java │ │ │ │ └── package-info.java │ │ │ ├── package-info.java │ │ │ └── perceptron │ │ │ │ ├── BinaryPerceptronModelReader.java │ │ │ │ ├── BinaryPerceptronModelWriter.java │ │ │ │ ├── PerceptronModel.java │ │ │ │ ├── PerceptronModelReader.java │ │ │ │ ├── PerceptronModelWriter.java │ │ │ │ ├── PerceptronTrainer.java │ │ │ │ ├── SimplePerceptronSequenceTrainer.java │ │ │ │ └── package-info.java │ │ │ ├── models │ │ │ └── ModelType.java │ │ │ ├── monitoring │ │ │ ├── DefaultTrainingProgressMonitor.java │ │ │ ├── IterDeltaAccuracyUnderTolerance.java │ │ │ ├── LogLikelihoodThresholdBreached.java │ │ │ ├── StopCriteria.java │ │ │ ├── TrainingMeasure.java │ │ │ └── TrainingProgressMonitor.java │ │ │ ├── namefind │ │ │ ├── BilouCodec.java │ │ │ ├── BilouNameFinderSequenceValidator.java │ │ │ ├── BioCodec.java │ │ │ ├── DefaultNameContextGenerator.java │ │ │ ├── DictionaryNameFinder.java │ │ │ ├── DocumentNameFinder.java │ │ │ ├── NameContextGenerator.java │ │ │ ├── NameFinderEventStream.java │ │ │ ├── NameFinderME.java │ │ │ ├── NameFinderSequenceValidator.java │ │ │ ├── NameSample.java │ │ │ ├── NameSampleDataStream.java │ │ │ ├── NameSampleSequenceStream.java │ │ │ ├── NameSampleTypeFilter.java │ │ │ ├── RegexNameFinder.java │ │ │ ├── RegexNameFinderFactory.java │ │ │ ├── ThreadSafeNameFinderME.java │ │ │ ├── TokenNameFinder.java │ │ │ ├── TokenNameFinderCrossValidator.java │ │ │ ├── TokenNameFinderEvaluationMonitor.java │ │ │ ├── TokenNameFinderEvaluator.java │ │ │ ├── TokenNameFinderFactory.java │ │ │ ├── TokenNameFinderModel.java │ │ │ └── package-info.java │ │ │ ├── ngram │ │ │ ├── NGramCharModel.java │ │ │ ├── NGramGenerator.java │ │ │ ├── NGramModel.java │ │ │ ├── NGramUtils.java │ │ │ └── package-info.java │ │ │ ├── package-info.java │ │ │ ├── parser │ │ │ ├── AbstractBottomUpParser.java │ │ │ ├── AbstractContextGenerator.java │ │ │ ├── AbstractParserEventStream.java │ │ │ ├── ChunkContextGenerator.java │ │ │ ├── ChunkSampleStream.java │ │ │ ├── Cons.java │ │ │ ├── Constituent.java │ │ │ ├── GapLabeler.java │ │ │ ├── HeadRules.java │ │ │ ├── Parse.java │ │ │ ├── ParseSampleStream.java │ │ │ ├── Parser.java │ │ │ ├── ParserChunkerFactory.java │ │ │ ├── ParserChunkerSequenceValidator.java │ │ │ ├── ParserCrossValidator.java │ │ │ ├── ParserEvaluationMonitor.java │ │ │ ├── ParserEvaluator.java │ │ │ ├── ParserEventTypeEnum.java │ │ │ ├── ParserFactory.java │ │ │ ├── ParserModel.java │ │ │ ├── ParserType.java │ │ │ ├── PosSampleStream.java │ │ │ ├── chunking │ │ │ │ ├── BuildContextGenerator.java │ │ │ │ ├── CheckContextGenerator.java │ │ │ │ ├── Parser.java │ │ │ │ ├── ParserEventStream.java │ │ │ │ └── package-info.java │ │ │ ├── lang │ │ │ │ ├── en │ │ │ │ │ └── HeadRules.java │ │ │ │ └── es │ │ │ │ │ └── AncoraSpanishHeadRules.java │ │ │ ├── package-info.java │ │ │ └── treeinsert │ │ │ │ ├── AttachContextGenerator.java │ │ │ │ ├── BuildContextGenerator.java │ │ │ │ ├── CheckContextGenerator.java │ │ │ │ ├── Parser.java │ │ │ │ ├── ParserEventStream.java │ │ │ │ └── package-info.java │ │ │ ├── postag │ │ │ ├── ConfigurablePOSContextGenerator.java │ │ │ ├── DefaultPOSContextGenerator.java │ │ │ ├── DefaultPOSSequenceValidator.java │ │ │ ├── MutableTagDictionary.java │ │ │ ├── POSContextGenerator.java │ │ │ ├── POSDictionary.java │ │ │ ├── POSEvaluator.java │ │ │ ├── POSModel.java │ │ │ ├── POSSample.java │ │ │ ├── POSSampleEventStream.java │ │ │ ├── POSSampleSequenceStream.java │ │ │ ├── POSTagFormat.java │ │ │ ├── POSTagFormatMapper.java │ │ │ ├── POSTagger.java │ │ │ ├── POSTaggerCrossValidator.java │ │ │ ├── POSTaggerEvaluationMonitor.java │ │ │ ├── POSTaggerFactory.java │ │ │ ├── POSTaggerME.java │ │ │ ├── TagDictionary.java │ │ │ ├── ThreadSafePOSTaggerME.java │ │ │ ├── WordTagSampleStream.java │ │ │ └── package-info.java │ │ │ ├── sentdetect │ │ │ ├── DefaultEndOfSentenceScanner.java │ │ │ ├── DefaultSDContextGenerator.java │ │ │ ├── EmptyLinePreprocessorStream.java │ │ │ ├── EndOfSentenceScanner.java │ │ │ ├── NewlineSentenceDetector.java │ │ │ ├── SDContextGenerator.java │ │ │ ├── SDCrossValidator.java │ │ │ ├── SDEventStream.java │ │ │ ├── SentenceDetector.java │ │ │ ├── SentenceDetectorEvaluationMonitor.java │ │ │ ├── SentenceDetectorEvaluator.java │ │ │ ├── SentenceDetectorFactory.java │ │ │ ├── SentenceDetectorME.java │ │ │ ├── SentenceModel.java │ │ │ ├── SentenceSample.java │ │ │ ├── SentenceSampleStream.java │ │ │ ├── ThreadSafeSentenceDetectorME.java │ │ │ ├── lang │ │ │ │ ├── Factory.java │ │ │ │ └── th │ │ │ │ │ ├── SentenceContextGenerator.java │ │ │ │ │ └── package.html │ │ │ └── package-info.java │ │ │ ├── stemmer │ │ │ ├── PorterStemmer.java │ │ │ ├── Stemmer.java │ │ │ └── snowball │ │ │ │ ├── AbstractSnowballStemmer.java │ │ │ │ ├── Among.java │ │ │ │ ├── SnowballProgram.java │ │ │ │ ├── SnowballStemmer.java │ │ │ │ ├── arabicStemmer.java │ │ │ │ ├── catalanStemmer.java │ │ │ │ ├── danishStemmer.java │ │ │ │ ├── dutchStemmer.java │ │ │ │ ├── englishStemmer.java │ │ │ │ ├── finnishStemmer.java │ │ │ │ ├── frenchStemmer.java │ │ │ │ ├── germanStemmer.java │ │ │ │ ├── greekStemmer.java │ │ │ │ ├── hungarianStemmer.java │ │ │ │ ├── indonesianStemmer.java │ │ │ │ ├── irishStemmer.java │ │ │ │ ├── italianStemmer.java │ │ │ │ ├── norwegianStemmer.java │ │ │ │ ├── porterStemmer.java │ │ │ │ ├── portugueseStemmer.java │ │ │ │ ├── romanianStemmer.java │ │ │ │ ├── russianStemmer.java │ │ │ │ ├── spanishStemmer.java │ │ │ │ ├── swedishStemmer.java │ │ │ │ └── turkishStemmer.java │ │ │ ├── tokenize │ │ │ ├── AbstractTokenizer.java │ │ │ ├── DefaultTokenContextGenerator.java │ │ │ ├── DetokenizationDictionary.java │ │ │ ├── Detokenizer.java │ │ │ ├── DetokenizerEvaluator.java │ │ │ ├── DictionaryDetokenizer.java │ │ │ ├── SimpleTokenizer.java │ │ │ ├── ThreadSafeTokenizerME.java │ │ │ ├── TokSpanEventStream.java │ │ │ ├── TokenContextGenerator.java │ │ │ ├── TokenSample.java │ │ │ ├── TokenSampleStream.java │ │ │ ├── Tokenizer.java │ │ │ ├── TokenizerCrossValidator.java │ │ │ ├── TokenizerEvaluationMonitor.java │ │ │ ├── TokenizerEvaluator.java │ │ │ ├── TokenizerFactory.java │ │ │ ├── TokenizerME.java │ │ │ ├── TokenizerModel.java │ │ │ ├── TokenizerStream.java │ │ │ ├── WhitespaceTokenStream.java │ │ │ ├── WhitespaceTokenizer.java │ │ │ ├── WordpieceTokenizer.java │ │ │ ├── lang │ │ │ │ ├── Factory.java │ │ │ │ └── en │ │ │ │ │ └── TokenSampleStream.java │ │ │ └── package-info.java │ │ │ └── util │ │ │ ├── AbstractEventStream.java │ │ │ ├── AbstractObjectStream.java │ │ │ ├── BaseToolFactory.java │ │ │ ├── BeamSearchContextGenerator.java │ │ │ ├── Cache.java │ │ │ ├── CollectionObjectStream.java │ │ │ ├── DownloadUtil.java │ │ │ ├── EventTraceStream.java │ │ │ ├── FilterObjectStream.java │ │ │ ├── InputStreamFactory.java │ │ │ ├── InsufficientTrainingDataException.java │ │ │ ├── InvalidFormatException.java │ │ │ ├── MarkableFileInputStream.java │ │ │ ├── MarkableFileInputStreamFactory.java │ │ │ ├── MutableInt.java │ │ │ ├── ObjectStream.java │ │ │ ├── ObjectStreamUtils.java │ │ │ ├── ParagraphStream.java │ │ │ ├── PlainTextByLineStream.java │ │ │ ├── ResetableIterator.java │ │ │ ├── ReverseListIterator.java │ │ │ ├── Sequence.java │ │ │ ├── SequenceCodec.java │ │ │ ├── SequenceValidator.java │ │ │ ├── Span.java │ │ │ ├── StringList.java │ │ │ ├── StringUtil.java │ │ │ ├── TokenTag.java │ │ │ ├── TrainingConfiguration.java │ │ │ ├── TrainingParameters.java │ │ │ ├── Version.java │ │ │ ├── XmlUtil.java │ │ │ ├── eval │ │ │ ├── CrossValidationPartitioner.java │ │ │ ├── EvaluationMonitor.java │ │ │ ├── Evaluator.java │ │ │ ├── FMeasure.java │ │ │ └── Mean.java │ │ │ ├── ext │ │ │ ├── ExtensionLoader.java │ │ │ ├── ExtensionNotLoadedException.java │ │ │ ├── ExtensionServiceKeys.java │ │ │ └── package-info.java │ │ │ ├── featuregen │ │ │ ├── AdaptiveFeatureGenerator.java │ │ │ ├── AdditionalContextFeatureGenerator.java │ │ │ ├── AggregatedFeatureGenerator.java │ │ │ ├── AggregatedFeatureGeneratorFactory.java │ │ │ ├── BigramNameFeatureGenerator.java │ │ │ ├── BigramNameFeatureGeneratorFactory.java │ │ │ ├── BrownBigramFeatureGenerator.java │ │ │ ├── BrownCluster.java │ │ │ ├── BrownClusterBigramFeatureGeneratorFactory.java │ │ │ ├── BrownClusterTokenClassFeatureGeneratorFactory.java │ │ │ ├── BrownClusterTokenFeatureGeneratorFactory.java │ │ │ ├── BrownTokenClassFeatureGenerator.java │ │ │ ├── BrownTokenClasses.java │ │ │ ├── BrownTokenFeatureGenerator.java │ │ │ ├── CachedFeatureGenerator.java │ │ │ ├── CachedFeatureGeneratorFactory.java │ │ │ ├── CharacterNgramFeatureGenerator.java │ │ │ ├── CharacterNgramFeatureGeneratorFactory.java │ │ │ ├── DefinitionFeatureGeneratorFactory.java │ │ │ ├── DictionaryFeatureGenerator.java │ │ │ ├── DictionaryFeatureGeneratorFactory.java │ │ │ ├── DocumentBeginFeatureGenerator.java │ │ │ ├── DocumentBeginFeatureGeneratorFactory.java │ │ │ ├── FeatureGeneratorResourceProvider.java │ │ │ ├── FeatureGeneratorUtil.java │ │ │ ├── GeneratorFactory.java │ │ │ ├── InSpanGenerator.java │ │ │ ├── OutcomePriorFeatureGenerator.java │ │ │ ├── POSTaggerNameFeatureGenerator.java │ │ │ ├── POSTaggerNameFeatureGeneratorFactory.java │ │ │ ├── PosTaggerFeatureGenerator.java │ │ │ ├── PosTaggerFeatureGeneratorFactory.java │ │ │ ├── PrefixFeatureGenerator.java │ │ │ ├── PrefixFeatureGeneratorFactory.java │ │ │ ├── PreviousMapFeatureGenerator.java │ │ │ ├── PreviousMapFeatureGeneratorFactory.java │ │ │ ├── PreviousTwoMapFeatureGenerator.java │ │ │ ├── SentenceFeatureGenerator.java │ │ │ ├── SentenceFeatureGeneratorFactory.java │ │ │ ├── StringPattern.java │ │ │ ├── SuffixFeatureGenerator.java │ │ │ ├── SuffixFeatureGeneratorFactory.java │ │ │ ├── TokenClassFeatureGenerator.java │ │ │ ├── TokenClassFeatureGeneratorFactory.java │ │ │ ├── TokenFeatureGenerator.java │ │ │ ├── TokenFeatureGeneratorFactory.java │ │ │ ├── TokenPatternFeatureGenerator.java │ │ │ ├── TokenPatternFeatureGeneratorFactory.java │ │ │ ├── TrigramNameFeatureGenerator.java │ │ │ ├── TrigramNameFeatureGeneratorFactory.java │ │ │ ├── WindowFeatureGenerator.java │ │ │ ├── WindowFeatureGeneratorFactory.java │ │ │ ├── WordClusterDictionary.java │ │ │ ├── WordClusterFeatureGenerator.java │ │ │ ├── WordClusterFeatureGeneratorFactory.java │ │ │ └── package-info.java │ │ │ ├── java │ │ │ └── Experimental.java │ │ │ ├── jvm │ │ │ ├── CHMStringDeduplicator.java │ │ │ ├── CHMStringInterner.java │ │ │ ├── HMStringInterner.java │ │ │ ├── JvmStringInterner.java │ │ │ ├── NoOpStringInterner.java │ │ │ ├── StringInterner.java │ │ │ └── StringInterners.java │ │ │ ├── model │ │ │ ├── ArtifactProvider.java │ │ │ ├── ArtifactSerializer.java │ │ │ ├── BaseModel.java │ │ │ ├── ByteArraySerializer.java │ │ │ ├── ChunkerModelSerializer.java │ │ │ ├── DictionarySerializer.java │ │ │ ├── GenericModelSerializer.java │ │ │ ├── ModelType.java │ │ │ ├── ModelUtil.java │ │ │ ├── POSModelSerializer.java │ │ │ ├── PropertiesSerializer.java │ │ │ ├── SerializableArtifact.java │ │ │ └── UncloseableInputStream.java │ │ │ ├── normalizer │ │ │ ├── AggregateCharSequenceNormalizer.java │ │ │ ├── CharSequenceNormalizer.java │ │ │ ├── EmojiCharSequenceNormalizer.java │ │ │ ├── NumberCharSequenceNormalizer.java │ │ │ ├── ShrinkCharSequenceNormalizer.java │ │ │ ├── TwitterCharSequenceNormalizer.java │ │ │ └── UrlCharSequenceNormalizer.java │ │ │ ├── package-info.java │ │ │ └── wordvector │ │ │ ├── DoubleArrayVector.java │ │ │ ├── FloatArrayVector.java │ │ │ ├── Glove.java │ │ │ ├── MapWordVectorTable.java │ │ │ ├── WordVector.java │ │ │ ├── WordVectorTable.java │ │ │ └── WordVectorType.java │ └── resources │ │ └── opennlp │ │ └── tools │ │ ├── namefind │ │ └── ner-default-features.xml │ │ ├── postag │ │ └── pos-default-features.xml │ │ └── util │ │ └── opennlp.version │ └── test │ ├── java │ └── opennlp │ │ └── tools │ │ ├── AbstractLoggerTest.java │ │ ├── AbstractModelLoaderTest.java │ │ ├── AbstractTempDirTest.java │ │ ├── EnabledWhenCDNAvailable.java │ │ ├── HighMemoryUsage.java │ │ ├── chunker │ │ ├── ChunkSampleStreamTest.java │ │ ├── ChunkSampleTest.java │ │ ├── ChunkerDetailedFMeasureListenerTest.java │ │ ├── ChunkerEvaluatorTest.java │ │ ├── ChunkerFactoryTest.java │ │ ├── ChunkerMEIT.java │ │ ├── ChunkerMETest.java │ │ ├── ChunkerModelTest.java │ │ ├── DummyChunkSampleStream.java │ │ ├── DummyChunker.java │ │ └── DummyChunkerFactory.java │ │ ├── cmdline │ │ ├── ArgumentParserTest.java │ │ ├── CLITest.java │ │ ├── TerminateToolExceptionTest.java │ │ ├── TokenNameFinderToolTest.java │ │ ├── chunker │ │ │ └── ChunkerModelLoaderTest.java │ │ ├── langdetect │ │ │ └── LanguageDetectorModelLoaderTest.java │ │ ├── languagemodel │ │ │ └── NGramLanguageModelToolTest.java │ │ ├── lemmatizer │ │ │ └── LemmatizerModelLoaderIT.java │ │ ├── namefind │ │ │ ├── TokenNameFinderModelLoaderTest.java │ │ │ └── generator │ │ │ │ ├── AbstractNewsGenerator.java │ │ │ │ ├── RandomEnglishNewsGenerator.java │ │ │ │ └── RandomGermanNewsGenerator.java │ │ ├── postag │ │ │ └── POSModelLoaderIT.java │ │ ├── sentdetect │ │ │ └── SentenceModelLoaderIT.java │ │ └── tokenizer │ │ │ ├── TokenizerModelLoaderIT.java │ │ │ └── TokenizerTrainerToolTest.java │ │ ├── dictionary │ │ ├── DictionaryAsSetCaseInsensitiveTest.java │ │ ├── DictionaryAsSetCaseSensitiveTest.java │ │ └── DictionaryTest.java │ │ ├── doccat │ │ ├── BagOfWordsFeatureGeneratorTest.java │ │ ├── DoccatFactoryTest.java │ │ ├── DocumentCategorizerMETest.java │ │ ├── DocumentCategorizerNBTest.java │ │ ├── DocumentSampleTest.java │ │ └── NGramFeatureGeneratorTest.java │ │ ├── eval │ │ ├── AbstractEvalTest.java │ │ ├── ArvoresDeitadasEval.java │ │ ├── Conll00ChunkerEval.java │ │ ├── Conll02NameFinderEval.java │ │ ├── ConllXPosTaggerEval.java │ │ ├── MultiThreadedToolsEval.java │ │ ├── OntoNotes4NameFinderEval.java │ │ ├── OntoNotes4ParserEval.java │ │ ├── OntoNotes4PosTaggerEval.java │ │ ├── SnowballTokenizerEval.java │ │ ├── SourceForgeModelEval.java │ │ └── UniversalDependency20Eval.java │ │ ├── formats │ │ ├── AbstractFormatTest.java │ │ ├── AbstractSampleStreamFactoryTest.java │ │ ├── AbstractSampleStreamTest.java │ │ ├── BioNLP2004NameSampleStreamFactoryTest.java │ │ ├── ChunkerSampleStreamFactoryTest.java │ │ ├── Conll02NameSampleStreamFactoryTest.java │ │ ├── Conll02NameSampleStreamTest.java │ │ ├── Conll03NameSampleStreamFactoryTest.java │ │ ├── Conll03NameSampleStreamTest.java │ │ ├── ConllXPOSSampleStreamFactoryTest.java │ │ ├── ConllXPOSSampleStreamTest.java │ │ ├── ConllXSentenceSampleStreamFactoryTest.java │ │ ├── ConllXTokenSampleStreamFactoryTest.java │ │ ├── DirectorySampleStreamTest.java │ │ ├── EvalitaNameSampleStreamFactoryTest.java │ │ ├── EvalitaNameSampleStreamTest.java │ │ ├── LanguageDetectorSampleStreamFactoryTest.java │ │ ├── LemmatizerSampleStreamFactoryTest.java │ │ ├── NameFinderCensus90NameStreamTest.java │ │ ├── NameSampleDataStreamFactoryTest.java │ │ ├── ParseSampleStreamFactoryTest.java │ │ ├── ResourceAsStreamFactory.java │ │ ├── SentenceSampleStreamFactoryTest.java │ │ ├── TokenSampleStreamFactoryTest.java │ │ ├── TwentyNewsgroupSampleStreamFactoryTest.java │ │ ├── WordTagSampleStreamFactoryTest.java │ │ ├── ad │ │ │ ├── ADChunkSampleStreamFactoryTest.java │ │ │ ├── ADChunkSampleStreamTest.java │ │ │ ├── ADNameSampleStreamTest.java │ │ │ ├── ADPOSSampleStreamFactoryTest.java │ │ │ ├── ADPOSSampleStreamTest.java │ │ │ ├── ADParagraphStreamTest.java │ │ │ ├── ADSentenceSampleStreamFactoryTest.java │ │ │ ├── ADSentenceSampleStreamTest.java │ │ │ ├── ADTokenSampleStreamFactoryTest.java │ │ │ ├── ADTokenSampleStreamTest.java │ │ │ └── AbstractADSampleStreamTest.java │ │ ├── brat │ │ │ ├── AbstractBratTest.java │ │ │ ├── BratAnnotationStreamTest.java │ │ │ ├── BratDocumentParserTest.java │ │ │ ├── BratDocumentTest.java │ │ │ ├── BratNameSampleStreamFactoryTest.java │ │ │ └── BratNameSampleStreamTest.java │ │ ├── conllu │ │ │ ├── AbstractConlluSampleStreamTest.java │ │ │ ├── ConlluLemmaSampleStreamFactoryTest.java │ │ │ ├── ConlluLemmaSampleStreamTest.java │ │ │ ├── ConlluPOSSampleStreamFactoryTest.java │ │ │ ├── ConlluPOSSampleStreamTest.java │ │ │ ├── ConlluSentenceSampleStreamFactoryTest.java │ │ │ ├── ConlluSentenceSampleStreamTest.java │ │ │ ├── ConlluStreamTest.java │ │ │ ├── ConlluTokenSampleStreamFactoryTest.java │ │ │ ├── ConlluTokenSampleStreamTest.java │ │ │ └── ConlluWordLineTest.java │ │ ├── convert │ │ │ ├── AbstractConvertTest.java │ │ │ ├── FileToByteArraySampleStreamTest.java │ │ │ ├── FileToStringSampleStreamTest.java │ │ │ ├── NameToSentenceSampleStreamFactoryTest.java │ │ │ ├── NameToTokenSampleStreamFactoryTest.java │ │ │ ├── POSToSentenceSampleStreamFactoryTest.java │ │ │ ├── POSToTokenSampleStreamFactoryTest.java │ │ │ ├── ParseToPOSSampleStreamFactoryTest.java │ │ │ ├── ParseToSentenceSampleStreamFactoryTest.java │ │ │ └── ParseToTokenSampleStreamFactoryTest.java │ │ ├── frenchtreebank │ │ │ ├── ConstitParseSampleStreamFactoryTest.java │ │ │ └── ConstitParseSampleStreamTest.java │ │ ├── irishsentencebank │ │ │ ├── IrishSentenceBankDocumentTest.java │ │ │ ├── IrishSentenceBankSentenceStreamFactoryTest.java │ │ │ └── IrishSentenceBankTokenSampleStreamFactoryTest.java │ │ ├── leipzig │ │ │ ├── LeipzigLanguageSampleStreamFactoryTest.java │ │ │ └── LeipzigLanguageSampleStreamTest.java │ │ ├── letsmt │ │ │ ├── LetsmtDocumentTest.java │ │ │ └── LetsmtSentenceStreamFactoryTest.java │ │ ├── masc │ │ │ ├── AbstractMascSampleStreamTest.java │ │ │ ├── MascNamedEntitySampleStreamFactoryTest.java │ │ │ ├── MascNamedEntitySampleStreamTest.java │ │ │ ├── MascPOSSampleStreamFactoryTest.java │ │ │ ├── MascPOSSampleStreamTest.java │ │ │ ├── MascSentenceSampleStreamFactoryTest.java │ │ │ ├── MascSentenceSampleStreamTest.java │ │ │ ├── MascTokenSampleStreamFactoryTest.java │ │ │ └── MascTokenSampleStreamTest.java │ │ ├── moses │ │ │ └── MosesSentenceSampleStreamFactoryTest.java │ │ ├── muc │ │ │ ├── DocumentSplitterStreamTest.java │ │ │ ├── Muc6NameSampleStreamFactoryTest.java │ │ │ └── SgmlParserTest.java │ │ ├── nkjp │ │ │ ├── NKJPSegmentationDocumentTest.java │ │ │ ├── NKJPSentenceSampleStreamFactoryTest.java │ │ │ └── NKJPTextDocumentTest.java │ │ └── ontonotes │ │ │ ├── OntoNotesNameSampleStreamFactoryTest.java │ │ │ ├── OntoNotesPOSSampleStreamFactoryTest.java │ │ │ └── OntoNotesParseSampleStreamFactoryTest.java │ │ ├── langdetect │ │ ├── DefaultLanguageDetectorContextGeneratorTest.java │ │ ├── DummyFactory.java │ │ ├── LanguageDetectorCrossValidatorTest.java │ │ ├── LanguageDetectorEvaluatorTest.java │ │ ├── LanguageDetectorFactoryTest.java │ │ ├── LanguageDetectorMETest.java │ │ ├── LanguageSampleTest.java │ │ └── LanguageTest.java │ │ ├── languagemodel │ │ ├── LanguageModelEvaluationTest.java │ │ ├── LanguageModelTestUtils.java │ │ └── NgramLanguageModelTest.java │ │ ├── lemmatizer │ │ ├── DictionaryLemmatizerMultiTest.java │ │ ├── DictionaryLemmatizerTest.java │ │ ├── DummyLemmaSampleStream.java │ │ ├── DummyLemmatizer.java │ │ ├── LemmaSampleTest.java │ │ ├── LemmatizerEvaluatorTest.java │ │ └── LemmatizerMETest.java │ │ ├── ml │ │ ├── AbstractEventStreamTest.java │ │ ├── ArrayMathTest.java │ │ ├── BeamSearchTest.java │ │ ├── MockEventTrainer.java │ │ ├── MockSequenceTrainer.java │ │ ├── PrepAttachDataUtil.java │ │ ├── TrainerFactoryTest.java │ │ ├── maxent │ │ │ ├── FootballEventStream.java │ │ │ ├── GISIndexingTest.java │ │ │ ├── GISTrainerTest.java │ │ │ ├── MaxentPrepAttachTest.java │ │ │ ├── MockDataIndexer.java │ │ │ ├── RealBasicEventStreamTest.java │ │ │ ├── RealValueModelTest.java │ │ │ ├── ScaleDoesntMatterTest.java │ │ │ ├── URLInputStreamFactory.java │ │ │ ├── io │ │ │ │ └── RealValueFileEventStreamTest.java │ │ │ └── quasinewton │ │ │ │ ├── LineSearchTest.java │ │ │ │ ├── NegLogLikelihoodTest.java │ │ │ │ ├── QNMinimizerTest.java │ │ │ │ ├── QNPrepAttachTest.java │ │ │ │ └── QNTrainerTest.java │ │ ├── model │ │ │ ├── ChecksumEventStreamTest.java │ │ │ ├── EventTest.java │ │ │ ├── FileEventStreamTest.java │ │ │ ├── ModelParameterChunkerTest.java │ │ │ ├── OnePassDataIndexerTest.java │ │ │ ├── OnePassRealValueDataIndexerTest.java │ │ │ ├── RealValueFileEventStreamTest.java │ │ │ ├── SimpleEventStreamBuilder.java │ │ │ └── TwoPassDataIndexerTest.java │ │ ├── naivebayes │ │ │ ├── AbstractNaiveBayesTest.java │ │ │ ├── NaiveBayesCorrectnessTest.java │ │ │ ├── NaiveBayesModelReadWriteTest.java │ │ │ ├── NaiveBayesPrepAttachTest.java │ │ │ └── NaiveBayesSerializedCorrectnessTest.java │ │ └── perceptron │ │ │ └── PerceptronPrepAttachTest.java │ │ ├── monitoring │ │ ├── DefaultTrainingProgressMonitorTest.java │ │ ├── IterDeltaAccuracyUnderToleranceTest.java │ │ └── LogLikelihoodThresholdBreachedTest.java │ │ ├── namefind │ │ ├── AbstractNameFinderTest.java │ │ ├── BilouCodecTest.java │ │ ├── BilouNameFinderSequenceValidatorTest.java │ │ ├── BioCodecTest.java │ │ ├── DictionaryNameFinderEvaluatorTest.java │ │ ├── DictionaryNameFinderTest.java │ │ ├── NameFinderEventStreamTest.java │ │ ├── NameFinderMETest.java │ │ ├── NameFinderMEWithDatesTest.java │ │ ├── NameFinderSequenceValidatorTest.java │ │ ├── NameSampleDataStreamTest.java │ │ ├── NameSampleTest.java │ │ ├── NameSampleTypeFilterTest.java │ │ ├── RegexNameFinderFactoryTest.java │ │ ├── RegexNameFinderTest.java │ │ ├── TokenNameFinderCrossValidatorTest.java │ │ ├── TokenNameFinderEvaluatorTest.java │ │ └── TokenNameFinderModelTest.java │ │ ├── ngram │ │ ├── NGramCharModelTest.java │ │ ├── NGramGeneratorTest.java │ │ ├── NGramModelTest.java │ │ └── NGramUtilsTest.java │ │ ├── parser │ │ ├── AbstractParserModelTest.java │ │ ├── ChunkSampleStreamTest.java │ │ ├── ParseSampleStreamTest.java │ │ ├── ParseTest.java │ │ ├── ParserEvaluatorTest.java │ │ ├── ParserTestUtil.java │ │ ├── PosSampleStreamTest.java │ │ ├── chunking │ │ │ └── ParserTest.java │ │ ├── lang │ │ │ └── en │ │ │ │ └── HeadRulesTest.java │ │ └── treeinsert │ │ │ └── ParserTest.java │ │ ├── postag │ │ ├── ConfigurablePOSContextGeneratorTest.java │ │ ├── DefaultPOSContextGeneratorTest.java │ │ ├── DummyPOSTaggerFactory.java │ │ ├── POSDictionaryTest.java │ │ ├── POSEvaluatorTest.java │ │ ├── POSModelTest.java │ │ ├── POSSampleEventStreamTest.java │ │ ├── POSSampleTest.java │ │ ├── POSTaggerFactoryTest.java │ │ ├── POSTaggerMEIT.java │ │ ├── POSTaggerMETest.java │ │ └── WordTagSampleStreamTest.java │ │ ├── sentdetect │ │ ├── AbstractSentenceDetectorTest.java │ │ ├── DefaultEndOfSentenceScannerTest.java │ │ ├── DefaultSDContextGeneratorTest.java │ │ ├── DummySentenceDetectorFactory.java │ │ ├── NewlineSentenceDetectorTest.java │ │ ├── SDEventStreamTest.java │ │ ├── SentenceDetectorEvaluatorTest.java │ │ ├── SentenceDetectorFactoryTest.java │ │ ├── SentenceDetectorMEDutchTest.java │ │ ├── SentenceDetectorMEFrenchTest.java │ │ ├── SentenceDetectorMEGermanTest.java │ │ ├── SentenceDetectorMEIT.java │ │ ├── SentenceDetectorMEItalianTest.java │ │ ├── SentenceDetectorMEPolishTest.java │ │ ├── SentenceDetectorMEPortugueseTest.java │ │ ├── SentenceDetectorMESpanishTest.java │ │ ├── SentenceDetectorMETest.java │ │ └── SentenceSampleTest.java │ │ ├── stemmer │ │ ├── PorterStemmerTest.java │ │ └── SnowballStemmerTest.java │ │ ├── tokenize │ │ ├── DetokenizationDictionaryTest.java │ │ ├── DetokenizerEvaluatorTest.java │ │ ├── DictionaryDetokenizerTest.java │ │ ├── DummyTokenizerFactory.java │ │ ├── SimpleTokenizerTest.java │ │ ├── TokSpanEventStreamTest.java │ │ ├── TokenSampleStreamTest.java │ │ ├── TokenSampleTest.java │ │ ├── TokenizerEvaluatorTest.java │ │ ├── TokenizerFactoryTest.java │ │ ├── TokenizerMEIT.java │ │ ├── TokenizerMETest.java │ │ ├── TokenizerModelTest.java │ │ ├── TokenizerTestUtil.java │ │ ├── WhitespaceTokenStreamTest.java │ │ ├── WhitespaceTokenizerTest.java │ │ └── WordpieceTokenizerTest.java │ │ └── util │ │ ├── AbstractEventStreamTest.java │ │ ├── DownloadParserTest.java │ │ ├── DownloadUtilDownloadTwiceTest.java │ │ ├── DownloadUtilTest.java │ │ ├── FileUtil.java │ │ ├── MockInputStreamFactory.java │ │ ├── ObjectStreamUtilsTest.java │ │ ├── ParagraphStreamTest.java │ │ ├── PlainTextByLineStreamTest.java │ │ ├── SequenceTest.java │ │ ├── SpanTest.java │ │ ├── StringListTest.java │ │ ├── StringUtilTest.java │ │ ├── TrainingParametersTest.java │ │ ├── VersionTest.java │ │ ├── eval │ │ ├── CrossValidationPartitionerTest.java │ │ ├── FMeasureTest.java │ │ └── MeanTest.java │ │ ├── ext │ │ └── ExtensionLoaderTest.java │ │ ├── featuregen │ │ ├── BigramNameFeatureGeneratorTest.java │ │ ├── BrownBigramFeatureGeneratorTest.java │ │ ├── CachedFeatureGeneratorTest.java │ │ ├── CharacterNgramFeatureGeneratorTest.java │ │ ├── FeatureGeneratorUtilTest.java │ │ ├── GeneratorFactoryTest.java │ │ ├── IdentityFeatureGenerator.java │ │ ├── InSpanGeneratorTest.java │ │ ├── POSTaggerNameFeatureGeneratorTest.java │ │ ├── PosTaggerFeatureGeneratorTest.java │ │ ├── PrefixFeatureGeneratorTest.java │ │ ├── PreviousMapFeatureGeneratorTest.java │ │ ├── PreviousTwoMapFeatureGeneratorTest.java │ │ ├── SentenceFeatureGeneratorTest.java │ │ ├── StringPatternTest.java │ │ ├── SuffixFeatureGeneratorTest.java │ │ ├── TokenClassFeatureGeneratorTest.java │ │ ├── TokenFeatureGeneratorTest.java │ │ ├── TokenPatternFeatureGeneratorTest.java │ │ ├── TrigramNameFeatureGeneratorTest.java │ │ └── WindowFeatureGeneratorTest.java │ │ ├── model │ │ └── ByteArraySerializerTest.java │ │ ├── normalizer │ │ ├── EmojiCharSequenceNormalizerTest.java │ │ ├── NumberCharSequenceNormalizerTest.java │ │ ├── ShrinkCharSequenceNormalizerTest.java │ │ ├── TwitterCharSequenceNormalizerTest.java │ │ └── UrlCharSequenceNormalizerTest.java │ │ └── wordvector │ │ ├── AbstractWordVectorTest.java │ │ ├── DoubleArrayVectorTest.java │ │ ├── FloatArrayVectorTest.java │ │ ├── GloveTest.java │ │ └── MapWordVectorTableTest.java │ └── resources │ ├── data │ ├── opennlp │ │ └── maxent │ │ │ ├── io │ │ │ ├── rvfes-bug-data-broken.txt │ │ │ └── rvfes-bug-data-ok.txt │ │ │ ├── real-valued-weights-training-data.txt │ │ │ └── repeat-weighting-training-data.txt │ └── ppa │ │ ├── NOTICE │ │ ├── bitstrings │ │ ├── devset │ │ ├── test │ │ └── training │ ├── logback-test.xml │ └── opennlp │ └── tools │ ├── chunker │ ├── chunker170custom.bin │ ├── chunker170default.bin │ ├── chunker180custom.bin │ ├── detailedOutput.txt │ ├── output.txt │ ├── test-insufficient.txt │ └── test.txt │ ├── cmdline │ └── languagemodel │ │ ├── origin_of_text_samples.txt │ │ ├── sentences_set_1.txt │ │ └── sentences_set_2.txt │ ├── doccat │ └── DoccatSample.txt │ ├── eval │ └── ner-en_pos-features.xml │ ├── formats │ ├── 20newsgroup │ │ └── sci.electronics │ │ │ └── 52794.sample │ ├── ad │ │ └── ad.sample │ ├── bionlp2004-01.sample │ ├── brat │ │ ├── brat-ann.conf │ │ ├── opennlp-1193.ann │ │ ├── opennlp-1193.txt │ │ ├── voa-with-entities-overlapping.ann │ │ ├── voa-with-entities-overlapping.txt │ │ ├── voa-with-entities.ann │ │ ├── voa-with-entities.txt │ │ ├── voa-with-relations.ann │ │ └── voa-with-relations.txt │ ├── brown-cluster.txt │ ├── census90.sample │ ├── chunker-01.sample │ ├── conll2002-es.sample │ ├── conll2002-nl.sample │ ├── conll2003-de.sample │ ├── conll2003-en.sample │ ├── conllu │ │ ├── de-ud-train-sample.conllu │ │ ├── es-ud-sample.conllu │ │ ├── full-sample.conllu │ │ └── pt_br-ud-sample.conllu │ ├── conllx.sample │ ├── evalita-ner-it-01.sample │ ├── evalita-ner-it-02.sample │ ├── evalita-ner-it-03.sample │ ├── evalita-ner-it-broken.sample │ ├── evalita-ner-it-incorrect.sample │ ├── frenchtreebank │ │ └── sample1.xml │ ├── irishsentencebank │ │ └── irishsentencebank-sample.xml │ ├── lang-detect-01.sample │ ├── leipzig-en.sample │ ├── leipzig │ │ └── samples │ │ │ ├── .hidden │ │ │ ├── 123-skipped.txt │ │ │ ├── dan-sentences.txt │ │ │ ├── dontread │ │ │ └── xxx-sentences.txt │ │ │ └── eng-sentences.txt │ ├── lemma-01.sample │ ├── letsmt │ │ └── letsmt-with-words.xml │ ├── masc │ │ ├── fakeMASC-ne.xml │ │ ├── fakeMASC-penn.xml │ │ ├── fakeMASC-s.xml │ │ ├── fakeMASC-seg.xml │ │ ├── fakeMASC.hdr │ │ └── fakeMASC.txt │ ├── moses │ │ └── moses-tiny.sample │ ├── muc │ │ ├── LDC2003T13.sgm │ │ └── parsertest1.sgml │ ├── name-data-01.sample │ ├── nkjp │ │ ├── ann_segmentation.xml │ │ └── text_structure.xml │ ├── ontonotes │ │ ├── ontonotes-sample-01.name │ │ └── ontonotes-sample-02.parse │ ├── parse-01.sample │ ├── sentences-01.sample │ ├── tokens-01.sample │ └── word-tags-01.sample │ ├── lang │ ├── abb_DE.xml │ ├── abb_EN.xml │ ├── abb_ES.xml │ ├── abb_FR.xml │ ├── abb_IT.xml │ ├── abb_NL.xml │ ├── abb_PL.xml │ └── abb_PT.xml │ ├── languagemodel │ └── sentences.txt │ ├── lemmatizer │ ├── output.txt │ ├── smalldictionary.dict │ ├── smalldictionarymulti.dict │ ├── trial.old-insufficient.tsv │ └── trial.old.tsv │ ├── ml │ └── maxent │ │ └── football.dat │ ├── namefind │ ├── AnnotatedSentences.txt │ ├── AnnotatedSentencesInsufficient.txt │ ├── AnnotatedSentencesWithTypes.txt │ ├── OnlyWithEntitiesWithTypes.train │ ├── OnlyWithNames.train │ ├── OnlyWithNamesWithTypes.train │ ├── RandomNewsWithGeneratedDates_DE.train │ ├── RandomNewsWithGeneratedDates_EN.train │ ├── html1.train │ ├── ner-pos-features-v15.xml │ ├── ner-pos-features.xml │ ├── origin-training-data.txt │ ├── voa1.train │ └── voa2.train │ ├── ngram │ ├── ngram-model-no-count.xml │ ├── ngram-model-not-a-number.xml │ └── ngram-model.xml │ ├── parser │ ├── en_head_rules │ ├── parser.train │ └── test.parse │ ├── postag │ ├── AnnotatedSentences.txt │ ├── AnnotatedSentencesInsufficient.txt │ ├── TagDictionaryCaseInsensitive.xml │ ├── TagDictionaryCaseSensitive.xml │ └── TagDictionaryWithoutCaseAttribute.xml │ ├── sentdetect │ ├── Sentences.txt │ ├── SentencesInsufficient.txt │ ├── Sentences_DE.txt │ ├── Sentences_ES.txt │ ├── Sentences_FR.txt │ ├── Sentences_IT.txt │ ├── Sentences_NL.txt │ ├── Sentences_PL.txt │ ├── Sentences_PT.txt │ ├── Test-Sample_OPENNLP-1163.txt │ └── origin-training-data.txt │ ├── tokenize │ ├── latin-detokenizer.xml │ ├── token-insufficient.train │ └── token.train │ └── util │ ├── featuregen │ ├── DictionaryTest.xml │ ├── FeatureGeneratorConfigWithUnkownElement.xml │ ├── TestAutomaticallyInsertAggregatedFeatureGenerator.xml │ ├── TestAutomaticallyInsertAggregatedFeatureGeneratorCache.xml │ ├── TestDictionarySerializerMappingExtraction.xml │ ├── TestFeatureGeneratorConfig.xml │ ├── TestInsertCachedFeatureGenerator.xml │ ├── TestNotAutomaticallyInsertAggregatedFeatureGenerator.xml │ ├── TestNotAutomaticallyInsertAggregatedFeatureGeneratorCache.xml │ ├── TestParametersConfig.xml │ └── TestTokenClassFeatureGeneratorConfig.xml │ ├── index.html │ └── wordvector │ ├── glove-example-broken-dimensions.txt │ ├── glove-example-empty.txt │ └── glove-example-short.txt ├── opennlp-uima ├── createPear.xml ├── descriptors │ ├── Chunker.xml │ ├── DateNameFinder.xml │ ├── LanguageDetector.xml │ ├── LocationNameFinder.xml │ ├── MoneyNameFinder.xml │ ├── OpenNlpTextAnalyzer.xml │ ├── OrganizationNameFinder.xml │ ├── Parser.xml │ ├── PercentageNameFinder.xml │ ├── PersonNameFinder.xml │ ├── PosTagger.xml │ ├── SentenceDetector.xml │ ├── SimpleTokenizer.xml │ ├── TimeNameFinder.xml │ ├── Tokenizer.xml │ └── TypeSystem.xml ├── metadata │ └── install.xml ├── pom.xml └── src │ ├── main │ ├── java │ │ └── opennlp │ │ │ └── uima │ │ │ ├── chunker │ │ │ ├── Chunker.java │ │ │ ├── ChunkerModelResource.java │ │ │ ├── ChunkerModelResourceImpl.java │ │ │ └── package.html │ │ │ ├── dictionary │ │ │ ├── DictionaryResource.java │ │ │ └── DictionaryResourceImpl.java │ │ │ ├── doccat │ │ │ ├── AbstractDocumentCategorizer.java │ │ │ ├── DoccatModelResource.java │ │ │ ├── DoccatModelResourceImpl.java │ │ │ ├── DocumentCategorizer.java │ │ │ └── LanguageDetector.java │ │ │ ├── namefind │ │ │ ├── AbstractNameFinder.java │ │ │ ├── DictionaryNameFinder.java │ │ │ ├── NameFinder.java │ │ │ ├── TokenNameFinderModelResource.java │ │ │ ├── TokenNameFinderModelResourceImpl.java │ │ │ └── package.html │ │ │ ├── normalizer │ │ │ ├── Normalizer.java │ │ │ ├── NumberUtil.java │ │ │ └── StringDictionary.java │ │ │ ├── parser │ │ │ ├── Parser.java │ │ │ ├── ParserModelResource.java │ │ │ └── ParserModelResourceImpl.java │ │ │ ├── postag │ │ │ ├── POSModelResource.java │ │ │ ├── POSModelResourceImpl.java │ │ │ ├── POSTagger.java │ │ │ └── package.html │ │ │ ├── sentdetect │ │ │ ├── AbstractSentenceDetector.java │ │ │ ├── SentenceDetector.java │ │ │ ├── SentenceModelResource.java │ │ │ ├── SentenceModelResourceImpl.java │ │ │ └── package.html │ │ │ ├── tokenize │ │ │ ├── AbstractTokenizer.java │ │ │ ├── SimpleTokenizer.java │ │ │ ├── Tokenizer.java │ │ │ ├── TokenizerModelResource.java │ │ │ ├── TokenizerModelResourceImpl.java │ │ │ ├── WhitespaceTokenizer.java │ │ │ └── package.html │ │ │ └── util │ │ │ ├── AbstractModelResource.java │ │ │ ├── AnnotationComboIterator.java │ │ │ ├── AnnotationComparator.java │ │ │ ├── AnnotationIteratorPair.java │ │ │ ├── AnnotatorUtil.java │ │ │ ├── ContainingConstraint.java │ │ │ ├── ExceptionMessages.java │ │ │ ├── OpenNlpAnnotatorProcessException.java │ │ │ ├── OpennlpUtil.java │ │ │ └── UimaUtil.java │ └── resources │ │ └── opennlp │ │ └── uima │ │ └── util │ │ └── ExceptionMessages_en.properties │ └── test │ ├── java │ └── opennlp │ │ └── uima │ │ ├── AbstractIT.java │ │ ├── AbstractTest.java │ │ ├── AbstractUimaTest.java │ │ ├── FullAnnotatorsFlowIT.java │ │ ├── SingleAnnotatorIT.java │ │ ├── dictionary │ │ └── DictionaryResourceTest.java │ │ ├── normalizer │ │ ├── NumberUtilTest.java │ │ └── StringDictionaryTest.java │ │ └── util │ │ ├── AnnotationComboIteratorTest.java │ │ ├── AnnotationComparatorTest.java │ │ ├── AnnotatorUtilTest.java │ │ ├── CasUtil.java │ │ ├── OpennlpUtilTest.java │ │ └── UimaUtilTest.java │ └── resources │ ├── cas │ ├── OPENNLP-676.xmi │ └── dictionary-test.xmi │ ├── dictionary.dic │ ├── simplelogger.properties │ ├── test-descriptors │ ├── Chunker.xml │ ├── DateNameFinder.xml │ ├── DictionaryNameFinder.xml │ ├── LocationNameFinder.xml │ ├── MoneyNameFinder.xml │ ├── OpenNlpTextAnalyzer.xml │ ├── OrganizationNameFinder.xml │ ├── Parser.xml │ ├── PercentageNameFinder.xml │ ├── PersonNameFinder.xml │ ├── PosTagger.xml │ ├── SentenceDetector.xml │ ├── SimpleTokenizer.xml │ ├── TimeNameFinder.xml │ ├── Tokenizer.xml │ ├── TypeSystem.xml │ └── WhitespaceTokenizer.xml │ ├── training-params-invalid.conf │ └── training-params-test.conf ├── pom.xml ├── rat-excludes └── src └── license ├── NOTICE.template └── THIRD-PARTY.properties /.gitattributes: -------------------------------------------------------------------------------- 1 | # Handle line endings automatically for files detected as text 2 | # and leave all files detected as binary untouched. 3 | * text=auto 4 | 5 | # 6 | # The above will handle all files NOT found below 7 | # 8 | # These files are text and should be normalized (Convert crlf => lf) 9 | *.adoc text eol=lf 10 | *.html text eol=lf 11 | *.java text eol=lf 12 | *.jspf text eol=lf 13 | *.md text eol=lf 14 | *.properties text eol=lf 15 | *.sh text eol=lf 16 | *.txt text eol=lf 17 | *.xml text eol=lf 18 | *.xsd text eol=lf 19 | *.xsl text eol=lf 20 | *.yml text eol=lf 21 | 22 | LICENSE text eol=lf 23 | NOTICE text eol=lf 24 | 25 | # These files are binary and should be left untouched 26 | # (binary is a macro for -text -diff) 27 | *.class binary 28 | *.dll binary 29 | *.ear binary 30 | *.gif binary 31 | *.ico binary 32 | *.jar binary 33 | *.jpg binary 34 | *.jpeg binary 35 | *.png binary 36 | *.ser binary 37 | *.so binary 38 | *.war binary 39 | *.zip binary 40 | *.exe binary 41 | *.gz binary 42 | 43 | #Windows 44 | *.bat text eol=crlf 45 | *.cmd text eol=crlf 46 | 47 | #Unix/Linux 48 | *.sh text eol=lf -------------------------------------------------------------------------------- /.github/CONTRIBUTING.md: -------------------------------------------------------------------------------- 1 | # How to contribute to Apache OpenNLP 2 | 3 | Thank you for your intention to contribute to the Apache OpenNLP project. As an open-source community, we highly appreciate external contributions to our project. 4 | 5 | To make the process smooth for the project *committers* (those who review and accept changes) and *contributors* (those who propose new changes via pull requests), there are a few rules to follow. 6 | 7 | ## Contribution Guidelines 8 | 9 | Please check out the [How to get involved](http://opennlp.apache.org/get-involved.html) to understand how contributions are made. 10 | A detailed list of coding standards can be found at [Apache OpenNLP Code Conventions](http://opennlp.apache.org/code-conventions.html) which also contains a list of coding guidelines that you should follow. 11 | For pull requests, there is a [check list](PULL_REQUEST_TEMPLATE.md) with criteria for acceptable contributions. 12 | -------------------------------------------------------------------------------- /.gitignore: -------------------------------------------------------------------------------- 1 | *.iml 2 | .idea 3 | target 4 | .classpath 5 | .project 6 | .settings 7 | nbactions.xml 8 | nb-configuration.xml 9 | *.DS_Store 10 | .checkstyle 11 | *.onnx 12 | vocab.txt 13 | -------------------------------------------------------------------------------- /.mvn/wrapper/maven-wrapper.properties: -------------------------------------------------------------------------------- 1 | # Licensed to the Apache Software Foundation (ASF) under one 2 | # or more contributor license agreements. See the NOTICE file 3 | # distributed with this work for additional information 4 | # regarding copyright ownership. The ASF licenses this file 5 | # to you under the Apache License, Version 2.0 (the 6 | # "License"); you may not use this file except in compliance 7 | # with the License. You may obtain a copy of the License at 8 | # 9 | # http://www.apache.org/licenses/LICENSE-2.0 10 | # 11 | # Unless required by applicable law or agreed to in writing, 12 | # software distributed under the License is distributed on an 13 | # "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY 14 | # KIND, either express or implied. See the License for the 15 | # specific language governing permissions and limitations 16 | # under the License. 17 | wrapperVersion=3.3.2 18 | distributionType=only-script 19 | distributionUrl=https://repo.maven.apache.org/maven2/org/apache/maven/apache-maven/3.9.6/apache-maven-3.9.6-bin.zip 20 | -------------------------------------------------------------------------------- /opennlp-distr/README_FOOTER.html: -------------------------------------------------------------------------------- 1 |
3 | The Apache OpenNLP project uses JIRA for issue tracking. Please report any 4 | issues you find at 5 | http://issues.apache.org/jira/browse/opennlp 6 |
7 | 8 |10 | Click issuesFixed/jira-report.html for the list of 11 | issues fixed in this release. 12 |
13 | 14 |