├── LICENSE ├── README.md ├── apache-nutch-1.9-src.zip ├── articles ├── bin-crawl.md ├── run_nutch_in_ide.md ├── urlnormalizer.html └── urlnormalizer.md └── nutch-chinese └── apache-nutch-1.9 ├── CHANGES.txt ├── LICENSE.txt ├── NOTICE.txt ├── README.txt ├── build.xml ├── conf ├── adaptive-mimetypes.txt ├── automaton-urlfilter.txt ├── configuration.xsl ├── domain-suffixes.xml ├── domain-suffixes.xsd ├── domain-urlfilter.txt ├── domainblacklist-urlfilter.txt ├── elasticsearch.conf ├── host-urlnormalizer.txt ├── httpclient-auth.xml ├── log4j.properties ├── nutch-conf.xsl ├── nutch-default.xml ├── nutch-site.xml ├── parse-plugins.dtd ├── parse-plugins.xml ├── prefix-urlfilter.txt ├── regex-normalize.xml ├── regex-urlfilter.txt ├── schema-solr4.xml ├── schema.xml ├── solrindex-mapping.xml ├── subcollections.xml └── suffix-urlfilter.txt ├── default.properties ├── docs └── api │ ├── allclasses-frame.html │ ├── allclasses-noframe.html │ ├── constant-values.html │ ├── deprecated-list.html │ ├── help-doc.html │ ├── index-all.html │ ├── index.html │ ├── org │ ├── apache │ │ └── nutch │ │ │ ├── analysis │ │ │ └── lang │ │ │ │ ├── HTMLLanguageParser.html │ │ │ │ ├── LanguageIndexingFilter.html │ │ │ │ ├── class-use │ │ │ │ ├── HTMLLanguageParser.html │ │ │ │ └── LanguageIndexingFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── collection │ │ │ ├── CollectionManager.html │ │ │ ├── Subcollection.html │ │ │ ├── class-use │ │ │ │ ├── CollectionManager.html │ │ │ │ └── Subcollection.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ │ │ ├── crawl │ │ │ ├── AbstractFetchSchedule.html │ │ │ ├── AdaptiveFetchSchedule.html │ │ │ ├── CrawlDatum.Comparator.html │ │ │ ├── CrawlDatum.html │ │ │ ├── CrawlDb.html │ │ │ ├── CrawlDbFilter.html │ │ │ ├── CrawlDbMerger.Merger.html │ │ │ ├── CrawlDbMerger.html │ │ │ ├── CrawlDbReader.CrawlDatumCsvOutputFormat.LineRecordWriter.html │ │ │ ├── CrawlDbReader.CrawlDatumCsvOutputFormat.html │ │ │ ├── CrawlDbReader.CrawlDbDumpMapper.html │ │ │ ├── CrawlDbReader.CrawlDbStatCombiner.html │ │ │ ├── CrawlDbReader.CrawlDbStatMapper.html │ │ │ ├── CrawlDbReader.CrawlDbStatReducer.html │ │ │ ├── CrawlDbReader.CrawlDbTopNMapper.html │ │ │ ├── CrawlDbReader.CrawlDbTopNReducer.html │ │ │ ├── CrawlDbReader.html │ │ │ ├── CrawlDbReducer.html │ │ │ ├── DeduplicationJob.DBFilter.html │ │ │ ├── DeduplicationJob.DedupReducer.html │ │ │ ├── DeduplicationJob.StatusUpdateReducer.html │ │ │ ├── DeduplicationJob.html │ │ │ ├── DefaultFetchSchedule.html │ │ │ ├── FetchSchedule.html │ │ │ ├── FetchScheduleFactory.html │ │ │ ├── Generator.CrawlDbUpdater.html │ │ │ ├── Generator.DecreasingFloatComparator.html │ │ │ ├── Generator.GeneratorOutputFormat.html │ │ │ ├── Generator.HashComparator.html │ │ │ ├── Generator.PartitionReducer.html │ │ │ ├── Generator.Selector.html │ │ │ ├── Generator.SelectorEntry.html │ │ │ ├── Generator.SelectorInverseMapper.html │ │ │ ├── Generator.html │ │ │ ├── Injector.InjectMapper.html │ │ │ ├── Injector.InjectReducer.html │ │ │ ├── Injector.html │ │ │ ├── Inlink.html │ │ │ ├── Inlinks.html │ │ │ ├── LinkDb.html │ │ │ ├── LinkDbFilter.html │ │ │ ├── LinkDbMerger.html │ │ │ ├── LinkDbReader.html │ │ │ ├── MD5Signature.html │ │ │ ├── MapWritable.html │ │ │ ├── MimeAdaptiveFetchSchedule.html │ │ │ ├── NutchWritable.html │ │ │ ├── Signature.html │ │ │ ├── SignatureComparator.html │ │ │ ├── SignatureFactory.html │ │ │ ├── TextProfileSignature.html │ │ │ ├── URLPartitioner.html │ │ │ ├── class-use │ │ │ │ ├── AbstractFetchSchedule.html │ │ │ │ ├── AdaptiveFetchSchedule.html │ │ │ │ ├── CrawlDatum.Comparator.html │ │ │ │ ├── CrawlDatum.html │ │ │ │ ├── CrawlDb.html │ │ │ │ ├── CrawlDbFilter.html │ │ │ │ ├── CrawlDbMerger.Merger.html │ │ │ │ ├── CrawlDbMerger.html │ │ │ │ ├── CrawlDbReader.CrawlDatumCsvOutputFormat.LineRecordWriter.html │ │ │ │ ├── CrawlDbReader.CrawlDatumCsvOutputFormat.html │ │ │ │ ├── CrawlDbReader.CrawlDbDumpMapper.html │ │ │ │ ├── CrawlDbReader.CrawlDbStatCombiner.html │ │ │ │ ├── CrawlDbReader.CrawlDbStatMapper.html │ │ │ │ ├── CrawlDbReader.CrawlDbStatReducer.html │ │ │ │ ├── CrawlDbReader.CrawlDbTopNMapper.html │ │ │ │ ├── CrawlDbReader.CrawlDbTopNReducer.html │ │ │ │ ├── CrawlDbReader.html │ │ │ │ ├── CrawlDbReducer.html │ │ │ │ ├── DeduplicationJob.DBFilter.html │ │ │ │ ├── DeduplicationJob.DedupReducer.html │ │ │ │ ├── DeduplicationJob.StatusUpdateReducer.html │ │ │ │ ├── DeduplicationJob.html │ │ │ │ ├── DefaultFetchSchedule.html │ │ │ │ ├── FetchSchedule.html │ │ │ │ ├── FetchScheduleFactory.html │ │ │ │ ├── Generator.CrawlDbUpdater.html │ │ │ │ ├── Generator.DecreasingFloatComparator.html │ │ │ │ ├── Generator.GeneratorOutputFormat.html │ │ │ │ ├── Generator.HashComparator.html │ │ │ │ ├── Generator.PartitionReducer.html │ │ │ │ ├── Generator.Selector.html │ │ │ │ ├── Generator.SelectorEntry.html │ │ │ │ ├── Generator.SelectorInverseMapper.html │ │ │ │ ├── Generator.html │ │ │ │ ├── Injector.InjectMapper.html │ │ │ │ ├── Injector.InjectReducer.html │ │ │ │ ├── Injector.html │ │ │ │ ├── Inlink.html │ │ │ │ ├── Inlinks.html │ │ │ │ ├── LinkDb.html │ │ │ │ ├── LinkDbFilter.html │ │ │ │ ├── LinkDbMerger.html │ │ │ │ ├── LinkDbReader.html │ │ │ │ ├── MD5Signature.html │ │ │ │ ├── MapWritable.html │ │ │ │ ├── MimeAdaptiveFetchSchedule.html │ │ │ │ ├── NutchWritable.html │ │ │ │ ├── Signature.html │ │ │ │ ├── SignatureComparator.html │ │ │ │ ├── SignatureFactory.html │ │ │ │ ├── TextProfileSignature.html │ │ │ │ └── URLPartitioner.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ │ │ ├── fetcher │ │ │ ├── Fetcher.InputFormat.html │ │ │ ├── Fetcher.html │ │ │ ├── FetcherOutputFormat.html │ │ │ ├── OldFetcher.InputFormat.html │ │ │ ├── OldFetcher.html │ │ │ ├── class-use │ │ │ │ ├── Fetcher.InputFormat.html │ │ │ │ ├── Fetcher.html │ │ │ │ ├── FetcherOutputFormat.html │ │ │ │ ├── OldFetcher.InputFormat.html │ │ │ │ └── OldFetcher.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ │ │ ├── indexer │ │ │ ├── CleaningJob.DBFilter.html │ │ │ ├── CleaningJob.DeleterReducer.html │ │ │ ├── CleaningJob.html │ │ │ ├── IndexWriter.html │ │ │ ├── IndexWriters.html │ │ │ ├── IndexerMapReduce.html │ │ │ ├── IndexerOutputFormat.html │ │ │ ├── IndexingException.html │ │ │ ├── IndexingFilter.html │ │ │ ├── IndexingFilters.html │ │ │ ├── IndexingFiltersChecker.html │ │ │ ├── IndexingJob.html │ │ │ ├── NutchDocument.html │ │ │ ├── NutchField.html │ │ │ ├── NutchIndexAction.html │ │ │ ├── anchor │ │ │ │ ├── AnchorIndexingFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── AnchorIndexingFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── basic │ │ │ │ ├── BasicIndexingFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── BasicIndexingFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── class-use │ │ │ │ ├── CleaningJob.DBFilter.html │ │ │ │ ├── CleaningJob.DeleterReducer.html │ │ │ │ ├── CleaningJob.html │ │ │ │ ├── IndexWriter.html │ │ │ │ ├── IndexWriters.html │ │ │ │ ├── IndexerMapReduce.html │ │ │ │ ├── IndexerOutputFormat.html │ │ │ │ ├── IndexingException.html │ │ │ │ ├── IndexingFilter.html │ │ │ │ ├── IndexingFilters.html │ │ │ │ ├── IndexingFiltersChecker.html │ │ │ │ ├── IndexingJob.html │ │ │ │ ├── NutchDocument.html │ │ │ │ ├── NutchField.html │ │ │ │ └── NutchIndexAction.html │ │ │ ├── feed │ │ │ │ ├── FeedIndexingFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── FeedIndexingFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── metadata │ │ │ │ ├── MetadataIndexer.html │ │ │ │ ├── class-use │ │ │ │ │ └── MetadataIndexer.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── more │ │ │ │ ├── MoreIndexingFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── MoreIndexingFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ ├── package-use.html │ │ │ ├── staticfield │ │ │ │ ├── StaticFieldIndexer.html │ │ │ │ ├── class-use │ │ │ │ │ └── StaticFieldIndexer.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── subcollection │ │ │ │ ├── SubcollectionIndexingFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── SubcollectionIndexingFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── tld │ │ │ │ ├── TLDIndexingFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── TLDIndexingFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ └── urlmeta │ │ │ │ ├── URLMetaIndexingFilter.html │ │ │ │ ├── class-use │ │ │ │ └── URLMetaIndexingFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── indexwriter │ │ │ ├── dummy │ │ │ │ ├── DummyIndexWriter.html │ │ │ │ ├── class-use │ │ │ │ │ └── DummyIndexWriter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── elastic │ │ │ │ ├── ElasticConstants.html │ │ │ │ ├── ElasticIndexWriter.html │ │ │ │ ├── class-use │ │ │ │ │ ├── ElasticConstants.html │ │ │ │ │ └── ElasticIndexWriter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ └── solr │ │ │ │ ├── SolrConstants.html │ │ │ │ ├── SolrIndexWriter.html │ │ │ │ ├── SolrMappingReader.html │ │ │ │ ├── SolrUtils.html │ │ │ │ ├── class-use │ │ │ │ ├── SolrConstants.html │ │ │ │ ├── SolrIndexWriter.html │ │ │ │ ├── SolrMappingReader.html │ │ │ │ └── SolrUtils.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── metadata │ │ │ ├── CreativeCommons.html │ │ │ ├── DublinCore.html │ │ │ ├── Feed.html │ │ │ ├── HttpHeaders.html │ │ │ ├── MetaWrapper.html │ │ │ ├── Metadata.html │ │ │ ├── Nutch.html │ │ │ ├── SpellCheckedMetadata.html │ │ │ ├── class-use │ │ │ │ ├── CreativeCommons.html │ │ │ │ ├── DublinCore.html │ │ │ │ ├── Feed.html │ │ │ │ ├── HttpHeaders.html │ │ │ │ ├── MetaWrapper.html │ │ │ │ ├── Metadata.html │ │ │ │ ├── Nutch.html │ │ │ │ └── SpellCheckedMetadata.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ │ │ ├── microformats │ │ │ └── reltag │ │ │ │ ├── RelTagIndexingFilter.html │ │ │ │ ├── RelTagParser.html │ │ │ │ ├── class-use │ │ │ │ ├── RelTagIndexingFilter.html │ │ │ │ └── RelTagParser.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── net │ │ │ ├── URLFilter.html │ │ │ ├── URLFilterChecker.html │ │ │ ├── URLFilterException.html │ │ │ ├── URLFilters.html │ │ │ ├── URLNormalizer.html │ │ │ ├── URLNormalizerChecker.html │ │ │ ├── URLNormalizers.html │ │ │ ├── class-use │ │ │ │ ├── URLFilter.html │ │ │ │ ├── URLFilterChecker.html │ │ │ │ ├── URLFilterException.html │ │ │ │ ├── URLFilters.html │ │ │ │ ├── URLNormalizer.html │ │ │ │ ├── URLNormalizerChecker.html │ │ │ │ └── URLNormalizers.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ ├── package-use.html │ │ │ ├── protocols │ │ │ │ ├── HttpDateFormat.html │ │ │ │ ├── ProtocolException.html │ │ │ │ ├── Response.html │ │ │ │ ├── class-use │ │ │ │ │ ├── HttpDateFormat.html │ │ │ │ │ ├── ProtocolException.html │ │ │ │ │ └── Response.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ └── urlnormalizer │ │ │ │ ├── basic │ │ │ │ ├── BasicURLNormalizer.html │ │ │ │ ├── class-use │ │ │ │ │ └── BasicURLNormalizer.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ │ ├── host │ │ │ │ ├── HostURLNormalizer.html │ │ │ │ ├── class-use │ │ │ │ │ └── HostURLNormalizer.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ │ ├── pass │ │ │ │ ├── PassURLNormalizer.html │ │ │ │ ├── class-use │ │ │ │ │ └── PassURLNormalizer.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ │ ├── querystring │ │ │ │ ├── QuerystringURLNormalizer.html │ │ │ │ ├── class-use │ │ │ │ │ └── QuerystringURLNormalizer.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ │ └── regex │ │ │ │ ├── RegexURLNormalizer.html │ │ │ │ ├── class-use │ │ │ │ └── RegexURLNormalizer.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── parse │ │ │ ├── HTMLMetaTags.html │ │ │ ├── HtmlParseFilter.html │ │ │ ├── HtmlParseFilters.html │ │ │ ├── Outlink.html │ │ │ ├── OutlinkExtractor.html │ │ │ ├── Parse.html │ │ │ ├── ParseData.html │ │ │ ├── ParseException.html │ │ │ ├── ParseImpl.html │ │ │ ├── ParseOutputFormat.html │ │ │ ├── ParseResult.html │ │ │ ├── ParseSegment.html │ │ │ ├── ParseStatus.html │ │ │ ├── ParseText.html │ │ │ ├── ParseUtil.html │ │ │ ├── Parser.html │ │ │ ├── ParserChecker.html │ │ │ ├── ParserFactory.html │ │ │ ├── ParserNotFound.html │ │ │ ├── class-use │ │ │ │ ├── HTMLMetaTags.html │ │ │ │ ├── HtmlParseFilter.html │ │ │ │ ├── HtmlParseFilters.html │ │ │ │ ├── Outlink.html │ │ │ │ ├── OutlinkExtractor.html │ │ │ │ ├── Parse.html │ │ │ │ ├── ParseData.html │ │ │ │ ├── ParseException.html │ │ │ │ ├── ParseImpl.html │ │ │ │ ├── ParseOutputFormat.html │ │ │ │ ├── ParseResult.html │ │ │ │ ├── ParseSegment.html │ │ │ │ ├── ParseStatus.html │ │ │ │ ├── ParseText.html │ │ │ │ ├── ParseUtil.html │ │ │ │ ├── Parser.html │ │ │ │ ├── ParserChecker.html │ │ │ │ ├── ParserFactory.html │ │ │ │ └── ParserNotFound.html │ │ │ ├── ext │ │ │ │ ├── ExtParser.html │ │ │ │ ├── class-use │ │ │ │ │ └── ExtParser.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── feed │ │ │ │ ├── FeedParser.html │ │ │ │ ├── class-use │ │ │ │ │ └── FeedParser.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── headings │ │ │ │ ├── HeadingsParseFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── HeadingsParseFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── html │ │ │ │ ├── DOMBuilder.html │ │ │ │ ├── DOMContentUtils.LinkParams.html │ │ │ │ ├── DOMContentUtils.html │ │ │ │ ├── HTMLMetaProcessor.html │ │ │ │ ├── HtmlParser.html │ │ │ │ ├── XMLCharacterRecognizer.html │ │ │ │ ├── class-use │ │ │ │ │ ├── DOMBuilder.html │ │ │ │ │ ├── DOMContentUtils.LinkParams.html │ │ │ │ │ ├── DOMContentUtils.html │ │ │ │ │ ├── HTMLMetaProcessor.html │ │ │ │ │ ├── HtmlParser.html │ │ │ │ │ └── XMLCharacterRecognizer.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── js │ │ │ │ ├── JSParseFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── JSParseFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── metatags │ │ │ │ ├── MetaTagsParser.html │ │ │ │ ├── class-use │ │ │ │ │ └── MetaTagsParser.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ ├── package-use.html │ │ │ ├── swf │ │ │ │ ├── SWFParser.html │ │ │ │ ├── class-use │ │ │ │ │ └── SWFParser.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── tika │ │ │ │ ├── DOMContentUtils.html │ │ │ │ ├── HTMLMetaProcessor.html │ │ │ │ ├── TikaParser.html │ │ │ │ ├── class-use │ │ │ │ │ ├── DOMContentUtils.html │ │ │ │ │ ├── HTMLMetaProcessor.html │ │ │ │ │ └── TikaParser.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ └── zip │ │ │ │ ├── ZipParser.html │ │ │ │ ├── ZipTextExtractor.html │ │ │ │ ├── class-use │ │ │ │ ├── ZipParser.html │ │ │ │ └── ZipTextExtractor.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── plugin │ │ │ ├── CircularDependencyException.html │ │ │ ├── Extension.html │ │ │ ├── ExtensionPoint.html │ │ │ ├── MissingDependencyException.html │ │ │ ├── Pluggable.html │ │ │ ├── Plugin.html │ │ │ ├── PluginClassLoader.html │ │ │ ├── PluginDescriptor.html │ │ │ ├── PluginManifestParser.html │ │ │ ├── PluginRepository.html │ │ │ ├── PluginRuntimeException.html │ │ │ ├── class-use │ │ │ │ ├── CircularDependencyException.html │ │ │ │ ├── Extension.html │ │ │ │ ├── ExtensionPoint.html │ │ │ │ ├── MissingDependencyException.html │ │ │ │ ├── Pluggable.html │ │ │ │ ├── Plugin.html │ │ │ │ ├── PluginClassLoader.html │ │ │ │ ├── PluginDescriptor.html │ │ │ │ ├── PluginManifestParser.html │ │ │ │ ├── PluginRepository.html │ │ │ │ └── PluginRuntimeException.html │ │ │ ├── doc-files │ │ │ │ └── plugin.dtd │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ │ │ ├── protocol │ │ │ ├── Content.html │ │ │ ├── Protocol.html │ │ │ ├── ProtocolException.html │ │ │ ├── ProtocolFactory.html │ │ │ ├── ProtocolNotFound.html │ │ │ ├── ProtocolOutput.html │ │ │ ├── ProtocolStatus.html │ │ │ ├── RobotRules.html │ │ │ ├── RobotRulesParser.html │ │ │ ├── class-use │ │ │ │ ├── Content.html │ │ │ │ ├── Protocol.html │ │ │ │ ├── ProtocolException.html │ │ │ │ ├── ProtocolFactory.html │ │ │ │ ├── ProtocolNotFound.html │ │ │ │ ├── ProtocolOutput.html │ │ │ │ ├── ProtocolStatus.html │ │ │ │ ├── RobotRules.html │ │ │ │ └── RobotRulesParser.html │ │ │ ├── file │ │ │ │ ├── File.html │ │ │ │ ├── FileError.html │ │ │ │ ├── FileException.html │ │ │ │ ├── FileResponse.html │ │ │ │ ├── class-use │ │ │ │ │ ├── File.html │ │ │ │ │ ├── FileError.html │ │ │ │ │ ├── FileException.html │ │ │ │ │ └── FileResponse.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── ftp │ │ │ │ ├── Client.html │ │ │ │ ├── Ftp.html │ │ │ │ ├── FtpError.html │ │ │ │ ├── FtpException.html │ │ │ │ ├── FtpExceptionBadSystResponse.html │ │ │ │ ├── FtpExceptionCanNotHaveDataConnection.html │ │ │ │ ├── FtpExceptionControlClosedByForcedDataClose.html │ │ │ │ ├── FtpExceptionUnknownForcedDataClose.html │ │ │ │ ├── FtpResponse.html │ │ │ │ ├── FtpRobotRulesParser.html │ │ │ │ ├── PrintCommandListener.html │ │ │ │ ├── class-use │ │ │ │ │ ├── Client.html │ │ │ │ │ ├── Ftp.html │ │ │ │ │ ├── FtpError.html │ │ │ │ │ ├── FtpException.html │ │ │ │ │ ├── FtpExceptionBadSystResponse.html │ │ │ │ │ ├── FtpExceptionCanNotHaveDataConnection.html │ │ │ │ │ ├── FtpExceptionControlClosedByForcedDataClose.html │ │ │ │ │ ├── FtpExceptionUnknownForcedDataClose.html │ │ │ │ │ ├── FtpResponse.html │ │ │ │ │ ├── FtpRobotRulesParser.html │ │ │ │ │ └── PrintCommandListener.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── http │ │ │ │ ├── Http.html │ │ │ │ ├── HttpResponse.Scheme.html │ │ │ │ ├── HttpResponse.html │ │ │ │ ├── api │ │ │ │ │ ├── BlockedException.html │ │ │ │ │ ├── HttpBase.html │ │ │ │ │ ├── HttpException.html │ │ │ │ │ ├── HttpRobotRulesParser.html │ │ │ │ │ ├── class-use │ │ │ │ │ │ ├── BlockedException.html │ │ │ │ │ │ ├── HttpBase.html │ │ │ │ │ │ ├── HttpException.html │ │ │ │ │ │ └── HttpRobotRulesParser.html │ │ │ │ │ ├── package-frame.html │ │ │ │ │ ├── package-summary.html │ │ │ │ │ ├── package-tree.html │ │ │ │ │ └── package-use.html │ │ │ │ ├── class-use │ │ │ │ │ ├── Http.html │ │ │ │ │ ├── HttpResponse.Scheme.html │ │ │ │ │ └── HttpResponse.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── httpclient │ │ │ │ ├── DummySSLProtocolSocketFactory.html │ │ │ │ ├── DummyX509TrustManager.html │ │ │ │ ├── Http.html │ │ │ │ ├── HttpAuthentication.html │ │ │ │ ├── HttpAuthenticationException.html │ │ │ │ ├── HttpAuthenticationFactory.html │ │ │ │ ├── HttpBasicAuthentication.html │ │ │ │ ├── HttpResponse.html │ │ │ │ ├── class-use │ │ │ │ │ ├── DummySSLProtocolSocketFactory.html │ │ │ │ │ ├── DummyX509TrustManager.html │ │ │ │ │ ├── Http.html │ │ │ │ │ ├── HttpAuthentication.html │ │ │ │ │ ├── HttpAuthenticationException.html │ │ │ │ │ ├── HttpAuthenticationFactory.html │ │ │ │ │ ├── HttpBasicAuthentication.html │ │ │ │ │ └── HttpResponse.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ │ │ ├── scoring │ │ │ ├── AbstractScoringFilter.html │ │ │ ├── ScoringFilter.html │ │ │ ├── ScoringFilterException.html │ │ │ ├── ScoringFilters.html │ │ │ ├── class-use │ │ │ │ ├── AbstractScoringFilter.html │ │ │ │ ├── ScoringFilter.html │ │ │ │ ├── ScoringFilterException.html │ │ │ │ └── ScoringFilters.html │ │ │ ├── depth │ │ │ │ ├── DepthScoringFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── DepthScoringFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── link │ │ │ │ ├── LinkAnalysisScoringFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── LinkAnalysisScoringFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── opic │ │ │ │ ├── OPICScoringFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── OPICScoringFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ ├── package-use.html │ │ │ ├── tld │ │ │ │ ├── TLDScoringFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── TLDScoringFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── urlmeta │ │ │ │ ├── URLMetaScoringFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── URLMetaScoringFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ └── webgraph │ │ │ │ ├── LinkDatum.html │ │ │ │ ├── LinkDumper.Inverter.html │ │ │ │ ├── LinkDumper.LinkNode.html │ │ │ │ ├── LinkDumper.LinkNodes.html │ │ │ │ ├── LinkDumper.Merger.html │ │ │ │ ├── LinkDumper.Reader.html │ │ │ │ ├── LinkDumper.html │ │ │ │ ├── LinkRank.html │ │ │ │ ├── LoopReader.html │ │ │ │ ├── Loops.Finalizer.html │ │ │ │ ├── Loops.Initializer.html │ │ │ │ ├── Loops.LoopSet.html │ │ │ │ ├── Loops.Looper.html │ │ │ │ ├── Loops.Route.html │ │ │ │ ├── Loops.html │ │ │ │ ├── Node.html │ │ │ │ ├── NodeDumper.Dumper.html │ │ │ │ ├── NodeDumper.Sorter.html │ │ │ │ ├── NodeDumper.html │ │ │ │ ├── NodeReader.html │ │ │ │ ├── ScoreUpdater.html │ │ │ │ ├── WebGraph.OutlinkDb.html │ │ │ │ ├── WebGraph.html │ │ │ │ ├── class-use │ │ │ │ ├── LinkDatum.html │ │ │ │ ├── LinkDumper.Inverter.html │ │ │ │ ├── LinkDumper.LinkNode.html │ │ │ │ ├── LinkDumper.LinkNodes.html │ │ │ │ ├── LinkDumper.Merger.html │ │ │ │ ├── LinkDumper.Reader.html │ │ │ │ ├── LinkDumper.html │ │ │ │ ├── LinkRank.html │ │ │ │ ├── LoopReader.html │ │ │ │ ├── Loops.Finalizer.html │ │ │ │ ├── Loops.Initializer.html │ │ │ │ ├── Loops.LoopSet.html │ │ │ │ ├── Loops.Looper.html │ │ │ │ ├── Loops.Route.html │ │ │ │ ├── Loops.html │ │ │ │ ├── Node.html │ │ │ │ ├── NodeDumper.Dumper.html │ │ │ │ ├── NodeDumper.Sorter.html │ │ │ │ ├── NodeDumper.html │ │ │ │ ├── NodeReader.html │ │ │ │ ├── ScoreUpdater.html │ │ │ │ ├── WebGraph.OutlinkDb.html │ │ │ │ └── WebGraph.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── segment │ │ │ ├── ContentAsTextInputFormat.html │ │ │ ├── SegmentMergeFilter.html │ │ │ ├── SegmentMergeFilters.html │ │ │ ├── SegmentMerger.ObjectInputFormat.html │ │ │ ├── SegmentMerger.SegmentOutputFormat.html │ │ │ ├── SegmentMerger.html │ │ │ ├── SegmentPart.html │ │ │ ├── SegmentReader.InputCompatMapper.html │ │ │ ├── SegmentReader.SegmentReaderStats.html │ │ │ ├── SegmentReader.TextOutputFormat.html │ │ │ ├── SegmentReader.html │ │ │ ├── class-use │ │ │ │ ├── ContentAsTextInputFormat.html │ │ │ │ ├── SegmentMergeFilter.html │ │ │ │ ├── SegmentMergeFilters.html │ │ │ │ ├── SegmentMerger.ObjectInputFormat.html │ │ │ │ ├── SegmentMerger.SegmentOutputFormat.html │ │ │ │ ├── SegmentMerger.html │ │ │ │ ├── SegmentPart.html │ │ │ │ ├── SegmentReader.InputCompatMapper.html │ │ │ │ ├── SegmentReader.SegmentReaderStats.html │ │ │ │ ├── SegmentReader.TextOutputFormat.html │ │ │ │ └── SegmentReader.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ │ │ ├── tools │ │ │ ├── Benchmark.BenchmarkResults.html │ │ │ ├── Benchmark.html │ │ │ ├── DmozParser.html │ │ │ ├── FreeGenerator.FG.html │ │ │ ├── FreeGenerator.html │ │ │ ├── ResolveUrls.html │ │ │ ├── arc │ │ │ │ ├── ArcInputFormat.html │ │ │ │ ├── ArcRecordReader.html │ │ │ │ ├── ArcSegmentCreator.html │ │ │ │ ├── class-use │ │ │ │ │ ├── ArcInputFormat.html │ │ │ │ │ ├── ArcRecordReader.html │ │ │ │ │ └── ArcSegmentCreator.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── class-use │ │ │ │ ├── Benchmark.BenchmarkResults.html │ │ │ │ ├── Benchmark.html │ │ │ │ ├── DmozParser.html │ │ │ │ ├── FreeGenerator.FG.html │ │ │ │ ├── FreeGenerator.html │ │ │ │ └── ResolveUrls.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ │ │ ├── urlfilter │ │ │ ├── api │ │ │ │ ├── RegexRule.html │ │ │ │ ├── RegexURLFilterBase.html │ │ │ │ ├── class-use │ │ │ │ │ ├── RegexRule.html │ │ │ │ │ └── RegexURLFilterBase.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── automaton │ │ │ │ ├── AutomatonURLFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── AutomatonURLFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── domain │ │ │ │ ├── DomainURLFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── DomainURLFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── domainblacklist │ │ │ │ ├── DomainBlacklistURLFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── DomainBlacklistURLFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── prefix │ │ │ │ ├── PrefixURLFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── PrefixURLFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── regex │ │ │ │ ├── RegexURLFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── RegexURLFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ ├── suffix │ │ │ │ ├── SuffixURLFilter.html │ │ │ │ ├── class-use │ │ │ │ │ └── SuffixURLFilter.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ └── validator │ │ │ │ ├── UrlValidator.html │ │ │ │ ├── class-use │ │ │ │ └── UrlValidator.html │ │ │ │ ├── package-frame.html │ │ │ │ ├── package-summary.html │ │ │ │ ├── package-tree.html │ │ │ │ └── package-use.html │ │ │ └── util │ │ │ ├── CommandRunner.html │ │ │ ├── DeflateUtils.html │ │ │ ├── DomUtil.html │ │ │ ├── EncodingDetector.html │ │ │ ├── FSUtils.html │ │ │ ├── GZIPUtils.html │ │ │ ├── GenericWritableConfigurable.html │ │ │ ├── HadoopFSUtil.html │ │ │ ├── LockUtil.html │ │ │ ├── MimeUtil.html │ │ │ ├── NodeWalker.html │ │ │ ├── NutchConfiguration.html │ │ │ ├── NutchJob.html │ │ │ ├── ObjectCache.html │ │ │ ├── PrefixStringMatcher.html │ │ │ ├── StringUtil.html │ │ │ ├── SuffixStringMatcher.html │ │ │ ├── TimingUtil.html │ │ │ ├── TrieStringMatcher.TrieNode.html │ │ │ ├── TrieStringMatcher.html │ │ │ ├── URLUtil.html │ │ │ ├── class-use │ │ │ ├── CommandRunner.html │ │ │ ├── DeflateUtils.html │ │ │ ├── DomUtil.html │ │ │ ├── EncodingDetector.html │ │ │ ├── FSUtils.html │ │ │ ├── GZIPUtils.html │ │ │ ├── GenericWritableConfigurable.html │ │ │ ├── HadoopFSUtil.html │ │ │ ├── LockUtil.html │ │ │ ├── MimeUtil.html │ │ │ ├── NodeWalker.html │ │ │ ├── NutchConfiguration.html │ │ │ ├── NutchJob.html │ │ │ ├── ObjectCache.html │ │ │ ├── PrefixStringMatcher.html │ │ │ ├── StringUtil.html │ │ │ ├── SuffixStringMatcher.html │ │ │ ├── TimingUtil.html │ │ │ ├── TrieStringMatcher.TrieNode.html │ │ │ ├── TrieStringMatcher.html │ │ │ └── URLUtil.html │ │ │ ├── domain │ │ │ ├── DomainStatistics.DomainStatisticsCombiner.html │ │ │ ├── DomainStatistics.MyCounter.html │ │ │ ├── DomainStatistics.html │ │ │ ├── DomainSuffix.Status.html │ │ │ ├── DomainSuffix.html │ │ │ ├── DomainSuffixes.html │ │ │ ├── TopLevelDomain.Type.html │ │ │ ├── TopLevelDomain.html │ │ │ ├── class-use │ │ │ │ ├── DomainStatistics.DomainStatisticsCombiner.html │ │ │ │ ├── DomainStatistics.MyCounter.html │ │ │ │ ├── DomainStatistics.html │ │ │ │ ├── DomainSuffix.Status.html │ │ │ │ ├── DomainSuffix.html │ │ │ │ ├── DomainSuffixes.html │ │ │ │ ├── TopLevelDomain.Type.html │ │ │ │ └── TopLevelDomain.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ │ │ ├── package-frame.html │ │ │ ├── package-summary.html │ │ │ ├── package-tree.html │ │ │ └── package-use.html │ └── creativecommons │ │ └── nutch │ │ ├── CCIndexingFilter.html │ │ ├── CCParseFilter.Walker.html │ │ ├── CCParseFilter.html │ │ ├── class-use │ │ ├── CCIndexingFilter.html │ │ ├── CCParseFilter.Walker.html │ │ └── CCParseFilter.html │ │ ├── package-frame.html │ │ ├── package-summary.html │ │ ├── package-tree.html │ │ └── package-use.html │ ├── overview-frame.html │ ├── overview-summary.html │ ├── overview-tree.html │ ├── package-list │ ├── resources │ ├── background.gif │ ├── tab.gif │ ├── titlebar.gif │ └── titlebar_end.gif │ ├── serialized-form.html │ └── stylesheet.css ├── ivy ├── ivy-2.2.0.jar ├── ivy-configurations.xml ├── ivy.xml ├── ivysettings.xml └── mvn.template ├── lib └── native │ └── README.txt └── src ├── bin ├── crawl └── nutch ├── java ├── org │ └── apache │ │ └── nutch │ │ ├── crawl │ │ ├── AbstractFetchSchedule.java │ │ ├── AdaptiveFetchSchedule.java │ │ ├── CrawlDatum.java │ │ ├── CrawlDb.java │ │ ├── CrawlDbFilter.java │ │ ├── CrawlDbMerger.java │ │ ├── CrawlDbReader.java │ │ ├── CrawlDbReducer.java │ │ ├── DeduplicationJob.java │ │ ├── DefaultFetchSchedule.java │ │ ├── FetchSchedule.java │ │ ├── FetchScheduleFactory.java │ │ ├── Generator.java │ │ ├── Injector.java │ │ ├── Inlink.java │ │ ├── Inlinks.java │ │ ├── LinkDb.java │ │ ├── LinkDbFilter.java │ │ ├── LinkDbMerger.java │ │ ├── LinkDbReader.java │ │ ├── MD5Signature.java │ │ ├── MapWritable.java │ │ ├── MimeAdaptiveFetchSchedule.java │ │ ├── NutchWritable.java │ │ ├── Signature.java │ │ ├── SignatureComparator.java │ │ ├── SignatureFactory.java │ │ ├── TextProfileSignature.java │ │ ├── URLPartitioner.java │ │ └── package.html │ │ ├── fetcher │ │ ├── Fetcher.java │ │ ├── FetcherOutputFormat.java │ │ ├── OldFetcher.java │ │ └── package.html │ │ ├── indexer │ │ ├── CleaningJob.java │ │ ├── IndexWriter.java │ │ ├── IndexWriters.java │ │ ├── IndexerMapReduce.java │ │ ├── IndexerOutputFormat.java │ │ ├── IndexingException.java │ │ ├── IndexingFilter.java │ │ ├── IndexingFilters.java │ │ ├── IndexingFiltersChecker.java │ │ ├── IndexingJob.java │ │ ├── NutchDocument.java │ │ ├── NutchField.java │ │ ├── NutchIndexAction.java │ │ └── package.html │ │ ├── metadata │ │ ├── CreativeCommons.java │ │ ├── DublinCore.java │ │ ├── Feed.java │ │ ├── HttpHeaders.java │ │ ├── MetaWrapper.java │ │ ├── Metadata.java │ │ ├── Nutch.java │ │ ├── SpellCheckedMetadata.java │ │ └── package.html │ │ ├── net │ │ ├── URLFilter.java │ │ ├── URLFilterChecker.java │ │ ├── URLFilterException.java │ │ ├── URLFilters.java │ │ ├── URLNormalizer.java │ │ ├── URLNormalizerChecker.java │ │ ├── URLNormalizers.java │ │ ├── package-info.java │ │ └── protocols │ │ │ ├── HttpDateFormat.java │ │ │ ├── ProtocolException.java │ │ │ ├── Response.java │ │ │ └── package-info.java │ │ ├── parse │ │ ├── HTMLMetaTags.java │ │ ├── HtmlParseFilter.java │ │ ├── HtmlParseFilters.java │ │ ├── Outlink.java │ │ ├── OutlinkExtractor.java │ │ ├── Parse.java │ │ ├── ParseCallable.java │ │ ├── ParseData.java │ │ ├── ParseException.java │ │ ├── ParseImpl.java │ │ ├── ParseOutputFormat.java │ │ ├── ParsePluginList.java │ │ ├── ParsePluginsReader.java │ │ ├── ParseResult.java │ │ ├── ParseSegment.java │ │ ├── ParseStatus.java │ │ ├── ParseText.java │ │ ├── ParseUtil.java │ │ ├── Parser.java │ │ ├── ParserChecker.java │ │ ├── ParserFactory.java │ │ ├── ParserNotFound.java │ │ └── package-info.java │ │ ├── plugin │ │ ├── CircularDependencyException.java │ │ ├── Extension.java │ │ ├── ExtensionPoint.java │ │ ├── MissingDependencyException.java │ │ ├── Pluggable.java │ │ ├── Plugin.java │ │ ├── PluginClassLoader.java │ │ ├── PluginDescriptor.java │ │ ├── PluginManifestParser.java │ │ ├── PluginRepository.java │ │ ├── PluginRuntimeException.java │ │ └── package.html │ │ ├── protocol │ │ ├── Content.java │ │ ├── Protocol.java │ │ ├── ProtocolException.java │ │ ├── ProtocolFactory.java │ │ ├── ProtocolNotFound.java │ │ ├── ProtocolOutput.java │ │ ├── ProtocolStatus.java │ │ ├── RobotRules.java │ │ ├── RobotRulesParser.java │ │ └── package-info.java │ │ ├── scoring │ │ ├── AbstractScoringFilter.java │ │ ├── ScoringFilter.java │ │ ├── ScoringFilterException.java │ │ ├── ScoringFilters.java │ │ ├── package-info.java │ │ └── webgraph │ │ │ ├── LinkDatum.java │ │ │ ├── LinkDumper.java │ │ │ ├── LinkRank.java │ │ │ ├── LoopReader.java │ │ │ ├── Loops.java │ │ │ ├── Node.java │ │ │ ├── NodeDumper.java │ │ │ ├── NodeReader.java │ │ │ ├── ScoreUpdater.java │ │ │ ├── WebGraph.java │ │ │ └── package-info.java │ │ ├── segment │ │ ├── ContentAsTextInputFormat.java │ │ ├── SegmentMergeFilter.java │ │ ├── SegmentMergeFilters.java │ │ ├── SegmentMerger.java │ │ ├── SegmentPart.java │ │ ├── SegmentReader.java │ │ └── package-info.java │ │ ├── tools │ │ ├── Benchmark.java │ │ ├── DmozParser.java │ │ ├── FreeGenerator.java │ │ ├── ResolveUrls.java │ │ ├── arc │ │ │ ├── ArcInputFormat.java │ │ │ ├── ArcRecordReader.java │ │ │ ├── ArcSegmentCreator.java │ │ │ └── package-info.java │ │ └── package-info.java │ │ └── util │ │ ├── CommandRunner.java │ │ ├── DeflateUtils.java │ │ ├── DomUtil.java │ │ ├── EncodingDetector.java │ │ ├── FSUtils.java │ │ ├── GZIPUtils.java │ │ ├── GenericWritableConfigurable.java │ │ ├── HadoopFSUtil.java │ │ ├── LockUtil.java │ │ ├── MimeUtil.java │ │ ├── NodeWalker.java │ │ ├── NutchConfiguration.java │ │ ├── NutchJob.java │ │ ├── ObjectCache.java │ │ ├── PrefixStringMatcher.java │ │ ├── StringUtil.java │ │ ├── SuffixStringMatcher.java │ │ ├── TimingUtil.java │ │ ├── TrieStringMatcher.java │ │ ├── URLUtil.java │ │ ├── domain │ │ ├── DomainStatistics.java │ │ ├── DomainSuffix.java │ │ ├── DomainSuffixes.java │ │ ├── DomainSuffixesReader.java │ │ ├── TopLevelDomain.java │ │ └── package.html │ │ └── package-info.java └── overview.html ├── plugin ├── build-plugin.xml ├── build.xml ├── creativecommons │ ├── README.txt │ ├── build.xml │ ├── conf │ │ ├── crawl-urlfilter.txt │ │ └── nutch-site.xml │ ├── data │ │ ├── anchor.html │ │ ├── rdf.html │ │ └── rel.html │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── creativecommons │ │ │ └── nutch │ │ │ ├── CCIndexingFilter.java │ │ │ ├── CCParseFilter.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── creativecommons │ │ └── nutch │ │ └── TestCCParseFilter.java ├── feed │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ ├── sample │ │ └── rsstest.rss │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ ├── indexer │ │ │ └── feed │ │ │ │ ├── FeedIndexingFilter.java │ │ │ │ └── package-info.java │ │ │ └── parse │ │ │ └── feed │ │ │ ├── FeedParser.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── parse │ │ └── feed │ │ └── TestFeedParser.java ├── headings │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── parse │ │ └── headings │ │ ├── HeadingsParseFilter.java │ │ └── package-info.java ├── index-anchor │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── indexer │ │ │ └── anchor │ │ │ ├── AnchorIndexingFilter.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── indexer │ │ └── anchor │ │ └── TestAnchorIndexingFilter.java ├── index-basic │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── indexer │ │ │ └── basic │ │ │ ├── BasicIndexingFilter.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── indexer │ │ └── basic │ │ └── TestBasicIndexingFilter.java ├── index-metadata │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── indexer │ │ └── metadata │ │ ├── MetadataIndexer.java │ │ └── package-info.java ├── index-more │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── indexer │ │ │ └── more │ │ │ ├── MoreIndexingFilter.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── indexer │ │ └── more │ │ └── TestMoreIndexingFilter.java ├── index-static │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── indexer │ │ │ └── staticfield │ │ │ ├── StaticFieldIndexer.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── indexer │ │ └── staticfield │ │ └── TestStaticFieldIndexerTest.java ├── indexer-dummy │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── indexwriter │ │ └── dummy │ │ ├── DummyIndexWriter.java │ │ └── package-info.java ├── indexer-elastic │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── indexwriter │ │ └── elastic │ │ ├── ElasticConstants.java │ │ ├── ElasticIndexWriter.java │ │ └── package-info.java ├── indexer-solr │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── indexwriter │ │ └── solr │ │ ├── SolrConstants.java │ │ ├── SolrIndexWriter.java │ │ ├── SolrMappingReader.java │ │ ├── SolrUtils.java │ │ └── package-info.java ├── language-identifier │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── analysis │ │ │ └── lang │ │ │ ├── HTMLLanguageParser.java │ │ │ ├── LanguageIndexingFilter.java │ │ │ ├── langmappings.properties │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── analysis │ │ └── lang │ │ ├── TestHTMLLanguageParser.java │ │ ├── da.test │ │ ├── de.test │ │ ├── el.test │ │ ├── en.test │ │ ├── es.test │ │ ├── fi.test │ │ ├── fr.test │ │ ├── it.test │ │ ├── nl.test │ │ ├── pt.test │ │ ├── sv.test │ │ └── test-referencial.txt ├── lib-http │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── protocol │ │ │ └── http │ │ │ └── api │ │ │ ├── BlockedException.java │ │ │ ├── HttpBase.java │ │ │ ├── HttpException.java │ │ │ ├── HttpRobotRulesParser.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── protocol │ │ └── http │ │ └── api │ │ └── TestRobotRulesParser.java ├── lib-nekohtml │ ├── build.xml │ ├── ivy.xml │ └── plugin.xml ├── lib-regex-filter │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── urlfilter │ │ │ └── api │ │ │ ├── RegexRule.java │ │ │ ├── RegexURLFilterBase.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── urlfilter │ │ └── api │ │ └── RegexURLFilterBaseTest.java ├── lib-xml │ ├── build.xml │ ├── ivy.xml │ └── plugin.xml ├── microformats-reltag │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── microformats │ │ └── reltag │ │ ├── RelTagIndexingFilter.java │ │ ├── RelTagParser.java │ │ └── package.html ├── nutch-extensionpoints │ ├── build.xml │ ├── ivy.xml │ └── plugin.xml ├── parse-ext │ ├── build.xml │ ├── command │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── parse │ │ │ └── ext │ │ │ ├── ExtParser.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── parse │ │ └── ext │ │ └── TestExtParser.java ├── parse-html │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── parse │ │ │ └── html │ │ │ ├── DOMBuilder.java │ │ │ ├── DOMContentUtils.java │ │ │ ├── HTMLMetaProcessor.java │ │ │ ├── HtmlParser.java │ │ │ ├── XMLCharacterRecognizer.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── parse │ │ └── html │ │ ├── TestDOMContentUtils.java │ │ ├── TestHtmlParser.java │ │ └── TestRobotsMetaProcessor.java ├── parse-js │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── parse │ │ └── js │ │ ├── JSParseFilter.java │ │ └── package-info.java ├── parse-metatags │ ├── README.txt │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ ├── sample │ │ ├── testMetatags.html │ │ └── testMultivalueMetatags.html │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── parse │ │ │ └── metatags │ │ │ ├── MetaTagsParser.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── parse │ │ └── metatags │ │ └── TestMetatagParser.java ├── parse-swf │ ├── build.xml │ ├── ivy.xml │ ├── lib │ │ ├── javaswf-LICENSE.txt │ │ └── javaswf.jar │ ├── plugin.xml │ ├── sample │ │ ├── test1.swf │ │ ├── test1.txt │ │ ├── test2.swf │ │ ├── test2.txt │ │ ├── test3.swf │ │ └── test3.txt │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── parse │ │ │ └── swf │ │ │ ├── SWFParser.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── parse │ │ └── swf │ │ └── TestSWFParser.java ├── parse-tika │ ├── build-ivy.xml │ ├── build.xml │ ├── howto_upgrade_tika.txt │ ├── ivy.xml │ ├── plugin.xml │ ├── sample │ │ ├── encrypted.pdf │ │ ├── nutch.html │ │ ├── nutch_logo_tm.gif │ │ ├── ootest.odt │ │ ├── ootest.sxw │ │ ├── ootest.txt │ │ ├── pdftest.pdf │ │ ├── rsstest.rss │ │ ├── test.rtf │ │ └── word97.doc │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── parse │ │ │ └── tika │ │ │ ├── DOMBuilder.java │ │ │ ├── DOMContentUtils.java │ │ │ ├── HTMLMetaProcessor.java │ │ │ ├── TikaParser.java │ │ │ ├── XMLCharacterRecognizer.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── tika │ │ ├── TestDOMContentUtils.java │ │ ├── TestFeedParser.java │ │ ├── TestImageMetadata.java │ │ ├── TestMSWordParser.java │ │ ├── TestOOParser.java │ │ ├── TestPdfParser.java │ │ ├── TestRTFParser.java │ │ └── TestRobotsMetaProcessor.java ├── parse-zip │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ ├── sample │ │ └── test.zip │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── parse │ │ │ └── zip │ │ │ ├── ZipParser.java │ │ │ ├── ZipTextExtractor.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── parse │ │ └── zip │ │ └── TestZipParser.java ├── plugin.dtd ├── protocol-file │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ ├── sample │ │ ├── testprotocolfile.txt │ │ └── testprotocolfile_(encoded).txt │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── protocol │ │ │ └── file │ │ │ ├── File.java │ │ │ ├── FileError.java │ │ │ ├── FileException.java │ │ │ ├── FileResponse.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── protocol │ │ └── file │ │ └── TestProtocolFile.java ├── protocol-ftp │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── protocol │ │ └── ftp │ │ ├── Client.java │ │ ├── Ftp.java │ │ ├── FtpError.java │ │ ├── FtpException.java │ │ ├── FtpExceptionBadSystResponse.java │ │ ├── FtpExceptionCanNotHaveDataConnection.java │ │ ├── FtpExceptionControlClosedByForcedDataClose.java │ │ ├── FtpExceptionUnknownForcedDataClose.java │ │ ├── FtpResponse.java │ │ ├── FtpRobotRulesParser.java │ │ ├── PrintCommandListener.java │ │ └── package.html ├── protocol-http │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── protocol │ │ └── http │ │ ├── Http.java │ │ ├── HttpResponse.java │ │ └── package.html ├── protocol-httpclient │ ├── build.xml │ ├── ivy.xml │ ├── jsp │ │ ├── basic.jsp │ │ ├── cookies.jsp │ │ ├── digest.jsp │ │ ├── noauth.jsp │ │ └── ntlm.jsp │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── protocol │ │ │ └── httpclient │ │ │ ├── DummySSLProtocolSocketFactory.java │ │ │ ├── DummyX509TrustManager.java │ │ │ ├── Http.java │ │ │ ├── HttpAuthentication.java │ │ │ ├── HttpAuthenticationException.java │ │ │ ├── HttpAuthenticationFactory.java │ │ │ ├── HttpBasicAuthentication.java │ │ │ ├── HttpResponse.java │ │ │ └── package.html │ │ └── test │ │ ├── conf │ │ ├── httpclient-auth-test.xml │ │ └── nutch-site-test.xml │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── protocol │ │ └── httpclient │ │ └── TestProtocolHttpClient.java ├── scoring-depth │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── scoring │ │ └── depth │ │ ├── DepthScoringFilter.java │ │ └── package-info.java ├── scoring-link │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── scoring │ │ └── link │ │ ├── LinkAnalysisScoringFilter.java │ │ └── package-info.java ├── scoring-opic │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── scoring │ │ └── opic │ │ ├── OPICScoringFilter.java │ │ └── package-info.java ├── subcollection │ ├── README.txt │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ ├── collection │ │ │ ├── CollectionManager.java │ │ │ ├── Subcollection.java │ │ │ └── package.html │ │ │ └── indexer │ │ │ └── subcollection │ │ │ ├── SubcollectionIndexingFilter.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── collection │ │ └── TestSubcollection.java ├── tld │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ ├── indexer │ │ └── tld │ │ │ ├── TLDIndexingFilter.java │ │ │ └── package.html │ │ └── scoring │ │ └── tld │ │ ├── TLDScoringFilter.java │ │ └── package.html ├── urlfilter-automaton │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ ├── sample │ │ ├── Benchmarks.rules │ │ ├── Benchmarks.urls │ │ ├── IntranetCrawling.rules │ │ ├── IntranetCrawling.urls │ │ ├── WholeWebCrawling.rules │ │ └── WholeWebCrawling.urls │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── urlfilter │ │ │ └── automaton │ │ │ ├── AutomatonURLFilter.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── urlfilter │ │ └── automaton │ │ └── TestAutomatonURLFilter.java ├── urlfilter-domain │ ├── build.xml │ ├── data │ │ └── hosts.txt │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── urlfilter │ │ │ └── domain │ │ │ ├── DomainURLFilter.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── urlfilter │ │ └── domain │ │ └── TestDomainURLFilter.java ├── urlfilter-domainblacklist │ ├── build.xml │ ├── data │ │ └── hosts.txt │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── urlfilter │ │ │ └── domainblacklist │ │ │ ├── DomainBlacklistURLFilter.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── urlfilter │ │ └── domainblacklist │ │ └── TestDomainBlacklistURLFilter.java ├── urlfilter-prefix │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── urlfilter │ │ │ └── prefix │ │ │ ├── PrefixURLFilter.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── urlfilter │ │ └── prefix │ │ └── TestPrefixURLFilter.java ├── urlfilter-regex │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ ├── sample │ │ ├── Benchmarks.rules │ │ ├── Benchmarks.urls │ │ ├── IntranetCrawling.rules │ │ ├── IntranetCrawling.urls │ │ ├── WholeWebCrawling.rules │ │ └── WholeWebCrawling.urls │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── urlfilter │ │ │ └── regex │ │ │ ├── RegexURLFilter.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── urlfilter │ │ └── regex │ │ └── TestRegexURLFilter.java ├── urlfilter-suffix │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── urlfilter │ │ │ └── suffix │ │ │ ├── SuffixURLFilter.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── urlfilter │ │ └── suffix │ │ └── TestSuffixURLFilter.java ├── urlfilter-validator │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── urlfilter │ │ │ └── validator │ │ │ ├── UrlValidator.java │ │ │ └── package.html │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── urlfilter │ │ └── validator │ │ └── TestUrlValidator.java ├── urlmeta │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ └── java │ │ └── org │ │ └── apache │ │ └── nutch │ │ ├── indexer │ │ └── urlmeta │ │ │ ├── URLMetaIndexingFilter.java │ │ │ └── package.html │ │ └── scoring │ │ └── urlmeta │ │ ├── URLMetaScoringFilter.java │ │ └── package.html ├── urlnormalizer-basic │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── net │ │ │ └── urlnormalizer │ │ │ └── basic │ │ │ ├── BasicURLNormalizer.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── net │ │ └── urlnormalizer │ │ └── basic │ │ └── TestBasicURLNormalizer.java ├── urlnormalizer-host │ ├── build.xml │ ├── data │ │ └── hosts.txt │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── net │ │ │ └── urlnormalizer │ │ │ └── host │ │ │ ├── HostURLNormalizer.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── net │ │ └── urlnormalizer │ │ └── host │ │ └── TestHostURLNormalizer.java ├── urlnormalizer-pass │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── net │ │ │ └── urlnormalizer │ │ │ └── pass │ │ │ ├── PassURLNormalizer.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── net │ │ └── urlnormalizer │ │ └── pass │ │ └── TestPassURLNormalizer.java ├── urlnormalizer-querystring │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ └── src │ │ ├── java │ │ └── org │ │ │ └── apache │ │ │ └── nutch │ │ │ └── net │ │ │ └── urlnormalizer │ │ │ └── querystring │ │ │ ├── QuerystringURLNormalizer.java │ │ │ └── package-info.java │ │ └── test │ │ └── org │ │ └── apache │ │ └── nutch │ │ └── net │ │ └── urlnormalizer │ │ └── querystring │ │ └── TestQuerystringURLNormalizer.java └── urlnormalizer-regex │ ├── build.xml │ ├── ivy.xml │ ├── plugin.xml │ ├── sample │ ├── regex-normalize-default.test │ ├── regex-normalize-default.xml │ ├── regex-normalize-scope1.test │ └── regex-normalize-scope1.xml │ └── src │ ├── java │ └── org │ │ └── apache │ │ └── nutch │ │ └── net │ │ └── urlnormalizer │ │ └── regex │ │ ├── RegexURLNormalizer.java │ │ └── package-info.java │ └── test │ └── org │ └── apache │ └── nutch │ └── net │ └── urlnormalizer │ └── regex │ └── TestRegexURLNormalizer.java ├── test ├── crawl-tests.xml ├── domain-urlfilter.txt ├── filter-all.txt ├── log4j.properties ├── nutch-site.xml └── org │ └── apache │ └── nutch │ ├── crawl │ ├── ContinuousCrawlTestUtil.java │ ├── CrawlDBTestUtil.java │ ├── CrawlDbUpdateUtil.java │ ├── DummyWritable.java │ ├── TODOTestCrawlDbStates.java │ ├── TestAdaptiveFetchSchedule.java │ ├── TestCrawlDbFilter.java │ ├── TestCrawlDbMerger.java │ ├── TestCrawlDbStates.java │ ├── TestGenerator.java │ ├── TestInjector.java │ ├── TestLinkDbMerger.java │ └── TestSignatureFactory.java │ ├── fetcher │ └── TestFetcher.java │ ├── indexer │ └── TestIndexingFilters.java │ ├── metadata │ ├── TestMetadata.java │ └── TestSpellCheckedMetadata.java │ ├── net │ ├── TestURLFilters.java │ └── TestURLNormalizers.java │ ├── parse │ ├── TestOutlinkExtractor.java │ ├── TestParseData.java │ ├── TestParseText.java │ ├── TestParserFactory.java │ └── parse-plugin-test.xml │ ├── plugin │ ├── HelloWorldExtension.java │ ├── ITestExtension.java │ ├── SimpleTestPlugin.java │ └── TestPluginSystem.java │ ├── protocol │ ├── TestContent.java │ └── TestProtocolFactory.java │ ├── segment │ ├── TestSegmentMerger.java │ └── TestSegmentMergerCrawlDatums.java │ ├── tools │ └── proxy │ │ ├── AbstractTestbedHandler.java │ │ ├── DelayHandler.java │ │ ├── FakeHandler.java │ │ ├── LogDebugHandler.java │ │ ├── NotFoundHandler.java │ │ ├── ProxyTestbed.java │ │ ├── SegmentHandler.java │ │ └── package-info.java │ └── util │ ├── TestEncodingDetector.java │ ├── TestGZIPUtils.java │ ├── TestMimeUtil.java │ ├── TestNodeWalker.java │ ├── TestPrefixStringMatcher.java │ ├── TestStringUtil.java │ ├── TestSuffixStringMatcher.java │ ├── TestURLUtil.java │ └── WritableTestUtils.java └── testresources ├── fetch-test-site ├── dup_of_pagea.html ├── exception.html ├── index.html ├── nested_spider_trap.html ├── pagea.html ├── pageb.html └── robots.txt ├── test-mime-util └── test.xlsx └── testcrawl ├── crawldb └── current │ └── part-00000 │ ├── .data.crc │ ├── .index.crc │ ├── data │ └── index ├── index ├── _0.f0 ├── _0.f1 ├── _0.f2 ├── _0.f3 ├── _0.f4 ├── _0.f5 ├── _0.fdt ├── _0.fdx ├── _0.fnm ├── _0.frq ├── _0.prx ├── _0.tii ├── _0.tis ├── deletable └── segments ├── indexes └── part-00000 │ ├── .index.done.crc │ ├── .segments.crc │ ├── _j.f0 │ ├── _j.f1 │ ├── _j.f2 │ ├── _j.f3 │ ├── _j.f4 │ ├── _j.f5 │ ├── _j.fdt │ ├── _j.fdx │ ├── _j.fnm │ ├── _j.frq │ ├── _j.prx │ ├── _j.tii │ ├── _j.tis │ ├── commit.lock │ ├── deletable │ ├── index.done │ ├── segments │ └── write.lock ├── linkdb └── current │ └── part-00000 │ ├── .data.crc │ ├── .index.crc │ ├── data │ └── index └── segments ├── 20060919213635 ├── content │ └── part-00000 │ │ ├── .data.crc │ │ ├── .index.crc │ │ ├── data │ │ └── index ├── crawl_fetch │ └── part-00000 │ │ ├── .data.crc │ │ ├── .index.crc │ │ ├── data │ │ └── index ├── crawl_generate │ ├── .part-00000.crc │ └── part-00000 ├── crawl_parse │ ├── .part-00000.crc │ └── part-00000 ├── parse_data │ └── part-00000 │ │ ├── .data.crc │ │ ├── .index.crc │ │ ├── data │ │ └── index └── parse_text │ └── part-00000 │ ├── .data.crc │ ├── .index.crc │ ├── data │ └── index └── 20060919213643 ├── content └── part-00000 │ ├── .data.crc │ ├── .index.crc │ ├── data │ └── index ├── crawl_fetch └── part-00000 │ ├── .data.crc │ ├── .index.crc │ ├── data │ └── index ├── crawl_generate ├── .part-00000.crc └── part-00000 ├── crawl_parse ├── .part-00000.crc └── part-00000 ├── parse_data └── part-00000 │ ├── .data.crc │ ├── .index.crc │ ├── data │ └── index └── parse_text └── part-00000 ├── .data.crc ├── .index.crc ├── data └── index /README.md: -------------------------------------------------------------------------------- 1 | # nutcher 2 | nutcher是中文的nutch文档,包含nutch的配置和源码解析,在github持续更新。 3 | 4 | 本教程由[DataHref](http://datahref.com/)提供,未经允许,禁止转载。 5 | 6 | 目录: 7 | 8 | + [Nutch教程——导入Nutch工程,执行完整爬取](http://datahref.com/topics/1624) 9 | + [Nutch流程控制源码详解(bin/crawl中文注释版)](http://datahref.com/topics/1616) 10 | + [URLNormalizer源码详解(Nutch的URL正规化机制)](http://datahref.com/topics/1625) 11 | + [Nutch 的正则表达式配置 (regex-urlfilter.txt)](http://datahref.com/topics/1626) 12 | + [在 windows 上配置 hbase](http://datahref.com/topics/1628) 13 | + [Nutch的定位](http://datahref.com/topics/1627) 14 | -------------------------------------------------------------------------------- /apache-nutch-1.9-src.zip: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/CrawlScript/nutcher/085330f03955ae65ceae37967c5672bcc9a0a0dd/apache-nutch-1.9-src.zip -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/NOTICE.txt: -------------------------------------------------------------------------------- 1 | Apache Nutch 2 | Copyright 2014 The Apache Software Foundation 3 | 4 | This product includes software developed by The Apache Software 5 | Foundation (http://www.apache.org/). 6 | 7 | This product includes software developed by the following copyright owners: 8 | 9 | Nutch includes JavaSWF: 10 | Copyright (c) 2001-2005, David N. Main, All rights reserved. 11 | 12 | Nutch includes Automaton: 13 | This package is Copyright © 2001-2008 Anders Møller. All rights reserved. 14 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/adaptive-mimetypes.txt: -------------------------------------------------------------------------------- 1 | # Licensed to the Apache Software Foundation (ASF) under one or more 2 | # contributor license agreements. See the NOTICE file distributed with 3 | # this work for additional information regarding copyright ownership. 4 | # The ASF licenses this file to You under the Apache License, Version 2.0 5 | # (the "License"); you may not use this file except in compliance with 6 | # the License. You may obtain a copy of the License at 7 | # 8 | # http://www.apache.org/licenses/LICENSE-2.0 9 | # 10 | # Unless required by applicable law or agreed to in writing, software 11 | # distributed under the License is distributed on an "AS IS" BASIS, 12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 13 | # See the License for the specific language governing permissions and 14 | # limitations under the License. 15 | 16 | # This configuration file is used by the MimeAdaptiveFetchScheduler and 17 | # allows the user to set the INC and DEC rates for the AdaptiveFetchScheduler 18 | # by MIME-type. Values are separated by tab. 19 | 20 | # MIME-type inc_rate dec_rate 21 | text/html 0.2 0.2 22 | application/xhtml+xml 0.2 0.2 23 | application/pdf 0.1 0.4 24 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/domain-urlfilter.txt: -------------------------------------------------------------------------------- 1 | # Licensed to the Apache Software Foundation (ASF) under one or more 2 | # contributor license agreements. See the NOTICE file distributed with 3 | # this work for additional information regarding copyright ownership. 4 | # The ASF licenses this file to You under the Apache License, Version 2.0 5 | # (the "License"); you may not use this file except in compliance with 6 | # the License. You may obtain a copy of the License at 7 | # 8 | # http://www.apache.org/licenses/LICENSE-2.0 9 | # 10 | # Unless required by applicable law or agreed to in writing, software 11 | # distributed under the License is distributed on an "AS IS" BASIS, 12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 13 | # See the License for the specific language governing permissions and 14 | # limitations under the License. 15 | 16 | # config file for urlfilter-domain plugin 17 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/domainblacklist-urlfilter.txt: -------------------------------------------------------------------------------- 1 | # Licensed to the Apache Software Foundation (ASF) under one or more 2 | # contributor license agreements. See the NOTICE file distributed with 3 | # this work for additional information regarding copyright ownership. 4 | # The ASF licenses this file to You under the Apache License, Version 2.0 5 | # (the "License"); you may not use this file except in compliance with 6 | # the License. You may obtain a copy of the License at 7 | # 8 | # http://www.apache.org/licenses/LICENSE-2.0 9 | # 10 | # Unless required by applicable law or agreed to in writing, software 11 | # distributed under the License is distributed on an "AS IS" BASIS, 12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 13 | # See the License for the specific language governing permissions and 14 | # limitations under the License. 15 | 16 | # config file for urlfilter-domainblacklist plugin 17 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/elasticsearch.conf: -------------------------------------------------------------------------------- 1 | # Licensed to the Apache Software Foundation (ASF) under one or more 2 | # contributor license agreements. See the NOTICE file distributed with 3 | # this work for additional information regarding copyright ownership. 4 | # The ASF licenses this file to You under the Apache License, Version 2.0 5 | # (the "License"); you may not use this file except in compliance with 6 | # the License. You may obtain a copy of the License at 7 | # 8 | # http://www.apache.org/licenses/LICENSE-2.0 9 | # 10 | # Unless required by applicable law or agreed to in writing, software 11 | # distributed under the License is distributed on an "AS IS" BASIS, 12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 13 | # See the License for the specific language governing permissions and 14 | # limitations under the License. 15 | 16 | 17 | # Settings for Elasticsearch indexer plugin 18 | # Format: key=value\n 19 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/host-urlnormalizer.txt: -------------------------------------------------------------------------------- 1 | # Licensed to the Apache Software Foundation (ASF) under one or more 2 | # contributor license agreements. See the NOTICE file distributed with 3 | # this work for additional information regarding copyright ownership. 4 | # The ASF licenses this file to You under the Apache License, Version 2.0 5 | # (the "License"); you may not use this file except in compliance with 6 | # the License. You may obtain a copy of the License at 7 | # 8 | # http://www.apache.org/licenses/LICENSE-2.0 9 | # 10 | # Unless required by applicable law or agreed to in writing, software 11 | # distributed under the License is distributed on an "AS IS" BASIS, 12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 13 | # See the License for the specific language governing permissions and 14 | # limitations under the License. 15 | 16 | # New line separated list of hosts mapped to their desired targets. 17 | # wildcard hosts are supported. Format: host target 18 | 19 | # Map www.apache.org to apache.org 20 | www.apache.org apache.org 21 | 22 | # Map all example.org subdomains to www.example.org 23 | *.example.org example.org 24 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/nutch-conf.xsl: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
namevaluedescription
21 | 22 | 23 |
24 |
25 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/nutch-site.xml: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/parse-plugins.dtd: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/prefix-urlfilter.txt: -------------------------------------------------------------------------------- 1 | # Licensed to the Apache Software Foundation (ASF) under one or more 2 | # contributor license agreements. See the NOTICE file distributed with 3 | # this work for additional information regarding copyright ownership. 4 | # The ASF licenses this file to You under the Apache License, Version 2.0 5 | # (the "License"); you may not use this file except in compliance with 6 | # the License. You may obtain a copy of the License at 7 | # 8 | # http://www.apache.org/licenses/LICENSE-2.0 9 | # 10 | # Unless required by applicable law or agreed to in writing, software 11 | # distributed under the License is distributed on an "AS IS" BASIS, 12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 13 | # See the License for the specific language governing permissions and 14 | # limitations under the License. 15 | 16 | # config file for urlfilter-prefix plugin 17 | 18 | http:// 19 | https:// 20 | ftp:// 21 | file:// 22 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/subcollections.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 | 19 | 20 | nutch 21 | nutch 22 | 23 | http://lucene.apache.org/nutch/ 24 | http://wiki.apache.org/nutch/ 25 | 26 | 27 | 28 | 29 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/conf/suffix-urlfilter.txt: -------------------------------------------------------------------------------- 1 | # config file for urlfilter-suffix plugin 2 | 3 | # case-insensitive, allow unknown suffixes 4 | +I 5 | # uncomment the line below to filter on url path 6 | #+P 7 | 8 | ### prohibit these 9 | # pictures 10 | .gif 11 | .jpg 12 | .jpeg 13 | .bmp 14 | .png 15 | .tif 16 | .tiff 17 | .ico 18 | .eps 19 | .ps 20 | .wmf 21 | .fpx 22 | .cur 23 | .ani 24 | .img 25 | .lwf 26 | .pcd 27 | .psp 28 | .psd 29 | .tga 30 | .xbm 31 | .xpm 32 | 33 | # web-formats 34 | .css 35 | 36 | # archives/packages 37 | .arj 38 | .arc 39 | .7z 40 | .cab 41 | .lzw 42 | .lha 43 | .lzh 44 | .zip 45 | .gz 46 | .tar 47 | .tgz 48 | .sit 49 | .rpm 50 | .deb 51 | .pkg 52 | 53 | # audio/video 54 | .mid 55 | .midi 56 | .rmi 57 | .mpeg 58 | .mpg 59 | .mpe 60 | .mp3 61 | .mp2 62 | .aac 63 | .mov 64 | .fla 65 | .flv 66 | .ra 67 | .ram 68 | .rm 69 | .rmv 70 | .wma 71 | .wmv 72 | .wav 73 | .wave 74 | .ogg 75 | .avi 76 | .au 77 | .snd 78 | 79 | # executables 80 | .exe 81 | .com 82 | 83 | # windows links 84 | .lnk 85 | 86 | # typo3-extensions 87 | .t3x 88 | 89 | # disc-images 90 | .iso 91 | .bin 92 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/analysis/lang/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.analysis.lang (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.analysis.lang

12 |
13 |

Classes

14 | 18 |
19 | 20 | 21 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/collection/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.collection (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.collection

12 |
13 |

Classes

14 | 18 |
19 | 20 | 21 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexer/anchor/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexer.anchor (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexer.anchor

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexer/basic/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexer.basic (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexer.basic

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexer/feed/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexer.feed (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexer.feed

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexer/metadata/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexer.metadata (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexer.metadata

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexer/more/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexer.more (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexer.more

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexer/staticfield/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexer.staticfield (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexer.staticfield

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexer/subcollection/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexer.subcollection (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexer.subcollection

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexer/tld/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexer.tld (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexer.tld

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexer/urlmeta/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexer.urlmeta (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexer.urlmeta

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexwriter/dummy/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexwriter.dummy (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexwriter.dummy

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/indexwriter/elastic/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.indexwriter.elastic (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.indexwriter.elastic

12 |
13 |

Interfaces

14 | 17 |

Classes

18 | 21 |
22 | 23 | 24 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/microformats/reltag/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.microformats.reltag (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.microformats.reltag

12 |
13 |

Classes

14 | 18 |
19 | 20 | 21 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/net/urlnormalizer/basic/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.net.urlnormalizer.basic (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.net.urlnormalizer.basic

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/net/urlnormalizer/host/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.net.urlnormalizer.host (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.net.urlnormalizer.host

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/net/urlnormalizer/pass/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.net.urlnormalizer.pass (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.net.urlnormalizer.pass

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/net/urlnormalizer/querystring/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.net.urlnormalizer.querystring (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.net.urlnormalizer.querystring

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/net/urlnormalizer/regex/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.net.urlnormalizer.regex (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.net.urlnormalizer.regex

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/parse/ext/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.parse.ext (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.parse.ext

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/parse/feed/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.parse.feed (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.parse.feed

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/parse/headings/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.parse.headings (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.parse.headings

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/parse/js/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.parse.js (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.parse.js

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/parse/metatags/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.parse.metatags (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.parse.metatags

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/parse/swf/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.parse.swf (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.parse.swf

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/parse/tika/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.parse.tika (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.parse.tika

12 |
13 |

Classes

14 | 19 |
20 | 21 | 22 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/parse/zip/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.parse.zip (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.parse.zip

12 |
13 |

Classes

14 | 18 |
19 | 20 | 21 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/protocol/http/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.protocol.http (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.protocol.http

12 |
13 |

Classes

14 | 18 |

Enums

19 | 22 |
23 | 24 | 25 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/scoring/depth/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.scoring.depth (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.scoring.depth

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/scoring/link/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.scoring.link (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.scoring.link

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/scoring/opic/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.scoring.opic (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.scoring.opic

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/scoring/tld/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.scoring.tld (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.scoring.tld

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/scoring/urlmeta/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.scoring.urlmeta (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.scoring.urlmeta

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/tools/arc/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.tools.arc (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.tools.arc

12 |
13 |

Classes

14 | 19 |
20 | 21 | 22 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/urlfilter/api/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.urlfilter.api (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.urlfilter.api

12 |
13 |

Classes

14 | 18 |
19 | 20 | 21 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/urlfilter/automaton/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.urlfilter.automaton (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.urlfilter.automaton

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/urlfilter/domain/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.urlfilter.domain (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.urlfilter.domain

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/urlfilter/domainblacklist/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.urlfilter.domainblacklist (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.urlfilter.domainblacklist

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/urlfilter/prefix/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.urlfilter.prefix (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.urlfilter.prefix

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/urlfilter/regex/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.urlfilter.regex (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.urlfilter.regex

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/urlfilter/suffix/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.urlfilter.suffix (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.urlfilter.suffix

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/apache/nutch/urlfilter/validator/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.apache.nutch.urlfilter.validator (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.apache.nutch.urlfilter.validator

12 |
13 |

Classes

14 | 17 |
18 | 19 | 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/org/creativecommons/nutch/package-frame.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 | org.creativecommons.nutch (apache-nutch 1.9 API) 7 | 8 | 9 | 10 | 11 |

org.creativecommons.nutch

12 |
13 |

Classes

14 | 19 |
20 | 21 | 22 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/resources/background.gif: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/CrawlScript/nutcher/085330f03955ae65ceae37967c5672bcc9a0a0dd/nutch-chinese/apache-nutch-1.9/docs/api/resources/background.gif -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/resources/tab.gif: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/CrawlScript/nutcher/085330f03955ae65ceae37967c5672bcc9a0a0dd/nutch-chinese/apache-nutch-1.9/docs/api/resources/tab.gif -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/resources/titlebar.gif: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/CrawlScript/nutcher/085330f03955ae65ceae37967c5672bcc9a0a0dd/nutch-chinese/apache-nutch-1.9/docs/api/resources/titlebar.gif -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/docs/api/resources/titlebar_end.gif: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/CrawlScript/nutcher/085330f03955ae65ceae37967c5672bcc9a0a0dd/nutch-chinese/apache-nutch-1.9/docs/api/resources/titlebar_end.gif -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/ivy/ivy-2.2.0.jar: -------------------------------------------------------------------------------- https://raw.githubusercontent.com/CrawlScript/nutcher/085330f03955ae65ceae37967c5672bcc9a0a0dd/nutch-chinese/apache-nutch-1.9/ivy/ivy-2.2.0.jar -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/java/org/apache/nutch/crawl/package.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | Crawl control code and tools to run the crawler. 4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/java/org/apache/nutch/fetcher/package.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | The Nutch robot. 4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/java/org/apache/nutch/indexer/package.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | Index content, configure and run indexing and cleaning jobs to 4 | add, update, and delete documents from an index. Two tasks are 5 | delegated to plugins: 6 |