├── LICENSE
├── README.md
├── apache-nutch-1.9-src.zip
├── articles
├── bin-crawl.md
├── run_nutch_in_ide.md
├── urlnormalizer.html
└── urlnormalizer.md
└── nutch-chinese
└── apache-nutch-1.9
├── CHANGES.txt
├── LICENSE.txt
├── NOTICE.txt
├── README.txt
├── build.xml
├── conf
├── adaptive-mimetypes.txt
├── automaton-urlfilter.txt
├── configuration.xsl
├── domain-suffixes.xml
├── domain-suffixes.xsd
├── domain-urlfilter.txt
├── domainblacklist-urlfilter.txt
├── elasticsearch.conf
├── host-urlnormalizer.txt
├── httpclient-auth.xml
├── log4j.properties
├── nutch-conf.xsl
├── nutch-default.xml
├── nutch-site.xml
├── parse-plugins.dtd
├── parse-plugins.xml
├── prefix-urlfilter.txt
├── regex-normalize.xml
├── regex-urlfilter.txt
├── schema-solr4.xml
├── schema.xml
├── solrindex-mapping.xml
├── subcollections.xml
└── suffix-urlfilter.txt
├── default.properties
├── docs
└── api
│ ├── allclasses-frame.html
│ ├── allclasses-noframe.html
│ ├── constant-values.html
│ ├── deprecated-list.html
│ ├── help-doc.html
│ ├── index-all.html
│ ├── index.html
│ ├── org
│ ├── apache
│ │ └── nutch
│ │ │ ├── analysis
│ │ │ └── lang
│ │ │ │ ├── HTMLLanguageParser.html
│ │ │ │ ├── LanguageIndexingFilter.html
│ │ │ │ ├── class-use
│ │ │ │ ├── HTMLLanguageParser.html
│ │ │ │ └── LanguageIndexingFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── collection
│ │ │ ├── CollectionManager.html
│ │ │ ├── Subcollection.html
│ │ │ ├── class-use
│ │ │ │ ├── CollectionManager.html
│ │ │ │ └── Subcollection.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ │ │ ├── crawl
│ │ │ ├── AbstractFetchSchedule.html
│ │ │ ├── AdaptiveFetchSchedule.html
│ │ │ ├── CrawlDatum.Comparator.html
│ │ │ ├── CrawlDatum.html
│ │ │ ├── CrawlDb.html
│ │ │ ├── CrawlDbFilter.html
│ │ │ ├── CrawlDbMerger.Merger.html
│ │ │ ├── CrawlDbMerger.html
│ │ │ ├── CrawlDbReader.CrawlDatumCsvOutputFormat.LineRecordWriter.html
│ │ │ ├── CrawlDbReader.CrawlDatumCsvOutputFormat.html
│ │ │ ├── CrawlDbReader.CrawlDbDumpMapper.html
│ │ │ ├── CrawlDbReader.CrawlDbStatCombiner.html
│ │ │ ├── CrawlDbReader.CrawlDbStatMapper.html
│ │ │ ├── CrawlDbReader.CrawlDbStatReducer.html
│ │ │ ├── CrawlDbReader.CrawlDbTopNMapper.html
│ │ │ ├── CrawlDbReader.CrawlDbTopNReducer.html
│ │ │ ├── CrawlDbReader.html
│ │ │ ├── CrawlDbReducer.html
│ │ │ ├── DeduplicationJob.DBFilter.html
│ │ │ ├── DeduplicationJob.DedupReducer.html
│ │ │ ├── DeduplicationJob.StatusUpdateReducer.html
│ │ │ ├── DeduplicationJob.html
│ │ │ ├── DefaultFetchSchedule.html
│ │ │ ├── FetchSchedule.html
│ │ │ ├── FetchScheduleFactory.html
│ │ │ ├── Generator.CrawlDbUpdater.html
│ │ │ ├── Generator.DecreasingFloatComparator.html
│ │ │ ├── Generator.GeneratorOutputFormat.html
│ │ │ ├── Generator.HashComparator.html
│ │ │ ├── Generator.PartitionReducer.html
│ │ │ ├── Generator.Selector.html
│ │ │ ├── Generator.SelectorEntry.html
│ │ │ ├── Generator.SelectorInverseMapper.html
│ │ │ ├── Generator.html
│ │ │ ├── Injector.InjectMapper.html
│ │ │ ├── Injector.InjectReducer.html
│ │ │ ├── Injector.html
│ │ │ ├── Inlink.html
│ │ │ ├── Inlinks.html
│ │ │ ├── LinkDb.html
│ │ │ ├── LinkDbFilter.html
│ │ │ ├── LinkDbMerger.html
│ │ │ ├── LinkDbReader.html
│ │ │ ├── MD5Signature.html
│ │ │ ├── MapWritable.html
│ │ │ ├── MimeAdaptiveFetchSchedule.html
│ │ │ ├── NutchWritable.html
│ │ │ ├── Signature.html
│ │ │ ├── SignatureComparator.html
│ │ │ ├── SignatureFactory.html
│ │ │ ├── TextProfileSignature.html
│ │ │ ├── URLPartitioner.html
│ │ │ ├── class-use
│ │ │ │ ├── AbstractFetchSchedule.html
│ │ │ │ ├── AdaptiveFetchSchedule.html
│ │ │ │ ├── CrawlDatum.Comparator.html
│ │ │ │ ├── CrawlDatum.html
│ │ │ │ ├── CrawlDb.html
│ │ │ │ ├── CrawlDbFilter.html
│ │ │ │ ├── CrawlDbMerger.Merger.html
│ │ │ │ ├── CrawlDbMerger.html
│ │ │ │ ├── CrawlDbReader.CrawlDatumCsvOutputFormat.LineRecordWriter.html
│ │ │ │ ├── CrawlDbReader.CrawlDatumCsvOutputFormat.html
│ │ │ │ ├── CrawlDbReader.CrawlDbDumpMapper.html
│ │ │ │ ├── CrawlDbReader.CrawlDbStatCombiner.html
│ │ │ │ ├── CrawlDbReader.CrawlDbStatMapper.html
│ │ │ │ ├── CrawlDbReader.CrawlDbStatReducer.html
│ │ │ │ ├── CrawlDbReader.CrawlDbTopNMapper.html
│ │ │ │ ├── CrawlDbReader.CrawlDbTopNReducer.html
│ │ │ │ ├── CrawlDbReader.html
│ │ │ │ ├── CrawlDbReducer.html
│ │ │ │ ├── DeduplicationJob.DBFilter.html
│ │ │ │ ├── DeduplicationJob.DedupReducer.html
│ │ │ │ ├── DeduplicationJob.StatusUpdateReducer.html
│ │ │ │ ├── DeduplicationJob.html
│ │ │ │ ├── DefaultFetchSchedule.html
│ │ │ │ ├── FetchSchedule.html
│ │ │ │ ├── FetchScheduleFactory.html
│ │ │ │ ├── Generator.CrawlDbUpdater.html
│ │ │ │ ├── Generator.DecreasingFloatComparator.html
│ │ │ │ ├── Generator.GeneratorOutputFormat.html
│ │ │ │ ├── Generator.HashComparator.html
│ │ │ │ ├── Generator.PartitionReducer.html
│ │ │ │ ├── Generator.Selector.html
│ │ │ │ ├── Generator.SelectorEntry.html
│ │ │ │ ├── Generator.SelectorInverseMapper.html
│ │ │ │ ├── Generator.html
│ │ │ │ ├── Injector.InjectMapper.html
│ │ │ │ ├── Injector.InjectReducer.html
│ │ │ │ ├── Injector.html
│ │ │ │ ├── Inlink.html
│ │ │ │ ├── Inlinks.html
│ │ │ │ ├── LinkDb.html
│ │ │ │ ├── LinkDbFilter.html
│ │ │ │ ├── LinkDbMerger.html
│ │ │ │ ├── LinkDbReader.html
│ │ │ │ ├── MD5Signature.html
│ │ │ │ ├── MapWritable.html
│ │ │ │ ├── MimeAdaptiveFetchSchedule.html
│ │ │ │ ├── NutchWritable.html
│ │ │ │ ├── Signature.html
│ │ │ │ ├── SignatureComparator.html
│ │ │ │ ├── SignatureFactory.html
│ │ │ │ ├── TextProfileSignature.html
│ │ │ │ └── URLPartitioner.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ │ │ ├── fetcher
│ │ │ ├── Fetcher.InputFormat.html
│ │ │ ├── Fetcher.html
│ │ │ ├── FetcherOutputFormat.html
│ │ │ ├── OldFetcher.InputFormat.html
│ │ │ ├── OldFetcher.html
│ │ │ ├── class-use
│ │ │ │ ├── Fetcher.InputFormat.html
│ │ │ │ ├── Fetcher.html
│ │ │ │ ├── FetcherOutputFormat.html
│ │ │ │ ├── OldFetcher.InputFormat.html
│ │ │ │ └── OldFetcher.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ │ │ ├── indexer
│ │ │ ├── CleaningJob.DBFilter.html
│ │ │ ├── CleaningJob.DeleterReducer.html
│ │ │ ├── CleaningJob.html
│ │ │ ├── IndexWriter.html
│ │ │ ├── IndexWriters.html
│ │ │ ├── IndexerMapReduce.html
│ │ │ ├── IndexerOutputFormat.html
│ │ │ ├── IndexingException.html
│ │ │ ├── IndexingFilter.html
│ │ │ ├── IndexingFilters.html
│ │ │ ├── IndexingFiltersChecker.html
│ │ │ ├── IndexingJob.html
│ │ │ ├── NutchDocument.html
│ │ │ ├── NutchField.html
│ │ │ ├── NutchIndexAction.html
│ │ │ ├── anchor
│ │ │ │ ├── AnchorIndexingFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── AnchorIndexingFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── basic
│ │ │ │ ├── BasicIndexingFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── BasicIndexingFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── class-use
│ │ │ │ ├── CleaningJob.DBFilter.html
│ │ │ │ ├── CleaningJob.DeleterReducer.html
│ │ │ │ ├── CleaningJob.html
│ │ │ │ ├── IndexWriter.html
│ │ │ │ ├── IndexWriters.html
│ │ │ │ ├── IndexerMapReduce.html
│ │ │ │ ├── IndexerOutputFormat.html
│ │ │ │ ├── IndexingException.html
│ │ │ │ ├── IndexingFilter.html
│ │ │ │ ├── IndexingFilters.html
│ │ │ │ ├── IndexingFiltersChecker.html
│ │ │ │ ├── IndexingJob.html
│ │ │ │ ├── NutchDocument.html
│ │ │ │ ├── NutchField.html
│ │ │ │ └── NutchIndexAction.html
│ │ │ ├── feed
│ │ │ │ ├── FeedIndexingFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── FeedIndexingFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── metadata
│ │ │ │ ├── MetadataIndexer.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── MetadataIndexer.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── more
│ │ │ │ ├── MoreIndexingFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── MoreIndexingFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ ├── package-use.html
│ │ │ ├── staticfield
│ │ │ │ ├── StaticFieldIndexer.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── StaticFieldIndexer.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── subcollection
│ │ │ │ ├── SubcollectionIndexingFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── SubcollectionIndexingFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── tld
│ │ │ │ ├── TLDIndexingFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── TLDIndexingFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ └── urlmeta
│ │ │ │ ├── URLMetaIndexingFilter.html
│ │ │ │ ├── class-use
│ │ │ │ └── URLMetaIndexingFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── indexwriter
│ │ │ ├── dummy
│ │ │ │ ├── DummyIndexWriter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── DummyIndexWriter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── elastic
│ │ │ │ ├── ElasticConstants.html
│ │ │ │ ├── ElasticIndexWriter.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── ElasticConstants.html
│ │ │ │ │ └── ElasticIndexWriter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ └── solr
│ │ │ │ ├── SolrConstants.html
│ │ │ │ ├── SolrIndexWriter.html
│ │ │ │ ├── SolrMappingReader.html
│ │ │ │ ├── SolrUtils.html
│ │ │ │ ├── class-use
│ │ │ │ ├── SolrConstants.html
│ │ │ │ ├── SolrIndexWriter.html
│ │ │ │ ├── SolrMappingReader.html
│ │ │ │ └── SolrUtils.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── metadata
│ │ │ ├── CreativeCommons.html
│ │ │ ├── DublinCore.html
│ │ │ ├── Feed.html
│ │ │ ├── HttpHeaders.html
│ │ │ ├── MetaWrapper.html
│ │ │ ├── Metadata.html
│ │ │ ├── Nutch.html
│ │ │ ├── SpellCheckedMetadata.html
│ │ │ ├── class-use
│ │ │ │ ├── CreativeCommons.html
│ │ │ │ ├── DublinCore.html
│ │ │ │ ├── Feed.html
│ │ │ │ ├── HttpHeaders.html
│ │ │ │ ├── MetaWrapper.html
│ │ │ │ ├── Metadata.html
│ │ │ │ ├── Nutch.html
│ │ │ │ └── SpellCheckedMetadata.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ │ │ ├── microformats
│ │ │ └── reltag
│ │ │ │ ├── RelTagIndexingFilter.html
│ │ │ │ ├── RelTagParser.html
│ │ │ │ ├── class-use
│ │ │ │ ├── RelTagIndexingFilter.html
│ │ │ │ └── RelTagParser.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── net
│ │ │ ├── URLFilter.html
│ │ │ ├── URLFilterChecker.html
│ │ │ ├── URLFilterException.html
│ │ │ ├── URLFilters.html
│ │ │ ├── URLNormalizer.html
│ │ │ ├── URLNormalizerChecker.html
│ │ │ ├── URLNormalizers.html
│ │ │ ├── class-use
│ │ │ │ ├── URLFilter.html
│ │ │ │ ├── URLFilterChecker.html
│ │ │ │ ├── URLFilterException.html
│ │ │ │ ├── URLFilters.html
│ │ │ │ ├── URLNormalizer.html
│ │ │ │ ├── URLNormalizerChecker.html
│ │ │ │ └── URLNormalizers.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ ├── package-use.html
│ │ │ ├── protocols
│ │ │ │ ├── HttpDateFormat.html
│ │ │ │ ├── ProtocolException.html
│ │ │ │ ├── Response.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── HttpDateFormat.html
│ │ │ │ │ ├── ProtocolException.html
│ │ │ │ │ └── Response.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ └── urlnormalizer
│ │ │ │ ├── basic
│ │ │ │ ├── BasicURLNormalizer.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── BasicURLNormalizer.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ │ ├── host
│ │ │ │ ├── HostURLNormalizer.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── HostURLNormalizer.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ │ ├── pass
│ │ │ │ ├── PassURLNormalizer.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── PassURLNormalizer.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ │ ├── querystring
│ │ │ │ ├── QuerystringURLNormalizer.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── QuerystringURLNormalizer.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ │ └── regex
│ │ │ │ ├── RegexURLNormalizer.html
│ │ │ │ ├── class-use
│ │ │ │ └── RegexURLNormalizer.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── parse
│ │ │ ├── HTMLMetaTags.html
│ │ │ ├── HtmlParseFilter.html
│ │ │ ├── HtmlParseFilters.html
│ │ │ ├── Outlink.html
│ │ │ ├── OutlinkExtractor.html
│ │ │ ├── Parse.html
│ │ │ ├── ParseData.html
│ │ │ ├── ParseException.html
│ │ │ ├── ParseImpl.html
│ │ │ ├── ParseOutputFormat.html
│ │ │ ├── ParseResult.html
│ │ │ ├── ParseSegment.html
│ │ │ ├── ParseStatus.html
│ │ │ ├── ParseText.html
│ │ │ ├── ParseUtil.html
│ │ │ ├── Parser.html
│ │ │ ├── ParserChecker.html
│ │ │ ├── ParserFactory.html
│ │ │ ├── ParserNotFound.html
│ │ │ ├── class-use
│ │ │ │ ├── HTMLMetaTags.html
│ │ │ │ ├── HtmlParseFilter.html
│ │ │ │ ├── HtmlParseFilters.html
│ │ │ │ ├── Outlink.html
│ │ │ │ ├── OutlinkExtractor.html
│ │ │ │ ├── Parse.html
│ │ │ │ ├── ParseData.html
│ │ │ │ ├── ParseException.html
│ │ │ │ ├── ParseImpl.html
│ │ │ │ ├── ParseOutputFormat.html
│ │ │ │ ├── ParseResult.html
│ │ │ │ ├── ParseSegment.html
│ │ │ │ ├── ParseStatus.html
│ │ │ │ ├── ParseText.html
│ │ │ │ ├── ParseUtil.html
│ │ │ │ ├── Parser.html
│ │ │ │ ├── ParserChecker.html
│ │ │ │ ├── ParserFactory.html
│ │ │ │ └── ParserNotFound.html
│ │ │ ├── ext
│ │ │ │ ├── ExtParser.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── ExtParser.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── feed
│ │ │ │ ├── FeedParser.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── FeedParser.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── headings
│ │ │ │ ├── HeadingsParseFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── HeadingsParseFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── html
│ │ │ │ ├── DOMBuilder.html
│ │ │ │ ├── DOMContentUtils.LinkParams.html
│ │ │ │ ├── DOMContentUtils.html
│ │ │ │ ├── HTMLMetaProcessor.html
│ │ │ │ ├── HtmlParser.html
│ │ │ │ ├── XMLCharacterRecognizer.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── DOMBuilder.html
│ │ │ │ │ ├── DOMContentUtils.LinkParams.html
│ │ │ │ │ ├── DOMContentUtils.html
│ │ │ │ │ ├── HTMLMetaProcessor.html
│ │ │ │ │ ├── HtmlParser.html
│ │ │ │ │ └── XMLCharacterRecognizer.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── js
│ │ │ │ ├── JSParseFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── JSParseFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── metatags
│ │ │ │ ├── MetaTagsParser.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── MetaTagsParser.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ ├── package-use.html
│ │ │ ├── swf
│ │ │ │ ├── SWFParser.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── SWFParser.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── tika
│ │ │ │ ├── DOMContentUtils.html
│ │ │ │ ├── HTMLMetaProcessor.html
│ │ │ │ ├── TikaParser.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── DOMContentUtils.html
│ │ │ │ │ ├── HTMLMetaProcessor.html
│ │ │ │ │ └── TikaParser.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ └── zip
│ │ │ │ ├── ZipParser.html
│ │ │ │ ├── ZipTextExtractor.html
│ │ │ │ ├── class-use
│ │ │ │ ├── ZipParser.html
│ │ │ │ └── ZipTextExtractor.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── plugin
│ │ │ ├── CircularDependencyException.html
│ │ │ ├── Extension.html
│ │ │ ├── ExtensionPoint.html
│ │ │ ├── MissingDependencyException.html
│ │ │ ├── Pluggable.html
│ │ │ ├── Plugin.html
│ │ │ ├── PluginClassLoader.html
│ │ │ ├── PluginDescriptor.html
│ │ │ ├── PluginManifestParser.html
│ │ │ ├── PluginRepository.html
│ │ │ ├── PluginRuntimeException.html
│ │ │ ├── class-use
│ │ │ │ ├── CircularDependencyException.html
│ │ │ │ ├── Extension.html
│ │ │ │ ├── ExtensionPoint.html
│ │ │ │ ├── MissingDependencyException.html
│ │ │ │ ├── Pluggable.html
│ │ │ │ ├── Plugin.html
│ │ │ │ ├── PluginClassLoader.html
│ │ │ │ ├── PluginDescriptor.html
│ │ │ │ ├── PluginManifestParser.html
│ │ │ │ ├── PluginRepository.html
│ │ │ │ └── PluginRuntimeException.html
│ │ │ ├── doc-files
│ │ │ │ └── plugin.dtd
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ │ │ ├── protocol
│ │ │ ├── Content.html
│ │ │ ├── Protocol.html
│ │ │ ├── ProtocolException.html
│ │ │ ├── ProtocolFactory.html
│ │ │ ├── ProtocolNotFound.html
│ │ │ ├── ProtocolOutput.html
│ │ │ ├── ProtocolStatus.html
│ │ │ ├── RobotRules.html
│ │ │ ├── RobotRulesParser.html
│ │ │ ├── class-use
│ │ │ │ ├── Content.html
│ │ │ │ ├── Protocol.html
│ │ │ │ ├── ProtocolException.html
│ │ │ │ ├── ProtocolFactory.html
│ │ │ │ ├── ProtocolNotFound.html
│ │ │ │ ├── ProtocolOutput.html
│ │ │ │ ├── ProtocolStatus.html
│ │ │ │ ├── RobotRules.html
│ │ │ │ └── RobotRulesParser.html
│ │ │ ├── file
│ │ │ │ ├── File.html
│ │ │ │ ├── FileError.html
│ │ │ │ ├── FileException.html
│ │ │ │ ├── FileResponse.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── File.html
│ │ │ │ │ ├── FileError.html
│ │ │ │ │ ├── FileException.html
│ │ │ │ │ └── FileResponse.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── ftp
│ │ │ │ ├── Client.html
│ │ │ │ ├── Ftp.html
│ │ │ │ ├── FtpError.html
│ │ │ │ ├── FtpException.html
│ │ │ │ ├── FtpExceptionBadSystResponse.html
│ │ │ │ ├── FtpExceptionCanNotHaveDataConnection.html
│ │ │ │ ├── FtpExceptionControlClosedByForcedDataClose.html
│ │ │ │ ├── FtpExceptionUnknownForcedDataClose.html
│ │ │ │ ├── FtpResponse.html
│ │ │ │ ├── FtpRobotRulesParser.html
│ │ │ │ ├── PrintCommandListener.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── Client.html
│ │ │ │ │ ├── Ftp.html
│ │ │ │ │ ├── FtpError.html
│ │ │ │ │ ├── FtpException.html
│ │ │ │ │ ├── FtpExceptionBadSystResponse.html
│ │ │ │ │ ├── FtpExceptionCanNotHaveDataConnection.html
│ │ │ │ │ ├── FtpExceptionControlClosedByForcedDataClose.html
│ │ │ │ │ ├── FtpExceptionUnknownForcedDataClose.html
│ │ │ │ │ ├── FtpResponse.html
│ │ │ │ │ ├── FtpRobotRulesParser.html
│ │ │ │ │ └── PrintCommandListener.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── http
│ │ │ │ ├── Http.html
│ │ │ │ ├── HttpResponse.Scheme.html
│ │ │ │ ├── HttpResponse.html
│ │ │ │ ├── api
│ │ │ │ │ ├── BlockedException.html
│ │ │ │ │ ├── HttpBase.html
│ │ │ │ │ ├── HttpException.html
│ │ │ │ │ ├── HttpRobotRulesParser.html
│ │ │ │ │ ├── class-use
│ │ │ │ │ │ ├── BlockedException.html
│ │ │ │ │ │ ├── HttpBase.html
│ │ │ │ │ │ ├── HttpException.html
│ │ │ │ │ │ └── HttpRobotRulesParser.html
│ │ │ │ │ ├── package-frame.html
│ │ │ │ │ ├── package-summary.html
│ │ │ │ │ ├── package-tree.html
│ │ │ │ │ └── package-use.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── Http.html
│ │ │ │ │ ├── HttpResponse.Scheme.html
│ │ │ │ │ └── HttpResponse.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── httpclient
│ │ │ │ ├── DummySSLProtocolSocketFactory.html
│ │ │ │ ├── DummyX509TrustManager.html
│ │ │ │ ├── Http.html
│ │ │ │ ├── HttpAuthentication.html
│ │ │ │ ├── HttpAuthenticationException.html
│ │ │ │ ├── HttpAuthenticationFactory.html
│ │ │ │ ├── HttpBasicAuthentication.html
│ │ │ │ ├── HttpResponse.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── DummySSLProtocolSocketFactory.html
│ │ │ │ │ ├── DummyX509TrustManager.html
│ │ │ │ │ ├── Http.html
│ │ │ │ │ ├── HttpAuthentication.html
│ │ │ │ │ ├── HttpAuthenticationException.html
│ │ │ │ │ ├── HttpAuthenticationFactory.html
│ │ │ │ │ ├── HttpBasicAuthentication.html
│ │ │ │ │ └── HttpResponse.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ │ │ ├── scoring
│ │ │ ├── AbstractScoringFilter.html
│ │ │ ├── ScoringFilter.html
│ │ │ ├── ScoringFilterException.html
│ │ │ ├── ScoringFilters.html
│ │ │ ├── class-use
│ │ │ │ ├── AbstractScoringFilter.html
│ │ │ │ ├── ScoringFilter.html
│ │ │ │ ├── ScoringFilterException.html
│ │ │ │ └── ScoringFilters.html
│ │ │ ├── depth
│ │ │ │ ├── DepthScoringFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── DepthScoringFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── link
│ │ │ │ ├── LinkAnalysisScoringFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── LinkAnalysisScoringFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── opic
│ │ │ │ ├── OPICScoringFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── OPICScoringFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ ├── package-use.html
│ │ │ ├── tld
│ │ │ │ ├── TLDScoringFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── TLDScoringFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── urlmeta
│ │ │ │ ├── URLMetaScoringFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── URLMetaScoringFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ └── webgraph
│ │ │ │ ├── LinkDatum.html
│ │ │ │ ├── LinkDumper.Inverter.html
│ │ │ │ ├── LinkDumper.LinkNode.html
│ │ │ │ ├── LinkDumper.LinkNodes.html
│ │ │ │ ├── LinkDumper.Merger.html
│ │ │ │ ├── LinkDumper.Reader.html
│ │ │ │ ├── LinkDumper.html
│ │ │ │ ├── LinkRank.html
│ │ │ │ ├── LoopReader.html
│ │ │ │ ├── Loops.Finalizer.html
│ │ │ │ ├── Loops.Initializer.html
│ │ │ │ ├── Loops.LoopSet.html
│ │ │ │ ├── Loops.Looper.html
│ │ │ │ ├── Loops.Route.html
│ │ │ │ ├── Loops.html
│ │ │ │ ├── Node.html
│ │ │ │ ├── NodeDumper.Dumper.html
│ │ │ │ ├── NodeDumper.Sorter.html
│ │ │ │ ├── NodeDumper.html
│ │ │ │ ├── NodeReader.html
│ │ │ │ ├── ScoreUpdater.html
│ │ │ │ ├── WebGraph.OutlinkDb.html
│ │ │ │ ├── WebGraph.html
│ │ │ │ ├── class-use
│ │ │ │ ├── LinkDatum.html
│ │ │ │ ├── LinkDumper.Inverter.html
│ │ │ │ ├── LinkDumper.LinkNode.html
│ │ │ │ ├── LinkDumper.LinkNodes.html
│ │ │ │ ├── LinkDumper.Merger.html
│ │ │ │ ├── LinkDumper.Reader.html
│ │ │ │ ├── LinkDumper.html
│ │ │ │ ├── LinkRank.html
│ │ │ │ ├── LoopReader.html
│ │ │ │ ├── Loops.Finalizer.html
│ │ │ │ ├── Loops.Initializer.html
│ │ │ │ ├── Loops.LoopSet.html
│ │ │ │ ├── Loops.Looper.html
│ │ │ │ ├── Loops.Route.html
│ │ │ │ ├── Loops.html
│ │ │ │ ├── Node.html
│ │ │ │ ├── NodeDumper.Dumper.html
│ │ │ │ ├── NodeDumper.Sorter.html
│ │ │ │ ├── NodeDumper.html
│ │ │ │ ├── NodeReader.html
│ │ │ │ ├── ScoreUpdater.html
│ │ │ │ ├── WebGraph.OutlinkDb.html
│ │ │ │ └── WebGraph.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── segment
│ │ │ ├── ContentAsTextInputFormat.html
│ │ │ ├── SegmentMergeFilter.html
│ │ │ ├── SegmentMergeFilters.html
│ │ │ ├── SegmentMerger.ObjectInputFormat.html
│ │ │ ├── SegmentMerger.SegmentOutputFormat.html
│ │ │ ├── SegmentMerger.html
│ │ │ ├── SegmentPart.html
│ │ │ ├── SegmentReader.InputCompatMapper.html
│ │ │ ├── SegmentReader.SegmentReaderStats.html
│ │ │ ├── SegmentReader.TextOutputFormat.html
│ │ │ ├── SegmentReader.html
│ │ │ ├── class-use
│ │ │ │ ├── ContentAsTextInputFormat.html
│ │ │ │ ├── SegmentMergeFilter.html
│ │ │ │ ├── SegmentMergeFilters.html
│ │ │ │ ├── SegmentMerger.ObjectInputFormat.html
│ │ │ │ ├── SegmentMerger.SegmentOutputFormat.html
│ │ │ │ ├── SegmentMerger.html
│ │ │ │ ├── SegmentPart.html
│ │ │ │ ├── SegmentReader.InputCompatMapper.html
│ │ │ │ ├── SegmentReader.SegmentReaderStats.html
│ │ │ │ ├── SegmentReader.TextOutputFormat.html
│ │ │ │ └── SegmentReader.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ │ │ ├── tools
│ │ │ ├── Benchmark.BenchmarkResults.html
│ │ │ ├── Benchmark.html
│ │ │ ├── DmozParser.html
│ │ │ ├── FreeGenerator.FG.html
│ │ │ ├── FreeGenerator.html
│ │ │ ├── ResolveUrls.html
│ │ │ ├── arc
│ │ │ │ ├── ArcInputFormat.html
│ │ │ │ ├── ArcRecordReader.html
│ │ │ │ ├── ArcSegmentCreator.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── ArcInputFormat.html
│ │ │ │ │ ├── ArcRecordReader.html
│ │ │ │ │ └── ArcSegmentCreator.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── class-use
│ │ │ │ ├── Benchmark.BenchmarkResults.html
│ │ │ │ ├── Benchmark.html
│ │ │ │ ├── DmozParser.html
│ │ │ │ ├── FreeGenerator.FG.html
│ │ │ │ ├── FreeGenerator.html
│ │ │ │ └── ResolveUrls.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ │ │ ├── urlfilter
│ │ │ ├── api
│ │ │ │ ├── RegexRule.html
│ │ │ │ ├── RegexURLFilterBase.html
│ │ │ │ ├── class-use
│ │ │ │ │ ├── RegexRule.html
│ │ │ │ │ └── RegexURLFilterBase.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── automaton
│ │ │ │ ├── AutomatonURLFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── AutomatonURLFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── domain
│ │ │ │ ├── DomainURLFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── DomainURLFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── domainblacklist
│ │ │ │ ├── DomainBlacklistURLFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── DomainBlacklistURLFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── prefix
│ │ │ │ ├── PrefixURLFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── PrefixURLFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── regex
│ │ │ │ ├── RegexURLFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── RegexURLFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ ├── suffix
│ │ │ │ ├── SuffixURLFilter.html
│ │ │ │ ├── class-use
│ │ │ │ │ └── SuffixURLFilter.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ └── validator
│ │ │ │ ├── UrlValidator.html
│ │ │ │ ├── class-use
│ │ │ │ └── UrlValidator.html
│ │ │ │ ├── package-frame.html
│ │ │ │ ├── package-summary.html
│ │ │ │ ├── package-tree.html
│ │ │ │ └── package-use.html
│ │ │ └── util
│ │ │ ├── CommandRunner.html
│ │ │ ├── DeflateUtils.html
│ │ │ ├── DomUtil.html
│ │ │ ├── EncodingDetector.html
│ │ │ ├── FSUtils.html
│ │ │ ├── GZIPUtils.html
│ │ │ ├── GenericWritableConfigurable.html
│ │ │ ├── HadoopFSUtil.html
│ │ │ ├── LockUtil.html
│ │ │ ├── MimeUtil.html
│ │ │ ├── NodeWalker.html
│ │ │ ├── NutchConfiguration.html
│ │ │ ├── NutchJob.html
│ │ │ ├── ObjectCache.html
│ │ │ ├── PrefixStringMatcher.html
│ │ │ ├── StringUtil.html
│ │ │ ├── SuffixStringMatcher.html
│ │ │ ├── TimingUtil.html
│ │ │ ├── TrieStringMatcher.TrieNode.html
│ │ │ ├── TrieStringMatcher.html
│ │ │ ├── URLUtil.html
│ │ │ ├── class-use
│ │ │ ├── CommandRunner.html
│ │ │ ├── DeflateUtils.html
│ │ │ ├── DomUtil.html
│ │ │ ├── EncodingDetector.html
│ │ │ ├── FSUtils.html
│ │ │ ├── GZIPUtils.html
│ │ │ ├── GenericWritableConfigurable.html
│ │ │ ├── HadoopFSUtil.html
│ │ │ ├── LockUtil.html
│ │ │ ├── MimeUtil.html
│ │ │ ├── NodeWalker.html
│ │ │ ├── NutchConfiguration.html
│ │ │ ├── NutchJob.html
│ │ │ ├── ObjectCache.html
│ │ │ ├── PrefixStringMatcher.html
│ │ │ ├── StringUtil.html
│ │ │ ├── SuffixStringMatcher.html
│ │ │ ├── TimingUtil.html
│ │ │ ├── TrieStringMatcher.TrieNode.html
│ │ │ ├── TrieStringMatcher.html
│ │ │ └── URLUtil.html
│ │ │ ├── domain
│ │ │ ├── DomainStatistics.DomainStatisticsCombiner.html
│ │ │ ├── DomainStatistics.MyCounter.html
│ │ │ ├── DomainStatistics.html
│ │ │ ├── DomainSuffix.Status.html
│ │ │ ├── DomainSuffix.html
│ │ │ ├── DomainSuffixes.html
│ │ │ ├── TopLevelDomain.Type.html
│ │ │ ├── TopLevelDomain.html
│ │ │ ├── class-use
│ │ │ │ ├── DomainStatistics.DomainStatisticsCombiner.html
│ │ │ │ ├── DomainStatistics.MyCounter.html
│ │ │ │ ├── DomainStatistics.html
│ │ │ │ ├── DomainSuffix.Status.html
│ │ │ │ ├── DomainSuffix.html
│ │ │ │ ├── DomainSuffixes.html
│ │ │ │ ├── TopLevelDomain.Type.html
│ │ │ │ └── TopLevelDomain.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ │ │ ├── package-frame.html
│ │ │ ├── package-summary.html
│ │ │ ├── package-tree.html
│ │ │ └── package-use.html
│ └── creativecommons
│ │ └── nutch
│ │ ├── CCIndexingFilter.html
│ │ ├── CCParseFilter.Walker.html
│ │ ├── CCParseFilter.html
│ │ ├── class-use
│ │ ├── CCIndexingFilter.html
│ │ ├── CCParseFilter.Walker.html
│ │ └── CCParseFilter.html
│ │ ├── package-frame.html
│ │ ├── package-summary.html
│ │ ├── package-tree.html
│ │ └── package-use.html
│ ├── overview-frame.html
│ ├── overview-summary.html
│ ├── overview-tree.html
│ ├── package-list
│ ├── resources
│ ├── background.gif
│ ├── tab.gif
│ ├── titlebar.gif
│ └── titlebar_end.gif
│ ├── serialized-form.html
│ └── stylesheet.css
├── ivy
├── ivy-2.2.0.jar
├── ivy-configurations.xml
├── ivy.xml
├── ivysettings.xml
└── mvn.template
├── lib
└── native
│ └── README.txt
└── src
├── bin
├── crawl
└── nutch
├── java
├── org
│ └── apache
│ │ └── nutch
│ │ ├── crawl
│ │ ├── AbstractFetchSchedule.java
│ │ ├── AdaptiveFetchSchedule.java
│ │ ├── CrawlDatum.java
│ │ ├── CrawlDb.java
│ │ ├── CrawlDbFilter.java
│ │ ├── CrawlDbMerger.java
│ │ ├── CrawlDbReader.java
│ │ ├── CrawlDbReducer.java
│ │ ├── DeduplicationJob.java
│ │ ├── DefaultFetchSchedule.java
│ │ ├── FetchSchedule.java
│ │ ├── FetchScheduleFactory.java
│ │ ├── Generator.java
│ │ ├── Injector.java
│ │ ├── Inlink.java
│ │ ├── Inlinks.java
│ │ ├── LinkDb.java
│ │ ├── LinkDbFilter.java
│ │ ├── LinkDbMerger.java
│ │ ├── LinkDbReader.java
│ │ ├── MD5Signature.java
│ │ ├── MapWritable.java
│ │ ├── MimeAdaptiveFetchSchedule.java
│ │ ├── NutchWritable.java
│ │ ├── Signature.java
│ │ ├── SignatureComparator.java
│ │ ├── SignatureFactory.java
│ │ ├── TextProfileSignature.java
│ │ ├── URLPartitioner.java
│ │ └── package.html
│ │ ├── fetcher
│ │ ├── Fetcher.java
│ │ ├── FetcherOutputFormat.java
│ │ ├── OldFetcher.java
│ │ └── package.html
│ │ ├── indexer
│ │ ├── CleaningJob.java
│ │ ├── IndexWriter.java
│ │ ├── IndexWriters.java
│ │ ├── IndexerMapReduce.java
│ │ ├── IndexerOutputFormat.java
│ │ ├── IndexingException.java
│ │ ├── IndexingFilter.java
│ │ ├── IndexingFilters.java
│ │ ├── IndexingFiltersChecker.java
│ │ ├── IndexingJob.java
│ │ ├── NutchDocument.java
│ │ ├── NutchField.java
│ │ ├── NutchIndexAction.java
│ │ └── package.html
│ │ ├── metadata
│ │ ├── CreativeCommons.java
│ │ ├── DublinCore.java
│ │ ├── Feed.java
│ │ ├── HttpHeaders.java
│ │ ├── MetaWrapper.java
│ │ ├── Metadata.java
│ │ ├── Nutch.java
│ │ ├── SpellCheckedMetadata.java
│ │ └── package.html
│ │ ├── net
│ │ ├── URLFilter.java
│ │ ├── URLFilterChecker.java
│ │ ├── URLFilterException.java
│ │ ├── URLFilters.java
│ │ ├── URLNormalizer.java
│ │ ├── URLNormalizerChecker.java
│ │ ├── URLNormalizers.java
│ │ ├── package-info.java
│ │ └── protocols
│ │ │ ├── HttpDateFormat.java
│ │ │ ├── ProtocolException.java
│ │ │ ├── Response.java
│ │ │ └── package-info.java
│ │ ├── parse
│ │ ├── HTMLMetaTags.java
│ │ ├── HtmlParseFilter.java
│ │ ├── HtmlParseFilters.java
│ │ ├── Outlink.java
│ │ ├── OutlinkExtractor.java
│ │ ├── Parse.java
│ │ ├── ParseCallable.java
│ │ ├── ParseData.java
│ │ ├── ParseException.java
│ │ ├── ParseImpl.java
│ │ ├── ParseOutputFormat.java
│ │ ├── ParsePluginList.java
│ │ ├── ParsePluginsReader.java
│ │ ├── ParseResult.java
│ │ ├── ParseSegment.java
│ │ ├── ParseStatus.java
│ │ ├── ParseText.java
│ │ ├── ParseUtil.java
│ │ ├── Parser.java
│ │ ├── ParserChecker.java
│ │ ├── ParserFactory.java
│ │ ├── ParserNotFound.java
│ │ └── package-info.java
│ │ ├── plugin
│ │ ├── CircularDependencyException.java
│ │ ├── Extension.java
│ │ ├── ExtensionPoint.java
│ │ ├── MissingDependencyException.java
│ │ ├── Pluggable.java
│ │ ├── Plugin.java
│ │ ├── PluginClassLoader.java
│ │ ├── PluginDescriptor.java
│ │ ├── PluginManifestParser.java
│ │ ├── PluginRepository.java
│ │ ├── PluginRuntimeException.java
│ │ └── package.html
│ │ ├── protocol
│ │ ├── Content.java
│ │ ├── Protocol.java
│ │ ├── ProtocolException.java
│ │ ├── ProtocolFactory.java
│ │ ├── ProtocolNotFound.java
│ │ ├── ProtocolOutput.java
│ │ ├── ProtocolStatus.java
│ │ ├── RobotRules.java
│ │ ├── RobotRulesParser.java
│ │ └── package-info.java
│ │ ├── scoring
│ │ ├── AbstractScoringFilter.java
│ │ ├── ScoringFilter.java
│ │ ├── ScoringFilterException.java
│ │ ├── ScoringFilters.java
│ │ ├── package-info.java
│ │ └── webgraph
│ │ │ ├── LinkDatum.java
│ │ │ ├── LinkDumper.java
│ │ │ ├── LinkRank.java
│ │ │ ├── LoopReader.java
│ │ │ ├── Loops.java
│ │ │ ├── Node.java
│ │ │ ├── NodeDumper.java
│ │ │ ├── NodeReader.java
│ │ │ ├── ScoreUpdater.java
│ │ │ ├── WebGraph.java
│ │ │ └── package-info.java
│ │ ├── segment
│ │ ├── ContentAsTextInputFormat.java
│ │ ├── SegmentMergeFilter.java
│ │ ├── SegmentMergeFilters.java
│ │ ├── SegmentMerger.java
│ │ ├── SegmentPart.java
│ │ ├── SegmentReader.java
│ │ └── package-info.java
│ │ ├── tools
│ │ ├── Benchmark.java
│ │ ├── DmozParser.java
│ │ ├── FreeGenerator.java
│ │ ├── ResolveUrls.java
│ │ ├── arc
│ │ │ ├── ArcInputFormat.java
│ │ │ ├── ArcRecordReader.java
│ │ │ ├── ArcSegmentCreator.java
│ │ │ └── package-info.java
│ │ └── package-info.java
│ │ └── util
│ │ ├── CommandRunner.java
│ │ ├── DeflateUtils.java
│ │ ├── DomUtil.java
│ │ ├── EncodingDetector.java
│ │ ├── FSUtils.java
│ │ ├── GZIPUtils.java
│ │ ├── GenericWritableConfigurable.java
│ │ ├── HadoopFSUtil.java
│ │ ├── LockUtil.java
│ │ ├── MimeUtil.java
│ │ ├── NodeWalker.java
│ │ ├── NutchConfiguration.java
│ │ ├── NutchJob.java
│ │ ├── ObjectCache.java
│ │ ├── PrefixStringMatcher.java
│ │ ├── StringUtil.java
│ │ ├── SuffixStringMatcher.java
│ │ ├── TimingUtil.java
│ │ ├── TrieStringMatcher.java
│ │ ├── URLUtil.java
│ │ ├── domain
│ │ ├── DomainStatistics.java
│ │ ├── DomainSuffix.java
│ │ ├── DomainSuffixes.java
│ │ ├── DomainSuffixesReader.java
│ │ ├── TopLevelDomain.java
│ │ └── package.html
│ │ └── package-info.java
└── overview.html
├── plugin
├── build-plugin.xml
├── build.xml
├── creativecommons
│ ├── README.txt
│ ├── build.xml
│ ├── conf
│ │ ├── crawl-urlfilter.txt
│ │ └── nutch-site.xml
│ ├── data
│ │ ├── anchor.html
│ │ ├── rdf.html
│ │ └── rel.html
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── creativecommons
│ │ │ └── nutch
│ │ │ ├── CCIndexingFilter.java
│ │ │ ├── CCParseFilter.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── creativecommons
│ │ └── nutch
│ │ └── TestCCParseFilter.java
├── feed
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ ├── sample
│ │ └── rsstest.rss
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ ├── indexer
│ │ │ └── feed
│ │ │ │ ├── FeedIndexingFilter.java
│ │ │ │ └── package-info.java
│ │ │ └── parse
│ │ │ └── feed
│ │ │ ├── FeedParser.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── parse
│ │ └── feed
│ │ └── TestFeedParser.java
├── headings
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── parse
│ │ └── headings
│ │ ├── HeadingsParseFilter.java
│ │ └── package-info.java
├── index-anchor
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── indexer
│ │ │ └── anchor
│ │ │ ├── AnchorIndexingFilter.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── indexer
│ │ └── anchor
│ │ └── TestAnchorIndexingFilter.java
├── index-basic
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── indexer
│ │ │ └── basic
│ │ │ ├── BasicIndexingFilter.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── indexer
│ │ └── basic
│ │ └── TestBasicIndexingFilter.java
├── index-metadata
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── indexer
│ │ └── metadata
│ │ ├── MetadataIndexer.java
│ │ └── package-info.java
├── index-more
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── indexer
│ │ │ └── more
│ │ │ ├── MoreIndexingFilter.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── indexer
│ │ └── more
│ │ └── TestMoreIndexingFilter.java
├── index-static
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── indexer
│ │ │ └── staticfield
│ │ │ ├── StaticFieldIndexer.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── indexer
│ │ └── staticfield
│ │ └── TestStaticFieldIndexerTest.java
├── indexer-dummy
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── indexwriter
│ │ └── dummy
│ │ ├── DummyIndexWriter.java
│ │ └── package-info.java
├── indexer-elastic
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── indexwriter
│ │ └── elastic
│ │ ├── ElasticConstants.java
│ │ ├── ElasticIndexWriter.java
│ │ └── package-info.java
├── indexer-solr
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── indexwriter
│ │ └── solr
│ │ ├── SolrConstants.java
│ │ ├── SolrIndexWriter.java
│ │ ├── SolrMappingReader.java
│ │ ├── SolrUtils.java
│ │ └── package-info.java
├── language-identifier
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── analysis
│ │ │ └── lang
│ │ │ ├── HTMLLanguageParser.java
│ │ │ ├── LanguageIndexingFilter.java
│ │ │ ├── langmappings.properties
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── analysis
│ │ └── lang
│ │ ├── TestHTMLLanguageParser.java
│ │ ├── da.test
│ │ ├── de.test
│ │ ├── el.test
│ │ ├── en.test
│ │ ├── es.test
│ │ ├── fi.test
│ │ ├── fr.test
│ │ ├── it.test
│ │ ├── nl.test
│ │ ├── pt.test
│ │ ├── sv.test
│ │ └── test-referencial.txt
├── lib-http
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── protocol
│ │ │ └── http
│ │ │ └── api
│ │ │ ├── BlockedException.java
│ │ │ ├── HttpBase.java
│ │ │ ├── HttpException.java
│ │ │ ├── HttpRobotRulesParser.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── protocol
│ │ └── http
│ │ └── api
│ │ └── TestRobotRulesParser.java
├── lib-nekohtml
│ ├── build.xml
│ ├── ivy.xml
│ └── plugin.xml
├── lib-regex-filter
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── urlfilter
│ │ │ └── api
│ │ │ ├── RegexRule.java
│ │ │ ├── RegexURLFilterBase.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── urlfilter
│ │ └── api
│ │ └── RegexURLFilterBaseTest.java
├── lib-xml
│ ├── build.xml
│ ├── ivy.xml
│ └── plugin.xml
├── microformats-reltag
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── microformats
│ │ └── reltag
│ │ ├── RelTagIndexingFilter.java
│ │ ├── RelTagParser.java
│ │ └── package.html
├── nutch-extensionpoints
│ ├── build.xml
│ ├── ivy.xml
│ └── plugin.xml
├── parse-ext
│ ├── build.xml
│ ├── command
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── parse
│ │ │ └── ext
│ │ │ ├── ExtParser.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── parse
│ │ └── ext
│ │ └── TestExtParser.java
├── parse-html
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── parse
│ │ │ └── html
│ │ │ ├── DOMBuilder.java
│ │ │ ├── DOMContentUtils.java
│ │ │ ├── HTMLMetaProcessor.java
│ │ │ ├── HtmlParser.java
│ │ │ ├── XMLCharacterRecognizer.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── parse
│ │ └── html
│ │ ├── TestDOMContentUtils.java
│ │ ├── TestHtmlParser.java
│ │ └── TestRobotsMetaProcessor.java
├── parse-js
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── parse
│ │ └── js
│ │ ├── JSParseFilter.java
│ │ └── package-info.java
├── parse-metatags
│ ├── README.txt
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ ├── sample
│ │ ├── testMetatags.html
│ │ └── testMultivalueMetatags.html
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── parse
│ │ │ └── metatags
│ │ │ ├── MetaTagsParser.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── parse
│ │ └── metatags
│ │ └── TestMetatagParser.java
├── parse-swf
│ ├── build.xml
│ ├── ivy.xml
│ ├── lib
│ │ ├── javaswf-LICENSE.txt
│ │ └── javaswf.jar
│ ├── plugin.xml
│ ├── sample
│ │ ├── test1.swf
│ │ ├── test1.txt
│ │ ├── test2.swf
│ │ ├── test2.txt
│ │ ├── test3.swf
│ │ └── test3.txt
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── parse
│ │ │ └── swf
│ │ │ ├── SWFParser.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── parse
│ │ └── swf
│ │ └── TestSWFParser.java
├── parse-tika
│ ├── build-ivy.xml
│ ├── build.xml
│ ├── howto_upgrade_tika.txt
│ ├── ivy.xml
│ ├── plugin.xml
│ ├── sample
│ │ ├── encrypted.pdf
│ │ ├── nutch.html
│ │ ├── nutch_logo_tm.gif
│ │ ├── ootest.odt
│ │ ├── ootest.sxw
│ │ ├── ootest.txt
│ │ ├── pdftest.pdf
│ │ ├── rsstest.rss
│ │ ├── test.rtf
│ │ └── word97.doc
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── parse
│ │ │ └── tika
│ │ │ ├── DOMBuilder.java
│ │ │ ├── DOMContentUtils.java
│ │ │ ├── HTMLMetaProcessor.java
│ │ │ ├── TikaParser.java
│ │ │ ├── XMLCharacterRecognizer.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── tika
│ │ ├── TestDOMContentUtils.java
│ │ ├── TestFeedParser.java
│ │ ├── TestImageMetadata.java
│ │ ├── TestMSWordParser.java
│ │ ├── TestOOParser.java
│ │ ├── TestPdfParser.java
│ │ ├── TestRTFParser.java
│ │ └── TestRobotsMetaProcessor.java
├── parse-zip
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ ├── sample
│ │ └── test.zip
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── parse
│ │ │ └── zip
│ │ │ ├── ZipParser.java
│ │ │ ├── ZipTextExtractor.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── parse
│ │ └── zip
│ │ └── TestZipParser.java
├── plugin.dtd
├── protocol-file
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ ├── sample
│ │ ├── testprotocolfile.txt
│ │ └── testprotocolfile_(encoded).txt
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── protocol
│ │ │ └── file
│ │ │ ├── File.java
│ │ │ ├── FileError.java
│ │ │ ├── FileException.java
│ │ │ ├── FileResponse.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── protocol
│ │ └── file
│ │ └── TestProtocolFile.java
├── protocol-ftp
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── protocol
│ │ └── ftp
│ │ ├── Client.java
│ │ ├── Ftp.java
│ │ ├── FtpError.java
│ │ ├── FtpException.java
│ │ ├── FtpExceptionBadSystResponse.java
│ │ ├── FtpExceptionCanNotHaveDataConnection.java
│ │ ├── FtpExceptionControlClosedByForcedDataClose.java
│ │ ├── FtpExceptionUnknownForcedDataClose.java
│ │ ├── FtpResponse.java
│ │ ├── FtpRobotRulesParser.java
│ │ ├── PrintCommandListener.java
│ │ └── package.html
├── protocol-http
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── protocol
│ │ └── http
│ │ ├── Http.java
│ │ ├── HttpResponse.java
│ │ └── package.html
├── protocol-httpclient
│ ├── build.xml
│ ├── ivy.xml
│ ├── jsp
│ │ ├── basic.jsp
│ │ ├── cookies.jsp
│ │ ├── digest.jsp
│ │ ├── noauth.jsp
│ │ └── ntlm.jsp
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── protocol
│ │ │ └── httpclient
│ │ │ ├── DummySSLProtocolSocketFactory.java
│ │ │ ├── DummyX509TrustManager.java
│ │ │ ├── Http.java
│ │ │ ├── HttpAuthentication.java
│ │ │ ├── HttpAuthenticationException.java
│ │ │ ├── HttpAuthenticationFactory.java
│ │ │ ├── HttpBasicAuthentication.java
│ │ │ ├── HttpResponse.java
│ │ │ └── package.html
│ │ └── test
│ │ ├── conf
│ │ ├── httpclient-auth-test.xml
│ │ └── nutch-site-test.xml
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── protocol
│ │ └── httpclient
│ │ └── TestProtocolHttpClient.java
├── scoring-depth
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── scoring
│ │ └── depth
│ │ ├── DepthScoringFilter.java
│ │ └── package-info.java
├── scoring-link
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── scoring
│ │ └── link
│ │ ├── LinkAnalysisScoringFilter.java
│ │ └── package-info.java
├── scoring-opic
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── scoring
│ │ └── opic
│ │ ├── OPICScoringFilter.java
│ │ └── package-info.java
├── subcollection
│ ├── README.txt
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ ├── collection
│ │ │ ├── CollectionManager.java
│ │ │ ├── Subcollection.java
│ │ │ └── package.html
│ │ │ └── indexer
│ │ │ └── subcollection
│ │ │ ├── SubcollectionIndexingFilter.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── collection
│ │ └── TestSubcollection.java
├── tld
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ ├── indexer
│ │ └── tld
│ │ │ ├── TLDIndexingFilter.java
│ │ │ └── package.html
│ │ └── scoring
│ │ └── tld
│ │ ├── TLDScoringFilter.java
│ │ └── package.html
├── urlfilter-automaton
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ ├── sample
│ │ ├── Benchmarks.rules
│ │ ├── Benchmarks.urls
│ │ ├── IntranetCrawling.rules
│ │ ├── IntranetCrawling.urls
│ │ ├── WholeWebCrawling.rules
│ │ └── WholeWebCrawling.urls
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── urlfilter
│ │ │ └── automaton
│ │ │ ├── AutomatonURLFilter.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── urlfilter
│ │ └── automaton
│ │ └── TestAutomatonURLFilter.java
├── urlfilter-domain
│ ├── build.xml
│ ├── data
│ │ └── hosts.txt
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── urlfilter
│ │ │ └── domain
│ │ │ ├── DomainURLFilter.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── urlfilter
│ │ └── domain
│ │ └── TestDomainURLFilter.java
├── urlfilter-domainblacklist
│ ├── build.xml
│ ├── data
│ │ └── hosts.txt
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── urlfilter
│ │ │ └── domainblacklist
│ │ │ ├── DomainBlacklistURLFilter.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── urlfilter
│ │ └── domainblacklist
│ │ └── TestDomainBlacklistURLFilter.java
├── urlfilter-prefix
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── urlfilter
│ │ │ └── prefix
│ │ │ ├── PrefixURLFilter.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── urlfilter
│ │ └── prefix
│ │ └── TestPrefixURLFilter.java
├── urlfilter-regex
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ ├── sample
│ │ ├── Benchmarks.rules
│ │ ├── Benchmarks.urls
│ │ ├── IntranetCrawling.rules
│ │ ├── IntranetCrawling.urls
│ │ ├── WholeWebCrawling.rules
│ │ └── WholeWebCrawling.urls
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── urlfilter
│ │ │ └── regex
│ │ │ ├── RegexURLFilter.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── urlfilter
│ │ └── regex
│ │ └── TestRegexURLFilter.java
├── urlfilter-suffix
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── urlfilter
│ │ │ └── suffix
│ │ │ ├── SuffixURLFilter.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── urlfilter
│ │ └── suffix
│ │ └── TestSuffixURLFilter.java
├── urlfilter-validator
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── urlfilter
│ │ │ └── validator
│ │ │ ├── UrlValidator.java
│ │ │ └── package.html
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── urlfilter
│ │ └── validator
│ │ └── TestUrlValidator.java
├── urlmeta
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ └── java
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ ├── indexer
│ │ └── urlmeta
│ │ │ ├── URLMetaIndexingFilter.java
│ │ │ └── package.html
│ │ └── scoring
│ │ └── urlmeta
│ │ ├── URLMetaScoringFilter.java
│ │ └── package.html
├── urlnormalizer-basic
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── net
│ │ │ └── urlnormalizer
│ │ │ └── basic
│ │ │ ├── BasicURLNormalizer.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── net
│ │ └── urlnormalizer
│ │ └── basic
│ │ └── TestBasicURLNormalizer.java
├── urlnormalizer-host
│ ├── build.xml
│ ├── data
│ │ └── hosts.txt
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── net
│ │ │ └── urlnormalizer
│ │ │ └── host
│ │ │ ├── HostURLNormalizer.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── net
│ │ └── urlnormalizer
│ │ └── host
│ │ └── TestHostURLNormalizer.java
├── urlnormalizer-pass
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── net
│ │ │ └── urlnormalizer
│ │ │ └── pass
│ │ │ ├── PassURLNormalizer.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── net
│ │ └── urlnormalizer
│ │ └── pass
│ │ └── TestPassURLNormalizer.java
├── urlnormalizer-querystring
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ └── src
│ │ ├── java
│ │ └── org
│ │ │ └── apache
│ │ │ └── nutch
│ │ │ └── net
│ │ │ └── urlnormalizer
│ │ │ └── querystring
│ │ │ ├── QuerystringURLNormalizer.java
│ │ │ └── package-info.java
│ │ └── test
│ │ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── net
│ │ └── urlnormalizer
│ │ └── querystring
│ │ └── TestQuerystringURLNormalizer.java
└── urlnormalizer-regex
│ ├── build.xml
│ ├── ivy.xml
│ ├── plugin.xml
│ ├── sample
│ ├── regex-normalize-default.test
│ ├── regex-normalize-default.xml
│ ├── regex-normalize-scope1.test
│ └── regex-normalize-scope1.xml
│ └── src
│ ├── java
│ └── org
│ │ └── apache
│ │ └── nutch
│ │ └── net
│ │ └── urlnormalizer
│ │ └── regex
│ │ ├── RegexURLNormalizer.java
│ │ └── package-info.java
│ └── test
│ └── org
│ └── apache
│ └── nutch
│ └── net
│ └── urlnormalizer
│ └── regex
│ └── TestRegexURLNormalizer.java
├── test
├── crawl-tests.xml
├── domain-urlfilter.txt
├── filter-all.txt
├── log4j.properties
├── nutch-site.xml
└── org
│ └── apache
│ └── nutch
│ ├── crawl
│ ├── ContinuousCrawlTestUtil.java
│ ├── CrawlDBTestUtil.java
│ ├── CrawlDbUpdateUtil.java
│ ├── DummyWritable.java
│ ├── TODOTestCrawlDbStates.java
│ ├── TestAdaptiveFetchSchedule.java
│ ├── TestCrawlDbFilter.java
│ ├── TestCrawlDbMerger.java
│ ├── TestCrawlDbStates.java
│ ├── TestGenerator.java
│ ├── TestInjector.java
│ ├── TestLinkDbMerger.java
│ └── TestSignatureFactory.java
│ ├── fetcher
│ └── TestFetcher.java
│ ├── indexer
│ └── TestIndexingFilters.java
│ ├── metadata
│ ├── TestMetadata.java
│ └── TestSpellCheckedMetadata.java
│ ├── net
│ ├── TestURLFilters.java
│ └── TestURLNormalizers.java
│ ├── parse
│ ├── TestOutlinkExtractor.java
│ ├── TestParseData.java
│ ├── TestParseText.java
│ ├── TestParserFactory.java
│ └── parse-plugin-test.xml
│ ├── plugin
│ ├── HelloWorldExtension.java
│ ├── ITestExtension.java
│ ├── SimpleTestPlugin.java
│ └── TestPluginSystem.java
│ ├── protocol
│ ├── TestContent.java
│ └── TestProtocolFactory.java
│ ├── segment
│ ├── TestSegmentMerger.java
│ └── TestSegmentMergerCrawlDatums.java
│ ├── tools
│ └── proxy
│ │ ├── AbstractTestbedHandler.java
│ │ ├── DelayHandler.java
│ │ ├── FakeHandler.java
│ │ ├── LogDebugHandler.java
│ │ ├── NotFoundHandler.java
│ │ ├── ProxyTestbed.java
│ │ ├── SegmentHandler.java
│ │ └── package-info.java
│ └── util
│ ├── TestEncodingDetector.java
│ ├── TestGZIPUtils.java
│ ├── TestMimeUtil.java
│ ├── TestNodeWalker.java
│ ├── TestPrefixStringMatcher.java
│ ├── TestStringUtil.java
│ ├── TestSuffixStringMatcher.java
│ ├── TestURLUtil.java
│ └── WritableTestUtils.java
└── testresources
├── fetch-test-site
├── dup_of_pagea.html
├── exception.html
├── index.html
├── nested_spider_trap.html
├── pagea.html
├── pageb.html
└── robots.txt
├── test-mime-util
└── test.xlsx
└── testcrawl
├── crawldb
└── current
│ └── part-00000
│ ├── .data.crc
│ ├── .index.crc
│ ├── data
│ └── index
├── index
├── _0.f0
├── _0.f1
├── _0.f2
├── _0.f3
├── _0.f4
├── _0.f5
├── _0.fdt
├── _0.fdx
├── _0.fnm
├── _0.frq
├── _0.prx
├── _0.tii
├── _0.tis
├── deletable
└── segments
├── indexes
└── part-00000
│ ├── .index.done.crc
│ ├── .segments.crc
│ ├── _j.f0
│ ├── _j.f1
│ ├── _j.f2
│ ├── _j.f3
│ ├── _j.f4
│ ├── _j.f5
│ ├── _j.fdt
│ ├── _j.fdx
│ ├── _j.fnm
│ ├── _j.frq
│ ├── _j.prx
│ ├── _j.tii
│ ├── _j.tis
│ ├── commit.lock
│ ├── deletable
│ ├── index.done
│ ├── segments
│ └── write.lock
├── linkdb
└── current
│ └── part-00000
│ ├── .data.crc
│ ├── .index.crc
│ ├── data
│ └── index
└── segments
├── 20060919213635
├── content
│ └── part-00000
│ │ ├── .data.crc
│ │ ├── .index.crc
│ │ ├── data
│ │ └── index
├── crawl_fetch
│ └── part-00000
│ │ ├── .data.crc
│ │ ├── .index.crc
│ │ ├── data
│ │ └── index
├── crawl_generate
│ ├── .part-00000.crc
│ └── part-00000
├── crawl_parse
│ ├── .part-00000.crc
│ └── part-00000
├── parse_data
│ └── part-00000
│ │ ├── .data.crc
│ │ ├── .index.crc
│ │ ├── data
│ │ └── index
└── parse_text
│ └── part-00000
│ ├── .data.crc
│ ├── .index.crc
│ ├── data
│ └── index
└── 20060919213643
├── content
└── part-00000
│ ├── .data.crc
│ ├── .index.crc
│ ├── data
│ └── index
├── crawl_fetch
└── part-00000
│ ├── .data.crc
│ ├── .index.crc
│ ├── data
│ └── index
├── crawl_generate
├── .part-00000.crc
└── part-00000
├── crawl_parse
├── .part-00000.crc
└── part-00000
├── parse_data
└── part-00000
│ ├── .data.crc
│ ├── .index.crc
│ ├── data
│ └── index
└── parse_text
└── part-00000
├── .data.crc
├── .index.crc
├── data
└── index
/README.md:
--------------------------------------------------------------------------------
1 | # nutcher
2 | nutcher是中文的nutch文档,包含nutch的配置和源码解析,在github持续更新。
3 |
4 | 本教程由[DataHref](http://datahref.com/)提供,未经允许,禁止转载。
5 |
6 | 目录:
7 |
8 | + [Nutch教程——导入Nutch工程,执行完整爬取](http://datahref.com/topics/1624)
9 | + [Nutch流程控制源码详解(bin/crawl中文注释版)](http://datahref.com/topics/1616)
10 | + [URLNormalizer源码详解(Nutch的URL正规化机制)](http://datahref.com/topics/1625)
11 | + [Nutch 的正则表达式配置 (regex-urlfilter.txt)](http://datahref.com/topics/1626)
12 | + [在 windows 上配置 hbase](http://datahref.com/topics/1628)
13 | + [Nutch的定位](http://datahref.com/topics/1627)
14 |
--------------------------------------------------------------------------------
/apache-nutch-1.9-src.zip:
--------------------------------------------------------------------------------
https://raw.githubusercontent.com/CrawlScript/nutcher/085330f03955ae65ceae37967c5672bcc9a0a0dd/apache-nutch-1.9-src.zip
--------------------------------------------------------------------------------
/nutch-chinese/apache-nutch-1.9/NOTICE.txt:
--------------------------------------------------------------------------------
1 | Apache Nutch
2 | Copyright 2014 The Apache Software Foundation
3 |
4 | This product includes software developed by The Apache Software
5 | Foundation (http://www.apache.org/).
6 |
7 | This product includes software developed by the following copyright owners:
8 |
9 | Nutch includes JavaSWF:
10 | Copyright (c) 2001-2005, David N. Main, All rights reserved.
11 |
12 | Nutch includes Automaton:
13 | This package is Copyright © 2001-2008 Anders Møller. All rights reserved.
14 |
--------------------------------------------------------------------------------
/nutch-chinese/apache-nutch-1.9/conf/adaptive-mimetypes.txt:
--------------------------------------------------------------------------------
1 | # Licensed to the Apache Software Foundation (ASF) under one or more
2 | # contributor license agreements. See the NOTICE file distributed with
3 | # this work for additional information regarding copyright ownership.
4 | # The ASF licenses this file to You under the Apache License, Version 2.0
5 | # (the "License"); you may not use this file except in compliance with
6 | # the License. You may obtain a copy of the License at
7 | #
8 | # http://www.apache.org/licenses/LICENSE-2.0
9 | #
10 | # Unless required by applicable law or agreed to in writing, software
11 | # distributed under the License is distributed on an "AS IS" BASIS,
12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13 | # See the License for the specific language governing permissions and
14 | # limitations under the License.
15 |
16 | # This configuration file is used by the MimeAdaptiveFetchScheduler and
17 | # allows the user to set the INC and DEC rates for the AdaptiveFetchScheduler
18 | # by MIME-type. Values are separated by tab.
19 |
20 | # MIME-type inc_rate dec_rate
21 | text/html 0.2 0.2
22 | application/xhtml+xml 0.2 0.2
23 | application/pdf 0.1 0.4
24 |
--------------------------------------------------------------------------------
/nutch-chinese/apache-nutch-1.9/conf/domain-urlfilter.txt:
--------------------------------------------------------------------------------
1 | # Licensed to the Apache Software Foundation (ASF) under one or more
2 | # contributor license agreements. See the NOTICE file distributed with
3 | # this work for additional information regarding copyright ownership.
4 | # The ASF licenses this file to You under the Apache License, Version 2.0
5 | # (the "License"); you may not use this file except in compliance with
6 | # the License. You may obtain a copy of the License at
7 | #
8 | # http://www.apache.org/licenses/LICENSE-2.0
9 | #
10 | # Unless required by applicable law or agreed to in writing, software
11 | # distributed under the License is distributed on an "AS IS" BASIS,
12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13 | # See the License for the specific language governing permissions and
14 | # limitations under the License.
15 |
16 | # config file for urlfilter-domain plugin
17 |
--------------------------------------------------------------------------------
/nutch-chinese/apache-nutch-1.9/conf/domainblacklist-urlfilter.txt:
--------------------------------------------------------------------------------
1 | # Licensed to the Apache Software Foundation (ASF) under one or more
2 | # contributor license agreements. See the NOTICE file distributed with
3 | # this work for additional information regarding copyright ownership.
4 | # The ASF licenses this file to You under the Apache License, Version 2.0
5 | # (the "License"); you may not use this file except in compliance with
6 | # the License. You may obtain a copy of the License at
7 | #
8 | # http://www.apache.org/licenses/LICENSE-2.0
9 | #
10 | # Unless required by applicable law or agreed to in writing, software
11 | # distributed under the License is distributed on an "AS IS" BASIS,
12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13 | # See the License for the specific language governing permissions and
14 | # limitations under the License.
15 |
16 | # config file for urlfilter-domainblacklist plugin
17 |
--------------------------------------------------------------------------------
/nutch-chinese/apache-nutch-1.9/conf/elasticsearch.conf:
--------------------------------------------------------------------------------
1 | # Licensed to the Apache Software Foundation (ASF) under one or more
2 | # contributor license agreements. See the NOTICE file distributed with
3 | # this work for additional information regarding copyright ownership.
4 | # The ASF licenses this file to You under the Apache License, Version 2.0
5 | # (the "License"); you may not use this file except in compliance with
6 | # the License. You may obtain a copy of the License at
7 | #
8 | # http://www.apache.org/licenses/LICENSE-2.0
9 | #
10 | # Unless required by applicable law or agreed to in writing, software
11 | # distributed under the License is distributed on an "AS IS" BASIS,
12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13 | # See the License for the specific language governing permissions and
14 | # limitations under the License.
15 |
16 |
17 | # Settings for Elasticsearch indexer plugin
18 | # Format: key=value\n
19 |
--------------------------------------------------------------------------------
/nutch-chinese/apache-nutch-1.9/conf/host-urlnormalizer.txt:
--------------------------------------------------------------------------------
1 | # Licensed to the Apache Software Foundation (ASF) under one or more
2 | # contributor license agreements. See the NOTICE file distributed with
3 | # this work for additional information regarding copyright ownership.
4 | # The ASF licenses this file to You under the Apache License, Version 2.0
5 | # (the "License"); you may not use this file except in compliance with
6 | # the License. You may obtain a copy of the License at
7 | #
8 | # http://www.apache.org/licenses/LICENSE-2.0
9 | #
10 | # Unless required by applicable law or agreed to in writing, software
11 | # distributed under the License is distributed on an "AS IS" BASIS,
12 | # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13 | # See the License for the specific language governing permissions and
14 | # limitations under the License.
15 |
16 | # New line separated list of hosts mapped to their desired targets.
17 | # wildcard hosts are supported. Format: host target
18 |
19 | # Map www.apache.org to apache.org
20 | www.apache.org apache.org
21 |
22 | # Map all example.org subdomains to www.example.org
23 | *.example.org example.org
24 |
--------------------------------------------------------------------------------
/nutch-chinese/apache-nutch-1.9/conf/nutch-conf.xsl:
--------------------------------------------------------------------------------
1 |
2 |
8 |
21 |
22 |
23 |
9 |
13 | name
10 | value
11 | description
12 |
15 |
19 |
16 |
17 |
18 |
Apache Nutch is a highly extensible and scalable open source web crawler software project.
7 |Nutch is a project of the Apache Software Foundation and is part of the larger Apache community of developers and users.
8 | 9 | 10 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/creativecommons/README.txt: -------------------------------------------------------------------------------- 1 | Support for crawling and searching Creative-Commons licensed content. 2 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/creativecommons/conf/crawl-urlfilter.txt: -------------------------------------------------------------------------------- 1 | # Creative Commnons crawl filter 2 | 3 | # Each non-comment, non-blank line contains a regular expression 4 | # prefixed by '+' or '-'. The first matching pattern in the file 5 | # determines whether a URL is included or ignored. If no pattern 6 | # matches, the URL is ignored. 7 | 8 | # skip file:, ftp:, & mailto: urls 9 | -^(file|ftp|mailto|https): 10 | 11 | # skip image and other suffixes we can't yet parse 12 | -\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|rtf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|mp3|rss|xml|doc|pdf|txt|DOC|PDF|TXT)$ 13 | 14 | # skip URLs containing certain characters as probable queries, etc. 15 | -[?*!@=] 16 | 17 | # accept anything else 18 | +. 19 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/creativecommons/data/anchor.html: -------------------------------------------------------------------------------- 1 | 2 | 3 | 4 | 5 | 6 |This file is licensed under a
7 | Creative Commons License.
Sample plugins that parse and index Creative Commons medadata.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/feed/src/java/org/apache/nutch/indexer/feed/package-info.java: -------------------------------------------------------------------------------- 1 | /* 2 | * Licensed to the Apache Software Foundation (ASF) under one or more 3 | * contributor license agreements. See the NOTICE file distributed with 4 | * this work for additional information regarding copyright ownership. 5 | * The ASF licenses this file to You under the Apache License, Version 2.0 6 | * (the "License"); you may not use this file except in compliance with 7 | * the License. You may obtain a copy of the License at 8 | * 9 | * http://www.apache.org/licenses/LICENSE-2.0 10 | * 11 | * Unless required by applicable law or agreed to in writing, software 12 | * distributed under the License is distributed on an "AS IS" BASIS, 13 | * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 14 | * See the License for the specific language governing permissions and 15 | * limitations under the License. 16 | */ 17 | 18 | /** 19 | * Indexing filter to index meta data from RSS feeds. 20 | */ 21 | package org.apache.nutch.indexer.feed; 22 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/feed/src/java/org/apache/nutch/parse/feed/package-info.java: -------------------------------------------------------------------------------- 1 | /* 2 | * Licensed to the Apache Software Foundation (ASF) under one or more 3 | * contributor license agreements. See the NOTICE file distributed with 4 | * this work for additional information regarding copyright ownership. 5 | * The ASF licenses this file to You under the Apache License, Version 2.0 6 | * (the "License"); you may not use this file except in compliance with 7 | * the License. You may obtain a copy of the License at 8 | * 9 | * http://www.apache.org/licenses/LICENSE-2.0 10 | * 11 | * Unless required by applicable law or agreed to in writing, software 12 | * distributed under the License is distributed on an "AS IS" BASIS, 13 | * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. 14 | * See the License for the specific language governing permissions and 15 | * limitations under the License. 16 | */ 17 | 18 | /** 19 | * Parse RSS feeds. 20 | */ 21 | package org.apache.nutch.parse.feed; 22 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/headings/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |An indexing plugin for inbound anchor text.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/index-basic/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |A basic indexing plugin, adds basic fields: url, host, title, content, etc.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/index-metadata/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |A more indexing plugin, adds "more" index fields: 4 | last modified date, MIME type, content length.
5 | 6 | 7 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/index-static/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |A simple plugin called at indexing that adds fields with static data. You can specify a list of fieldname:fieldcontent per nutch job. It can be useful when collections can't be created by urlpatterns, like in subcollection, but on a job-basis.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/indexer-dummy/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |Text document language identifier.
Language profiles are based on material from 4 | http://www.homepages.inf.ed.ac.uk/pkoehn/publications/europarl.ps/.
5 | 6 | 7 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/language-identifier/src/test/org/apache/nutch/analysis/lang/test-referencial.txt: -------------------------------------------------------------------------------- 1 | da.test;da 2 | de.test;de 3 | el.test;el 4 | en.test;en 5 | es.test;es 6 | fi.test;fi 7 | fr.test;fr 8 | it.test;it 9 | nl.test;nl 10 | pt.test;pt 11 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/lib-http/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |Common API used by HTTP plugins ({@link org.apache.nutch.protocol.http http}, 4 | {@link org.apache.nutch.protocol.httpclient httpclient})
5 | 6 | 7 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/lib-nekohtml/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |4 | A microformats Rel-Tag 5 | Parser/Indexer/Querier plugin. 6 |
7 | 8 | 9 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/nutch-extensionpoints/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |An HTML document parsing plugin.
This package relies on NekoHTML.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/parse-js/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |Protocol plugin which supports retrieving local file resources.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/protocol-ftp/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |Protocol plugin which supports retrieving documents via the ftp protocol.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/protocol-http/src/java/org/apache/nutch/protocol/http/package.html: -------------------------------------------------------------------------------- 1 | 2 | 3 |Protocol plugin which supports retrieving documents via the http protocol.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/protocol-httpclient/src/java/org/apache/nutch/protocol/httpclient/package.html: -------------------------------------------------------------------------------- 1 | 2 | 3 |Protocol plugin which supports retrieving documents via the HTTP and 4 | HTTPS protocols, optionally with Basic, Digest and NTLM authentication 5 | schemes for web server as well as proxy server. It handles cookies 6 | within a single fetch operation. This plugin is based on Jakarta 7 | Commons HttpClient library.
8 | 9 | 10 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/scoring-depth/build.xml: -------------------------------------------------------------------------------- 1 | 2 |Top Level Domain Indexing plugin.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/tld/src/java/org/apache/nutch/scoring/tld/package.html: -------------------------------------------------------------------------------- 1 | 2 | 3 |Top Level Domain Scoring plugin.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-automaton/sample/Benchmarks.rules: -------------------------------------------------------------------------------- 1 | # The url filter file used by the crawl command. 2 | 3 | # Better for intranet crawling. 4 | # Be sure to change MY.DOMAIN.NAME to your domain name. 5 | 6 | # Each non-comment, non-blank line contains a regular expression 7 | # prefixed by '+' or '-'. The first matching pattern in the file 8 | # determines whether a URL is included or ignored. If no pattern 9 | # matches, the URL is ignored. 10 | 11 | # skip file:, ftp:, & mailto: urls 12 | -(file|ftp|mailto):.* 13 | 14 | # skip image and other suffixes we can't yet parse 15 | -.*\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|png) 16 | 17 | # skip URLs containing certain characters as probable queries, etc. 18 | -.*[?*!@=].* 19 | 20 | # skip .fr .org and .net domains 21 | -.*//.*\.fr/.* 22 | -.*//.*\.org/.* 23 | -.*//.*\.net/.* 24 | 25 | # skip everything else 26 | +.* 27 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-automaton/sample/IntranetCrawling.rules: -------------------------------------------------------------------------------- 1 | # The url filter file used by the crawl command. 2 | 3 | # Better for intranet crawling. 4 | # Be sure to change MY.DOMAIN.NAME to your domain name. 5 | 6 | # Each non-comment, non-blank line contains a regular expression 7 | # prefixed by '+' or '-'. The first matching pattern in the file 8 | # determines whether a URL is included or ignored. If no pattern 9 | # matches, the URL is ignored. 10 | 11 | # skip file:, ftp:, & mailto: urls 12 | -(file|ftp|mailto):.* 13 | 14 | # skip image and other suffixes we can't yet parse 15 | -.*\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|png) 16 | 17 | # skip URLs containing certain characters as probable queries, etc. 18 | -.*[?*!@=].* 19 | 20 | # accept hosts in MY.DOMAIN.NAME 21 | +http://([a-z0-9]*\.)*MY.DOMAIN.NAME/.* 22 | 23 | # skip everything else 24 | -.* 25 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-automaton/sample/IntranetCrawling.urls: -------------------------------------------------------------------------------- 1 | -file://home/jc/nutch/index.html 2 | -ftp://ftp.apache.org/nutch.html 3 | -mailto:jerome.charron@gmail.com 4 | -news://any.news.server/comp.lang.java 5 | -whois:/nutch.org 6 | +http://MY.DOMAIN.NAME/ 7 | +http://MY.DOMAIN.NAME/nutch 8 | +http://www.MY.DOMAIN.NAME/ 9 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-automaton/sample/WholeWebCrawling.rules: -------------------------------------------------------------------------------- 1 | # The default url filter. 2 | # Better for whole-internet crawling. 3 | 4 | # Each non-comment, non-blank line contains a regular expression 5 | # prefixed by '+' or '-'. The first matching pattern in the file 6 | # determines whether a URL is included or ignored. If no pattern 7 | # matches, the URL is ignored. 8 | 9 | # skip file: ftp: and mailto: urls 10 | -(file|ftp|mailto):.* 11 | 12 | # skip image and other suffixes we can't yet parse 13 | -.*\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe) 14 | 15 | # skip URLs containing certain characters as probable queries, etc. 16 | -.*[?*!@=].* 17 | 18 | # accept anything else 19 | +.* 20 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-automaton/sample/WholeWebCrawling.urls: -------------------------------------------------------------------------------- 1 | -file://home/jc/nutch/index.html 2 | -ftp://ftp.apache.org/nutch.html 3 | -mailto:jerome.charron@gmail.com 4 | +news://any.news.server/comp.lang.java 5 | +whois:/nutch.org 6 | -http://www.nutch.org/nutch.gif 7 | -http://www.nutch.org/nutch.eps 8 | -http://www.nutch.org/nutch?q=nutch 9 | +http://www.nutch.org/ 10 | +http://www.nutch.org/abcd/foo/bar/foo/bar/foo/ 11 | +http://www.nutch.org/abcd/foo/bar/xyz/foo/bar/foo/ 12 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-automaton/src/java/org/apache/nutch/urlfilter/automaton/package.html: -------------------------------------------------------------------------------- 1 | 2 | 3 |4 | URL filter plugin based on 5 | dk.brics.automaton Finite-State 6 | Automata for JavaTM. 7 |
8 | 9 | 10 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-domain/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |URL filter plugin to include only URLs which match one of a given list of URL prefixes.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-regex/sample/Benchmarks.rules: -------------------------------------------------------------------------------- 1 | # The url filter file used by the crawl command. 2 | 3 | # Better for intranet crawling. 4 | # Be sure to change MY.DOMAIN.NAME to your domain name. 5 | 6 | # Each non-comment, non-blank line contains a regular expression 7 | # prefixed by '+' or '-'. The first matching pattern in the file 8 | # determines whether a URL is included or ignored. If no pattern 9 | # matches, the URL is ignored. 10 | 11 | # skip file:, ftp:, & mailto: urls 12 | -^(file|ftp|mailto): 13 | 14 | # skip image and other suffixes we can't yet parse 15 | -\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|png)$ 16 | 17 | # skip URLs containing certain characters as probable queries, etc. 18 | -[?*!@=] 19 | 20 | # skip .fr .org and .net domains 21 | -^.*//.*\.fr/ 22 | -^.*//.*\.org/ 23 | -^.*//.*\.net/ 24 | 25 | # skip everything else 26 | +. 27 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-regex/sample/IntranetCrawling.rules: -------------------------------------------------------------------------------- 1 | # The url filter file used by the crawl command. 2 | 3 | # Better for intranet crawling. 4 | # Be sure to change MY.DOMAIN.NAME to your domain name. 5 | 6 | # Each non-comment, non-blank line contains a regular expression 7 | # prefixed by '+' or '-'. The first matching pattern in the file 8 | # determines whether a URL is included or ignored. If no pattern 9 | # matches, the URL is ignored. 10 | 11 | # skip file:, ftp:, & mailto: urls 12 | -^(file|ftp|mailto): 13 | 14 | # skip image and other suffixes we can't yet parse 15 | -\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|png)$ 16 | 17 | # skip URLs containing certain characters as probable queries, etc. 18 | -[?*!@=] 19 | 20 | # skip URLs with slash-delimited segment that repeats 3+ times, to break loops 21 | -.*(/.+?)/.*?\1/.*?\1/ 22 | 23 | # accept hosts in MY.DOMAIN.NAME 24 | +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 25 | 26 | # skip everything else 27 | -. 28 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-regex/sample/IntranetCrawling.urls: -------------------------------------------------------------------------------- 1 | -file://home/jc/nutch/index.html 2 | -ftp://ftp.apache.org/nutch.html 3 | -mailto:jerome.charron@gmail.com 4 | -news://any.news.server/comp.lang.java 5 | -whois:/nutch.org 6 | +http://MY.DOMAIN.NAME/ 7 | +http://MY.DOMAIN.NAME/nutch 8 | +http://www.MY.DOMAIN.NAME/ 9 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-regex/sample/WholeWebCrawling.rules: -------------------------------------------------------------------------------- 1 | # The default url filter. 2 | # Better for whole-internet crawling. 3 | 4 | # Each non-comment, non-blank line contains a regular expression 5 | # prefixed by '+' or '-'. The first matching pattern in the file 6 | # determines whether a URL is included or ignored. If no pattern 7 | # matches, the URL is ignored. 8 | 9 | # skip file: ftp: and mailto: urls 10 | -^(file|ftp|mailto): 11 | 12 | # skip image and other suffixes we can't yet parse 13 | -\.(gif|GIF|jpg|JPG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe)$ 14 | 15 | # skip URLs containing certain characters as probable queries, etc. 16 | -[?*!@=] 17 | 18 | # skip URLs with slash-delimited segment that repeats 3+ times, to break loops 19 | -.*(/.+?)/.*?\1/.*?\1/ 20 | 21 | # accept anything else 22 | +. 23 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-regex/sample/WholeWebCrawling.urls: -------------------------------------------------------------------------------- 1 | -file://home/jc/nutch/index.html 2 | -ftp://ftp.apache.org/nutch.html 3 | -mailto:jerome.charron@gmail.com 4 | +news://any.news.server/comp.lang.java 5 | +whois:/nutch.org 6 | -http://www.nutch.org/nutch.gif 7 | -http://www.nutch.org/nutch.eps 8 | -http://www.nutch.org/nutch?q=nutch 9 | +http://www.nutch.org/ 10 | -http://www.nutch.org/abcd/foo/bar/foo/bar/foo/ 11 | -http://www.nutch.org/abcd/foo/bar/xyz/foo/bar/foo/ 12 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-regex/src/java/org/apache/nutch/urlfilter/regex/package.html: -------------------------------------------------------------------------------- 1 | 2 | 3 |URL filter plugin to include and/or exclude URLs matching Java regular expressions.
4 | 5 | 6 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlfilter-suffix/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |URL filter plugin that validates given urls.
4 |This plugin runs a series of tests for the given url to make sure that given 5 | url is valid and 'fetchable'.
6 |Note: This plugin should only be used for web-related protocols such 7 | as http, https and ftp.
8 | 9 | 10 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlmeta/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |4 | URL Meta Tag Indexing Plugin 5 |
6 |7 | Takes Meta Tags, injected alongside a URL (see NUTCH-655) and specified in the "urlmeta.tags" property, 8 | and inserts them into the document--which is then sent to the Indexer. If you specify these fields in 9 | the Nutch's schema (as well as the Indexer's), you can reasonably assume that they will be indexed. 10 |
11 | 12 | 13 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlmeta/src/java/org/apache/nutch/scoring/urlmeta/package.html: -------------------------------------------------------------------------------- 1 | 2 | 3 |4 | URL Meta Tag Scoring Plugin 5 |
6 |7 | Propagates Meta Tags, injected alongside a URL (see NUTCH-655) and specified in the "urlmeta.tags" property, 8 | along to their outlinks. This does not actually perform scoring. 9 |
10 | 11 | 12 | -------------------------------------------------------------------------------- /nutch-chinese/apache-nutch-1.9/src/plugin/urlnormalizer-basic/build.xml: -------------------------------------------------------------------------------- 1 | 2 | 18 |