1

Я запускаю Nutch 1.15 в распределенном режиме Hadoop, когда он пытается извлечь файл (185 МБ) в данном конкретном случае и зависает с прерванными потоками. Затем, в следующих циклах Fetch Data, он попытается извлечь тот же файл снова, затем поток зависает и прерывается. Nutch не будет пропускать этот URL, но неоднократно пытается бесконечно извлекать один и тот же файл в следующих циклах Fetch. Есть ли у Натча способ пропустить URL? Спасибо!

0