Apache Nutch

Скриншот программы:
Apache Nutch
Детали программы:
Версия: 2.3 обновление
Дата загрузки: 17 Jul 15
Разработчик: Sami Siren
Тип распространения: Бесплатная
Популярность: 1

Rating: 1.0/5 (Total Votes: 2)

Проект Apache Nutch является открытым исходным кодом, масштабируемая, расширяемость и бесплатно веб-программное обеспечение Роботы, который основан на Apache Lucene (версия Java) библиотеки.
Он добавляет Web специфику, например, гусеничном, базы данных канального графа, анализаторов для HTML и других форматов документов, и т.д. Это разработано и распространяется по Apache Foundation, это два отдельных филиалов.
Будучи модульной и подключаемыми, Apache Nutch имеет свои преимущества, обеспечивая расширяемые интерфейсы как Разбор, индекс и ScoringFilter для пользовательских реализаций, таких как Apache Тика для анализа.
Кроме того, Apache Nutch предназначен для работы на одном компьютере, но он более мощный, при работе в кластере Hadoop в. Съемные индексации существует упругой Поиск, Apache Solr, и т.д.

Что нового В этом выпуске:.

  • Nutch-1 779 Применить форматирование кода (lewismc)
  • Nutch-1907 Неправильная выход внешних ссылок на узлы в HostDbUpdateReducer (lewismc)
  • Nutch-тысяча восемьсот пятьдесят шесть webpage.avsc документов и host.avsc (lewismc)
  • Nutch-тысячу восемьсот тридцать четыре GeneratorMapper поведение зависит от уровня журнала (Герхард Госсен помощью snagel)
  • Nutch-1899 Restlet обновления Lib, чтобы предотвратить отказ сборки (Талат)
  • Nutch-тысяче семьсот девяносто семь удалить неиспользуемые пакет oanhtml (Саурабх Chhajed помощью snagel)
  • Nutch-1888 Укажите HTMLMapper использовать в TikaParser (Халил Simsek через jnioche)
  • Nutch-1 897 Легче отладки ошибок плагин XML (Markus)
  • Nutch-+1823 Обновление до 1.4.1 elasticsearch (Фу Кие, Маркус, lewismc)
  • Nutch-одна тысяча восемьсот двадцать девять Генератор: не в состоянии отличить реальные ошибки (Матье Бушар, jnioche, snagel)
  • Nutch-1778 Генератор неправильно регистрируетесь количество адресов в пакете (jnioche помощью snagel)
  • Nutch-1 877 Суффикс URL-фильтр, чтобы игнорировать строку запроса по умолчанию (Markus с помощью snagel)
  • Nutch-+1825 протокол HTTP-может зависнуть на некоторых веб-страниц (Фу Кие с помощью snagel)
  • Nutch 1483 не может сканировать файловую систему с плагином протокола файла (Рожерио Перейра Араужо, Mengying Ван, snagel)
  • Nutch-1 885 Протокол-файл должны относиться символические ссылки как переадресовывает (Mengying Ван, snagel)
  • Nutch-1880 URLUtil не следует добавлять дополнительные разрезы для URL-адресов файлов (snagel)
  • Nutch-1879 Regex URL нормализатор должны удалить несколько косую черту после файла: протокол (snagel)
  • Nutch-1820 удалить поле и Quot; туринг & Quot; который дублирует & Quot; ID & Quot; (lewismc, snagel)
  • Nutch-1843 Обновление до 0,5 Гора (Талат lewismc, Кирилл Меньшиков, drazzib)
  • Nutch-тысяча восемьсот восемьдесят три бен / ползать: использование функции для запуска бен / Nutch и проверить выход значение (snagel)
  • Nutch-+1882 целевой муравей затмение добавить выходной путь к SRC / тест (snagel)
  • Nutch-1 827 Порт Nutch-1467 и Nutch-1561 по версии 2.x (snagel)
  • Nutch-тысячу восемьсот семьдесят шесть Обновление до Гусеничные общин 0.5 (jnioche)
  • Nutch-+1866 целевой муравей затмение не следует удалять выполнения (nimafl помощью lewismc)
  • Nutch-1 859 Сделать Nutch WebApp порт настраивается (Нима Falaki помощью lewismc)
  • Nutch-1848 Ошибка в DashboardPage.html экземпляров счетчика (Нима Falaki помощью lewismc)
  • Nutch-841 Создать калитка на основе веб-приложения для Nutch (Федор Вершинин через lewismc)
  • Nutch-одна тысячу восемьсот тридцать два Сделать Nutch работу без индексации (mattmann помощью lewismc)
  • Nutch-1840 функция описать SolrIndexWriter не является правильным (Каве minooie помощью jnioche)
  • Nutch-1837 Обновление до Тика 1.6 (lewismc)
  • Nutch-одна тысяча восемьсот двадцать девять Генератор: не в состоянии отличить реальные ошибки (Матье Бушар помощью jnioche)
  • Nutch-одна тысяча восемьсот двадцать восемь бен / ползать: некорректная обработка ошибок Nutch (Матье Бушар помощью jnioche)
  • Nutch-1693 TextMD5Signature вычисляется по текстовому содержанию (Тянь Нгуен Мань, Маркус помощью snagel)
  • Nutch-1409 Снимите устаревшим свойства дБ. {по умолчанию, макс} .fetch.interval, generate.max.per.host.by.ip (Маттиас Agethle помощью snagel)
  • Nutch-1 819 batchId в GeneratorJob (Федор Вершинин через lewismc)
  • Nutch-1 708 Использование же ID, когда индексация и удаление перенаправления (snagel)
  • Nutch-1 817 Удалить pom.xml от источника (jnioche)
  • Nutch-1811 бен / Nutch JUnit использовать JUnit 4 тест бегун (snagel)
  • Nutch-1 776 Войти неправильно файл plugin.folder путь (Диаа помощью snagel)
  • Nutch-+1566 бен / Nutch чтобы пробелы в пути (tejasp, snagel)
  • Nutch-1605 извещатель MIME признает XLSX как почтовый файл (snagel)
  • Nutch-385 Улучшение описание конфигурации резьбы, связанные для Сборщика (jnioche, Луфын)
  • Nutch-1 798 Сценарий сканирования не называя команда индекс правильно (Аарон Bedward помощью jnioche)
  • Nutch-тысяча семьсот шестьдесят девять REST API рефакторинга (Федор Вершинин помощью lewismc)
  • Nutch-тысяча шестьсот тридцать три SLF4J обеспечивается Hadoop и не должны быть включены в файл проекта (Каве minooie через jnioche)
  • Nutch-тысяча семьсот восемьдесят семь обновление и полный обзор API док страница (snagel)
  • Nutch-1767 снять специальную обработку и Quot; ПАРАМЕТРЫ & Quot; в относительных ссылок (snagel)
  • Nutch-1718 переопределить http.robots.agent, как и Quot; дополнительных имен агентов & Quot; (snagel, Tejas Патил, Даниэль Кугель)
  • Nutch-тысяча семьсот девяносто шесть Обеспечить Гура объект строители использовали как противостоять пустых конструкторов (snagel через lewismc)
  • Nutch-1 590 [БЕЗОПАСНОСТЬ] Кадр уязвимость инъекции в опубликованной Javadoc (jnioche)
  • Nutch-1736 не удалось получить страницу, если заголовок ответа HTTP содержит Transfer-Encoding: поблочного (МКЦ с помощью jnioche)
  • Nutch-1782 NodeWalker вернуть текущий узел (Markus)
  • Nutch-1781 Обновление гора - * - mapping.xml и gora.proeprties, чтобы отразить Gora 0.4 (lewismc)
  • Nutch-1768 Обновление до 1.1.0 (ElasticSearch jnioche)
  • Nutch-1634 readdb -stats показывает результат в два раза (Каве minooie помощью jnioche)
  • Nutch-1 780 TTL и gc_grace_seconds атрибуты отсутствуют гора-Кассандра-mapping.xml файла (Каве minooie помощью lewismc)
  • Nutch-1676 Добавить элементарный поддержку SSL протокола для-HTTP (jnioche Маркус)
  • Nutch-тысяча шестьсот семьдесят четыре использования batchId фильтр для того, чтобы сканирования (ГОРА-119) для извлечения, разбора, обновление индекса (Тянь Нгуен Мань и Алпарслан Avci помощью jnioche)
  • Nutch-1 714 Обновление до 0,4 Гора (Алпарслан Avci помощью jnioche)
  • Nutch-один тысяча семьсот пятьдесят два правила robots.txt Кэш согласно протоколу: хост: порт (snagel)
  • Nutch-1 613 Тайм-ауты в протоколе-HttpClient при обходе же хост с & GT; 2 потоков (brian44 помощью jnioche)
  • Nutch-тысяча сто восемьдесят две Сборщик войти зависшие темы (snagel)
  • Nutch-1 618 Поверните спекулятивный выполнение от выборки (для Талат)
  • Nutch-1 657 ORIGINAL_CHAR_ENCODING и CHAR_ENCODING_FOR_CONVERSION никогда не устанавливается в HTMLparser (Талат)
  • редуктор Nutch-1725 CleaningJob в не совершает удаленные документы. (ilhamikalkan помощью Талат)
  • Nutch-тысяча семьсот двадцать восемь плагин индексатор-Solr не удалить документы из Solr (ilhamikalkan помощью Талат)
  • Nutch-1753 Eclipse, зависимые пакеты проблемой для 2.x (Талат)
  • Nutch-1720 повторяющиеся строки в HttpBase.java (Walter Титце через jnioche)
  • Nutch-797 URL-адрес не правильно построена, когда цель ссылка начинается с & Quot;? & Quot; (Дуг Кук, Роберт Хоман, Stondet, AB с помощью snagel)
  • Nutch-1759 Обновление до Гусеничные общин 0.4 (jnioche)
  • Nutch-1700 Снимите устаревшим код в SRC / плагин / CreativeCommons / build.xml (lewismc)
  • Nutch-тысяча семьсот шестьдесят одна скрипт обхода не удается найти файл работы, если не начался изнутри бен реж (Дэвид Хоскинг, jnioche)
  • Nutch-1603 ZIP парсер жалуется усеченный PDF файл (snagel через lewismc)
  • Nutch-1 743 parsechecker показать внешних ссылок (snagel)
  • Nutch-1732 лучше CMD линия разбора для NutchServer (Федор Вершинин помощью lewismc)
  • Nutch-1751 Пустые анкеры не должны индекс (Sertaç Тюркель помощью lewismc)
  • Nutch-1733 разбора HTML-поддержки HTML5 определения кодировка (snagel)
  • Nutch-тысяча семьсот двадцать семь Настраиваемые длина ДВУ (Sertaç Тюркель помощью lewismc)
  • Nutch-1738 Expose количество адресов, генерируемых на партию в GeneratorJob (Талат UYARER через ewismc)
  • Nutch-1 671 indexchecker добавить переварить поле (snagel, Луфын)
  • Nutch-одна тысяча шестьсот сорок пять Junit Пример теста для адаптивного Fetch Расписание занятий (Ясин Kilinc, Луфын, Sertaç Urkel помощью snagel)
  • Nutch-1478 Разбор-метатеги и плагин индекса метаданных для Nutch 2.x серии (Киран, Нгуен Ань Тянь Талат UYARER, Вангелис Karvounis помощью lewismc)
  • Nutch-+1729 Обновление до Тика 1.5 (jnioche)
  • Nutch-один тысячу семьсот двадцать один Обновление до Гусеничные общего 0.3 (tejasp)
  • Nutch-1 719 DomainStatistics терпит неудачу в 2.x, потому что URL-адрес не неотмененный (Gerhard Госсен через lewismc)
  • Nutch-тысяча двести пятьдесят три несовместимые Neko и Xerces версии (snagel, lewismc Талат UYARER)
  • Nutch-1715 RobotRulesParser добавляет дополнительный '*' в имени роботы (tejasp)
  • кэш репозитория Nutch-356 Плагин может привести к утечке памяти (Энрико Triolo, Dogacan Гюней с помощью Маркус)
  • Nutch-1164 Написать JUnit тесты для протокола HTTP-(Sertaç Turkel через tejasp)
  • Nutch 1710 Добавить гора пакет регистрирования в log4j.properties (lewismc)
  • Nutch-1655 индексирования плагин для упругой Поиск (Талат UYARER через lewismc)
  • Nutch-одна тысяча шестьсот девяносто девять Тика Parser - Изображение Разбор ошибок (Мехмет Захид Yuzuguldu, snagel помощью lewismc)
  • Nutch-порт одна тысяча пятьсот шестьдесят восемь Подключаемая архитектура индексации 2.x (Талат UYARER помощью lewismc)
  • Nutch-1672 Inlinks добавляются два раза в DbUpdateReducer (Тянь Нгуен Мань помощью lewismc)
  • Nutch-1667 Updatedb всегда игнорировать batchId (Тянь Нгуен Мань помощью lewismc)
  • Nutch-+1695 NutchDocument.toString () (Markus с помощью lewismc)
  • Nutch-тысяча шестьсот девяносто шесть Включить использование (Гора) МГНОВЕННЫЕ зависимости (lewismc)
  • Nutch-1681 году URLUtil.java метод ToUnicode не работает правильно (А

Комментарии к Apache Nutch

Комментарии не найдены
добавить комментарий
Включите картинки!