Apache Nutch

Скриншот программы:
Apache Nutch
Детали программы:
Версия: 2.3
Дата загрузки: 1 Mar 15
Разработчик: Apache Software Foundation
Тип распространения: Бесплатная
Популярность: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch был построен на вершине Apache Lucene , мощный двигатель Java Поиск.
Разработчики Nutch изменил кодовую Lucene, превращая данных агностик Lucene коде в проекте, посвященном для поиска данных в Интернете в частности.
Эта технология может быть использована для поиска на собственных веб-страниц, как встроенный в сервер поиска, или сканировать веб ищете данные для анализа и очистить в вашей базе данных.
Nutch может работать на одной машине, но лучше работает в кластеров.
Различные плагины доступны для расширения ее спектра использования

Что нового В этом выпуске:.

  • Убедитесь дубликаты теги не существует в микроформат-reltag набор тегов.
  • Лучше отступить значение для поля даты.
  • Избавиться от страшной.
  • Обновление до 1.2.0 Hadoop.
  • Обновление до Тика 1.3.

Что нового в версии 2.0:.

  • Переименован HTMLParseFilter в ParseFilter
  • Удалить остатки роботов / IP блокирующий код в Lib-HTTP.
  • регистрация Порт для SLF4J.
  • Внешний анализатор поддерживает атрибут кодировки.
  • Настройки конфигурации Ivy не включают Гора.
  • Инжектор должен добавить метаданные перед вызовом injectedScore.
  • Порт Nutch тест на Nutchbase.
  • Добавить разбора HTML-назад.
  • MoreIndexingFilter отсутствует формат даты.
  • Тайм-аут для Parser.
  • Повторить интервал даты сканирования устанавливается в 0.
  • Создать выход журнала для ГП индексации и DeDup.
  • Улучшена NutchConfiguration.
  • SolrDeleteDuplicates нужно клонировать объекты SolrRecord.
  • Родные LIBS Hadoop не доступные через Maven.
  • отделить сборки и выполнения среды.

Что нового в версии 1.5:

  • Этот релиз включает в себя несколько улучшений, включая модернизацию нескольких крупных компонентов, включая Тика 1.1 и 1.0.0 Hadoop, улучшения LinkRank и WebGraph элементы, а также ряд новых плагинов, охватывающих чёрного списка, фильтрацию и анализ, чтобы назвать несколько.

Что нового в версии 1.4:.

  • Добавлена ​​Solr 4x (ствол) пример схемы
  • Добавлена ​​"/ выполнения", чтобы SVN игнорировать.
  • Применение / XHTML + XML должен быть включен в plugin.xml разбора HTML-; позволяют несколько MIMETYPES для plugin.xml.
  • Исправлена ​​разбора-тика и разобрать-HTML, чтобы использовать относительное разрешение URL за RFC-3986.
  • Обновление до Тика 0,10. ПРИМЕЧАНИЕ:. ТИКА Новый RTF парсер может проигнорировать больше текста в уродливых документов, чем ранее - см Тика-748 для подробной информации
  • Добавлена ​​Sonar цели в Ant build.xml.
  • Модернизированный SolrJ до версии 3.4.0.
  • Ant PMD целевой нарушается.
  • Модернизированный Solr Схема до версии 1.4.

Что нового в версии 1.3:

  • Этот релиз включает в себя несколько усовершенствований (улучшенный RSS разбор поддержку, крепче интеграция с Apache Тика, внешней поддержки разбора, улучшенной идентификации языка и на порядок меньше исходного выпуска архива -. только о 2 Мб)

Что нового в версии 1.2:.

  • Сделать индекса более плагин настраивается
  • Настраиваемые протокол файла родительский каталог сканирование.
  • Тайм-аут для Parser.
  • Сайт до сих пор Lucene фирменных.
  • Повторить интервал даты сканирования устанавливается в 0.

Что нового в версии 1.0:.

  • Разрешить анализаторы для возврата нескольких объектов разбора
  • Удалено избыточным фонда каротажа банку из онтологии плагина.
  • Исправлена ​​ошибка в SegmentReader вызывает бесконечный цикл.
  • Подсчет фильтр должен распространять счет всех внешних ссылок на один раз.
  • Уменьшить количество предупреждений в Nutch ядра.

Похожие программы

HideSeek
HideSeek

4 Jun 15

pyelasticsearch
pyelasticsearch

20 Jul 15

Zoie
Zoie

13 May 15

FilteringHighlight
FilteringHighlight

13 May 15

Другие программы разработчика Apache Software Foundation

Apache Spark
Apache Spark

6 Mar 16

Apache DdlUtils
Apache DdlUtils

12 Apr 15

Apache Stratos
Apache Stratos

10 Feb 16

Apache Wink
Apache Wink

13 Apr 15

Комментарии к Apache Nutch

Комментарии не найдены
добавить комментарий
Включите картинки!
Поиск по категориям