Apache Nutch

Скриншот программы:
Apache Nutch
Детали программы:
Версия: 2.3
Дата загрузки: 1 Mar 15
Разработчик: Apache Software Foundation
Тип распространения: Бесплатная
Популярность: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch был построен на вершине Apache Lucene , мощный двигатель Java Поиск.
Разработчики Nutch изменил кодовую Lucene, превращая данных агностик Lucene коде в проекте, посвященном для поиска данных в Интернете в частности.
Эта технология может быть использована для поиска на собственных веб-страниц, как встроенный в сервер поиска, или сканировать веб ищете данные для анализа и очистить в вашей базе данных.
Nutch может работать на одной машине, но лучше работает в кластеров.
Различные плагины доступны для расширения ее спектра использования

Что нового В этом выпуске:.

  • Убедитесь дубликаты теги не существует в микроформат-reltag набор тегов.
  • Лучше отступить значение для поля даты.
  • Избавиться от страшной.
  • Обновление до 1.2.0 Hadoop.
  • Обновление до Тика 1.3.

Что нового в версии 2.0:.

  • Переименован HTMLParseFilter в ParseFilter
  • Удалить остатки роботов / IP блокирующий код в Lib-HTTP.
  • регистрация Порт для SLF4J.
  • Внешний анализатор поддерживает атрибут кодировки.
  • Настройки конфигурации Ivy не включают Гора.
  • Инжектор должен добавить метаданные перед вызовом injectedScore.
  • Порт Nutch тест на Nutchbase.
  • Добавить разбора HTML-назад.
  • MoreIndexingFilter отсутствует формат даты.
  • Тайм-аут для Parser.
  • Повторить интервал даты сканирования устанавливается в 0.
  • Создать выход журнала для ГП индексации и DeDup.
  • Улучшена NutchConfiguration.
  • SolrDeleteDuplicates нужно клонировать объекты SolrRecord.
  • Родные LIBS Hadoop не доступные через Maven.
  • отделить сборки и выполнения среды.

Что нового в версии 1.5:

  • Этот релиз включает в себя несколько улучшений, включая модернизацию нескольких крупных компонентов, включая Тика 1.1 и 1.0.0 Hadoop, улучшения LinkRank и WebGraph элементы, а также ряд новых плагинов, охватывающих чёрного списка, фильтрацию и анализ, чтобы назвать несколько.

Что нового в версии 1.4:.

  • Добавлена ​​Solr 4x (ствол) пример схемы
  • Добавлена ​​"/ выполнения", чтобы SVN игнорировать.
  • Применение / XHTML + XML должен быть включен в plugin.xml разбора HTML-; позволяют несколько MIMETYPES для plugin.xml.
  • Исправлена ​​разбора-тика и разобрать-HTML, чтобы использовать относительное разрешение URL за RFC-3986.
  • Обновление до Тика 0,10. ПРИМЕЧАНИЕ:. ТИКА Новый RTF парсер может проигнорировать больше текста в уродливых документов, чем ранее - см Тика-748 для подробной информации
  • Добавлена ​​Sonar цели в Ant build.xml.
  • Модернизированный SolrJ до версии 3.4.0.
  • Ant PMD целевой нарушается.
  • Модернизированный Solr Схема до версии 1.4.

Что нового в версии 1.3:

  • Этот релиз включает в себя несколько усовершенствований (улучшенный RSS разбор поддержку, крепче интеграция с Apache Тика, внешней поддержки разбора, улучшенной идентификации языка и на порядок меньше исходного выпуска архива -. только о 2 Мб)

Что нового в версии 1.2:.

  • Сделать индекса более плагин настраивается
  • Настраиваемые протокол файла родительский каталог сканирование.
  • Тайм-аут для Parser.
  • Сайт до сих пор Lucene фирменных.
  • Повторить интервал даты сканирования устанавливается в 0.

Что нового в версии 1.0:.

  • Разрешить анализаторы для возврата нескольких объектов разбора
  • Удалено избыточным фонда каротажа банку из онтологии плагина.
  • Исправлена ​​ошибка в SegmentReader вызывает бесконечный цикл.
  • Подсчет фильтр должен распространять счет всех внешних ссылок на один раз.
  • Уменьшить количество предупреждений в Nutch ядра.

Похожие программы

sitemap.js
sitemap.js

10 Feb 16

mysolr
mysolr

13 Apr 15

Sphinx
Sphinx

12 May 15

Texticle
Texticle

13 May 15

Другие программы разработчика Apache Software Foundation

Комментарии к Apache Nutch

Комментарии не найдены
добавить комментарий
Включите картинки!
Поиск по категориям