Apache Nutch был построен на вершине Apache Lucene , мощный двигатель Java Поиск.
Разработчики Nutch изменил кодовую Lucene, превращая данных агностик Lucene коде в проекте, посвященном для поиска данных в Интернете в частности.
Эта технология может быть использована для поиска на собственных веб-страниц, как встроенный в сервер поиска, или сканировать веб ищете данные для анализа и очистить в вашей базе данных.
Nutch может работать на одной машине, но лучше работает в кластеров.
Различные плагины доступны для расширения ее спектра использования
Что нового В этом выпуске:.
- Убедитесь дубликаты теги не существует в микроформат-reltag набор тегов.
- Лучше отступить значение для поля даты.
- Избавиться от страшной.
- Обновление до 1.2.0 Hadoop.
- Обновление до Тика 1.3.
Что нового в версии 2.0:.
- Переименован HTMLParseFilter в ParseFilter
- Удалить остатки роботов / IP блокирующий код в Lib-HTTP.
- регистрация Порт для SLF4J.
- Внешний анализатор поддерживает атрибут кодировки.
- Настройки конфигурации Ivy не включают Гора.
- Инжектор должен добавить метаданные перед вызовом injectedScore.
- Порт Nutch тест на Nutchbase.
- Добавить разбора HTML-назад.
- MoreIndexingFilter отсутствует формат даты.
- Тайм-аут для Parser.
- Повторить интервал даты сканирования устанавливается в 0.
- Создать выход журнала для ГП индексации и DeDup.
- Улучшена NutchConfiguration.
- SolrDeleteDuplicates нужно клонировать объекты SolrRecord.
- Родные LIBS Hadoop не доступные через Maven.
- отделить сборки и выполнения среды.
Что нового в версии 1.5:
- Этот релиз включает в себя несколько улучшений, включая модернизацию нескольких крупных компонентов, включая Тика 1.1 и 1.0.0 Hadoop, улучшения LinkRank и WebGraph элементы, а также ряд новых плагинов, охватывающих чёрного списка, фильтрацию и анализ, чтобы назвать несколько.
Что нового в версии 1.4:.
- Добавлена Solr 4x (ствол) пример схемы
- Добавлена "/ выполнения", чтобы SVN игнорировать.
- Применение / XHTML + XML должен быть включен в plugin.xml разбора HTML-; позволяют несколько MIMETYPES для plugin.xml.
- Исправлена разбора-тика и разобрать-HTML, чтобы использовать относительное разрешение URL за RFC-3986.
- Обновление до Тика 0,10. ПРИМЕЧАНИЕ:. ТИКА Новый RTF парсер может проигнорировать больше текста в уродливых документов, чем ранее - см Тика-748 для подробной информации
- Добавлена Sonar цели в Ant build.xml.
- Модернизированный SolrJ до версии 3.4.0.
- Ant PMD целевой нарушается.
- Модернизированный Solr Схема до версии 1.4.
Что нового в версии 1.3:
- Этот релиз включает в себя несколько усовершенствований (улучшенный RSS разбор поддержку, крепче интеграция с Apache Тика, внешней поддержки разбора, улучшенной идентификации языка и на порядок меньше исходного выпуска архива -. только о 2 Мб)
Что нового в версии 1.2:.
- Сделать индекса более плагин настраивается
- Настраиваемые протокол файла родительский каталог сканирование.
- Тайм-аут для Parser.
- Сайт до сих пор Lucene фирменных.
- Повторить интервал даты сканирования устанавливается в 0.
Что нового в версии 1.0:.
- Разрешить анализаторы для возврата нескольких объектов разбора
- Удалено избыточным фонда каротажа банку из онтологии плагина.
- Исправлена ошибка в SegmentReader вызывает бесконечный цикл.
- Подсчет фильтр должен распространять счет всех внешних ссылок на один раз.
- Уменьшить количество предупреждений в Nutch ядра.
Комментарии не найдены