Apache Тика была разработана в качестве низкоуровневого инструментария для поиска содержимого внутри других файлов.
Тика не делать на его собственное бытие простая библиотека, но она может быть интегрирована в более мощных инструментов, таких как поисковые системы, цифровые системы управления активами или КМП, чтобы обеспечить полностью функциональную систему поиска в файле.
Библиотека может открыть заголовок только файл для быстрого общей информацией о файле, или он может пойти действительно глубоко и поиск даже в теле файла для различных типов данных, в тексте или двоичный формат.
Широкий диапазон типов файлов поддерживаются и Тика также может быть использован с другими языками программирования, благодаря серии сторонних креплений и обертки.
Что нового В этом выпуске
- Этот релиз включает исправления ошибок и новых особенностей, включая новый Тессеракт OCR Parser; новый GDAL Parser; более поддерживаемых форматов, и в целом улучшения в стабильности Тика.
Что нового в версии 1.8:
- Этот релиз включает в себя исправления ошибок и новых особенностей, включая новый Tesseract OCR Parser; новый GDAL Parser; более поддерживаемых форматов, и в целом улучшения в стабильности Тика.
Что нового в версии 1.7:
- Этот релиз включает в себя исправления ошибок и новых особенностей, включая новый Tesseract OCR Parser; новый GDAL Parser; более поддерживаемых форматов, и в целом улучшения в стабильности Тика.
Что нового в версии 1.6:
- Этот релиз включает в себя исправления ошибок и новых особенностей, включая новый перевод API, поддерживаемые форматы более, и общее улучшение стабильности Тика.
Что нового в версии 1.5:.
- Исправлена ошибка в обработке встроенных обработки файлов в формате PDF
- Добавлена SourceCodeParser поддерживать Java, Groovy, C ++ файлы.
- Обновлено Тика сервера для поддержки полезной нагрузки многочастного / формы-данных.
- Обновлено Тика сервера для CXF 2.7.8.
- Обновлено Тика сервера принимать запросы более подстановки адреса.
- Добавлена возможность использовать альтернативный NonSequentialPDFParser.
- Содержимое из PDF AcroForms теперь извлечены.
- Исправлены неверные звездочки из слайда в PPT.
- Добавлена тесты, чтобы подтвердить обращение авто-день в PPT PPTX и.
Что нового в версии 1.4:
- Удален тест HTML файл с плохо выбранной текста GPL в это.
- Улучшение Тика-сервере, чтобы позволить ему произвести текст / HTML и текст / содержание XML.
- Улучшения были внесены в компрессорной Parser для обработки g'zipped файлы, которые требуют опцию decompressConcatenated набор к истине.
- Адресовано типографский ошибку, не позволявшая от обнаружения AWK файлов.
Что нового в версии 1.2:
- Apache Тика 1.2 содержит ряд улучшений и исправлений.
Что нового в версии 1.0:
- Apache Тика 1.0 содержит ряд улучшений и исправлений.
Что нового в версии 0.9:.
- Этот релиз включает в себя несколько важных исправлений и новых возможностей
Что нового в версии 0.8:
- идентификация Язык теперь динамически настраиваемый, удалось с помощью конфигурационного файла загружаются из классам.
- Тика теперь поддерживает разбор Ленты, обернув лежащий в основе Римский библиотеку.
- Быстрый старт-гид для Тика разбора был внесен.
- Подход для водопровода через атрибутов XHTML.
- Тип носителя иерархия информация теперь приняты во внимание при выборе лучшего парсер для данного входного документа.
- Поддержка для разбора общих научных форматов данных, включая NetCDF и HDF4 / 5 был добавлен.
- Модульные тесты для Windows, были зафиксированы, позволяя TestParsers, чтобы закончить.
был добавлен
Что нового в версии 0.7:
- MP3 файл разбор была улучшена, включая добычу Channel и оцифровки и поддержка ID3v2. Кроме того, при обнаружении звука разбор MIME также была улучшена для формата MIDI.
- Тика больше не полагается на X11 для его функциональности RTF разбора.
- поточно-ошибка в AutoDetectParser был обнаружен и обратился.
- Обновление до 1.0.0 PDFBox. Новая версия PDFBox улучшает производительность PDF разбора и исправляет ряд вопросов извлечение текста.
Требования
- Java 6 или выше
Комментарии не найдены