Apache Тика является инструментарий с открытым исходным кодом предназначен для обнаружения и извлечения метаданных, а также структурированный текстовый контент из нескольких документов, не используя ничего, но существующие парсер библиотеки.
Apache Тика поддерживает следующие форматы документов: Hypertext Markup Language (HTTP), форматы XML и производные, Microsoft Office форматы документов, OpenDocument Format (ODF), Portable Document Format (PDF), электронный формат публикации (ИПФ), Rich Text Format (RTF ), сжатие и форматы упаковки, текст / аудио / изображения / видео форматов, формат Mbox и класса файлы и архивы Java.
Ранее Apache Тика был суб-проект библиотеки программного обеспечения Apache Lucene. Теперь он распространяется в качестве отдельного пакета по Apache Software Foundation
Что нового В этом выпуске:.
- Удален Тест HTML файл с плохо выбранной текста GPL в нем (ТИКА-1129).
- Улучшение Тика-сервере, чтобы позволить ему произвести текст / HTML и текст / XML содержание (TIKA-1126, ТИКА-1127).
- Улучшения были внесены в компрессорной Parser для обработки g'zipped файлы, которые требуют опцию decompressConcatenated установлен в TRUE (ТИКА-1096).
- Адресовано типографский ошибку, не позволявшая от обнаружения AWK файлов (ТИКА-1081).
- Добавлена новая конечную точку на сервер JAX-RS REST Тика, что только обнаруживает медиа-тип, основанный на небольшой части документа, представленного (ТИКА-1047).
- RTF:. Упорядоченные и неупорядоченные списки теперь извлекается (TIKA-1062)
- MP3: Аудио продолжительность теперь извлекается (ТИКА-991)
- Java .class файлы:. повышен с 3,1 до АНМ АНМ 4.1 для разбора Java байт-код (ТИКА-1053)
- Типы MIME-тип: Определения продлен до необязательно включать ссылку (URL) и ИМП, наряду с деталями для нескольких распространенных форматов (ТИКА-1012 / ТИКА-1083)
- Исключения при разборе OLE10 встроенные документы, при анализе сводной информации из документов Office, и при сохранении встроенные documennts в TikaCLI теперь вошли вместо прерывания добычу (ТИКА-1074)
- MS Word: строка табличной характер теперь заменены новой строки (ТИКА-1128)
- XML: ElementMetadataHandlers теперь необязательно принимать дубликаты и пустые значения (TIKA-1133) .
Требования
- Java 2 Standard Edition Runtime Environment
Комментарии не найдены