Apache Tika

Скриншот программы:
Apache Tika
Детали программы:
Версия: 1.4
Дата загрузки: 20 Feb 15
Разработчик: The Apache Software Foundation
Тип распространения: Бесплатная
Популярность: 102

Rating: nan/5 (Total Votes: 0)

Apache Тика является инструментарий с открытым исходным кодом предназначен для обнаружения и извлечения метаданных, а также структурированный текстовый контент из нескольких документов, не используя ничего, но существующие парсер библиотеки.
Apache Тика поддерживает следующие форматы документов: Hypertext Markup Language (HTTP), форматы XML и производные, Microsoft Office форматы документов, OpenDocument Format (ODF), Portable Document Format (PDF), электронный формат публикации (ИПФ), Rich Text Format (RTF ), сжатие и форматы упаковки, текст / аудио / изображения / видео форматов, формат Mbox и класса файлы и архивы Java.
Ранее Apache Тика был суб-проект библиотеки программного обеспечения Apache Lucene. Теперь он распространяется в качестве отдельного пакета по Apache Software Foundation

Что нового В этом выпуске:.

  • Удален Тест HTML файл с плохо выбранной текста GPL в нем (ТИКА-1129).
  • Улучшение Тика-сервере, чтобы позволить ему произвести текст / HTML и текст / XML содержание (TIKA-1126, ТИКА-1127).
  • Улучшения были внесены в компрессорной Parser для обработки g'zipped файлы, которые требуют опцию decompressConcatenated установлен в TRUE (ТИКА-1096).
  • Адресовано типографский ошибку, не позволявшая от обнаружения AWK файлов (ТИКА-1081).
  • Добавлена ​​новая конечную точку на сервер JAX-RS REST Тика, что только обнаруживает медиа-тип, основанный на небольшой части документа, представленного (ТИКА-1047).
  • RTF:. Упорядоченные и неупорядоченные списки теперь извлекается (TIKA-1062)
  • MP3: Аудио продолжительность теперь извлекается (ТИКА-991)
  • Java .class файлы:. повышен с 3,1 до АНМ АНМ 4.1 для разбора Java байт-код (ТИКА-1053)
  • Типы MIME-тип: Определения продлен до необязательно включать ссылку (URL) и ИМП, наряду с деталями для нескольких распространенных форматов (ТИКА-1012 / ТИКА-1083)
  • Исключения при разборе OLE10 встроенные документы, при анализе сводной информации из документов Office, и при сохранении встроенные documennts в TikaCLI теперь вошли вместо прерывания добычу (ТИКА-1074)
  • MS Word: строка табличной характер теперь заменены новой строки (ТИКА-1128)
  • XML: ElementMetadataHandlers теперь необязательно принимать дубликаты и пустые значения (TIKA-1133)
  • .

Требования

  • Java 2 Standard Edition Runtime Environment

Другие программы разработчика The Apache Software Foundation

Комментарии к Apache Tika

Комментарии не найдены
добавить комментарий
Включите картинки!