Apache Tika

Скриншот программы:
Apache Tika
Детали программы:
Версия: 1.9 обновление
Дата загрузки: 20 Jul 15
Разработчик: Apache Software Foundation
Тип распространения: Бесплатная
Популярность: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Тика была разработана в качестве низкоуровневого инструментария для поиска содержимого внутри других файлов.
Тика не делать на его собственное бытие простая библиотека, но она может быть интегрирована в более мощных инструментов, таких как поисковые системы, цифровые системы управления активами или КМП, чтобы обеспечить полностью функциональную систему поиска в файле.
Библиотека может открыть заголовок только файл для быстрого общей информацией о файле, или он может пойти действительно глубоко и поиск даже в теле файла для различных типов данных, в тексте или двоичный формат.
Широкий диапазон типов файлов поддерживаются и Тика также может быть использован с другими языками программирования, благодаря серии сторонних креплений и обертки.

Что нового В этом выпуске

  • Этот релиз включает исправления ошибок и новых особенностей, включая новый Тессеракт OCR Parser; новый GDAL Parser; более поддерживаемых форматов, и в целом улучшения в стабильности Тика.

Что нового в версии 1.8:

  • Этот релиз включает в себя исправления ошибок и новых особенностей, включая новый Tesseract OCR Parser; новый GDAL Parser; более поддерживаемых форматов, и в целом улучшения в стабильности Тика.

Что нового в версии 1.7:

  • Этот релиз включает в себя исправления ошибок и новых особенностей, включая новый Tesseract OCR Parser; новый GDAL Parser; более поддерживаемых форматов, и в целом улучшения в стабильности Тика.

Что нового в версии 1.6:

  • Этот релиз включает в себя исправления ошибок и новых особенностей, включая новый перевод API, поддерживаемые форматы более, и общее улучшение стабильности Тика.

Что нового в версии 1.5:.

  • Исправлена ​​ошибка в обработке встроенных обработки файлов в формате PDF
  • Добавлена ​​SourceCodeParser поддерживать Java, Groovy, C ++ файлы.
  • Обновлено Тика сервера для поддержки полезной нагрузки многочастного / формы-данных.
  • Обновлено Тика сервера для CXF 2.7.8.
  • Обновлено Тика сервера принимать запросы более подстановки адреса.
  • Добавлена ​​возможность использовать альтернативный NonSequentialPDFParser.
  • Содержимое из PDF AcroForms теперь извлечены.
  • Исправлены неверные звездочки из слайда в PPT.
  • Добавлена ​​тесты, чтобы подтвердить обращение авто-день в PPT PPTX и.

Что нового в версии 1.4:

  • Удален тест HTML файл с плохо выбранной текста GPL в это.
  • Улучшение Тика-сервере, чтобы позволить ему произвести текст / HTML и текст / содержание XML.
  • Улучшения были внесены в компрессорной Parser для обработки g'zipped файлы, которые требуют опцию decompressConcatenated набор к истине.
  • Адресовано типографский ошибку, не позволявшая от обнаружения AWK файлов.

Что нового в версии 1.2:

  • Apache Тика 1.2 содержит ряд улучшений и исправлений.

Что нового в версии 1.0:

  • Apache Тика 1.0 содержит ряд улучшений и исправлений.

Что нового в версии 0.9:.

  • Этот релиз включает в себя несколько важных исправлений и новых возможностей

Что нового в версии 0.8:

  • идентификация Язык теперь динамически настраиваемый, удалось с помощью конфигурационного файла загружаются из классам.
  • Тика теперь поддерживает разбор Ленты, обернув лежащий в основе Римский библиотеку.
  • Быстрый старт-гид для Тика разбора был внесен.

  • был добавлен
  • Подход для водопровода через атрибутов XHTML.
  • Тип носителя иерархия информация теперь приняты во внимание при выборе лучшего парсер для данного входного документа.
  • Поддержка для разбора общих научных форматов данных, включая NetCDF и HDF4 / 5 был добавлен.
  • Модульные тесты для Windows, были зафиксированы, позволяя TestParsers, чтобы закончить.

Что нового в версии 0.7:

  • MP3 файл разбор была улучшена, включая добычу Channel и оцифровки и поддержка ID3v2. Кроме того, при обнаружении звука разбор MIME также была улучшена для формата MIDI.
  • Тика больше не полагается на X11 для его функциональности RTF разбора.
  • поточно-ошибка в AutoDetectParser был обнаружен и обратился.
  • Обновление до 1.0.0 PDFBox. Новая версия PDFBox улучшает производительность PDF разбора и исправляет ряд вопросов извлечение текста.

Требования

  • Java 6 или выше

Похожие программы

Augment.js
Augment.js

5 Jun 15

PHP Parser
PHP Parser

10 Apr 16

DBOne
DBOne

21 Jul 15

Load.js
Load.js

5 Jun 15

Другие программы разработчика Apache Software Foundation

Apache Roller
Apache Roller

12 Apr 15

Apache Nutch
Apache Nutch

1 Mar 15

Apache Geronimo
Apache Geronimo

13 Apr 15

Apache Synapse
Apache Synapse

13 Apr 15

Комментарии к Apache Tika

Комментарии не найдены
добавить комментарий
Включите картинки!