Apache Tika

Скриншот программы:
Apache Tika
Детали программы:
Версия: 1.9 обновление
Дата загрузки: 20 Jul 15
Разработчик: Apache Software Foundation
Тип распространения: Бесплатная
Популярность: 320

Rating: 4.0/5 (Total Votes: 2)

Apache Тика была разработана в качестве низкоуровневого инструментария для поиска содержимого внутри других файлов.
Тика не делать на его собственное бытие простая библиотека, но она может быть интегрирована в более мощных инструментов, таких как поисковые системы, цифровые системы управления активами или КМП, чтобы обеспечить полностью функциональную систему поиска в файле.
Библиотека может открыть заголовок только файл для быстрого общей информацией о файле, или он может пойти действительно глубоко и поиск даже в теле файла для различных типов данных, в тексте или двоичный формат.
Широкий диапазон типов файлов поддерживаются и Тика также может быть использован с другими языками программирования, благодаря серии сторонних креплений и обертки.

Что нового В этом выпуске

  • Этот релиз включает исправления ошибок и новых особенностей, включая новый Тессеракт OCR Parser; новый GDAL Parser; более поддерживаемых форматов, и в целом улучшения в стабильности Тика.

Что нового в версии 1.8:

  • Этот релиз включает в себя исправления ошибок и новых особенностей, включая новый Tesseract OCR Parser; новый GDAL Parser; более поддерживаемых форматов, и в целом улучшения в стабильности Тика.

Что нового в версии 1.7:

  • Этот релиз включает в себя исправления ошибок и новых особенностей, включая новый Tesseract OCR Parser; новый GDAL Parser; более поддерживаемых форматов, и в целом улучшения в стабильности Тика.

Что нового в версии 1.6:

  • Этот релиз включает в себя исправления ошибок и новых особенностей, включая новый перевод API, поддерживаемые форматы более, и общее улучшение стабильности Тика.

Что нового в версии 1.5:.

  • Исправлена ​​ошибка в обработке встроенных обработки файлов в формате PDF
  • Добавлена ​​SourceCodeParser поддерживать Java, Groovy, C ++ файлы.
  • Обновлено Тика сервера для поддержки полезной нагрузки многочастного / формы-данных.
  • Обновлено Тика сервера для CXF 2.7.8.
  • Обновлено Тика сервера принимать запросы более подстановки адреса.
  • Добавлена ​​возможность использовать альтернативный NonSequentialPDFParser.
  • Содержимое из PDF AcroForms теперь извлечены.
  • Исправлены неверные звездочки из слайда в PPT.
  • Добавлена ​​тесты, чтобы подтвердить обращение авто-день в PPT PPTX и.

Что нового в версии 1.4:

  • Удален тест HTML файл с плохо выбранной текста GPL в это.
  • Улучшение Тика-сервере, чтобы позволить ему произвести текст / HTML и текст / содержание XML.
  • Улучшения были внесены в компрессорной Parser для обработки g'zipped файлы, которые требуют опцию decompressConcatenated набор к истине.
  • Адресовано типографский ошибку, не позволявшая от обнаружения AWK файлов.

Что нового в версии 1.2:

  • Apache Тика 1.2 содержит ряд улучшений и исправлений.

Что нового в версии 1.0:

  • Apache Тика 1.0 содержит ряд улучшений и исправлений.

Что нового в версии 0.9:.

  • Этот релиз включает в себя несколько важных исправлений и новых возможностей

Что нового в версии 0.8:

  • идентификация Язык теперь динамически настраиваемый, удалось с помощью конфигурационного файла загружаются из классам.
  • Тика теперь поддерживает разбор Ленты, обернув лежащий в основе Римский библиотеку.
  • Быстрый старт-гид для Тика разбора был внесен.

  • был добавлен
  • Подход для водопровода через атрибутов XHTML.
  • Тип носителя иерархия информация теперь приняты во внимание при выборе лучшего парсер для данного входного документа.
  • Поддержка для разбора общих научных форматов данных, включая NetCDF и HDF4 / 5 был добавлен.
  • Модульные тесты для Windows, были зафиксированы, позволяя TestParsers, чтобы закончить.

Что нового в версии 0.7:

  • MP3 файл разбор была улучшена, включая добычу Channel и оцифровки и поддержка ID3v2. Кроме того, при обнаружении звука разбор MIME также была улучшена для формата MIDI.
  • Тика больше не полагается на X11 для его функциональности RTF разбора.
  • поточно-ошибка в AutoDetectParser был обнаружен и обратился.
  • Обновление до 1.0.0 PDFBox. Новая версия PDFBox улучшает производительность PDF разбора и исправляет ряд вопросов извлечение текста.

Требования

  • Java 6 или выше

Похожие программы

Sizzle
Sizzle

10 Feb 16

LeapJS
LeapJS

1 Mar 15

PHPCPD
PHPCPD

12 Apr 15

Guava
Guava

10 Feb 16

Другие программы разработчика Apache Software Foundation

Apache UIMA
Apache UIMA

17 Feb 15

Apache Syncope
Apache Syncope

10 Dec 15

Apache log4php
Apache log4php

6 Jun 15

Комментарии к Apache Tika

Комментарии не найдены
добавить комментарий
Включите картинки!