PDFMiner работает сначала принимает содержимое PDF файла и преобразование его в более податливый формате, как HTML.
Оттуда, текст и данные извлекаются и анализируются, и на основе предопределенных правил, разделенных и представленных пользователя или отправленных в другие, более мощные инструменты анализа данных.
Если анализ текста является не то, что вы собираетесь сделать, вы можете легко настроить PDFMiner просто извлечь или просто конвертировать данные PDF, а также.
Его функции могут работать отдельно друг от друга и позволяют спектр шире использование благодаря этому
Особенности :.
- 100% Python Код, не С или С ++
- разобрать PDF-файлов
- Анализировать PDF-файлов
- Convert PDF-файлов в другие форматы
- ToC вытяжка
- Получить только маркированных содержание
- Поддержка большого количества функций текст PDF
- Основные шифрования (RC4) поддержка
<литий> Поддержка большого количества типов шрифтов внутри PDF-
Что нового В этом выпуске:
- не
- метод PDFDocument.initialize () удаляется и больше не нужны , Пароль дается в качестве аргумента конструктора PDFDocument.
Что нового в версии 20110515:.
- изменения API
- класс LTPolygon был переименован в LTCurve.
Что нового в версии 20110227:.
- исправления и улучшения анализа макета
Что нового в версии 20101226:.
- Несколько исправлений и мелких улучшений
Что нового в версии 20101017:.
- Несколько исправлений и незначительное улучшение
Что нового в версии 20100424:.
- Исправления и крошечные улучшения по добыче ТОС
Требования
- Python 2.4 до 3
Ограничения :.
- PDFMiner может быть в 20 раз медленнее, чем / C ++ C - программное обеспечение на основе
Комментарии не найдены