Детали программы:
Версия: 3.4
Дата загрузки: 10 Dec 15
Тип распространения: Бесплатная
Популярность: 105
Он может редактировать серверных и на стороне клиента теги, при воспроизведении дословно любой непризнанный или недопустимый HTML.
Это также обеспечивает на высоком уровне функции HTML-форма манипуляции
Особенности :.
- Наличие плохо отформатирован HTML не вмешиваться в разбора остальной части документа, которая делает библиотека подходит для использования с & Quot; реальном мире и Quot; HTML, что дроссели другие анализаторы.
- ASP, JSP, PSP, PHP и Мейсон теги сервера явно признается анализатором. Это означает, что нормальная HTML-прежнему анализируется должным образом, даже если есть сервер теги внутри них, который является общим, например, при динамической настройки атрибутов элемента.
- Новый поток на основе разбора вариант, используя класс StreamedSource, которая позволяет памяти эффективной обработки больших файлов, используя итератор событий. По сути, это альтернатива StAX с возможностью обработки HTML и непроверяющим XML, а также несколько других возможностей, не доступных в других потоковых анализаторов.
- В своей стандартной форме она ни событие, ни дерево, основанное парсер, а использует комбинацию простого текстового поиска, эффективного признания и тега кэш положение тега. Текст документа весь исходный сначала загружается в память, а затем только соответствующие сегменты искали соответствующих символов каждой операции поиска.
- По сравнению с анализатором на основе дерева, такие как DOM, требования к памяти и ресурсов может быть гораздо лучше, если только небольшие участки документа должны быть разобраны или модифицированы. Неправильное или плохо отформатирован HTML можно легко игнорировать, в отличие от анализаторов, основанных деревьев, которые должны определить каждый узел в документе, сверху донизу.
- По сравнению с анализатором на основе событий, таких как SAX, интерфейс на гораздо более высоком уровне, и более интуитивным, и представление дерева иерархии элемента документа легко создается, если требуется.
- начальные и конечные позиции в исходном документе всех проанализированных сегментов доступны, что позволяет модификацию только отдельных сегментах документа без реконструировать весь документ из дерева.
- строки и столбца номер каждой позиции в исходном документе легко доступны.
- Обеспечивает простой, но всеобъемлющий интерфейс для анализа и манипулирования управления формы HTML, в том числе по добыче и населения начальных значений и преобразования только для чтения или отображения данных режимов. Анализ управления форм также позволяет данные, полученные из формы, чтобы хранить и представлены надлежащим образом.
- Встроенные функции для извлечения весь текст из HTML-разметки, подходит для кормления в текстовый поисковой системы, такие как Apache Lucene.
- Встроенные функции для визуализации HTML разметку с простым форматированием текста.
- Встроенные функции для форматирования HTML исходный код, который делает отступ элементы в соответствии с их глубину в иерархии элемента документа. (Нажмите здесь для онлайн-демонстрации)
- Встроенные функции в компактном исходный код, удалив все ненужные пробелы.
- Пользовательские типы тегов могут быть легко определены и зарегистрированы для признания анализатором.
Что нового В этом выпуске:.
- Добавлена Источник (Файл) Конструктор
- Метод Добавлено OutputDocument.getSegment ().
- Добавлена OutputDocument.remove (INT начала Int конца) метод.
- Метод Добавлено Renderer.setHRLineLength ().
- Добавлена RenderToText.jsp WebApp образец.
- Метод Добавлено Segment.getRowColumnVector ().
- Кодирование обнаружения теперь игнорирует общие кодировки, указанные в мета-тегов, которые имеют размер код блок несовместимого с предварительного кодирования.
Что нового в версии 3.1:
- исправления:
- Бесконечный цикл на Segment.getAllStartTags ()
- Бесконечный цикл на Segment.getAllElements ()
- Segment.getFirst * Методы вернулся сегментов вне ограничивающего сегмента.
- Segment.getAllElements не вернуть все вложенные элементы в некоторых обстоятельствах.
- Исправлены ошибки в документации методов Segment.getAllElements.
- класс Добавлено StreamedSource.
- Изменения, которые могут повлиять на поведение существующих программ:
- Изменен ParseText из класса в интерфейс.
- Segment.getNodeIterator () теперь возвращает символьные ссылки как отдельные узлы.
- Добавлена тегов методы поиска, основанные на значений атрибутов регулярных выражений.
- Добавлена тегов методы поиска, основанные на атрибут HTML класса.
- Добавлена статическое свойство Source.LegacyNodeIteratorCompatabilityMode временно восстановить Segment.getNodeIterator () функциональность, что и в предыдущих версиях.
- Удаленные символьные [] методы, основанные поиска в ParseText.
- Добавлена CharacterReference.appendCharTo (Appendable) метод.
- Добавлена OutputDocument (сегмент) Конструктор.
- Пример программы Добавлено StreamedSourceCopy.
Методы
Комментарии не найдены