Jericho HTML Parser

Скриншот программы:
Jericho HTML Parser
Детали программы:
Версия: 3.4
Дата загрузки: 10 Dec 15
Разработчик: Martin Jericho
Тип распространения: Бесплатная
Популярность: 12

Rating: nan/5 (Total Votes: 0)

Он может редактировать серверных и на стороне клиента теги, при воспроизведении дословно любой непризнанный или недопустимый HTML.

Это также обеспечивает на высоком уровне функции HTML-форма манипуляции

Особенности :.

  • Наличие плохо отформатирован HTML не вмешиваться в разбора остальной части документа, которая делает библиотека подходит для использования с & Quot; реальном мире и Quot; HTML, что дроссели другие анализаторы.
  • ASP, JSP, PSP, PHP и Мейсон теги сервера явно признается анализатором. Это означает, что нормальная HTML-прежнему анализируется должным образом, даже если есть сервер теги внутри них, который является общим, например, при динамической настройки атрибутов элемента.
  • Новый поток на основе разбора вариант, используя класс StreamedSource, которая позволяет памяти эффективной обработки больших файлов, используя итератор событий. По сути, это альтернатива StAX с возможностью обработки HTML и непроверяющим XML, а также несколько других возможностей, не доступных в других потоковых анализаторов.
  • В своей стандартной форме она ни событие, ни дерево, основанное парсер, а использует комбинацию простого текстового поиска, эффективного признания и тега кэш положение тега. Текст документа весь исходный сначала загружается в память, а затем только соответствующие сегменты искали соответствующих символов каждой операции поиска.
  • По сравнению с анализатором на основе дерева, такие как DOM, требования к памяти и ресурсов может быть гораздо лучше, если только небольшие участки документа должны быть разобраны или модифицированы. Неправильное или плохо отформатирован HTML можно легко игнорировать, в отличие от анализаторов, основанных деревьев, которые должны определить каждый узел в документе, сверху донизу.
  • По сравнению с анализатором на основе событий, таких как SAX, интерфейс на гораздо более высоком уровне, и более интуитивным, и представление дерева иерархии элемента документа легко создается, если требуется.
  • начальные и конечные позиции в исходном документе всех проанализированных сегментов доступны, что позволяет модификацию только отдельных сегментах документа без реконструировать весь документ из дерева.
  • строки и столбца номер каждой позиции в исходном документе легко доступны.
  • Обеспечивает простой, но всеобъемлющий интерфейс для анализа и манипулирования управления формы HTML, в том числе по добыче и населения начальных значений и преобразования только для чтения или отображения данных режимов. Анализ управления форм также позволяет данные, полученные из формы, чтобы хранить и представлены надлежащим образом.
  • Встроенные функции для извлечения весь текст из HTML-разметки, подходит для кормления в текстовый поисковой системы, такие как Apache Lucene.
  • Встроенные функции для визуализации HTML разметку с простым форматированием текста.
  • Встроенные функции для форматирования HTML исходный код, который делает отступ элементы в соответствии с их глубину в иерархии элемента документа. (Нажмите здесь для онлайн-демонстрации)
  • Встроенные функции в компактном исходный код, удалив все ненужные пробелы.
  • Пользовательские типы тегов могут быть легко определены и зарегистрированы для признания анализатором.

Что нового В этом выпуске:.

  • Добавлена ​​Источник (Файл) Конструктор
  • Метод Добавлено OutputDocument.getSegment ().
  • Добавлена ​​OutputDocument.remove (INT начала Int конца) метод.
  • Метод Добавлено Renderer.setHRLineLength ().
  • Добавлена ​​RenderToText.jsp WebApp образец.
  • Метод Добавлено Segment.getRowColumnVector ().
  • Кодирование обнаружения теперь игнорирует общие кодировки, указанные в мета-тегов, которые имеют размер код блок несовместимого с предварительного кодирования.

Что нового в версии 3.1:

  • исправления:
  • Бесконечный цикл на Segment.getAllStartTags ()
  • Бесконечный цикл на Segment.getAllElements ()
  • Segment.getFirst * Методы вернулся сегментов вне ограничивающего сегмента.

  • Методы
  • Segment.getAllElements не вернуть все вложенные элементы в некоторых обстоятельствах.
  • Исправлены ошибки в документации методов Segment.getAllElements.
  • класс Добавлено StreamedSource.
  • Изменения, которые могут повлиять на поведение существующих программ:
  • Изменен ParseText из класса в интерфейс.
  • Segment.getNodeIterator () теперь возвращает символьные ссылки как отдельные узлы.
  • Добавлена ​​тегов методы поиска, основанные на значений атрибутов регулярных выражений.
  • Добавлена ​​тегов методы поиска, основанные на атрибут HTML класса.
  • Добавлена ​​статическое свойство Source.LegacyNodeIteratorCompatabilityMode временно восстановить Segment.getNodeIterator () функциональность, что и в предыдущих версиях.
  • Удаленные символьные [] методы, основанные поиска в ParseText.
  • Добавлена ​​CharacterReference.appendCharTo (Appendable) метод.
  • Добавлена ​​OutputDocument (сегмент) Конструктор.
  • Пример программы Добавлено StreamedSourceCopy.

Похожие программы

SlickMap CSS
SlickMap CSS

21 Jul 15

Databot
Databot

5 Jun 15

KineticJS
KineticJS

13 May 15

Modernizr
Modernizr

9 Feb 16

Другие программы разработчика Martin Jericho

Комментарии к Jericho HTML Parser

Комментарии не найдены
добавить комментарий
Включите картинки!
Поиск по категориям