Красивая проект Суп Python HTML / XML-анализатор предназначен для быстрого оборотных проектов, таких как экран-выскабливание. Три особенности делают его мощным:
Beautiful Soup не подавится, если вы даете ему плохой разметки. Это дает дерево разбора, что делает примерно столько же смысла, как исходный документ. Это, как правило, достаточно хорошо, чтобы собрать данные, необходимые и убежать.
Beautiful Soup предоставляет несколько простых методов и вещий идиомы для навигации, поиска и модификации дерева синтаксического разбора: инструментарий для рассечения документ и извлечения, что вам нужно. Вы не должны создавать пользовательские парсер для каждого приложения.
Красивая Суп автоматически преобразовывает входящие документы Unicode и исходящих документов в кодировке UTF-8. Вы не должны думать о кодировках, если документ не не указать кодировку и красивый суп не может автоматически определить один. Тогда вам просто нужно указать исходной кодировки.
Beautiful Soup разбирает все, что вы даете ему, и делает обход дерева материал для вас. Вы можете сказать, что это "Найти все ссылки", или "Найти все ссылки класса externalLink", или "Найти все ссылки, чьи URL-адреса совпадают" foo.com ", или" Найти таблицу заголовок, есть жирный текст, а затем дать мне, что текст ".
Ценные данные, которые были когда-то заперли в плохо разработанных веб-сайтов теперь в пределах вашей досягаемости. . Проекты, которые бы не часы принимать только минут с Beautiful Soup
Требования
- Python
Комментарии не найдены