Программное обеспечение Methabot является скорость оптимизированной сценариев и настраиваемый Web, FTP и локальную файловую систему гусеничного. Он поддерживает сценариями типа файла разбор, широкий спектр возможностей настройки и легко настроить, чтобы соответствовать конкретным потребностям anyones.
При использовании модульной системы и языка сценариев, пользователи имеют возможность в полной мере или частичный контроль процесса сканирования и решить, однако Methabot следует хранить веб-данных, статистика и многое другое.
Просто работает Methabot из командной строки Вы можете настроить пользовательские типы файлов, фильтрация выражения, поведение, и многое другое, так что вам не нужно быть сценарист
Особенности :
- Это быстро, разработан с нуля и до со скоростью-оптимизации в виду.
- Scriptable через Javascript с E4X
- Пользовательский тип файла фильтрации (в зависимости от типа MIME, расширение файла или выражения UMEX)
- Многопоточное
- Высоко настраиваемый из командной строки
- расширяемый модуль системы, поддерживая анализаторы пользовательские данные и фильтры.
- Простой, но мощный фильтрация URL-адресов, через UMEX.
- Автоматизированная загрузка
- Поддержка автоматической обработки печенья, когда работает над HTTP
- Расписание, отказоустойчивые сети
- Портативный, проходят с успехом на 32-бит / 64-битной Linux 2.6, 32-бит / 64-бит FreeBSD 6.x / 7.0, Windows XP и Mac OS X. Если работать практически на любой Unix-подобной ОС.
Что нового В этом выпуске:
- Исправление, при использовании внешнего заглянуть предел глубина была перепутались.
- Память очистки исправления
- динамической гиперссылка больше не устанавливается для поиска по умолчанию, так как это замедляет значительно ползет
- Build Теперь система создает и устанавливает некоторые файлы заголовков, модули можно использовать при компоновке
- инструмент мета-конфигурации добавил
- lmm_mysql перемещается за пределы этого пакета
Использование
не вариант
Что нового в версии 1.5.0:
- Изменения и новые возможности:
- Поддержка чтения intial буфер из стандартного ввода
- - тип и --base-URL параметры командной строки добавлены, наряду с возможностью initial_filetype в конфигурационных файлах
- Печенье и информация DNS теперь правильно распределяются между работниками при выполнении многопоточных
- Добавлена некоторые пример использования команды --examples
- Большие улучшения в том-нить общения, теперь работает быстрее и более организованной
- Добавлена поддержка для "Init" функций в скриптах. Узнайте больше о инициализации функций в http://bithack.se/projects/methabot/docs/e4x/init_functions.html
- libmetha не замерзает при выполнении нескольких одновременных запросов HTTP HEAD-больше. Причиной замерзает была ошибка в Libcurl который теперь установлен. Некоторые обходные пути, которые были добавлены к libmetha, чтобы предотвратить замораживание от происходящих при использовании дефект Libcurl версии, а также.
- Поддержка старых версий 7.17.x Libcurl и 7.16.x
- Новая информация доступна на & Quot; это & Quot; Объект браузеров, парсеры, Content-Type и статуса передачи кода. Узнайте больше на http://bithack.se/projects/methabot/docs/e4x/this.html
- - подробный вариант заменены --silent, так многословен режим теперь по умолчанию
- Начальная поддержка FTP ползать и опция ftp_dir_url гусеничный
- Глубина ограничения теперь гусеничный конкретных
- Добавлены параметры командной строки --crawler и --filetype
- Поддержка расширения и переопределения уже определенных типов файлов и сканеры
- Поддержка по ключевому слову копирования в файлы конфигурации
- Поддержка динамически переключения активного искателя это позволяет сканировать различные веб-сайты совершенно по-разному в одном сеанса искателя. Подробнее о переключении гусеничного на http://bithack.se/projects/methabot/docs/crawler_switching.html
- libev версия обновить 3,51
- , в т.ч. с директивой в конфигурационных файлах в настоящее время составляет уверен, что включен конфигурационный файл уже не был загружен, чтобы предотвратить включают-петли и несколько определений тип файла / гусеничные.
- Различные SpiderMonkey исправления сбора мусора, libmetha не врезаться больше, когда уборка после многопоточной сессии
- Добавлена некоторую дополнительную информацию к --info опции
- Опция «внешний» теперь установлен и включен снова
- Новая опция --spread рабочие
- Нью-libmetha API функция lmetha_global_setopt () позволяет изменять глобальную ошибку / сообщение / предупреждение корреспонденту
- Добавлена начальная реализация тестов для разработчиков
- Лучше отчетности ошибок при загрузке файлов конфигурации
- Исправление когда HTTP-сервер не возвращает заголовок Content-Type после запроса голову
- Исправление при сортировке ссылок после просьбы нескольких HTTP HEAD,
- Исправление в HTML на XML Converter, когда страница HTML не имеют и л; HTML & GT; Тег
- Исправление, опция extless-гиперссылка не работает
- Исправление, HTML, чтобы XML-конвертер больше не давится байт порядка меток или другого текста до фактического HTML
- Исправление, предотвратить libmetha от того, чтобы получить доступ к URL, протоколов, которые не поддерживаются
- Исправление при выключении после ошибки.
- Исправление, неразрешимых ссылок не вырваться из повторения цикла после трех попыток
- Очень экспериментальной и нестабильной поддержка Win32, в основном предназначена для разработчиков
- Новые файлы конфигурации:
- google.conf, для выполнения Google поиск
- youtube.conf, поиск YouTube
- meta.conf, отпечатки мета информации, например ключевых слов и описание HTML страниц
- title.conf, печатает название HTML страниц
- ftp.conf, для обхода FTP серверов
Что нового в версии 1.4.1:
- Настройка не мог найти jsapi.h на некоторых системах , это должно быть исправлено.
- Файлы конфигурации теперь могут изменять гусеничные и типа файла флаги, добавлена возможность "внешнего" и "external_peek '
- Исправление, Methabot иногда сбой при очистке пустые адреса после многократных HTTP РУКОВОДИТЕЛЯ
- Исправлена ошибка, возникавшая при работает синхронно.
- система сборки включают в себя исправления, когда jsconfig.h не может быть найден.
Требования
- заголовки SpiderMonkey
- Curl
Комментарии не найдены