WebGraph является основой для изучения веб-графика. WebGraph предоставляет простые способы управления очень большими графики, эксплуататорских современные методы сжатия. Точнее, это в настоящее время сделаны из:
1. Набор плоских кодов, называемых коды, которые особенно подходят для хранения веб-графики (или, в общем, с распределением чисел степенным в определенном диапазоне показателя). Тот факт, что эти коды работают хорошо можно легко проверить опытным путем, но мы также стараемся, чтобы обеспечить детальный математический анализ.
2. Алгоритмы сжатия веб-графики, которые используют сжатие пробелов и referentiation (ла) LINK, intervalisation и коды, чтобы обеспечить высокий коэффициент сжатия: например, график WebBase (2001 ползать) сжимается в 3,08 бит на ссылку, и снимок около 18500000 страниц домена .uk собранной UbiCrawler сжимается в 2,22 бит в линии связи (соответствующие показатели для транспонироваться графов 2,89 бит на ссылку и 1,98 бит на ссылке). Алгоритмы управляются по нескольким параметрам, которые предоставляют различные компромиссы между скоростью доступа и сжатия.
3. Алгоритмы для доступа сжатого графика фактически не декомпрессии его, используя ленивые методы, которые задерживают декомпрессию, пока он не является на самом деле необходимо.
4. Полный, документально реализация вышеуказанных в Java алгоритмов, содержащиеся в пакете it.unimi.dsi.webgraph. Кроме того, четко определенной API, пакет содержит несколько классов, которые позволяют изменить (например, перенести) или сжимать график, так что экспериментировать с различными настройками. Пакет основан на fastutil для рамок коллекций типа конкретные, высокопроизводительные, на MG4J для немного уровня I / O, на распределение COLT для готовых к использованию, эффективных алгоритмов и на ГНУ Getopt для линии командной разбора.
5. наборы данных для очень большой граф (например, миллиард ссылок). Они либо собраны из открытых источников (таких, как WebBase), или производится UbiCrawler.
В конце концов, с WebGraph Вы можете получить доступ и анализировать очень большой веб-графика, даже на ПК с минимальным 256 Мбайт оперативной памяти. Использование WebGraph так же легко, как установка несколько файлов фляги и загрузки набора данных. Это делает изучение явлений, таких как PageRank, распределения графика свойств веб-графика и др очень легко
Что нового В этом выпуске:.
- Эта версия добавляет несколько усовершенствований HyperANF и исправлено несколько ошибок.
- WebGraph теперь можно найти на Maven Central.
Что нового в версии 2.4.5:
- Эта версия содержит реализацию HyperANF, новый масштабируемые алгоритм для вычисления функции соседства графа, и методы, которые вычисляют среднюю кратчайший путь и другие производные данные из функции соседства.
- Кроме того, богатство статистических данных теперь вычисляется во время сжатия.
Что нового в версии 2.4.4:.
- Некоторые старые варианты были удалены
- Файлы собственности теперь содержат множество полезных статистических данных.
- Случайные доступ был улучшен.
Что нового в версии 2.4.3:
- Исправлены ArrayListMutableGraph.addNodes () (спасибо Эрику Лумер для поиска и исправления этой ошибки).
- Новые возможности переложить выход ASCII графики.
- RemappedImmutableGraph.successorArray (х) оказывает тот же массив при каждом вызове, что делает унаследованные преемников (х) метод непригодным для сканирования в параллельных различных списков. Исправлена (теперь она возвращает копию массива, вместо этого).
- Нью-случайного преобразования, что переставляет случайно график.
Что нового в версии 2.4.2:
- Новый & Quot; сочинять и Quot; построить делает возможным составить (дуга-меченых) графики.
Комментарии не найдены