mrjob

Скриншот программы:
mrjob
Детали программы:
Версия: 0.4
Дата загрузки: 20 Feb 15
Разработчик: David Marin
Тип распространения: Бесплатная
Популярность: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob модуль Python, что позволяет писать и запускать Hadoop Streaming рабочих мест.
mrjob полностью поддерживает упругой MapReduce (EMR) службы Amazon, которая позволяет выиграть время на кластере Hadoop в на почасовой основе. Она также работает с вашим собственным Hadoop кластера.
Установка
питон setup.py установить
Настройка EMR на Amazon
& NBSP; * создать веб-служб Amazon счет: http://aws.amazon.com/~~HEAD=dobj
& NBSP; * подписаться на упругом MapReduce: http://aws.amazon.com/elasticmapreduce/
& NBSP; * Получите ваш доступ и секретные ключи (перейти к http://aws.amazon.com/account/ и нажмите на кнопку "полномочий безопасности") и установить переменные окружения $ AWS_ACCESS_KEY_ID и $ AWS_SECRET_ACCESS_KEY соответственно

Попробуйте это!

# Локально
питон mrjob / примеры / mr_word_freq_count.py README.md> рассчитывает
# На ЭМИ
питон mrjob / примеры / mr_word_freq_count.py README.md -r EMR> рассчитывает
# На Hadoop кластера
питон mrjob / примеры / mr_word_freq_count.py README.md -r Hadoop> рассчитывает
Дополнительные настройки
Для запуска в других регионах AWS, загрузить исходный дерево, запустить сделать, и использовать другие расширенные функции mrjob, вам нужно настроить mrjob.conf. mrjob ищет его конф файл в:
& NBSP; * ~ / .mrjob
& NBSP; * mrjob.conf в любом месте $ PYTHONPATH
& NBSP; * /etc/mrjob.conf
См mrjob.conf.example для получения дополнительной информации

Особенности :.

  • Выполнить работы по ЭМИ, самостоятельно Hadoop кластера, или локально (для тестирования).
  • Написать многоступенчатые рабочие места (одна карта-уменьшить шаг каналы в следующем)
  • Duplicate производственной среды внутри Hadoop
  • Загрузить исходный дерево и поставить его в вашу работу за $ PYTHONPATH
  • Выполнить марка и другие настройки сценариев
  • Переменные среды указан (например $ TZ)
  • Легко установить питона пакеты из тарболов (ЭМИ только)
  • Настройка осуществляется прозрачно mrjob.conf файле конфигурации
  • Автоматически интерпретировать журналы ошибок от ЭМИ
  • SSH-туннель к Hadoop работы трекера на ЭМИ
  • Минимальная настройка
  • Для запуска на ЭМИ, установите $ AWS_ACCESS_KEY_ID и $ AWS_SECRET_ACCESS_KEY
  • Чтобы запустить на Hadoop кластера, установите $ HADOOP_HOME

Требования

  • Python

Похожие программы

GNU Parallel
GNU Parallel

17 Feb 15

clusterui
clusterui

14 Apr 15

Ganeti
Ganeti

17 Feb 15

Другие программы разработчика David Marin

doloop
doloop

11 May 15

Комментарии к mrjob

Комментарии не найдены
добавить комментарий
Включите картинки!