mrjob

Скриншот программы:
mrjob
Детали программы:
Версия: 0.4
Дата загрузки: 20 Feb 15
Разработчик: David Marin
Тип распространения: Бесплатная
Популярность: 66

Rating: 2.0/5 (Total Votes: 3)

mrjob модуль Python, что позволяет писать и запускать Hadoop Streaming рабочих мест.
mrjob полностью поддерживает упругой MapReduce (EMR) службы Amazon, которая позволяет выиграть время на кластере Hadoop в на почасовой основе. Она также работает с вашим собственным Hadoop кластера.
Установка
питон setup.py установить
Настройка EMR на Amazon
& NBSP; * создать веб-служб Amazon счет: http://aws.amazon.com/~~HEAD=dobj
& NBSP; * подписаться на упругом MapReduce: http://aws.amazon.com/elasticmapreduce/
& NBSP; * Получите ваш доступ и секретные ключи (перейти к http://aws.amazon.com/account/ и нажмите на кнопку "полномочий безопасности") и установить переменные окружения $ AWS_ACCESS_KEY_ID и $ AWS_SECRET_ACCESS_KEY соответственно

Попробуйте это!

# Локально
питон mrjob / примеры / mr_word_freq_count.py README.md> рассчитывает
# На ЭМИ
питон mrjob / примеры / mr_word_freq_count.py README.md -r EMR> рассчитывает
# На Hadoop кластера
питон mrjob / примеры / mr_word_freq_count.py README.md -r Hadoop> рассчитывает
Дополнительные настройки
Для запуска в других регионах AWS, загрузить исходный дерево, запустить сделать, и использовать другие расширенные функции mrjob, вам нужно настроить mrjob.conf. mrjob ищет его конф файл в:
& NBSP; * ~ / .mrjob
& NBSP; * mrjob.conf в любом месте $ PYTHONPATH
& NBSP; * /etc/mrjob.conf
См mrjob.conf.example для получения дополнительной информации

Особенности :.

  • Выполнить работы по ЭМИ, самостоятельно Hadoop кластера, или локально (для тестирования).
  • Написать многоступенчатые рабочие места (одна карта-уменьшить шаг каналы в следующем)
  • Duplicate производственной среды внутри Hadoop
  • Загрузить исходный дерево и поставить его в вашу работу за $ PYTHONPATH
  • Выполнить марка и другие настройки сценариев
  • Переменные среды указан (например $ TZ)
  • Легко установить питона пакеты из тарболов (ЭМИ только)
  • Настройка осуществляется прозрачно mrjob.conf файле конфигурации
  • Автоматически интерпретировать журналы ошибок от ЭМИ
  • SSH-туннель к Hadoop работы трекера на ЭМИ
  • Минимальная настройка
  • Для запуска на ЭМИ, установите $ AWS_ACCESS_KEY_ID и $ AWS_SECRET_ACCESS_KEY
  • Чтобы запустить на Hadoop кластера, установите $ HADOOP_HOME

Требования

  • Python

Похожие программы

Rocks Cluster
Rocks Cluster

2 Jun 15

Pyro4
Pyro4

14 Apr 15

Pyro
Pyro

14 Apr 15

Другие программы разработчика David Marin

doloop
doloop

11 May 15

Комментарии к mrjob

Комментарии не найдены
добавить комментарий
Включите картинки!