mrjob модуль Python, что позволяет писать и запускать Hadoop Streaming рабочих мест.
mrjob полностью поддерживает упругой MapReduce (EMR) службы Amazon, которая позволяет выиграть время на кластере Hadoop в на почасовой основе. Она также работает с вашим собственным Hadoop кластера.
Установка
питон setup.py установить
Настройка EMR на Amazon
& NBSP; * создать веб-служб Amazon счет: http://aws.amazon.com/~~HEAD=dobj
& NBSP; * подписаться на упругом MapReduce: http://aws.amazon.com/elasticmapreduce/
& NBSP; * Получите ваш доступ и секретные ключи (перейти к http://aws.amazon.com/account/ и нажмите на кнопку "полномочий безопасности") и установить переменные окружения $ AWS_ACCESS_KEY_ID и $ AWS_SECRET_ACCESS_KEY соответственно
Попробуйте это!
# Локально
питон mrjob / примеры / mr_word_freq_count.py README.md> рассчитывает
# На ЭМИ
питон mrjob / примеры / mr_word_freq_count.py README.md -r EMR> рассчитывает
# На Hadoop кластера
питон mrjob / примеры / mr_word_freq_count.py README.md -r Hadoop> рассчитывает
Дополнительные настройки
Для запуска в других регионах AWS, загрузить исходный дерево, запустить сделать, и использовать другие расширенные функции mrjob, вам нужно настроить mrjob.conf. mrjob ищет его конф файл в:
& NBSP; * ~ / .mrjob
& NBSP; * mrjob.conf в любом месте $ PYTHONPATH
& NBSP; * /etc/mrjob.conf
См mrjob.conf.example для получения дополнительной информации
Особенности :.
- Выполнить работы по ЭМИ, самостоятельно Hadoop кластера, или локально (для тестирования).
- Написать многоступенчатые рабочие места (одна карта-уменьшить шаг каналы в следующем)
- Duplicate производственной среды внутри Hadoop
- Загрузить исходный дерево и поставить его в вашу работу за $ PYTHONPATH
- Выполнить марка и другие настройки сценариев
- Переменные среды указан (например $ TZ)
- Легко установить питона пакеты из тарболов (ЭМИ только)
- Настройка осуществляется прозрачно mrjob.conf файле конфигурации
- Автоматически интерпретировать журналы ошибок от ЭМИ
- SSH-туннель к Hadoop работы трекера на ЭМИ
- Минимальная настройка
- Для запуска на ЭМИ, установите $ AWS_ACCESS_KEY_ID и $ AWS_SECRET_ACCESS_KEY
- Чтобы запустить на Hadoop кластера, установите $ HADOOP_HOME
Требования
- Python
Комментарии не найдены