Большие данные - это маркетинговый термин, который охватывает всю идею данных, добытых из источников, таких как поисковые системы, шаблонов покупок в продуктовых магазинах, отслеживаемых с помощью карточек точек и т. д. В современном мире в Интернете так много источники данных, которые чаще всего не делают его непригодным для использования, без обработки и обработки, потребует невероятного количества времени на любом одном сервере. Введите Apache Hadoop
Меньше времени для обработки данныхИспользуя архитектуру Hadoop для распределения задач обработки на нескольких компьютерах в сети , время обработки уменьшается астрономически, и ответы могут быть определены в разумные сроки. Apache Hadoop разделяется на два разных компонента: компонент хранения и компонент обработки. Проще говоря, Hapood делает один виртуальный сервер из нескольких физических машин . На самом деле, Hadoop управляет связью между несколькими машинами, так что они работают вместе достаточно близко, чтобы казалось, что на вычислениях работает только одна машина. Данные распределяются между несколькими машинами для хранения и задачи обработки распределяются и координируются архитектурой Hadoop
. Этот тип системы является требованием для преобразования необработанных данных в полезную информацию о масштабах ввода больших данных. Рассмотрим количество данных, которые Google получает каждую секунду от пользователей, отправляющих запросы на поиск. В качестве общей совокупности данных вы не знаете, с чего начать, но Hadoop автоматически уменьшит набор данных на более мелкие организованные подмножества данных и назначит эти управляемые подмножества конкретным ресурсам. Все результаты затем сообщаются обратно и собраны в полезную информацию .
Сервер легко устанавливается
Несмотря на сложность системы, большинство движущихся частей скрываются за абстракцией. Настройка сервера Hadoop довольно проста , просто установите серверные компоненты на аппаратное обеспечение, соответствующее требованиям системы. Более сложная часть планирования сети компьютеров , что сервер Hadoop будет использоваться для распределения ролей хранения и обработки. Это может включать настройку локальной сети или объединение нескольких сетей в Интернете . Вы также можете использовать существующие облачные сервисы и оплачивать кластер Hadoop на популярных облачных платформах, таких как Microsoft Azure и Amazon EC2. Их еще проще настроить, так как вы можете развернуть их ad hoc, а затем вывести из строя кластеры, когда они вам больше не понадобятся. Эти типы кластеров идеально подходят для тестирования, поскольку вы платите только за то, что активен кластер Hadoop.
Обработайте данные, чтобы получить необходимую информацию.
Большие данные - чрезвычайно мощный ресурс, но данные бесполезны, если они не могут быть правильно классифицированы и переданы в информацию. В настоящее время кластеры Hadoop предлагают чрезвычайно экономичный метод для обработки этих коллекций данных в информацию.
Комментарии не найдены