Apache Spark

Скриншот программы:
Apache Spark
Детали программы:
Версия: 1.6.0 обновление
Дата загрузки: 6 Mar 16
Разработчик: Apache Software Foundation
Тип распространения: Бесплатная
Популярность: 70

Rating: nan/5 (Total Votes: 0)

Apache Спарк была разработана для улучшения скорости обработки для программ анализа и манипулирования данными.

Она была написана на Java и Scala, и предоставляет возможности, которых нет в других системах, в основном потому, что они не мейнстрим ни того, что полезно для приложений обработки без данных.

Спарк впервые была создана в UC Berkeley AMP Lab, а затем переданы в Apache Software Foundation

Что нового в этом выпуске:.

  • Единая система управления памятью -. Общая память для исполнения и кэширования вместо исключительного разделения регионов
  • Паркет Производительность - Повышение производительности сканирования при использовании паркета плоские схемы
  • .
  • Улучшен планировщик запросов для запросов, имеющих различные агрегирование -. Планы запроса различных агрегатах являются более надежными, когда отдельные столбцы имеют высокую мощность
  • Адаптивное выполнение запросов -. Начальная поддержка для автоматического выбора количества переходников для соединения и агрегатах
  • Как избежать двойных фильтров в Source Data API -. При реализации источника данных с фильтром магазинного, разработчики теперь могут сказать Спарк SQL, чтобы избежать двойного оценки методом толкания вниз фильтр

  • <Литий> Быстрый нуль-безопасно присоединяется - присоединяется с помощью нуль-безопасное равенство (& # x3c; = & # x3e;) теперь будет выполняться с использованием SortMergeJoin вместо вычисления cartisian продукта .
  • В-памяти столбчатый Cache Performance - Значительное (до 14х) ускорить, когда кэширование данных, содержащих сложные типы в DataFrames или SQL
  • .
  • Выполнение SQL Использование Off-динамической памяти - Поддержка для настройки выполнения запросов происходит с помощью вне кучи памяти, чтобы избежать накладных расходов GC

Что нового в версии 1.5.2:

  • Ядро API теперь поддерживает агрегирование деревья многоуровневые чтобы помочь ускорить дорого сократить операции.
  • Улучшение отчетов об ошибках была добавлена ​​для некоторых Гоча операций.

  • Причал зависимость
  • искры из теперь в тени, чтобы избежать конфликтов с пользовательскими программами.
  • Спарк теперь поддерживает шифрование SSL для некоторых конечных точек связи.
  • метрики в реальном времени ГХ и записи отсчетов, которые были добавлены в пользовательский интерфейс.

Что нового в версии 1.4.0:

  • Ядро API теперь поддерживает агрегирование деревья многоуровневые чтобы помочь ускорить дорого сократить операции.
  • Улучшение отчетов об ошибках была добавлена ​​для некоторых Гоча операций.

  • Причал зависимость
  • искры из теперь в тени, чтобы избежать конфликтов с пользовательскими программами.
  • Спарк теперь поддерживает шифрование SSL для некоторых конечных точек связи.
  • метрики в реальном времени ГХ и записи отсчетов, которые были добавлены в пользовательский интерфейс.

Что нового в версии 1.2.0:

  • оператор сортировки PySpark теперь поддерживает внешние просыпание для больших наборов данных .
  • PySpark теперь поддерживает широковещательные переменные размером более 2 ГБ и выполняет внешний разлив во время родов.
  • Спарк добавляет страницу задания уровня прогресса в искре UI, стабильный API для отчетов о ходе работы, а также динамическое обновление выходных метрик как работа завершена.
  • Спарк теперь имеет поддержку чтения двоичных файлов для изображений и других двоичных форматов.

Что нового в версии 1.0.0:

  • Этот релиз расширяет стандартные библиотеки искру, в введении нового SQL пакет (Спарк SQL), который позволяет пользователям интегрировать SQL запросы в существующие рабочие процессы Спарк.
  • MLlib, библиотека машинного обучения искры из, расширяется с разреженным вектором поддержки и несколько новых алгоритмов.

Что нового в версии 0.9.1:

  • Исправлена ​​ошибка хэш столкновений во внешнем проливания
  • Исправлена ​​конфликт с log4j Спарк для пользователей, полагающихся на других лесозаготовительных бэкэндов
  • Исправлена ​​Graphx отсутствует Спарк сборки баночке в Maven сборки
  • Фиксированные молчаливые отказы из-за отображения состояния выхода превышения размера кадра Akka
  • ненужными прямая зависимость Убрана искры из КМЗ
  • Удалены метрики-ганглии из сборки по умолчанию из-за конфликта LGPL лицензии
  • Исправлена ​​ошибка в распределительной тарболла, не содержащая искры в сборе баночка

Что нового в версии 0.8.0:

  • Развитие переехал в Apache Foundation Софт как инкубатор проекта.

Что нового в версии 0.7.3:

  • Python Рабочие характеристики: Механизм для искры из нерестового Python виртуальных машин имеет была улучшена, чтобы сделать это быстрее, когда виртуальная машина имеет большой размер кучи, ускоряя Python API.
  • Mesos исправляет: JAR-файлы, добавленные в вашу работу теперь будет на пути к классам при десериализации результаты выполнения задач в Mesos
  • .
  • Сообщения об ошибках:. Улучшение отчетов об ошибках для несериализуемых исключений и чрезмерно больших результатов задачи
  • Примеры:. Добавлен пример потоковой обработки потока с updateStateByKey
  • Сложение:. Спарк Streaming больше не зависит от Twitter4J репо, которая должна позволить ей построить в Китае
  • Исправлены ошибки в foldByKey, потоковое счетчик, методы статистики, документации, а также веб-интерфейс.

Что нового в версии 0.7.2:.

  • Scala версия обновлена ​​до 2.9.3
  • Несколько усовершенствований Бублик, включая исправления для улучшения производительности и настраиваемый уровень хранения данных.
  • Новые методы API:. SubtractByKey, foldByKey, КартаЧто, filterWith, foreachPartition и другие
  • Новый интерфейс отчетов метрики, SparkListener, чтобы собрать информацию о каждом этапе вычисления:. Длины задачи, байты в случайном порядке, и т.д.
  • Несколько новых примеров использования API Java, в том числе K-средних и вычислительной пи.

Что нового в версии 0.7.0:

  • Спарк 0.7 добавляет Python API под названием PySpark <. / li>
  • рабочих мест Спарк в настоящее время запуска веб-панель для мониторинга использования памяти каждого распределенного набора данных (РДД) в программе.
  • Спарк теперь может быть построен с использованием Maven в дополнение к SBT.

Что нового в версии 0.6.1:

  • Исправлена ​​ошибка чрезмерно агрессивным сообщение таймаута, что может привести к работникам отключиться от кластера.
  • Исправлена ​​ошибка в режиме автономного развертывания, которые не выставлялись имен хостов в планировщик, затрагивая HDFS расположение.
  • Улучшена повторное подключение в случайном порядке, который может значительно ускорить небольшие перетасовки.
  • Исправлены некоторые потенциальные тупики в менеджере блоков.
  • Исправлена ​​ошибка при получении идентификаторов неудачных хостов из Mesos.
  • Несколько улучшений EC2 сценарий, как лучшей обработки точечных экземпляров.
  • Сделано локальный IP-адрес, который связывается с Спарк настраиваемый.
  • Поддержка Hadoop 2 распределений.
  • Поддержка для поиска Scala дистрибутивах Debian.

Что нового в версии 0.6.0:.

  • Simpler развертывания
  • документация искры из была расширена с новым Краткое руководство, дополнительные инструкции по развертыванию, руководства по конфигурации, Руководство по настройке и улучшенной документации Scaladoc API.
  • Новый коммуникационный менеджер, используя асинхронный Java NIO позволяет перетасовать операции выполняются быстрее, особенно при передаче больших объемов данных или когда рабочие места имеют много задач.
  • Новый менеджер хранения поддерживает набор данных за настройки уровня хранения (например, следует ли сохранить набор данных в памяти, десериализована, на диске, и т.д., или даже реплицируются по узлам).
  • Улучшенная отладка.

Другие программы разработчика Apache Software Foundation

Apache Isis
Apache Isis

10 Dec 15

Apache Calcite
Apache Calcite

6 Mar 16

Apache BookKeeper
Apache BookKeeper

13 Apr 15

Apache MRUnit
Apache MRUnit

12 May 15

Комментарии к Apache Spark

Комментарии не найдены
добавить комментарий
Включите картинки!