Apache Spark

Скриншот программы:
Apache Spark
Детали программы:
Версия: 1.6.0 обновление
Дата загрузки: 6 Mar 16
Разработчик: Apache Software Foundation
Тип распространения: Бесплатная
Популярность: 104

Rating: 1.0/5 (Total Votes: 1)

Apache Спарк была разработана для улучшения скорости обработки для программ анализа и манипулирования данными.

Она была написана на Java и Scala, и предоставляет возможности, которых нет в других системах, в основном потому, что они не мейнстрим ни того, что полезно для приложений обработки без данных.

Спарк впервые была создана в UC Berkeley AMP Lab, а затем переданы в Apache Software Foundation

Что нового в этом выпуске:.

  • Единая система управления памятью -. Общая память для исполнения и кэширования вместо исключительного разделения регионов
  • Паркет Производительность - Повышение производительности сканирования при использовании паркета плоские схемы
  • .
  • Улучшен планировщик запросов для запросов, имеющих различные агрегирование -. Планы запроса различных агрегатах являются более надежными, когда отдельные столбцы имеют высокую мощность
  • Адаптивное выполнение запросов -. Начальная поддержка для автоматического выбора количества переходников для соединения и агрегатах
  • Как избежать двойных фильтров в Source Data API -. При реализации источника данных с фильтром магазинного, разработчики теперь могут сказать Спарк SQL, чтобы избежать двойного оценки методом толкания вниз фильтр

  • <Литий> Быстрый нуль-безопасно присоединяется - присоединяется с помощью нуль-безопасное равенство (& # x3c; = & # x3e;) теперь будет выполняться с использованием SortMergeJoin вместо вычисления cartisian продукта .
  • В-памяти столбчатый Cache Performance - Значительное (до 14х) ускорить, когда кэширование данных, содержащих сложные типы в DataFrames или SQL
  • .
  • Выполнение SQL Использование Off-динамической памяти - Поддержка для настройки выполнения запросов происходит с помощью вне кучи памяти, чтобы избежать накладных расходов GC

Что нового в версии 1.5.2:

  • Ядро API теперь поддерживает агрегирование деревья многоуровневые чтобы помочь ускорить дорого сократить операции.
  • Улучшение отчетов об ошибках была добавлена ​​для некоторых Гоча операций.

  • Причал зависимость
  • искры из теперь в тени, чтобы избежать конфликтов с пользовательскими программами.
  • Спарк теперь поддерживает шифрование SSL для некоторых конечных точек связи.
  • метрики в реальном времени ГХ и записи отсчетов, которые были добавлены в пользовательский интерфейс.

Что нового в версии 1.4.0:

  • Ядро API теперь поддерживает агрегирование деревья многоуровневые чтобы помочь ускорить дорого сократить операции.
  • Улучшение отчетов об ошибках была добавлена ​​для некоторых Гоча операций.

  • Причал зависимость
  • искры из теперь в тени, чтобы избежать конфликтов с пользовательскими программами.
  • Спарк теперь поддерживает шифрование SSL для некоторых конечных точек связи.
  • метрики в реальном времени ГХ и записи отсчетов, которые были добавлены в пользовательский интерфейс.

Что нового в версии 1.2.0:

  • оператор сортировки PySpark теперь поддерживает внешние просыпание для больших наборов данных .
  • PySpark теперь поддерживает широковещательные переменные размером более 2 ГБ и выполняет внешний разлив во время родов.
  • Спарк добавляет страницу задания уровня прогресса в искре UI, стабильный API для отчетов о ходе работы, а также динамическое обновление выходных метрик как работа завершена.
  • Спарк теперь имеет поддержку чтения двоичных файлов для изображений и других двоичных форматов.

Что нового в версии 1.0.0:

  • Этот релиз расширяет стандартные библиотеки искру, в введении нового SQL пакет (Спарк SQL), который позволяет пользователям интегрировать SQL запросы в существующие рабочие процессы Спарк.
  • MLlib, библиотека машинного обучения искры из, расширяется с разреженным вектором поддержки и несколько новых алгоритмов.

Что нового в версии 0.9.1:

  • Исправлена ​​ошибка хэш столкновений во внешнем проливания
  • Исправлена ​​конфликт с log4j Спарк для пользователей, полагающихся на других лесозаготовительных бэкэндов
  • Исправлена ​​Graphx отсутствует Спарк сборки баночке в Maven сборки
  • Фиксированные молчаливые отказы из-за отображения состояния выхода превышения размера кадра Akka
  • ненужными прямая зависимость Убрана искры из КМЗ
  • Удалены метрики-ганглии из сборки по умолчанию из-за конфликта LGPL лицензии
  • Исправлена ​​ошибка в распределительной тарболла, не содержащая искры в сборе баночка

Что нового в версии 0.8.0:

  • Развитие переехал в Apache Foundation Софт как инкубатор проекта.

Что нового в версии 0.7.3:

  • Python Рабочие характеристики: Механизм для искры из нерестового Python виртуальных машин имеет была улучшена, чтобы сделать это быстрее, когда виртуальная машина имеет большой размер кучи, ускоряя Python API.
  • Mesos исправляет: JAR-файлы, добавленные в вашу работу теперь будет на пути к классам при десериализации результаты выполнения задач в Mesos
  • .
  • Сообщения об ошибках:. Улучшение отчетов об ошибках для несериализуемых исключений и чрезмерно больших результатов задачи
  • Примеры:. Добавлен пример потоковой обработки потока с updateStateByKey
  • Сложение:. Спарк Streaming больше не зависит от Twitter4J репо, которая должна позволить ей построить в Китае
  • Исправлены ошибки в foldByKey, потоковое счетчик, методы статистики, документации, а также веб-интерфейс.

Что нового в версии 0.7.2:.

  • Scala версия обновлена ​​до 2.9.3
  • Несколько усовершенствований Бублик, включая исправления для улучшения производительности и настраиваемый уровень хранения данных.
  • Новые методы API:. SubtractByKey, foldByKey, КартаЧто, filterWith, foreachPartition и другие
  • Новый интерфейс отчетов метрики, SparkListener, чтобы собрать информацию о каждом этапе вычисления:. Длины задачи, байты в случайном порядке, и т.д.
  • Несколько новых примеров использования API Java, в том числе K-средних и вычислительной пи.

Что нового в версии 0.7.0:

  • Спарк 0.7 добавляет Python API под названием PySpark <. / li>
  • рабочих мест Спарк в настоящее время запуска веб-панель для мониторинга использования памяти каждого распределенного набора данных (РДД) в программе.
  • Спарк теперь может быть построен с использованием Maven в дополнение к SBT.

Что нового в версии 0.6.1:

  • Исправлена ​​ошибка чрезмерно агрессивным сообщение таймаута, что может привести к работникам отключиться от кластера.
  • Исправлена ​​ошибка в режиме автономного развертывания, которые не выставлялись имен хостов в планировщик, затрагивая HDFS расположение.
  • Улучшена повторное подключение в случайном порядке, который может значительно ускорить небольшие перетасовки.
  • Исправлены некоторые потенциальные тупики в менеджере блоков.
  • Исправлена ​​ошибка при получении идентификаторов неудачных хостов из Mesos.
  • Несколько улучшений EC2 сценарий, как лучшей обработки точечных экземпляров.
  • Сделано локальный IP-адрес, который связывается с Спарк настраиваемый.
  • Поддержка Hadoop 2 распределений.
  • Поддержка для поиска Scala дистрибутивах Debian.

Что нового в версии 0.6.0:.

  • Simpler развертывания
  • документация искры из была расширена с новым Краткое руководство, дополнительные инструкции по развертыванию, руководства по конфигурации, Руководство по настройке и улучшенной документации Scaladoc API.
  • Новый коммуникационный менеджер, используя асинхронный Java NIO позволяет перетасовать операции выполняются быстрее, особенно при передаче больших объемов данных или когда рабочие места имеют много задач.
  • Новый менеджер хранения поддерживает набор данных за настройки уровня хранения (например, следует ли сохранить набор данных в памяти, десериализована, на диске, и т.д., или даже реплицируются по узлам).
  • Улучшенная отладка.

Другие программы разработчика Apache Software Foundation

Apache Abdera
Apache Abdera

13 Apr 15

Apache Karaf
Apache Karaf

11 Mar 16

Apache Rat
Apache Rat

13 Apr 15

Apache OpenNLP
Apache OpenNLP

19 Jul 15

Комментарии к Apache Spark

Комментарии не найдены
добавить комментарий
Включите картинки!