Apache Спарк была разработана для улучшения скорости обработки для программ анализа и манипулирования данными.
Она была написана на Java и Scala, и предоставляет возможности, которых нет в других системах, в основном потому, что они не мейнстрим ни того, что полезно для приложений обработки без данных.
Спарк впервые была создана в UC Berkeley AMP Lab, а затем переданы в Apache Software Foundation
Что нового в этом выпуске:.
- Единая система управления памятью -. Общая память для исполнения и кэширования вместо исключительного разделения регионов
- Паркет Производительность - Повышение производительности сканирования при использовании паркета плоские схемы .
- Улучшен планировщик запросов для запросов, имеющих различные агрегирование -. Планы запроса различных агрегатах являются более надежными, когда отдельные столбцы имеют высокую мощность
- Адаптивное выполнение запросов -. Начальная поддержка для автоматического выбора количества переходников для соединения и агрегатах
- Как избежать двойных фильтров в Source Data API -. При реализации источника данных с фильтром магазинного, разработчики теперь могут сказать Спарк SQL, чтобы избежать двойного оценки методом толкания вниз фильтр
- В-памяти столбчатый Cache Performance - Значительное (до 14х) ускорить, когда кэширование данных, содержащих сложные типы в DataFrames или SQL .
- Выполнение SQL Использование Off-динамической памяти - Поддержка для настройки выполнения запросов происходит с помощью вне кучи памяти, чтобы избежать накладных расходов GC
<Литий> Быстрый нуль-безопасно присоединяется - присоединяется с помощью нуль-безопасное равенство (& # x3c; = & # x3e;) теперь будет выполняться с использованием SortMergeJoin вместо вычисления cartisian продукта .
Что нового в версии 1.5.2:
- Ядро API теперь поддерживает агрегирование деревья многоуровневые чтобы помочь ускорить дорого сократить операции.
- Улучшение отчетов об ошибках была добавлена для некоторых Гоча операций.
- искры из теперь в тени, чтобы избежать конфликтов с пользовательскими программами.
- Спарк теперь поддерживает шифрование SSL для некоторых конечных точек связи.
- метрики в реальном времени ГХ и записи отсчетов, которые были добавлены в пользовательский интерфейс.
Причал зависимость
Что нового в версии 1.4.0:
- Ядро API теперь поддерживает агрегирование деревья многоуровневые чтобы помочь ускорить дорого сократить операции.
- Улучшение отчетов об ошибках была добавлена для некоторых Гоча операций.
- искры из теперь в тени, чтобы избежать конфликтов с пользовательскими программами.
- Спарк теперь поддерживает шифрование SSL для некоторых конечных точек связи.
- метрики в реальном времени ГХ и записи отсчетов, которые были добавлены в пользовательский интерфейс.
Причал зависимость
Что нового в версии 1.2.0:
- оператор сортировки PySpark теперь поддерживает внешние просыпание для больших наборов данных .
- PySpark теперь поддерживает широковещательные переменные размером более 2 ГБ и выполняет внешний разлив во время родов.
- Спарк добавляет страницу задания уровня прогресса в искре UI, стабильный API для отчетов о ходе работы, а также динамическое обновление выходных метрик как работа завершена.
- Спарк теперь имеет поддержку чтения двоичных файлов для изображений и других двоичных форматов.
Что нового в версии 1.0.0:
- Этот релиз расширяет стандартные библиотеки искру, в введении нового SQL пакет (Спарк SQL), который позволяет пользователям интегрировать SQL запросы в существующие рабочие процессы Спарк.
- MLlib, библиотека машинного обучения искры из, расширяется с разреженным вектором поддержки и несколько новых алгоритмов.
Что нового в версии 0.9.1:
- Исправлена ошибка хэш столкновений во внешнем проливания
- Исправлена конфликт с log4j Спарк для пользователей, полагающихся на других лесозаготовительных бэкэндов
- Исправлена Graphx отсутствует Спарк сборки баночке в Maven сборки
- Фиксированные молчаливые отказы из-за отображения состояния выхода превышения размера кадра Akka
- ненужными прямая зависимость Убрана искры из КМЗ
- Удалены метрики-ганглии из сборки по умолчанию из-за конфликта LGPL лицензии
- Исправлена ошибка в распределительной тарболла, не содержащая искры в сборе баночка
Что нового в версии 0.8.0:
- Развитие переехал в Apache Foundation Софт как инкубатор проекта.
Что нового в версии 0.7.3:
- Python Рабочие характеристики: Механизм для искры из нерестового Python виртуальных машин имеет была улучшена, чтобы сделать это быстрее, когда виртуальная машина имеет большой размер кучи, ускоряя Python API.
- Mesos исправляет: JAR-файлы, добавленные в вашу работу теперь будет на пути к классам при десериализации результаты выполнения задач в Mesos .
- Сообщения об ошибках:. Улучшение отчетов об ошибках для несериализуемых исключений и чрезмерно больших результатов задачи
- Примеры:. Добавлен пример потоковой обработки потока с updateStateByKey
- Сложение:. Спарк Streaming больше не зависит от Twitter4J репо, которая должна позволить ей построить в Китае
- Исправлены ошибки в foldByKey, потоковое счетчик, методы статистики, документации, а также веб-интерфейс.
Что нового в версии 0.7.2:.
- Scala версия обновлена до 2.9.3
- Несколько усовершенствований Бублик, включая исправления для улучшения производительности и настраиваемый уровень хранения данных.
- Новые методы API:. SubtractByKey, foldByKey, КартаЧто, filterWith, foreachPartition и другие
- Новый интерфейс отчетов метрики, SparkListener, чтобы собрать информацию о каждом этапе вычисления:. Длины задачи, байты в случайном порядке, и т.д.
- Несколько новых примеров использования API Java, в том числе K-средних и вычислительной пи.
Что нового в версии 0.7.0:
- Спарк 0.7 добавляет Python API под названием PySpark <. / li>
- рабочих мест Спарк в настоящее время запуска веб-панель для мониторинга использования памяти каждого распределенного набора данных (РДД) в программе.
- Спарк теперь может быть построен с использованием Maven в дополнение к SBT.
Что нового в версии 0.6.1:
- Исправлена ошибка чрезмерно агрессивным сообщение таймаута, что может привести к работникам отключиться от кластера.
- Исправлена ошибка в режиме автономного развертывания, которые не выставлялись имен хостов в планировщик, затрагивая HDFS расположение.
- Улучшена повторное подключение в случайном порядке, который может значительно ускорить небольшие перетасовки.
- Исправлены некоторые потенциальные тупики в менеджере блоков.
- Исправлена ошибка при получении идентификаторов неудачных хостов из Mesos.
- Несколько улучшений EC2 сценарий, как лучшей обработки точечных экземпляров.
- Сделано локальный IP-адрес, который связывается с Спарк настраиваемый.
- Поддержка Hadoop 2 распределений.
- Поддержка для поиска Scala дистрибутивах Debian.
Что нового в версии 0.6.0:.
- Simpler развертывания
- документация искры из была расширена с новым Краткое руководство, дополнительные инструкции по развертыванию, руководства по конфигурации, Руководство по настройке и улучшенной документации Scaladoc API.
- Новый коммуникационный менеджер, используя асинхронный Java NIO позволяет перетасовать операции выполняются быстрее, особенно при передаче больших объемов данных или когда рабочие места имеют много задач.
- Новый менеджер хранения поддерживает набор данных за настройки уровня хранения (например, следует ли сохранить набор данных в памяти, десериализована, на диске, и т.д., или даже реплицируются по узлам).
- Улучшенная отладка.
Комментарии не найдены