Apache Spark

Spark — это единый аналитический движок для обработки больших объемов данных. Он предоставляет высокоуровневые API на Scala, Java, Python и R (Устаревший), а также оптимизированный движок, поддерживающий общие вычислительные графы для анализа данных. Он также поддерживает богатый набор высокоуровневых инструментов, включая Spark SQL для SQL и DataFrame, pandas API on Spark для задач с pandas, MLlib для машинного обучения, GraphX для обработки графов и Structured Streaming для потоковой обработки.

Официальная версия: https://spark.apache.org/
Разработка версии: https://apache.github.io/spark/

Онлайн-документация

Вы можете найти последнюю документацию по Spark, включая руководство по программированию, на странице проекта. Этот файл README содержит только базовые инструкции по настройке.

Статус конвейера сборки

Ветка	Статус
master

























branch-4.0






branch-3.5

Сборка Spark

Spark собирается с использованием Apache Maven. Для сборки Spark и его примеров программ выполните команду:

./build/mvn -DskipTests clean package

(Если вы скачали предварительно собранный пакет, выполнять эту команду не нужно.)

Более подробная документация доступна на сайте проекта по адресу "Сборка Spark".

Для общих советов по разработке, включая информацию о разработке Spark с использованием IDE, см. "Полезные инструменты разработчика".

Интерактивная оболочка Scala

Наиболее простой способ начать использовать Spark — это через интерактивную оболочку Scala:

./bin/spark-shell

Попробуйте следующую команду, которая должна вернуть 1,000,000,000:

scala> spark.range(1000 * 1000 * 1000).count()

Интерактивная оболочка Python

Альтернативно, если вы предпочитаете Python, вы можете использовать интерактивную оболочку Python:

./bin/pyspark

И выполните следующую команду, которая также должна вернуть 1,000,000,000:

>>> spark.range(1000 * 1000 * 1000).count()

Примеры программ

Spark также включает несколько примеров программ в директории examples. Для запуска одного из них используйте ./bin/run-example <класс> [параметры]. Например:

./bin/run-example SparkPi

запустит пример Pi локально.

Вы можете установить переменную окружения MASTER при запуске примеров для отправки примеров на кластер. Это может быть URL spark://, "yarn" для запуска на YARN, и "local" для локального запуска с одним потоком, или "local[N]" для локального запуска с N потоками. Вы также можете использовать сокращенное имя класса, если класс находится в пакете examples. Например:

MASTER=spark://host:7077 ./bin/run-example SparkPi

Многие примеры программ выводят справку по использованию, если не указаны параметры.

Запуск тестов

Тестирование требует предварительной сборки Spark. После сборки Spark тесты можно запустить с помощью команды:

./dev/run-tests

Пожалуйста, ознакомьтесь с руководством по тому, как запускать тесты для модуля или отдельные тесты.

Также есть тест интеграции с Kubernetes, см. resource-managers/kubernetes/integration-tests/README.md

Примечание о версиях Hadoop

Spark использует библиотеку Hadoop core для взаимодействия с HDFS и другими системами хранения, поддерживаемыми Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны собирать Spark против той же версии, которая используется в вашем кластере.

Пожалуйста, обратитесь к документации по сборке на странице "Указание версии Hadoop и включение YARN" для подробных рекомендаций по сборке для конкретного дистрибутива Hadoop, включая сборку для конкретных дистрибутивов Hive и Hive Thriftserver.

Настройка

Пожалуйста, обратитесь к Руководству по настройке в онлайн-документации для получения обзора того, как настроить Spark.

Вклад

Пожалуйста, ознакомьтесь с руководством по вкладу в проект Spark для получения информации о том, как начать вносить свой вклад в проект.

OSCHINA-MIRROR/mirrors-spark-project

Apache Spark

Онлайн-документация

Статус конвейера сборки

Сборка Spark

Интерактивная оболочка Scala

Интерактивная оболочка Python

Примеры программ

Запуск тестов

Примечание о версиях Hadoop

Настройка

Вклад

Комментарии ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/mirrors-spark-project .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Apache Spark

Онлайн-документация

Статус конвейера сборки

Сборка Spark

Интерактивная оболочка Scala

Интерактивная оболочка Python

Примеры программ

Запуск тестов

Примечание о версиях Hadoop

Настройка

Вклад

Комментарии ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/mirrors-spark-project