Apache Spark

Spark — это унифицированный аналитический движок для масштабируемой обработки данных. Он предоставляет высокоуровневые API на Scala, Java, Python и R (устаревший), а также оптимизированный движок, поддерживающий общие вычислительные графы для анализа данных. Также поддерживает широкий набор более высокого уровня инструментов, включая Spark SQL для SQL и DataFrame, pandas API на Spark для pandas-загрузок, MLlib для машинного обучения, GraphX для графового анализа и Structured Streaming для потокового анализа.

Официальная версия: https://spark.apache.org/
Разработка: https://apache.github.io/spark/

Онлайн-документация

./build/mvn -DskipTests clean package

(Вы не должны делать это, если скачали предварительно собранный пакет.)

Более подробная документация доступна на сайте проекта, по адресу "Сборка Spark".

Для общих советов по разработке, включая информацию о разработке Spark с помощью IDE, см. "Полезные разработочные инструменты".

Интерактивная оболочка Scala

Наиболее простым способом для начала работы с Spark является использование Scala-оболочки:

./bin/spark-shell

Попробуйте следующую команду, которая должна вернуть 1,000,000,000:

scala> spark.range(1000 * 1000 * 1000).count()

Интерактивная оболочка Python

Альтернативно, если вы предпочитаете Python, вы можете использовать Python-оболочку:

./bin/pyspark

И выполните следующую команду, которая также должна вернуть 1,000,000,000:

>>> spark.range(1000 * 1000 * 1000).count()

Примерные программы

Spark также включает несколько примерных программ в директории examples. Чтобы запустить одну из них, используйте ./bin/run-example <class> [params]. Например:

./bin/run-example SparkPi

будет запускать пример программы Pi локально.Вы можете установить переменную окружения MASTER при запуске примеров для отправки примеров на кластер. Это может быть URL spark://, "yarn" для запуска на YARN, и "local" для локального запуска с одним потоком, или "local[N]" для локального запуска с N потоками. Вы также можете использовать сокращенное имя класса, если класс находится в пакете examples. Например:```bash MASTER=spark://host:7077 ./bin/run-example SparkPi


Многие примерные программы выводят справку использования, если параметры не заданы.

## Запуск тестов

Запуск тестов требует [сборки Spark](#building-spark). После сборки Spark тесты можно запустить с помощью:

```bash
./dev/run-tests

Пожалуйста, обратитесь к руководству по тому, как запускать тесты для модуля или отдельных тестов, см. "Полезные разработочные инструменты".

Также есть тест интеграции с Kubernetes, см. resource-managers/kubernetes/integration-tests/README.md

Примечание о версиях Hadoop

Spark использует библиотеку Hadoop core для общения с HDFS и другими системами хранения, поддерживаемыми Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны собрать Spark против той же версии, что и ваш кластер. Пожалуйста, обратитесь к документации по сборке в разделе "Указание версии Hadoop и включение YARN" для подробных инструкций по сборке для конкретного дистрибутива Hadoop, включая сборку для конкретных дистрибутивов Hive и Hive Thriftserver.

Конфигурация

Пожалуйста, обратитесь к руководству по конфигурации в онлайн-документации для обзора того, как настроить Spark.

Вклад

Пожалуйста, ознакомьтесь с руководством по вкладу в Spark для получения информации о том, как приступить к вкладу в проект.

OSCHINA-MIRROR/apache-spark

Apache Spark

Онлайн-документация

Интерактивная оболочка Scala

Интерактивная оболочка Python

Примерные программы

Примечание о версиях Hadoop

Конфигурация

Вклад

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/apache-spark .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Apache Spark

Онлайн-документация

Интерактивная оболочка Scala

Интерактивная оболочка Python

Примерные программы

Примечание о версиях Hadoop

Конфигурация

Вклад

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/apache-spark