Spark — это унифицированный аналитический движок для масштабируемой обработки данных. Он предоставляет высокоуровневые API на Scala, Java, Python и R (устаревший), а также оптимизированный движок, поддерживающий общие вычислительные графы для анализа данных. Также поддерживает широкий набор более высокого уровня инструментов, включая Spark SQL для SQL и DataFrame, pandas API на Spark для pandas-загрузок, MLlib для машинного обучения, GraphX для графового анализа и Structured Streaming для потокового анализа.
Вы можете найти последнюю документацию Spark, включая программное руководство, на странице проекта. В этом файле README содержатся только базовые инструкции по установке.## Статус конвейера сборки| Ветка | Статус |
|------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| master | |
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_maven_java21_arm.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_coverage.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_pypy3.10.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.9.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.10.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.11_classic_only.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.11_arm.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.11_macos.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_numpy_2.1.3.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.12.yml) || |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| |
|
| branch-4. 0 |
|
| |
|
| |
|
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch40_maven.yml) ||
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch40_maven_java21.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch40_python.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch40_python_pypy3.10.yml) |
| branch-3.5 | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch35.yml) |
| | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch35_python.yml) |## Сборка SparkSpark собирается с помощью Apache Maven.
Чтобы собрать Spark и его примерные программы, выполните:
./build/mvn -DskipTests clean package
(Вы не должны делать это, если скачали предварительно собранный пакет.)
Более подробная документация доступна на сайте проекта, по адресу "Сборка Spark".
Для общих советов по разработке, включая информацию о разработке Spark с помощью IDE, см. "Полезные разработочные инструменты".
Наиболее простым способом для начала работы с Spark является использование Scala-оболочки:
./bin/spark-shell
Попробуйте следующую команду, которая должна вернуть 1,000,000,000:
scala> spark.range(1000 * 1000 * 1000).count()
Альтернативно, если вы предпочитаете Python, вы можете использовать Python-оболочку:
./bin/pyspark
И выполните следующую команду, которая также должна вернуть 1,000,000,000:
>>> spark.range(1000 * 1000 * 1000).count()
Spark также включает несколько примерных программ в директории examples
.
Чтобы запустить одну из них, используйте ./bin/run-example <class> [params]
. Например:
./bin/run-example SparkPi
будет запускать пример программы Pi локально.Вы можете установить переменную окружения MASTER при запуске примеров для отправки примеров на кластер. Это может быть URL spark://, "yarn" для запуска на YARN, и "local" для локального запуска с одним потоком, или "local[N]" для локального запуска с N потоками. Вы также можете использовать сокращенное имя класса, если класс находится в пакете examples
. Например:```bash
MASTER=spark://host:7077 ./bin/run-example SparkPi
Многие примерные программы выводят справку использования, если параметры не заданы.
## Запуск тестов
Запуск тестов требует [сборки Spark](#building-spark). После сборки Spark тесты можно запустить с помощью:
```bash
./dev/run-tests
Пожалуйста, обратитесь к руководству по тому, как запускать тесты для модуля или отдельных тестов, см. "Полезные разработочные инструменты".
Также есть тест интеграции с Kubernetes, см. resource-managers/kubernetes/integration-tests/README.md
Spark использует библиотеку Hadoop core для общения с HDFS и другими системами хранения, поддерживаемыми Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны собрать Spark против той же версии, что и ваш кластер. Пожалуйста, обратитесь к документации по сборке в разделе "Указание версии Hadoop и включение YARN" для подробных инструкций по сборке для конкретного дистрибутива Hadoop, включая сборку для конкретных дистрибутивов Hive и Hive Thriftserver.
Пожалуйста, обратитесь к руководству по конфигурации в онлайн-документации для обзора того, как настроить Spark.
Пожалуйста, ознакомьтесь с руководством по вкладу в Spark для получения информации о том, как приступить к вкладу в проект.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )