1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/apache-spark

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Apache Spark

Spark — это унифицированный аналитический движок для масштабируемой обработки данных. Он предоставляет высокоуровневые API на Scala, Java, Python и R (устаревший), а также оптимизированный движок, поддерживающий общие вычислительные графы для анализа данных. Также поддерживает широкий набор более высокого уровня инструментов, включая Spark SQL для SQL и DataFrame, pandas API на Spark для pandas-загрузок, MLlib для машинного обучения, GraphX для графового анализа и Structured Streaming для потокового анализа.

GitHub Actions Build PySpark Coverage PyPI Downloads

Онлайн-документация

Вы можете найти последнюю документацию Spark, включая программное руководство, на странице проекта. В этом файле README содержатся только базовые инструкции по установке.## Статус конвейера сборки| Ветка | Статус | |------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | master | | | | | | | | | | | | | | | | | | | | | | | | | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_maven_java21_arm.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_coverage.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_pypy3.10.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.9.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.10.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.11_classic_only.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.11_arm.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.11_macos.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_numpy_2.1.3.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_python_3.12.yml) || | GitHub Actions Build | | | GitHub Actions Build | | | GitHub Actions Build | | | GitHub Actions Build | | | GitHub Actions Build | | | GitHub Actions Build | | | GitHub Actions Build | | | GitHub Actions Build | | | GitHub Actions Build | | branch-4. 0 | GitHub Actions Build | | | GitHub Actions Build | | | GitHub Actions Build | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch40_maven.yml) || | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch40_maven_java21.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch40_python.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch40_python_pypy3.10.yml) | | branch-3.5 | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch35.yml) | | | [! GitHub Actions Build](https://github.com/apache/spark/actions/workflows/build_branch35_python.yml) |## Сборка SparkSpark собирается с помощью Apache Maven. Чтобы собрать Spark и его примерные программы, выполните:

./build/mvn -DskipTests clean package

(Вы не должны делать это, если скачали предварительно собранный пакет.)

Более подробная документация доступна на сайте проекта, по адресу "Сборка Spark".

Для общих советов по разработке, включая информацию о разработке Spark с помощью IDE, см. "Полезные разработочные инструменты".

Интерактивная оболочка Scala

Наиболее простым способом для начала работы с Spark является использование Scala-оболочки:

./bin/spark-shell

Попробуйте следующую команду, которая должна вернуть 1,000,000,000:

scala> spark.range(1000 * 1000 * 1000).count()

Интерактивная оболочка Python

Альтернативно, если вы предпочитаете Python, вы можете использовать Python-оболочку:

./bin/pyspark

И выполните следующую команду, которая также должна вернуть 1,000,000,000:

>>> spark.range(1000 * 1000 * 1000).count()

Примерные программы

Spark также включает несколько примерных программ в директории examples. Чтобы запустить одну из них, используйте ./bin/run-example <class> [params]. Например:

./bin/run-example SparkPi

будет запускать пример программы Pi локально.Вы можете установить переменную окружения MASTER при запуске примеров для отправки примеров на кластер. Это может быть URL spark://, "yarn" для запуска на YARN, и "local" для локального запуска с одним потоком, или "local[N]" для локального запуска с N потоками. Вы также можете использовать сокращенное имя класса, если класс находится в пакете examples. Например:```bash MASTER=spark://host:7077 ./bin/run-example SparkPi


Многие примерные программы выводят справку использования, если параметры не заданы.

## Запуск тестов

Запуск тестов требует [сборки Spark](#building-spark). После сборки Spark тесты можно запустить с помощью:

```bash
./dev/run-tests

Пожалуйста, обратитесь к руководству по тому, как запускать тесты для модуля или отдельных тестов, см. "Полезные разработочные инструменты".

Также есть тест интеграции с Kubernetes, см. resource-managers/kubernetes/integration-tests/README.md

Примечание о версиях Hadoop

Spark использует библиотеку Hadoop core для общения с HDFS и другими системами хранения, поддерживаемыми Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны собрать Spark против той же версии, что и ваш кластер. Пожалуйста, обратитесь к документации по сборке в разделе "Указание версии Hadoop и включение YARN" для подробных инструкций по сборке для конкретного дистрибутива Hadoop, включая сборку для конкретных дистрибутивов Hive и Hive Thriftserver.

Конфигурация

Пожалуйста, обратитесь к руководству по конфигурации в онлайн-документации для обзора того, как настроить Spark.

Вклад

Пожалуйста, ознакомьтесь с руководством по вкладу в Spark для получения информации о том, как приступить к вкладу в проект.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Apache Spark — унифицированный механизм аналитики для обработки больших объёмов данных. Развернуть Свернуть
Scala и 6 других языков
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/apache-spark.git
git@api.gitlife.ru:oschina-mirror/apache-spark.git
oschina-mirror
apache-spark
apache-spark
master