1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors-spark-project

Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Apache Spark

Spark — это единый аналитический движок для обработки больших объемов данных. Он предоставляет высокоуровневые API на Scala, Java, Python и R (Устаревший), а также оптимизированный движок, поддерживающий общие вычислительные графы для анализа данных. Он также поддерживает богатый набор высокоуровневых инструментов, включая Spark SQL для SQL и DataFrame, pandas API on Spark для задач с pandas, MLlib для машинного обучения, GraphX для обработки графов и Structured Streaming для потоковой обработки.

GitHub Actions Build PySpark Coverage PyPI Downloads

Онлайн-документация

Вы можете найти последнюю документацию по Spark, включая руководство по программированию, на странице проекта. Этот файл README содержит только базовые инструкции по настройке.

Статус конвейера сборки

Ветка Статус
master GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
branch-4.0 GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
GitHub Actions Build
branch-3.5 GitHub Actions Build
GitHub Actions Build

Сборка Spark

Spark собирается с использованием Apache Maven. Для сборки Spark и его примеров программ выполните команду:

./build/mvn -DskipTests clean package

(Если вы скачали предварительно собранный пакет, выполнять эту команду не нужно.)

Более подробная документация доступна на сайте проекта по адресу "Сборка Spark".

Для общих советов по разработке, включая информацию о разработке Spark с использованием IDE, см. "Полезные инструменты разработчика".

Интерактивная оболочка Scala

Наиболее простой способ начать использовать Spark — это через интерактивную оболочку Scala:

./bin/spark-shell

Попробуйте следующую команду, которая должна вернуть 1,000,000,000:

scala> spark.range(1000 * 1000 * 1000).count()

Интерактивная оболочка Python

Альтернативно, если вы предпочитаете Python, вы можете использовать интерактивную оболочку Python:

./bin/pyspark

И выполните следующую команду, которая также должна вернуть 1,000,000,000:

>>> spark.range(1000 * 1000 * 1000).count()

Примеры программ

Spark также включает несколько примеров программ в директории examples. Для запуска одного из них используйте ./bin/run-example <класс> [параметры]. Например:

./bin/run-example SparkPi

запустит пример Pi локально.

Вы можете установить переменную окружения MASTER при запуске примеров для отправки примеров на кластер. Это может быть URL spark://, "yarn" для запуска на YARN, и "local" для локального запуска с одним потоком, или "local[N]" для локального запуска с N потоками. Вы также можете использовать сокращенное имя класса, если класс находится в пакете examples. Например:

MASTER=spark://host:7077 ./bin/run-example SparkPi

Многие примеры программ выводят справку по использованию, если не указаны параметры.

Запуск тестов

Тестирование требует предварительной сборки Spark. После сборки Spark тесты можно запустить с помощью команды:

./dev/run-tests

Пожалуйста, ознакомьтесь с руководством по тому, как запускать тесты для модуля или отдельные тесты.

Также есть тест интеграции с Kubernetes, см. resource-managers/kubernetes/integration-tests/README.md

Примечание о версиях Hadoop

Spark использует библиотеку Hadoop core для взаимодействия с HDFS и другими системами хранения, поддерживаемыми Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны собирать Spark против той же версии, которая используется в вашем кластере.

Пожалуйста, обратитесь к документации по сборке на странице "Указание версии Hadoop и включение YARN" для подробных рекомендаций по сборке для конкретного дистрибутива Hadoop, включая сборку для конкретных дистрибутивов Hive и Hive Thriftserver.

Настройка

Пожалуйста, обратитесь к Руководству по настройке в онлайн-документации для получения обзора того, как настроить Spark.

Вклад

Пожалуйста, ознакомьтесь с руководством по вкладу в проект Spark для получения информации о том, как начать вносить свой вклад в проект.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Apache Spark — это разновидность открытой кластерной вычислительной среды, похожей на Hadoop, но между ними есть несколько отличий, которые делают Spark более предпочтительным в некоторых рабочих нагрузках, другими словами... Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/mirrors-spark-project.git
git@api.gitlife.ru:oschina-mirror/mirrors-spark-project.git
oschina-mirror
mirrors-spark-project
mirrors-spark-project
master