Spark — это единый аналитический движок для обработки больших объемов данных. Он предоставляет высокоуровневые API на Scala, Java, Python и R (Устаревший), а также оптимизированный движок, поддерживающий общие вычислительные графы для анализа данных. Он также поддерживает богатый набор высокоуровневых инструментов, включая Spark SQL для SQL и DataFrame, pandas API on Spark для задач с pandas, MLlib для машинного обучения, GraphX для обработки графов и Structured Streaming для потоковой обработки.
Вы можете найти последнюю документацию по Spark, включая руководство по программированию, на странице проекта. Этот файл README содержит только базовые инструкции по настройке.
Ветка | Статус |
---|---|
master | |
branch-4.0 | |
branch-3.5 | |
Spark собирается с использованием Apache Maven. Для сборки Spark и его примеров программ выполните команду:
./build/mvn -DskipTests clean package
(Если вы скачали предварительно собранный пакет, выполнять эту команду не нужно.)
Более подробная документация доступна на сайте проекта по адресу "Сборка Spark".
Для общих советов по разработке, включая информацию о разработке Spark с использованием IDE, см. "Полезные инструменты разработчика".
Наиболее простой способ начать использовать Spark — это через интерактивную оболочку Scala:
./bin/spark-shell
Попробуйте следующую команду, которая должна вернуть 1,000,000,000:
scala> spark.range(1000 * 1000 * 1000).count()
Альтернативно, если вы предпочитаете Python, вы можете использовать интерактивную оболочку Python:
./bin/pyspark
И выполните следующую команду, которая также должна вернуть 1,000,000,000:
>>> spark.range(1000 * 1000 * 1000).count()
Spark также включает несколько примеров программ в директории examples
.
Для запуска одного из них используйте ./bin/run-example <класс> [параметры]
. Например:
./bin/run-example SparkPi
запустит пример Pi локально.
Вы можете установить переменную окружения MASTER при запуске примеров для отправки примеров на кластер. Это может быть URL spark://,
"yarn" для запуска на YARN, и "local" для локального запуска с одним потоком, или "local[N]" для локального запуска с N потоками. Вы
также можете использовать сокращенное имя класса, если класс находится в пакете examples
. Например:
MASTER=spark://host:7077 ./bin/run-example SparkPi
Многие примеры программ выводят справку по использованию, если не указаны параметры.
Тестирование требует предварительной сборки Spark. После сборки Spark тесты можно запустить с помощью команды:
./dev/run-tests
Пожалуйста, ознакомьтесь с руководством по тому, как запускать тесты для модуля или отдельные тесты.
Также есть тест интеграции с Kubernetes, см. resource-managers/kubernetes/integration-tests/README.md
Spark использует библиотеку Hadoop core для взаимодействия с HDFS и другими системами хранения, поддерживаемыми Hadoop. Поскольку протоколы изменились в разных версиях Hadoop, вы должны собирать Spark против той же версии, которая используется в вашем кластере.
Пожалуйста, обратитесь к документации по сборке на странице "Указание версии Hadoop и включение YARN" для подробных рекомендаций по сборке для конкретного дистрибутива Hadoop, включая сборку для конкретных дистрибутивов Hive и Hive Thriftserver.
Пожалуйста, обратитесь к Руководству по настройке в онлайн-документации для получения обзора того, как настроить Spark.
Пожалуйста, ознакомьтесь с руководством по вкладу в проект Spark для получения информации о том, как начать вносить свой вклад в проект.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )