OSCHINA-MIRROR/sparkinchina-translate-spark

Apache Spark

Spark — это быстрая и универсальная кластерная вычислительная система для работы с большими данными. Она предоставляет высокоуровневые API на языках Scala, Java и Python, а также оптимизированный движок, который поддерживает общие вычислительные графы для анализа данных. Также она поддерживает богатый набор инструментов более высокого уровня, включая Spark SQL для SQL и обработки структурированных данных, MLlib для машинного обучения, GraphX для обработки графов и Spark Streaming для потоковой обработки.

Онлайн-документация

На веб-странице проекта и вики проекта вы можете найти последнюю документацию по Spark, включая руководство по программированию. Этот файл README содержит только основные инструкции по настройке.

Создание Spark

Для создания Spark используется Apache Maven. Чтобы создать Spark и его примеры программ, выполните:

mvn -DskipTests clean package

(Вам не нужно этого делать, если вы скачали предварительно собранный пакет.) Более подробная документация доступна на сайте проекта «Создание Spark».

Интерактивная оболочка Scala

Самый простой способ начать использовать Spark — через оболочку Scala:

./bin/spark-shell

Попробуйте следующую команду, которая должна вернуть 1000:

scala> sc.parallelize(1 to 1000).count()

Интерактивная оболочка Python

Кроме того, если вы предпочитаете Python, вы можете использовать оболочку Python:

./bin/pyspark

И выполните следующую команду, которая также должна вернуть 1000:

>>> sc.parallelize(range(1000)).count()

Примеры программ

В каталоге examples есть несколько примеров программ. Чтобы запустить один из них, используйте ./bin/run-example [params]. Например:

./bin/run-example SparkPi

запустит пример Pi локально.

Вы можете установить переменную среды MASTER при запуске примеров, чтобы отправить примеры в кластер. Это может быть URL mesos:// или spark://, «yarn-cluster» или «yarn-client» для запуска в YARN, и «local», чтобы запустить локально с одним потоком, или «local[N]», чтобы запустить локально с N потоками. Вы также можете использовать сокращённое имя класса, если класс находится в пакете examples. Например:

MASTER=spark://host:7077 ./bin/run-example SparkPi

Многие из примеров программ выводят справку об использовании, если параметры не заданы.

Запуск тестов

Сначала требуется создать Spark. После создания Spark тесты можно запустить с помощью:

./dev/run-tests

Пожалуйста, ознакомьтесь с руководством о том, как запустить все автоматизированные тесты.

Примечание о версиях Hadoop

Spark использует основную библиотеку Hadoop для взаимодействия с HDFS и другими поддерживаемыми Hadoop системами хранения. Поскольку протоколы изменились в разных версиях Hadoop, вы должны создавать Spark с той же версией, что и ваш кластер.

Обратитесь к документации по сборке на странице «Указание версии Hadoop» для подробного руководства по созданию для конкретного дистрибутива Hadoop, включая сборку для конкретных дистрибутивов Hive и Hive Thriftserver. См. также «Сторонние дистрибутивы Hadoop», чтобы узнать, как создать приложение Spark, работающее с конкретным дистрибутивом.

Конфигурация

Пожалуйста, обратитесь к руководству по конфигурации в онлайн-документации, чтобы получить обзор того, как настроить Spark.

OSCHINA-MIRROR/sparkinchina-translate-spark

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/sparkinchina-translate-spark .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/sparkinchina-translate-spark