Apache Spark
Spark — это быстрая и универсальная кластерная вычислительная система для работы с большими данными. Она предоставляет высокоуровневые API на языках Scala, Java и Python, а также оптимизированный движок, который поддерживает общие вычислительные графы для анализа данных. Также она поддерживает богатый набор инструментов более высокого уровня, включая Spark SQL для SQL и обработки структурированных данных, MLlib для машинного обучения, GraphX для обработки графов и Spark Streaming для потоковой обработки.
Онлайн-документация
На веб-странице проекта и вики проекта вы можете найти последнюю документацию по Spark, включая руководство по программированию. Этот файл README содержит только основные инструкции по настройке.
Создание Spark
Для создания Spark используется Apache Maven. Чтобы создать Spark и его примеры программ, выполните:
mvn -DskipTests clean package
(Вам не нужно этого делать, если вы скачали предварительно собранный пакет.) Более подробная документация доступна на сайте проекта «Создание Spark».
Интерактивная оболочка Scala
Самый простой способ начать использовать Spark — через оболочку Scala:
./bin/spark-shell
Попробуйте следующую команду, которая должна вернуть 1000:
scala> sc.parallelize(1 to 1000).count()
Интерактивная оболочка Python
Кроме того, если вы предпочитаете Python, вы можете использовать оболочку Python:
./bin/pyspark
И выполните следующую команду, которая также должна вернуть 1000:
>>> sc.parallelize(range(1000)).count()
Примеры программ
В каталоге examples есть несколько примеров программ. Чтобы запустить один из них, используйте ./bin/run-example [params]. Например:
./bin/run-example SparkPi
запустит пример Pi локально.
Вы можете установить переменную среды MASTER при запуске примеров, чтобы отправить примеры в кластер. Это может быть URL mesos:// или spark://, «yarn-cluster» или «yarn-client» для запуска в YARN, и «local», чтобы запустить локально с одним потоком, или «local[N]», чтобы запустить локально с N потоками. Вы также можете использовать сокращённое имя класса, если класс находится в пакете examples. Например:
MASTER=spark://host:7077 ./bin/run-example SparkPi
Многие из примеров программ выводят справку об использовании, если параметры не заданы.
Запуск тестов
Сначала требуется создать Spark. После создания Spark тесты можно запустить с помощью:
./dev/run-tests
Пожалуйста, ознакомьтесь с руководством о том, как запустить все автоматизированные тесты.
Примечание о версиях Hadoop
Spark использует основную библиотеку Hadoop для взаимодействия с HDFS и другими поддерживаемыми Hadoop системами хранения. Поскольку протоколы изменились в разных версиях Hadoop, вы должны создавать Spark с той же версией, что и ваш кластер.
Обратитесь к документации по сборке на странице «Указание версии Hadoop» для подробного руководства по созданию для конкретного дистрибутива Hadoop, включая сборку для конкретных дистрибутивов Hive и Hive Thriftserver. См. также «Сторонние дистрибутивы Hadoop», чтобы узнать, как создать приложение Spark, работающее с конкретным дистрибутивом.
Конфигурация
Пожалуйста, обратитесь к руководству по конфигурации в онлайн-документации, чтобы получить обзор того, как настроить Spark.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )