OSCHINA-MIRROR/CarbonData-ApacheCarbonData

Apache CarbonData — это решение для хранения данных в виде индексированного столбцового хранилища, предназначенное для быстрой аналитики на платформе больших данных, такой как Apache Hadoop или Apache Spark.

С актуальной документацией и дополнительной информацией по CarbonData можно ознакомиться здесь: http://carbondata.apache.org.

Статус: Spark 2.4:

Особенности: Формат файлов CarbonData представляет собой столбцовое хранилище в HDFS и обладает множеством функций современного столбцового формата, такими как возможность разделения, схема сжатия и сложные типы данных. Кроме того, CarbonData имеет следующие уникальные особенности:

Хранит данные вместе с индексом: это может значительно ускорить выполнение запросов и сократить количество операций сканирования ввода-вывода и ресурсов процессора, когда в запросе есть фильтры. Индекс CarbonData состоит из нескольких уровней индексов, и платформа обработки может использовать этот индекс для сокращения задач, которые необходимо запланировать и обработать. Также она может выполнять пропуск сканирования в более мелких единицах (называемых блоклетами) при сканировании со стороны задачи вместо сканирования всего файла.
Обрабатываемые закодированные данные: благодаря поддержке эффективных схем сжатия и глобального кодирования, можно выполнять запросы к сжатым/закодированным данным, которые преобразуются непосредственно перед возвратом результатов пользователям, что называется «поздней материализацией».
Поддержка различных сценариев использования с одним форматом данных: например, интерактивный запрос в стиле OLAP, последовательный доступ (большой скан) и произвольный доступ (узкий скан).

Сборка CarbonData: CarbonData собирается с использованием Apache Maven. Для сборки CarbonData см. здесь.

Онлайн-документация:

Что такое CarbonData.
Краткое руководство.
Сценарии использования.
Справочник по языку:
- Язык определения данных CarbonData.
- Языки манипулирования данными CarbonData.
- Потоковая загрузка данных.
- Настройка CarbonData.
- Руководство разработчика индекса. Типы [https://github.com/apache/carbondata/blob/master/docs/supported-data-types-in-carbondata.md]

Управление индексом CarbonData

Индекс CarbonData BloomFilter [https://github.com/apache/carbondata/blob/master/docs/index/bloomfilter-index-guide.md]
Индекс Lucene CarbonData [https://github.com/apache/carbon-data/blob/master/docs/index/lucene-index-guide.md]
MV CarbonData [https://github.com/apache/carbon-data/blob/master/docs/mv-guide.md]

Вторичный индекс CarbonData [https://github.com/apache/carbondata/blob/master/docs/index/secondary-index-guide.md]

Руководство по SDK [https://github.com/apache/carbondata/blob/master/docs/sdk-guide.md]

C++ Руководство по SDK [https://github.com/apache/carbondata/blob/master/docs/csdk-guide.md]

Настройка производительности [https://github.com/apache/carbondata/blob/master/docs/performance-tuning.md]

S3 Хранилище [https://github.com/apache/carbondata/blob/master/docs/s3-guide.md]

Распределённый сервер индексов [https://github.com/apache/carbondata/blob/master/docs/index-server.md]

CDC и SCD [https://github.com/apache/carbondata/blob/master/docs/scd-and-cdc-guide.md]

Carbon как источник данных Spark [https://github.com/apache/carbondata/blob/master/docs/carbon-as-spark-datasource-guide.md]

Часто задаваемые вопросы [https://github.com/apache/carbondata/blob/master/docs/faq.md]

Экспериментальные функции

Некоторые функции помечены как экспериментальные, поскольку синтаксис или реализация могут измениться в будущем.

Таблица гибридного формата с использованием Add Segment.
Повышение производительности с помощью MV на parquet/orc.
Merge API для Spark DataFrame.
Запись Hive для нетранзакционных таблиц.

Интеграция

Hive [https://github.com/apache/carbondata/blob/master/docs/hive-guide.md]
Presto [https://github.com/apache/carbondata/blob/master/docs/prestodb-guide.md]
Alluxio [https://github.com/apache/carbondata/blob/master/docs/alluxio-guide.md]
Flink [https://github.com/apache/carbondata/blob/master/docs/flink-integration-guide.md]

Другие технические материалы

Материалы встреч Apache CarbonData [https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=66850609]
Статьи об использовании CarbonData [https://cwiki.apache.org/confluence/display/CARBONDATA/CarbonData+Articles]

Форк и участие

Это активный проект с открытым исходным кодом для всех, и мы всегда открыты для людей, которые хотят использовать эту систему или внести в неё свой вклад. В этом руководстве рассказывается, как внести свой вклад в CarbonData. [https://github.com/apache/carbondata/blob/master/docs/how-to-contribute-to-apache-carbondata.md].

Свяжитесь с нами

Чтобы принять участие в CarbonData:

Сначала зарегистрируйтесь, отправив электронное письмо на адрес dev-subscribe@carbondata.apache.org, затем вы можете обсудить проблемы, отправив электронное письмо по адресу dev@carbondata.apache.org или посетите http://apache-carbondata-mailing-list-archive.1130556.n5.nabble.com.
Сообщайте о проблемах на Apache Jira.

О проекте

Apache CarbonData — это проект с открытым исходным кодом The Apache Software Foundation (ASF).