1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/CarbonData-ApacheCarbonData

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Apache CarbonData — это решение для хранения данных в виде индексированного столбцового хранилища, предназначенное для быстрой аналитики на платформе больших данных, такой как Apache Hadoop или Apache Spark.

С актуальной документацией и дополнительной информацией по CarbonData можно ознакомиться здесь: http://carbondata.apache.org.

Статус: Spark 2.4: Build Status Coverage Status Coverity Scan Build Status

Особенности: Формат файлов CarbonData представляет собой столбцовое хранилище в HDFS и обладает множеством функций современного столбцового формата, такими как возможность разделения, схема сжатия и сложные типы данных. Кроме того, CarbonData имеет следующие уникальные особенности:

  • Хранит данные вместе с индексом: это может значительно ускорить выполнение запросов и сократить количество операций сканирования ввода-вывода и ресурсов процессора, когда в запросе есть фильтры. Индекс CarbonData состоит из нескольких уровней индексов, и платформа обработки может использовать этот индекс для сокращения задач, которые необходимо запланировать и обработать. Также она может выполнять пропуск сканирования в более мелких единицах (называемых блоклетами) при сканировании со стороны задачи вместо сканирования всего файла.
  • Обрабатываемые закодированные данные: благодаря поддержке эффективных схем сжатия и глобального кодирования, можно выполнять запросы к сжатым/закодированным данным, которые преобразуются непосредственно перед возвратом результатов пользователям, что называется «поздней материализацией».
  • Поддержка различных сценариев использования с одним форматом данных: например, интерактивный запрос в стиле OLAP, последовательный доступ (большой скан) и произвольный доступ (узкий скан).

Сборка CarbonData: CarbonData собирается с использованием Apache Maven. Для сборки CarbonData см. здесь.

Онлайн-документация:

Управление индексом CarbonData

  • Индекс CarbonData BloomFilter [https://github.com/apache/carbondata/blob/master/docs/index/bloomfilter-index-guide.md]

  • Индекс Lucene CarbonData [https://github.com/apache/carbon-data/blob/master/docs/index/lucene-index-guide.md]

  • MV CarbonData [https://github.com/apache/carbon-data/blob/master/docs/mv-guide.md]

Вторичный индекс CarbonData [https://github.com/apache/carbondata/blob/master/docs/index/secondary-index-guide.md]

Руководство по SDK [https://github.com/apache/carbondata/blob/master/docs/sdk-guide.md]

C++ Руководство по SDK [https://github.com/apache/carbondata/blob/master/docs/csdk-guide.md]

Настройка производительности [https://github.com/apache/carbondata/blob/master/docs/performance-tuning.md]

S3 Хранилище [https://github.com/apache/carbondata/blob/master/docs/s3-guide.md]

Распределённый сервер индексов [https://github.com/apache/carbondata/blob/master/docs/index-server.md]

CDC и SCD [https://github.com/apache/carbondata/blob/master/docs/scd-and-cdc-guide.md]

Carbon как источник данных Spark [https://github.com/apache/carbondata/blob/master/docs/carbon-as-spark-datasource-guide.md]

Часто задаваемые вопросы [https://github.com/apache/carbondata/blob/master/docs/faq.md]

Экспериментальные функции

Некоторые функции помечены как экспериментальные, поскольку синтаксис или реализация могут измениться в будущем.

  1. Таблица гибридного формата с использованием Add Segment.
  2. Повышение производительности с помощью MV на parquet/orc.
  3. Merge API для Spark DataFrame.
  4. Запись Hive для нетранзакционных таблиц.

Интеграция

  • Hive [https://github.com/apache/carbondata/blob/master/docs/hive-guide.md]

  • Presto [https://github.com/apache/carbondata/blob/master/docs/prestodb-guide.md]

  • Alluxio [https://github.com/apache/carbondata/blob/master/docs/alluxio-guide.md]

  • Flink [https://github.com/apache/carbondata/blob/master/docs/flink-integration-guide.md]

Другие технические материалы

  • Материалы встреч Apache CarbonData [https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=66850609]

  • Статьи об использовании CarbonData [https://cwiki.apache.org/confluence/display/CARBONDATA/CarbonData+Articles]

Форк и участие

Это активный проект с открытым исходным кодом для всех, и мы всегда открыты для людей, которые хотят использовать эту систему или внести в неё свой вклад. В этом руководстве рассказывается, как внести свой вклад в CarbonData. [https://github.com/apache/carbondata/blob/master/docs/how-to-contribute-to-apache-carbondata.md].

Свяжитесь с нами

Чтобы принять участие в CarbonData:

О проекте

Apache CarbonData — это проект с открытым исходным кодом The Apache Software Foundation (ASF).

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/CarbonData-ApacheCarbonData.git
git@api.gitlife.ru:oschina-mirror/CarbonData-ApacheCarbonData.git
oschina-mirror
CarbonData-ApacheCarbonData
CarbonData-ApacheCarbonData
master