Katta

Что такое Katta?

Katta — это решение для распределённого поиска. В отличие от Solr/ElasticSearch, оно не создаёт индексы, а только управляет ими.

Развёртывание

Подробные инструкции см.: https://gitee.com/yiidata/katta/blob/master/manual/doc/%E5%AE%89%E8%A3%85.md

В настоящее время Katta поддерживает Hive и Presto

Hive уже полностью поддерживается, поддержка Presto ещё не идеальна, особенно в части инкрементного обновления индексов, пока не удалось разобраться во внутреннем механизме Presto, всё ещё изучаем его, в настоящее время уже поддерживается простое инкрементное обновление индексов x=y (в будущем планируется полная поддержка).

Часть документации по использованию см.: Использование документации

Послесловие:

Исходный проект Katta можно найти на Katta, проект был остановлен на обслуживание с 2011 года, но я обратил внимание на этот проект с 2013 года, внимательно прочитал исходный код, и был впечатлён структурой и качеством кода. С тех пор непрерывно поддерживал его в течение многих лет, добавил множество функций и обновил множество зависимостей. Превратил оригинальный проект в модульный проект maven, исправил множество ошибок и улучшил внутренние функции. Этот инструмент использовался в DMP-библиотеке моей предыдущей компании «Yi Data» и в версии 2.1 Speedy, он стабилен и реализовал множество функций, которые казались невозможными.

Katta является инструментом для работы с большими данными, вдохновлённым механизмами работы Hive и HBase.

Механизм импорта индексов похож на управление табличными данными в Hive;
На основе механизмов Index и Shard он очень похож на механизм управления Table и Region в Hbase;
Внутренний механизм выбора ZooKeeper, механизм событий (Master-Slave) — это душа Hbase.

С надеждой на успех, в первый день Нового 2018 года я открыл исходный код. Я надеюсь, что Katta сможет развиваться вместе с сообществом, и что больше команд, заинтересованных в поиске больших данных, смогут совместно улучшать его.

За несколько лет я наслаждался этим сокровищем больших данных в одиночестве, не мог отпустить его и не мог принять его. Почему «сокровище больших данных», а не что-то другое, не «Северный Бессмертный»? Потому что в области больших данных вам нужна высокая производительность при загрузке и вы хотите наслаждаться множеством условий для быстрого запроса, вы должны заплатить огромную цену, вы должны отказаться от некоторых вещей. Эта вещь — это реальное обновление, это «яйцо» поиска больших данных, и это корень жизни. Как известно, все базы данных (большие данные) имеют компромисс между эффективностью загрузки и эффективностью запросов. Hive может управлять сотнями миллиардов наборов данных, но не может обеспечить реальный поиск, если вы ищете несколько строк среди сотен миллиардов или триллионов наборов данных, это всё равно что искать иголку в стоге сена, сложность не нужно упоминать. Hbase также может управлять сотнями миллиардов данных, но может запрашивать только один столбец. Хотя у сообщества есть план вторичного индекса для hbase? Кто использует его, тот знает, насколько это сложно. Katta — это идеальное решение для поиска сверхбольших наборов данных.

Осторожный выбор:

Это не значит, что Katta лучше Solr/ES во всех аспектах, в большинстве сценариев использования Katta не так удобен в использовании, как Solr и ES (если ваш сценарий использования — это псевдобольшие данные объёмом менее нескольких миллиардов). Однако Solr и ES позиционируются как удобные и всеобъемлющие поисковые системы. Они подходят для сценариев общего индексирования и поиска, не учитывая болевые точки реальных больших данных. Даже если они теперь поддерживают интерфейсы для больших данных, это всего лишь временное решение. Я считаю, что Katta следует позиционировать как решение для поиска в сверхбольших наборах данных. Единицей сверхбольшого набора данных является миллиард, я даже думаю, что Katta может предоставить поиск на уровне десятков и сотен миллиардов, и использование ресурсов кластера не будет слишком большим. Но для Solr и ES я считаю, что это невозможно.

Katta не поддерживает реальное обновление, он просто предоставляет решение для поиска огромных объёмов данных. Katta управляет индексом Lucene, но сам не генерирует индекс. Katta-hadoop предоставляет Hadoop API LuceneDocumentOutputFormat, который можно использовать для генерации индекса с помощью HadoopMapReduce или Spark. Затем используйте команду для импорта сгенерированного распределённого набора индексов в Katta с помощью команды addIndex.

Наконец, спасибо первоначальному автору (кажется, автор из Индии) за великолепную идею, которая заставляла меня помнить о ней много лет, и теперь она возвращается к сообществу, чтобы открыть её для всех команд, имеющих проблемы с поиском в реальных больших данных.

Скачать: Baidu Cloud Disk

Материалы: Некоторые материалы

OSCHINA-MIRROR/yiidata-katta

Katta

Что такое Katta?

Развёртывание

В настоящее время Katta поддерживает Hive и Presto

Послесловие:

Осторожный выбор:

Комментарии ( 0 )

Введение

Обновления (1)

Участники

Недавние действия

OSCHINA-MIRROR/yiidata-katta .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Katta

Что такое Katta?

Развёртывание

В настоящее время Katta поддерживает Hive и Presto

Послесловие:

Осторожный выбор:

Комментарии ( 0 )

Введение

Обновления (1)

Участники

Недавние действия

OSCHINA-MIRROR/yiidata-katta