1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/DengMingChen-datahub

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
faq.md 21 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
Отправлено 01.03.2025 09:28 c3980de

Часто задаваемые вопросы о DataHub

Почему мы должны использовать DataHub?

DataHub — это портал самообслуживания данных, который предоставляет возможности поиска и открытия над данными активами организации. Этот инструмент может помочь повысить продуктивность специалистов по данным, аналитиков и инженеров, работающих с огромными объемами данных. Кроме того, регуляторная среда (GDPR, CCPA и т.д.) требует от компании знать, какие данные она имеет, кто их использует и как долго они будут храниться. DataHub предлагает решение этих проблем путём сбора метаданных в распределённой экосистеме данных и представления её в виде каталога данных, тем самым облегчая бремя защиты данных и соответствия требованиям.

Рекомендуете ли вы использовать DataHub вместо существующих коммерческих решений?

Основные проблемы с коммерческими решениями можно свести к следующему:

  • Отсутствие прямого доступа к исходному коду: любые пробелы в функционале могут быть закрыты только внешними сторонами, что может занять много времени и стоить дорого.
  • Зависимость от больших проприетарных систем или окружений, таких как AWS, Azure, Cloudera и т.д., делает его нереализуемым для использования, если он не соответствует вашему окружению.
  • Дороговизна приобретения и эксплуатации.

DataHub может быть правильным выбором для вас, если вы хотите использовать открытый источник, не связанный с другими компонентами (передняя часть приложения полностью отделена от "проверенного временем" хранилища метаданных), которую вы можете модифицировать, расширять и интегрировать с вашей экосистемой данных. По нашему опыту работы в LinkedIn и общению с другими компаниями, метаданные всегда имеют очень конкретное для каждой компании значение и реализацию. Коммерческие инструменты обычно внедряются и решают несколько задач сразу, но потребуют большего инвестиционного вклада или будут невозможно расширить для некоторых видов метаданных.

Кто являются основными участниками сообщества?

На данный момент инженеры LinkedIn. Однако, мы получаем всё больше запросов на внесение изменений от сотрудников различных компаний.

Какова величина сообщества?

У нас было несколько встреч и обсуждений с внешними сторонами, заинтересованными в использовании DataHub, например:

Есть ли критерии отбора участников?

Мы приветствуем вклад со стороны всех участников сообщества. Пожалуйста, прочитайте наши правила участия. В целом, мы будем рассматривать запросы на внесение изменений с таким же вниманием, как и внутренний процесс проверки кода, чтобы поддерживать общее качество.

Как планирует LinkedIn взаимодействовать с сообществом?

Мы планируем организовать публичные собрания сообщества ежемесячно, однако частота может меняться в зависимости от интереса сообщества. Также недавно мы отказались от использования Gitter и начали применять Slack как один из основных способов поддержки сообщества.

Если мы выберем этот платформу, хотели бы мы полноценно взаимодействовать и работать с LinkedIn и сообществом. Какой будет лучший способ и какой уровень вовлечения стоит ожидать?

Лучшим способом взаимодействия является использование канала Slack. Вы сможете взаимодействовать с разработчиками и сообществом. Мы довольно быстро реагируем в Slack и планируем установить правильное круглосуточное обслуживание во время рабочего дня (по тихоокеанскому времени). Иногда мы также создаем рабочие группы с конкретными ответственными лицами из команды LinkedIn для решения конкретных задач сообщества.

Для воспроизводимых технических проблем, ошибок и вклада в код GitHub issues и PRs являются предпочитаемыми каналами.

Какой будет самый эффективный способ получить знания о продукте для правильного тестирования и оценки DataHub?

GitHub — лучший ресурс. Мы подробно документируем шаги по установке и тестированию DataHub там. Также есть множество документов по общей архитектуре, определениям, и руководствам по запуску.

Статьи Введение в DataHub и Открытый исходный код DataHub также полезны для получения высокого уровня понимания системы.

Где можно узнать о планах развития?

Вы можете узнать больше о планах развития DataHub в плане развития продукта, который регулярно обновляется.

Где можно узнать о текущем списке функций/функциональностей?

Вы можете узнать больше о текущем списке функций.

Являются ли стратегия продукта,愿景和路线图是由领英工程团队、社区还是双方协作制定的?

策略产品、愿景和路线图由领英工程团队和社区共同协作制定。路线图将作为领英和社区共同努力的结果呈现出来。然而,我们会优先考虑符合社区需求的任务。

DataHub是否连接到Google云平台?

领英没有使用GCP,因此无法保证构建和测试这种连接性的能力。不过,我们非常欢迎来自社区有关于GCP集成的贡献。此外,我们的Slack频道以及定期举办的全体会议都是遇到拥有相似需求并且可能对合作开发这些功能感兴趣的人的好地方。## Насколько открытыми являются LinkedIn Insights и поддержка или сотрудничество в определённых функциях?

Просмотрите наш план развития и список функций, чтобы узнать о функциях, которые будут сделаны открытыми. Если какие-то вещи отсутствуют в списке, мы можем обсудить это. В действительности, общие собрания станут идеальными местами для таких обсуждений.

Как команды разработки LinkedIn и сообщество обеспечивают качество кода DataHub?

Каждый запрос на слияние кода будет рассматриваться командой LinkedIn. Любые расширения/вклады, где у команды LinkedIn нет специализированных знаний, будут временно помещены в директорию "incubator" (/contrib). После одобрения сообществом и выхода из стадии "incubator", они будут перемещены в основной репозиторий.

Сначала, команда LinkedIn будет играть важную роль в управлении репозиторием. Мы будем переоценивать эту стратегию в зависимости от уровня участия сообщества. У нас есть длинный список задач, используемых исключительно для внутреннего использования DataHub. Мы стремимся сделать эти функции универсальными и открытыми. Это приведёт к большому количеству внесений со стороны LinkedIn в течение некоторого времени, пока два репозитория не будут точно совпадать. Подробнее об этом можно прочитать в нашей блоговой записи.

Как в LinkedIn организован расписание ETL-процесса для загрузки данных из Kafka?

Это зависит от платформы данных. HDFS, MySQL, Oracle, Teradata и LDAP расписывают ежедневно. Мы полагаемся на реальное время для загрузки данных с нескольких платформ данных, таких как Hive, Presto, Kafka, Pinot, Espresso, Ambry, Galene, Venice и других.

Какие варианты выбора ключей Kafka существуют для тем MCE, MAE и FailedMCE?

URN является единственным разумным вариантом, чтобы гарантировать, что сообщения одного объекта попадают в один раздел и обрабатываются последовательно по времени.

Как обрабатывается качество данных во время загрузки?

Кроме использования проверки схем Kafka для обеспечения качества метаданных, мы активно мониторим состояние потока загрузки на уровне снимка.

Можете ли вы обобщить подход к управлению данными? Какие примеры использования привилегий/управления используются в DataHub?

Эта презентация (слайды, видео) описывает роль метаданных (DataHub) в управлении данными и приватности в LinkedIn. Полевые уровни классификации, контролируемое перемещение данных, автоматическое удаление данных, экспортирование данных и другие являются поддерживаемыми случаями использования. Мы планируем сделать открытой частью наших возможностей управления, представленных в нашей дорожной карте.

Поддерживает ли DataHub несколько схем для одного и того же топика при использовании Kafka и Confluent Schema Registry?

Вы можете настроить уровень совместимости для каждого топика в Confluent Schema Registry. По умолчанию используется "Backward". Таким образом, вы можете выполнять только обратносовместимые изменения схемы топика. Вы также можете изменить эту конфигурацию и гибко настраивать проверку совместимости. Однако как лучшая практика мы рекомендуем не делать обратнонеприсоединяемые изменения схемы топика, так как это может привести к ошибкам старых производителей метаданных. Вместо этого можно рассмотреть создание нового топика Kafka (новой версии).

Как лучше документировать и отображать преобразования внутри процесса ETL? Как создать корпоративные знания и процессы, чтобы помочь создать парадигму для племенной информации?

Мы планируем добавить "тонкую линейность" в ближайшее время, что должно покрыть документацию преобразований. DataHub в настоящее время имеет простое "Документы" свойство, которое позволяет захватывать племенную информацию. Мы также планируем значительно расширить его в будущем.

Как продвинуть продукт от каталога данных до среды сотрудничества данных, такой как Alation?

Мы добавляем некоторые "социальные функции" и возможности захвата документов в DataHub. Однако мы приветствуем сообщество, чтобы внести свой вклад в этом направлении.

Можно ли поделиться тем, как выглядит каталог в производстве LinkedIn?

Он очень похож на то, что вы видите в версии сообщества. Мы добавили скриншоты внутренней версии каталога в нашем посте блога.

Есть ли в дорожной карте положение для захвата информации о качестве данных набора данных?

Мы работаем над аналогичной функцией внутренне. Будем оценивать и обновлять дорожную карту после получения более четкого представления о времени выполнения.

Поддерживает ли DataHub захват показывающих столбцов ограничений, установленных при определении таблицы?

Модель SchemaField в настоящее время не захватывает никаких свойств/полей, соответствующих ограничениям, определенным при определении таблицы. Однако будет довольно легко расширить модель для поддержки этого, если потребуется.

Как DataHub управляет извлечением метаданных из хранилищ, расположенных в разных зонах безопасности?

MCE является идеальным способом передачи метаданных из различных зон безопасности, предполагая наличие общего Kafka-инфраструктуры, которая агрегирует события из различных зон безопасности.

Для каких хранилищ имеются службы обнаружения?

Поддерживаемые источники данных перечислены здесь. Чтобы настроить свой собственный источник данных, который не указан там, обратитесь к руководству по настройке.## Как происходит захват метаданных в DataHub? Это реального времени? Вы можете вызвать API rest.li для захвата метаданных в DataHub напрямую вместо использования событий Kafka. Захват метаданных является реальным временем, если вы обновляете через API rest.li. Он почти в реальном времени в случае событий Kafka из-за асинхронного характера обработки Kafka.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/DengMingChen-datahub.git
git@api.gitlife.ru:oschina-mirror/DengMingChen-datahub.git
oschina-mirror
DengMingChen-datahub
DengMingChen-datahub
master