DataHub — это портал самообслуживания данных, который предоставляет возможности поиска и открытия над данными активами организации. Этот инструмент может помочь повысить продуктивность специалистов по данным, аналитиков и инженеров, работающих с огромными объемами данных. Кроме того, регуляторная среда (GDPR, CCPA и т.д.) требует от компании знать, какие данные она имеет, кто их использует и как долго они будут храниться. DataHub предлагает решение этих проблем путём сбора метаданных в распределённой экосистеме данных и представления её в виде каталога данных, тем самым облегчая бремя защиты данных и соответствия требованиям.
Основные проблемы с коммерческими решениями можно свести к следующему:
DataHub может быть правильным выбором для вас, если вы хотите использовать открытый источник, не связанный с другими компонентами (передняя часть приложения полностью отделена от "проверенного временем" хранилища метаданных), которую вы можете модифицировать, расширять и интегрировать с вашей экосистемой данных. По нашему опыту работы в LinkedIn и общению с другими компаниями, метаданные всегда имеют очень конкретное для каждой компании значение и реализацию. Коммерческие инструменты обычно внедряются и решают несколько задач сразу, но потребуют большего инвестиционного вклада или будут невозможно расширить для некоторых видов метаданных.
На данный момент инженеры LinkedIn. Однако, мы получаем всё больше запросов на внесение изменений от сотрудников различных компаний.
У нас было несколько встреч и обсуждений с внешними сторонами, заинтересованными в использовании DataHub, например:
Мы приветствуем вклад со стороны всех участников сообщества. Пожалуйста, прочитайте наши правила участия. В целом, мы будем рассматривать запросы на внесение изменений с таким же вниманием, как и внутренний процесс проверки кода, чтобы поддерживать общее качество.
Мы планируем организовать публичные собрания сообщества ежемесячно, однако частота может меняться в зависимости от интереса сообщества. Также недавно мы отказались от использования Gitter и начали применять Slack как один из основных способов поддержки сообщества.
Лучшим способом взаимодействия является использование канала Slack. Вы сможете взаимодействовать с разработчиками и сообществом. Мы довольно быстро реагируем в Slack и планируем установить правильное круглосуточное обслуживание во время рабочего дня (по тихоокеанскому времени). Иногда мы также создаем рабочие группы с конкретными ответственными лицами из команды LinkedIn для решения конкретных задач сообщества.
Для воспроизводимых технических проблем, ошибок и вклада в код GitHub issues и PRs являются предпочитаемыми каналами.
GitHub — лучший ресурс. Мы подробно документируем шаги по установке и тестированию DataHub там. Также есть множество документов по общей архитектуре, определениям, и руководствам по запуску.
Статьи Введение в DataHub и Открытый исходный код DataHub также полезны для получения высокого уровня понимания системы.
Вы можете узнать больше о планах развития DataHub в плане развития продукта, который регулярно обновляется.
Вы можете узнать больше о текущем списке функций.
策略产品、愿景和路线图由领英工程团队和社区共同协作制定。路线图将作为领英和社区共同努力的结果呈现出来。然而,我们会优先考虑符合社区需求的任务。
领英没有使用GCP,因此无法保证构建和测试这种连接性的能力。不过,我们非常欢迎来自社区有关于GCP集成的贡献。此外,我们的Slack频道以及定期举办的全体会议都是遇到拥有相似需求并且可能对合作开发这些功能感兴趣的人的好地方。## Насколько открытыми являются LinkedIn Insights и поддержка или сотрудничество в определённых функциях?
Просмотрите наш план развития и список функций, чтобы узнать о функциях, которые будут сделаны открытыми. Если какие-то вещи отсутствуют в списке, мы можем обсудить это. В действительности, общие собрания станут идеальными местами для таких обсуждений.
Каждый запрос на слияние кода будет рассматриваться командой LinkedIn. Любые расширения/вклады, где у команды LinkedIn нет специализированных знаний, будут временно помещены в директорию "incubator" (/contrib
). После одобрения сообществом и выхода из стадии "incubator", они будут перемещены в основной репозиторий.
Сначала, команда LinkedIn будет играть важную роль в управлении репозиторием. Мы будем переоценивать эту стратегию в зависимости от уровня участия сообщества. У нас есть длинный список задач, используемых исключительно для внутреннего использования DataHub. Мы стремимся сделать эти функции универсальными и открытыми. Это приведёт к большому количеству внесений со стороны LinkedIn в течение некоторого времени, пока два репозитория не будут точно совпадать. Подробнее об этом можно прочитать в нашей блоговой записи.
Это зависит от платформы данных. HDFS, MySQL, Oracle, Teradata и LDAP расписывают ежедневно. Мы полагаемся на реальное время для загрузки данных с нескольких платформ данных, таких как Hive, Presto, Kafka, Pinot, Espresso, Ambry, Galene, Venice и других.
URN является единственным разумным вариантом, чтобы гарантировать, что сообщения одного объекта попадают в один раздел и обрабатываются последовательно по времени.
Кроме использования проверки схем Kafka для обеспечения качества метаданных, мы активно мониторим состояние потока загрузки на уровне снимка.
Эта презентация (слайды, видео) описывает роль метаданных (DataHub) в управлении данными и приватности в LinkedIn. Полевые уровни классификации, контролируемое перемещение данных, автоматическое удаление данных, экспортирование данных и другие являются поддерживаемыми случаями использования. Мы планируем сделать открытой частью наших возможностей управления, представленных в нашей дорожной карте.
Вы можете настроить уровень совместимости для каждого топика в Confluent Schema Registry. По умолчанию используется "Backward". Таким образом, вы можете выполнять только обратносовместимые изменения схемы топика. Вы также можете изменить эту конфигурацию и гибко настраивать проверку совместимости. Однако как лучшая практика мы рекомендуем не делать обратнонеприсоединяемые изменения схемы топика, так как это может привести к ошибкам старых производителей метаданных. Вместо этого можно рассмотреть создание нового топика Kafka (новой версии).
Мы планируем добавить "тонкую линейность" в ближайшее время, что должно покрыть документацию преобразований. DataHub в настоящее время имеет простое "Документы" свойство, которое позволяет захватывать племенную информацию. Мы также планируем значительно расширить его в будущем.
Мы добавляем некоторые "социальные функции" и возможности захвата документов в DataHub. Однако мы приветствуем сообщество, чтобы внести свой вклад в этом направлении.
Он очень похож на то, что вы видите в версии сообщества. Мы добавили скриншоты внутренней версии каталога в нашем посте блога.
Мы работаем над аналогичной функцией внутренне. Будем оценивать и обновлять дорожную карту после получения более четкого представления о времени выполнения.
Модель SchemaField в настоящее время не захватывает никаких свойств/полей, соответствующих ограничениям, определенным при определении таблицы. Однако будет довольно легко расширить модель для поддержки этого, если потребуется.
MCE является идеальным способом передачи метаданных из различных зон безопасности, предполагая наличие общего Kafka-инфраструктуры, которая агрегирует события из различных зон безопасности.
Поддерживаемые источники данных перечислены здесь. Чтобы настроить свой собственный источник данных, который не указан там, обратитесь к руководству по настройке.## Как происходит захват метаданных в DataHub? Это реального времени? Вы можете вызвать API rest.li для захвата метаданных в DataHub напрямую вместо использования событий Kafka. Захват метаданных является реальным временем, если вы обновляете через API rest.li. Он почти в реальном времени в случае событий Kafka из-за асинхронного характера обработки Kafka.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )