1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/openvinotoolkit-prc-deepvariant

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

DeepVariant — это основанный на глубоком обучении инструмент для определения вариантов последовательностей, который принимает выровненные чтения (в формате BAM или CRAM), создаёт из них тензоры изображений pileup, классифицирует каждый тензор с помощью свёрточной нейронной сети и, наконец, выдаёт результаты в стандартном файле VCF или gVCF.

DeepVariant поддерживает:

  • определение вариантов последовательности соматических данных или любых других образцов, где количество копий ДНК выходит за рамки двух, DeepVariant не будет работать «из коробки», поскольку поддерживаются только генотипы hom-alt, het и hom-ref;
  • модели, включённые в DeepVariant, обучены только на человеческих данных. Для других организмов см. пост в блоге о нечеловеческом определении вариантов, чтобы узнать о возможных подводных камнях и способах их устранения.
  • Определение вариантов из данных NGS и длинных считываний.
    • Данные NGS (Illumina) для всего генома или всего экзома.
    • Данные PacBio HiFi, см. пример использования PacBio.
    • Длинные считывания ONT с использованием PEPPER-DeepVariant.
    • Гибридные данные PacBio HiFi + Illumina WGS, см. гибридный пример использования.

Как запустить

Мы рекомендуем использовать наше решение Docker. Команда будет выглядеть следующим образом:

BIN_VERSION="1.0.0"
docker run \
  -v "YOUR_INPUT_DIR":"/input" \
  -v "YOUR_OUTPUT_DIR:/output" \
  google/deepvariant:"${BIN_VERSION}" \
  /opt/deepvariant/bin/run_deepvariant \
  --model_type=WGS \ **Замените эту строку ровно на один из следующих [WGS,WES,PACBIO,HYBRID_PACBIO_ILLUMINA]**
  --ref=/input/YOUR_REF \
  --reads=/input/YOUR_BAM \
  --output_vcf=/output/YOUR_OUTPUT_VCF \
  --output_gvcf=/output/YOUR_OUTPUT_GVCF \
  --num_shards=$(nproc) **Это будет использовать все ваши ядра для запуска make_examples. Вы можете изменить.**

Чтобы увидеть все доступные флаги, запустите: docker run google/deepvariant:"${BIN_VERSION}" --help. Если вы используете графические процессоры или хотите использовать Singularity вместо этого, см. раздел Быстрый старт для получения более подробной информации или см. все доступные параметры настройки (#DeepVariant_setup), включая решения на внешних платформах. Для получения дополнительной информации также см.:

  • Полный список документации.
  • Подробное руководство по использованию с дополнительной информацией о форматах входных и выходных файлов и о том, как с ними работать.
  • Лучшие практики для многовыборочного определения вариантов с DeepVariant.
  • Учебное пособие по обучению (расширенное).

Как цитировать

Если вы используете DeepVariant в своей работе, пожалуйста, укажите: Универсальный вызывающий SNP и вызывающий небольшие индели с использованием глубоких нейронных сетей. Nature Biotechnology 36, 983–987 (2018).
Райан Поплин, Пи-Чуан Чанг, Дэвид Александр, Скотт Шварц, Томас Колтурст, Александр Ку, Дэн Ньюбургер, Джоджо Диджамко, Нам Нгуен, Пегах Т. Афшар, Сэм С. Гросс, Лиззи Дорфман, Кори Ю. Маклин и Марк А. ДеПристо.
doi: https://doi.org/10.1038/nbt.4235 Кроме того, если вы генерируете многовыборочные вызовы с использованием наших лучших практик DeepVariant и GLnexus, пожалуйста, процитируйте: Точные, масштабируемые когортные варианты вызовов с использованием DeepVariant и GLnexus. bioRxiv 10.1101/2020.02.10.942086v1 (2020).
Таэдонг Юн, Хелен Ли, Пи-Чуан Чанг, Майкл Ф. Лин, Эндрю... Почему стоит использовать DeepVariant?

  • Высокая точность. В 2016 году DeepVariant выиграл PrecisionFDA Truth Challenge за лучшую производительность SNP. DeepVariant поддерживает высокую точность для данных, полученных с помощью различных технологий секвенирования, методов подготовки и видов организмов. Для данных с низким покрытием использование DeepVariant особенно важно. См. раздел «Метрики» для получения последних данных о точности для каждого типа секвенирования.

  • Гибкость. Возможность использования «из коробки» для образцов с положительным результатом ПЦР и прогонов с низким качеством секвенирования, а также лёгкая адаптация для различных технологий секвенирования и нечеловеческих видов.

  • Простота использования. Не требуется дополнительная фильтрация, кроме установки предпочитаемого минимального порога качества.

  • Экономическая эффективность. С одним не вытесняемым n1-standard-16-машиной в Google Cloud вызов 30-кратного полного генома стоит примерно 9,11 доллара США, а вызов экзома — примерно 0,39 доллара США. При использовании вытесняемых цен вызов 30-кратного полного генома будет стоить примерно 2,19 доллара США, а экзома — примерно 0,09 доллара США (без учёта вытеснения).

  • Скорость. На 64-ядерной машине только с CPU DeepVariant выполняет 50-кратный WGS за 5 часов, а экзом — за 16 минут. Существует несколько вариантов ускорения, которые позволяют сократить время выполнения WGS до 40 минут (см. внешние решения).

  • Варианты использования. DeepVariant можно запускать через Docker или двоичные файлы, используя как собственное оборудование, так и облачные сервисы, с поддержкой аппаратных ускорителей, таких как GPU и TPU.

Как работает DeepVariant

Для получения дополнительной информации о изображениях накопления и их интерпретации см. блог «Глядя глазами DeepVariant».

DeepVariant использует Nucleus, библиотеку кода Python и C++ для чтения и записи данных в распространённых форматах файлов геномики (таких как SAM и VCF), разработанную для безболезненной интеграции с фреймворком машинного обучения TensorFlow. Nucleus был создан с учётом DeepVariant и открыт отдельно, чтобы его могли использовать все участники сообщества исследователей геномики в других проектах. См. этот блог об использовании Nucleus и TensorFlow для коррекции ошибок секвенирования ДНК.

Настройка DeepVariant

Необходимые условия

  • Операционная система Unix-подобная (не может работать в Windows).
  • Python 2.7.

Официальные решения

Ниже приведены официальные решения, предоставленные командой Genomics в Google Health.

Название Описание
Docker Это рекомендуемый метод.
Сборка из исходного кода DeepVariant поставляется со скриптами для сборки на Ubuntu 14 и 16, при этом рекомендуется использовать Ubuntu 16. Чтобы собрать и запустить на других Unix-системах, вам потребуется... Понадобится модифицировать эти скрипты.

Готовые двоичные файлы доступны по адресу gs://deepvariant/ (https://console.cloud.google.com/storage/browser/deepvariant). Они скомпилированы для использования инструкций SSE4 и AVX, поэтому вам понадобится процессор (например, Intel Sandy Bridge), который их поддерживает. Вы можете проверить файл /proc/cpuinfo на вашем компьютере, в котором эти функции перечислены в разделе «флаги».

Внешние решения

Следующие конвейеры не создаются и не поддерживаются командой Genomics в Google Health. Пожалуйста, свяжитесь с соответствующими командами, если у вас есть какие-либо вопросы или проблемы.

Название Описание
Запуск DeepVariant на платформе Google Cloud Основанные на Docker конвейеры, оптимизированные по стоимости и скорости. Код можно найти здесь.
DeepVariant-on-spark от ATGENOMIX Герминальный конвейер для вызова коротких вариантов DeepVariant, который запускает DeepVariant в Apache Spark в масштабе с поддержкой кластеров с несколькими GPU (например, NVIDIA DGX-1).
NVIDIA Clara Parabricks Ускоренный конвейер DeepVariant с поддержкой нескольких GPU, который выполняет наш WGS-конвейер всего за 40 минут при стоимости 2–3 доллара за образец. Это обеспечивает ускорение в 7,5 раз по сравнению с машиной только с 64 ядрами ЦП при более низкой стоимости.
Приложение DeepVariant от DNAnexus Предлагает распараллеленное выполнение с графическим интерфейсом (требуется учётная запись платформы).
Конвейер Nextflow Поддержка параллельной обработки нескольких BAM и Docker.

Конвейер DNAstack Pipeline — оптимизированный по стоимости конвейер DeepVariant (требуется учётная запись платформы).

Рекомендации по внесению вклада

Пожалуйста, создайте запрос на вытягивание, если вы хотите внести свой вклад в DeepVariant. Обратите внимание, что мы не настроили инфраструктуру для слияния запросов на вытягивание извне. Если вы согласны, мы протестируем и отправим изменения внутри компании и упомянем о вашем вкладе в наших примечаниях к выпуску. Приносим извинения за любые неудобства.

Если у вас возникли трудности с использованием DeepVariant, не стесняйтесь создать проблему. Если у вас есть общие вопросы, не связанные конкретно с DeepVariant, мы рекомендуем вам опубликовать их на дискуссионном форуме сообщества, таком как BioStars.

Лицензия

Лицензия BSD-3-Clause.

Благодарности

DeepVariant успешно использует множество пакетов с открытым исходным кодом. Мы хотели бы особо отметить несколько ключевых из них:

Отказ от ответственности

Это не официальный продукт Google.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Python и 5 других языков
BSD-3-Clause
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/openvinotoolkit-prc-deepvariant.git
git@api.gitlife.ru:oschina-mirror/openvinotoolkit-prc-deepvariant.git
oschina-mirror
openvinotoolkit-prc-deepvariant
openvinotoolkit-prc-deepvariant
r1.0