DeepVariant — это основанный на глубоком обучении инструмент для определения вариантов последовательностей, который принимает выровненные чтения (в формате BAM или CRAM), создаёт из них тензоры изображений pileup, классифицирует каждый тензор с помощью свёрточной нейронной сети и, наконец, выдаёт результаты в стандартном файле VCF или gVCF.
DeepVariant поддерживает:
Мы рекомендуем использовать наше решение Docker. Команда будет выглядеть следующим образом:
BIN_VERSION="1.0.0"
docker run \
-v "YOUR_INPUT_DIR":"/input" \
-v "YOUR_OUTPUT_DIR:/output" \
google/deepvariant:"${BIN_VERSION}" \
/opt/deepvariant/bin/run_deepvariant \
--model_type=WGS \ **Замените эту строку ровно на один из следующих [WGS,WES,PACBIO,HYBRID_PACBIO_ILLUMINA]**
--ref=/input/YOUR_REF \
--reads=/input/YOUR_BAM \
--output_vcf=/output/YOUR_OUTPUT_VCF \
--output_gvcf=/output/YOUR_OUTPUT_GVCF \
--num_shards=$(nproc) **Это будет использовать все ваши ядра для запуска make_examples. Вы можете изменить.**
Чтобы увидеть все доступные флаги, запустите: docker run google/deepvariant:"${BIN_VERSION}" --help
.
Если вы используете графические процессоры или хотите использовать Singularity вместо этого, см. раздел Быстрый старт для получения более подробной информации или см. все доступные параметры настройки (#DeepVariant_setup), включая решения на внешних платформах.
Для получения дополнительной информации также см.:
Если вы используете DeepVariant в своей работе, пожалуйста, укажите:
Универсальный вызывающий SNP и вызывающий небольшие индели с использованием глубоких нейронных сетей. Nature Biotechnology 36, 983–987 (2018).
Райан Поплин, Пи-Чуан Чанг, Дэвид Александр, Скотт Шварц, Томас Колтурст, Александр Ку, Дэн Ньюбургер, Джоджо Диджамко, Нам Нгуен, Пегах Т. Афшар, Сэм С. Гросс, Лиззи Дорфман, Кори Ю. Маклин и Марк А. ДеПристо.
doi: https://doi.org/10.1038/nbt.4235
Кроме того, если вы генерируете многовыборочные вызовы с использованием наших лучших практик DeepVariant и GLnexus, пожалуйста, процитируйте:
Точные, масштабируемые когортные варианты вызовов с использованием DeepVariant и GLnexus. bioRxiv 10.1101/2020.02.10.942086v1 (2020).
Таэдонг Юн, Хелен Ли, Пи-Чуан Чанг, Майкл Ф. Лин, Эндрю... Почему стоит использовать DeepVariant?
Высокая точность. В 2016 году DeepVariant выиграл PrecisionFDA Truth Challenge за лучшую производительность SNP. DeepVariant поддерживает высокую точность для данных, полученных с помощью различных технологий секвенирования, методов подготовки и видов организмов. Для данных с низким покрытием использование DeepVariant особенно важно. См. раздел «Метрики» для получения последних данных о точности для каждого типа секвенирования.
Гибкость. Возможность использования «из коробки» для образцов с положительным результатом ПЦР и прогонов с низким качеством секвенирования, а также лёгкая адаптация для различных технологий секвенирования и нечеловеческих видов.
Простота использования. Не требуется дополнительная фильтрация, кроме установки предпочитаемого минимального порога качества.
Экономическая эффективность. С одним не вытесняемым n1-standard-16-машиной в Google Cloud вызов 30-кратного полного генома стоит примерно 9,11 доллара США, а вызов экзома — примерно 0,39 доллара США. При использовании вытесняемых цен вызов 30-кратного полного генома будет стоить примерно 2,19 доллара США, а экзома — примерно 0,09 доллара США (без учёта вытеснения).
Скорость. На 64-ядерной машине только с CPU DeepVariant выполняет 50-кратный WGS за 5 часов, а экзом — за 16 минут. Существует несколько вариантов ускорения, которые позволяют сократить время выполнения WGS до 40 минут (см. внешние решения).
Варианты использования. DeepVariant можно запускать через Docker или двоичные файлы, используя как собственное оборудование, так и облачные сервисы, с поддержкой аппаратных ускорителей, таких как GPU и TPU.
Как работает DeepVariant
Для получения дополнительной информации о изображениях накопления и их интерпретации см. блог «Глядя глазами DeepVariant».
DeepVariant использует Nucleus, библиотеку кода Python и C++ для чтения и записи данных в распространённых форматах файлов геномики (таких как SAM и VCF), разработанную для безболезненной интеграции с фреймворком машинного обучения TensorFlow. Nucleus был создан с учётом DeepVariant и открыт отдельно, чтобы его могли использовать все участники сообщества исследователей геномики в других проектах. См. этот блог об использовании Nucleus и TensorFlow для коррекции ошибок секвенирования ДНК.
Настройка DeepVariant
Необходимые условия
Официальные решения
Ниже приведены официальные решения, предоставленные командой Genomics в Google Health.
Название | Описание |
---|---|
Docker | Это рекомендуемый метод. |
Сборка из исходного кода | DeepVariant поставляется со скриптами для сборки на Ubuntu 14 и 16, при этом рекомендуется использовать Ubuntu 16. Чтобы собрать и запустить на других Unix-системах, вам потребуется... Понадобится модифицировать эти скрипты. |
Готовые двоичные файлы доступны по адресу gs://deepvariant/
(https://console.cloud.google.com/storage/browser/deepvariant). Они скомпилированы для использования инструкций SSE4 и AVX, поэтому вам понадобится процессор (например, Intel Sandy Bridge), который их поддерживает. Вы можете проверить файл /proc/cpuinfo
на вашем компьютере, в котором эти функции перечислены в разделе «флаги».
Следующие конвейеры не создаются и не поддерживаются командой Genomics в Google Health. Пожалуйста, свяжитесь с соответствующими командами, если у вас есть какие-либо вопросы или проблемы.
Название | Описание |
---|---|
Запуск DeepVariant на платформе Google Cloud | Основанные на Docker конвейеры, оптимизированные по стоимости и скорости. Код можно найти здесь. |
DeepVariant-on-spark от ATGENOMIX | Герминальный конвейер для вызова коротких вариантов DeepVariant, который запускает DeepVariant в Apache Spark в масштабе с поддержкой кластеров с несколькими GPU (например, NVIDIA DGX-1). |
NVIDIA Clara Parabricks | Ускоренный конвейер DeepVariant с поддержкой нескольких GPU, который выполняет наш WGS-конвейер всего за 40 минут при стоимости 2–3 доллара за образец. Это обеспечивает ускорение в 7,5 раз по сравнению с машиной только с 64 ядрами ЦП при более низкой стоимости. |
Приложение DeepVariant от DNAnexus | Предлагает распараллеленное выполнение с графическим интерфейсом (требуется учётная запись платформы). |
Конвейер Nextflow Поддержка параллельной обработки нескольких BAM и Docker. |
Конвейер DNAstack Pipeline — оптимизированный по стоимости конвейер DeepVariant (требуется учётная запись платформы).
Пожалуйста, создайте запрос на вытягивание, если вы хотите внести свой вклад в DeepVariant. Обратите внимание, что мы не настроили инфраструктуру для слияния запросов на вытягивание извне. Если вы согласны, мы протестируем и отправим изменения внутри компании и упомянем о вашем вкладе в наших примечаниях к выпуску. Приносим извинения за любые неудобства.
Если у вас возникли трудности с использованием DeepVariant, не стесняйтесь создать проблему. Если у вас есть общие вопросы, не связанные конкретно с DeepVariant, мы рекомендуем вам опубликовать их на дискуссионном форуме сообщества, таком как BioStars.
Лицензия BSD-3-Clause.
DeepVariant успешно использует множество пакетов с открытым исходным кодом. Мы хотели бы особо отметить несколько ключевых из них:
Это не официальный продукт Google.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )