1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors_Tencent-Forward

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
FAQ_CN.md 4.5 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 30.11.2024 17:32 475afbc

Частые вопросы


Какие есть режимы вывода?

  1. "float32": режим по умолчанию, при котором используются вычисления с плавающей точкой, если параметр mode не задан.
  2. "float16": режим вычислений с половинной точностью.
  3. "int8": режим INT8-квантования. Требуется поддержка со стороны пользовательских плагинов, в TensorRT этот режим поддерживается на уровне ядра.
  4. "int8_calib": режим генерации квантованных моделей. Используется для создания квантованной модели перед использованием режима "int8", если требуется поддержка пользовательских плагинов (например, BERT).

Проблемы с построением в режиме INT8

  1. Проверьте версию TensorRT и значение параметра ENABLE_DYNAMIC_BATCH. Если версия TensorRT меньше 7.1.xx.xx и ENABLE_DYNAMIC_BATCH=ON, то построение в режиме INT8 может быть невозможно.

  2. Убедитесь, что модель не содержит пользовательские слои. Если они есть, необходимо сначала создать движок с режимом "int8_calib" и файл Calibration cache, а затем использовать его для построения движка в режиме "int8". Обратите внимание: реализация пользовательского слоя должна устанавливать типы входных и выходных данных как Float для режима "int8_calib". (Пример реализации можно найти в плагине BERT.)

Core dumped в многопоточном использовании

  1. При использовании общих GPU-сервисов убедитесь, что не используется смесь различных типов GPU-карт (например, T4, P4, V100). TensorRT Engine привязан к конкретной архитектуре GPU и не поддерживает использование разных карт.

  2. В сценариях параллельного вызова Forward в нескольких потоках обратите внимание на проблемы с безопасностью потоков для функций загрузки модели (Load) и выполнения вывода (Forward).

    • Распространённые сообщения об ошибках: [TRT] engine.cpp (902) - Cuda Error in executeInternal: 77 (an illegal memory access was encountered)
    • Распространённые сообщения об ошибках: [TRT] engine.cpp (902) - Cuda Error in executeInternal: 74 (misaligned address)
  3. При параллельном использовании Forward на разных машинах в кластере обратите внимание, что общий размер загружаемых моделей не должен превышать лимит памяти GPU.

Ошибки, связанные с cublasLt

  1. Ошибки типа [TRT] Assertion failed: cublasStatus == CUBLAS_STATUS_SUCCESS \source\rtSafe\cublas\cublasLtWrapper.cpp:279 обычно связаны с известной ошибкой в CUDA 10.2, связанной с cubBLAS LT. Её можно исправить путём обновления CUDA до версии с патчем или отключить cuBLAS Lt через API TensorRT config->setTacticSources(). (См. TensorRT Issue 1151.)

Ошибки ONNX-TensorRT

  1. OnnxBuilder при анализе модели ONNX напрямую вызывает интерфейс nvonnxparser::createParser из файла NvOnnxParser.h. Успех преобразования модели в TRT-движок зависит от поддержки соответствующих операций в соответствующей версии TensorRt. (См. ONNX-TensorRT Issue 401.)
    • Распространённое сообщение об ошибке: [TRT] ModelImporter.cpp:135: No importer registered for op: NonZero. Attempting to import as plugin.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/mirrors_Tencent-Forward.git
git@api.gitlife.ru:oschina-mirror/mirrors_Tencent-Forward.git
oschina-mirror
mirrors_Tencent-Forward
mirrors_Tencent-Forward
master