Частые вопросы

Какие есть режимы вывода?

"float32": режим по умолчанию, при котором используются вычисления с плавающей точкой, если параметр mode не задан.
"float16": режим вычислений с половинной точностью.
"int8": режим INT8-квантования. Требуется поддержка со стороны пользовательских плагинов, в TensorRT этот режим поддерживается на уровне ядра.
"int8_calib": режим генерации квантованных моделей. Используется для создания квантованной модели перед использованием режима "int8", если требуется поддержка пользовательских плагинов (например, BERT).

Проверьте версию TensorRT и значение параметра ENABLE_DYNAMIC_BATCH. Если версия TensorRT меньше 7.1.xx.xx и ENABLE_DYNAMIC_BATCH=ON, то построение в режиме INT8 может быть невозможно.
Убедитесь, что модель не содержит пользовательские слои. Если они есть, необходимо сначала создать движок с режимом "int8_calib" и файл Calibration cache, а затем использовать его для построения движка в режиме "int8". Обратите внимание: реализация пользовательского слоя должна устанавливать типы входных и выходных данных как Float для режима "int8_calib". (Пример реализации можно найти в плагине BERT.)

При использовании общих GPU-сервисов убедитесь, что не используется смесь различных типов GPU-карт (например, T4, P4, V100). TensorRT Engine привязан к конкретной архитектуре GPU и не поддерживает использование разных карт.
В сценариях параллельного вызова Forward в нескольких потоках обратите внимание на проблемы с безопасностью потоков для функций загрузки модели (Load) и выполнения вывода (Forward).
- Распространённые сообщения об ошибках: [TRT] engine.cpp (902) - Cuda Error in executeInternal: 77 (an illegal memory access was encountered)
- Распространённые сообщения об ошибках: [TRT] engine.cpp (902) - Cuda Error in executeInternal: 74 (misaligned address)
При параллельном использовании Forward на разных машинах в кластере обратите внимание, что общий размер загружаемых моделей не должен превышать лимит памяти GPU.

Ошибки типа [TRT] Assertion failed: cublasStatus == CUBLAS_STATUS_SUCCESS \source\rtSafe\cublas\cublasLtWrapper.cpp:279 обычно связаны с известной ошибкой в CUDA 10.2, связанной с cubBLAS LT. Её можно исправить путём обновления CUDA до версии с патчем или отключить cuBLAS Lt через API TensorRT config->setTacticSources(). (См. TensorRT Issue 1151.)

OnnxBuilder при анализе модели ONNX напрямую вызывает интерфейс nvonnxparser::createParser из файла NvOnnxParser.h. Успех преобразования модели в TRT-движок зависит от поддержки соответствующих операций в соответствующей версии TensorRt. (См. ONNX-TensorRT Issue 401.)
- Распространённое сообщение об ошибке: [TRT] ModelImporter.cpp:135: No importer registered for op: NonZero. Attempting to import as plugin.