Мы провели эксперимент по развертыванию модели ChatGLM2-6B на оборудовании с процессором Musa и обнаружили, что следующие операторы не поддерживаются. Хотелось бы узнать, когда ваша организация планирует реализовать версии этих операторов для Musa? Есть ли у вас какой-либо график?
(aten::repeat_interleave.Tensor)
aten::isnan
aten::multinomial
Если attention_mask
не None и не состоит только из True или если past_key_values
заданы и длина последовательности равна 1, возникает ошибка RuntimeError: В данный момент поддерживаются только типы bool/uint8.
query_layer = apply_rotary_pos_emb(query_layer, rotary_pos_emb)
NotImplementedError: Неизвестное устройство для графового объединения
context_layer = torch.nn.functional.scaled_dot_product_attention(query_layer, key_layer, value_layer,
NotImplementedError: В данный момент не поддерживается оператор Tril!
Вот список операторов, которые мы протестировали. Используя метод fallback, они были запущены на CPU, и модель в целом прошла успешно. Однако при использовании комбинации Musa+CPU производительность модели была примерно такой же, как у чистого CPU.
MUSA+CPU
Чистый CPU