Опции обучения для spm_train
можно получить с помощью команды spm_train --help
. Поскольку стандартная установка pip install
для SentencePiece не всегда включает установку spm_train
, эти опции также приведены здесь.```
Использование: ./build/src/spm_train [опции] файлы
--ввод (через запятую список входных предложений) тип: std::string значение по умолчанию: ""
--формат_ввода (Формат ввода. Поддерживаемые форматы — `text` или `tsv`) тип: std::string значение по умолчанию: ""
--префикс_модели (префикс модели) тип: std::string значение по умолчанию: ""
--тип_модели (алгоритм модели: unigram, bpe, слово или символ) тип: std::string значение по умолчанию: "unigram"
--размер_лексики (размер словаря) тип: int32 значение по умолчанию: 8000
--поддерживаемые_языки (через запятую список поддерживаемых языков данной модели) тип: std::string значение по умолчанию: ""
--размер_образцов_тестирования (размер образцов тестирования) тип: int32 значение по умолчанию: 0
--coverage_символов (coverage символов для определения минимального количества символов) тип: double значение по умолчанию: 0.9995
--максимальный_размер_предложения (максимальный размер предложения, который загружает тренировщик) тип: std::uint64_t значение по умолчанию: 0
--перемешивание_входных_предложений (рандомное перемешивание входных предложений заранее. Действует при --максимальный_размер_предложения > 0) тип: bool значение по умолчанию: true
--размер_начальных_фрагментов (размер начальных фрагментов) тип: int32 значение по умолчанию: 1000000
--коэффициент_сужения (сохраняет верхние коэффициент_сужения фрагментов относительно потерь) тип: double значение по умолчанию: 0.75
``` --количество_потоков (количество потоков для обучения) тип: int32 значение по умолчанию: 16
--количество_подитераций (количество подитераций EM) тип: int32 значение по умолчанию: 2
--максимальная_длина_фрагмента (максимальная длина фрагмента предложения) тип: int32 значение по умолчанию: 16
--максимальная_длина_предложения (максимальная длина предложения в байтах) тип: int32 значение по умолчанию: 4192
--расщепление_по_скриптам_unicode (использует скрипты Unicode для расщепления фрагментов предложения) тип: bool значение по умолчанию: true
--расщепление_по_числам (расщепляет токены по числам (0-9)) тип: bool значение по умолчанию: true
--расщепление_по_пробелам (использует пробел для расщепления фрагментов предложения) тип: bool значение по умолчанию: true
--расщепление_цифр (расщепляет все цифры (0-9) в отдельные фрагменты) тип: bool значение по умолчанию: false
--обработка_пробела_как_суффикса (обрабатывает маркер пробела как суффикс вместо префикса.) тип: bool значение по умолчанию: false
--разрешение_только_пробелов (разрешает фрагменты, состоящие только из (последовательных) пробелов) тип: bool значение по умолчанию: false
--управляющие_символы (через запятую список управляющих символов) тип: std::string значение по умолчанию: ""
--файл_управляющих_символов (загрузка управляющих символов из файла.) тип: std::string значение по умолчанию: "" --определенные_символы (через запятую список определённых пользователем символов) тип: std::string значение по умолчанию: ""
--файл_определенных_символов (загрузка определённых пользователем символов из файла.) тип: std::string значение по умолчанию: ""
--required_chars (UTF8 символы в этом флаге всегда используются в наборе символов независимо от --character_coverage) тип: std::string значение по умолчанию: ""
--required_chars_file (загрузка required_chars из файла.) тип: std::string значение по умолчанию: ""
--byte_fallback (расщепление неизвестных частей на UTF-8 байтовые части) тип: bool значение по умолчанию: false
--vocabulary_output_piece_score (определение оценки в файле словаря) тип: bool значение по умолчанию: true
--normalization_rule_name (название правила нормализации. выберите из nfkc или identity) тип: std::string значение по умолчанию: "nmt_nfkc"
--normalization_rule_tsv (файл правил нормализации TSV.) тип: std::string значение по умолчанию: ""
--denormalization_rule_tsv (файл правил денормализации TSV.) тип: std::string значение по умолчанию: ""
--add_dummy_prefix (добавляет вымышленное пробелное пространство в начале текста) тип: bool значение по умолчанию: true
--remove_extra_whitespaces (удаление начальных, конечных и повторяющихся внутренних пробелов) тип: bool значение по умолчанию: true
--hard_vocab_limit (если установлено в false, --vocab_size рассматривается как мягкий лимит.) тип: bool значение по умолчанию: true --use_all_vocab (Если установлено в true, используются все токены как словарь. Это действительно для моделей слов/знаков.) тип: bool значение по умолчанию: false
--unk_id (Переопределение ID UNK (<unk>).) тип: int32 значение по умолчанию: 0
--bos_id (Переопределение ID BOS (<s>). Установите -1 для отключения BOS.) тип: int32 значение по умолчанию: 1
--eos_id (Переопределение ID EOS (</s>). Установите -1 для отключения EOS.) тип: int32 значение по умолчанию: 2
--pad_id (Переопределение ID PAD (<pad>). Установите -1 для отключения PAD.) тип: int32 значение по умолчанию: -1
--unk_piece (Переопределение PUK (<unk>).) тип: std::string значение по умолчанию: "<unk>"
--bos_piece (Переопределение PUS (<s>).) тип: std::string значение по умолчанию: "<s>"
--eos_piece (Переопределение PEOS (</s>).) тип: std::string значение по умолчанию: "</s>"
--pad_piece (Переопределение PPAD (<pad>).) тип: std::string значение по умолчанию: "<pad>"
--unk_surface (Вымышленная поверхность строки для <unk>. В декодировании <unk> декодируется в `unk_surface`. ) тип: std::string значение по умолчанию: " ⁇ "
--train_extremely_large_corpus (Увеличение глубины бита для токенизации unigram.) тип: bool значение по умолчанию: false
--random_seed (Значение семян для генератора случайных чисел.) тип: uint32 значение по умолчанию: 4294967295
--enable_differential_privacy (При необходимости добавьте DP при обучении. В настоящее время поддерживается только модель UNIGRAM.) тип: bool значение по умолчанию: false --differential_privacy_noise_level (Уровень шума для добавления для DP) тип: float значение по умолчанию: 0 --differential_privacy_clipping_threshold (Порог для ограничения счетов для дифференциальной приватности) тип: std::uint64_t значение по умолчанию: 0
--help (показать помощь) тип: bool значение по умолчанию: false
--version (показать версию) тип: bool значение по умолчанию: false
--minloglevel (Сообщения с уровнем логгирования ниже этого значения не будут записываться нигде) тип: int значение по умолчанию: 0
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )