1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors-sentencepiece

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
options.md 10 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
Отправлено 12.03.2025 12:10 8f38d5b

Опции обучения

Опции обучения для spm_train можно получить с помощью команды spm_train --help. Поскольку стандартная установка pip install для SentencePiece не всегда включает установку spm_train, эти опции также приведены здесь.``` Использование: ./build/src/spm_train [опции] файлы

--ввод (через запятую список входных предложений)  тип: std::string значение по умолчанию: ""
--формат_ввода (Формат ввода. Поддерживаемые форматы — `text` или `tsv`)  тип: std::string значение по умолчанию: ""
--префикс_модели (префикс модели)  тип: std::string значение по умолчанию: ""
--тип_модели (алгоритм модели: unigram, bpe, слово или символ)  тип: std::string значение по умолчанию: "unigram"
--размер_лексики (размер словаря)  тип: int32 значение по умолчанию: 8000
--поддерживаемые_языки (через запятую список поддерживаемых языков данной модели)  тип: std::string значение по умолчанию: ""
--размер_образцов_тестирования (размер образцов тестирования)  тип: int32 значение по умолчанию: 0
--coverage_символов (coverage символов для определения минимального количества символов)  тип: double значение по умолчанию: 0.9995
--максимальный_размер_предложения (максимальный размер предложения, который загружает тренировщик)  тип: std::uint64_t значение по умолчанию: 0
--перемешивание_входных_предложений (рандомное перемешивание входных предложений заранее. Действует при --максимальный_размер_предложения > 0)  тип: bool значение по умолчанию: true
--размер_начальных_фрагментов (размер начальных фрагментов)  тип: int32 значение по умолчанию: 1000000
--коэффициент_сужения (сохраняет верхние коэффициент_сужения фрагментов относительно потерь)  тип: double значение по умолчанию: 0.75
```    --количество_потоков (количество потоков для обучения)  тип: int32 значение по умолчанию: 16
    --количество_подитераций (количество подитераций EM)  тип: int32 значение по умолчанию: 2
    --максимальная_длина_фрагмента (максимальная длина фрагмента предложения)  тип: int32 значение по умолчанию: 16
    --максимальная_длина_предложения (максимальная длина предложения в байтах)  тип: int32 значение по умолчанию: 4192
    --расщепление_по_скриптам_unicode (использует скрипты Unicode для расщепления фрагментов предложения)  тип: bool значение по умолчанию: true
    --расщепление_по_числам (расщепляет токены по числам (0-9))  тип: bool значение по умолчанию: true
    --расщепление_по_пробелам (использует пробел для расщепления фрагментов предложения)  тип: bool значение по умолчанию: true
    --расщепление_цифр (расщепляет все цифры (0-9) в отдельные фрагменты)  тип: bool значение по умолчанию: false
    --обработка_пробела_как_суффикса (обрабатывает маркер пробела как суффикс вместо префикса.)  тип: bool значение по умолчанию: false
    --разрешение_только_пробелов (разрешает фрагменты, состоящие только из (последовательных) пробелов)  тип: bool значение по умолчанию: false
    --управляющие_символы (через запятую список управляющих символов)  тип: std::string значение по умолчанию: ""
    --файл_управляющих_символов (загрузка управляющих символов из файла.)  тип: std::string значение по умолчанию: ""    --определенные_символы (через запятую список определённых пользователем символов)  тип: std::string значение по умолчанию: ""
    --файл_определенных_символов (загрузка определённых пользователем символов из файла.)  тип: std::string значение по умолчанию: ""
    --required_chars (UTF8 символы в этом флаге всегда используются в наборе символов независимо от --character_coverage)  тип: std::string значение по умолчанию: ""
    --required_chars_file (загрузка required_chars из файла.)  тип: std::string значение по умолчанию: ""
    --byte_fallback (расщепление неизвестных частей на UTF-8 байтовые части)  тип: bool значение по умолчанию: false
    --vocabulary_output_piece_score (определение оценки в файле словаря)  тип: bool значение по умолчанию: true
    --normalization_rule_name (название правила нормализации. выберите из nfkc или identity)  тип: std::string значение по умолчанию: "nmt_nfkc"
    --normalization_rule_tsv (файл правил нормализации TSV.)  тип: std::string значение по умолчанию: ""
    --denormalization_rule_tsv (файл правил денормализации TSV.)  тип: std::string значение по умолчанию: ""
    --add_dummy_prefix (добавляет вымышленное пробелное пространство в начале текста)  тип: bool значение по умолчанию: true
    --remove_extra_whitespaces (удаление начальных, конечных и повторяющихся внутренних пробелов)  тип: bool значение по умолчанию: true
    --hard_vocab_limit (если установлено в false, --vocab_size рассматривается как мягкий лимит.)  тип: bool значение по умолчанию: true    --use_all_vocab (Если установлено в true, используются все токены как словарь. Это действительно для моделей слов/знаков.) тип: bool значение по умолчанию: false
   --unk_id (Переопределение ID UNK (<unk>).) тип: int32 значение по умолчанию: 0
   --bos_id (Переопределение ID BOS (<s>). Установите -1 для отключения BOS.) тип: int32 значение по умолчанию: 1
   --eos_id (Переопределение ID EOS (</s>). Установите -1 для отключения EOS.) тип: int32 значение по умолчанию: 2
   --pad_id (Переопределение ID PAD (<pad>). Установите -1 для отключения PAD.) тип: int32 значение по умолчанию: -1
   --unk_piece (Переопределение PUK (<unk>).) тип: std::string значение по умолчанию: "<unk>"
   --bos_piece (Переопределение PUS (<s>).) тип: std::string значение по умолчанию: "<s>"
   --eos_piece (Переопределение PEOS (</s>).) тип: std::string значение по умолчанию: "</s>"
   --pad_piece (Переопределение PPAD (<pad>).) тип: std::string значение по умолчанию: "<pad>"
   --unk_surface (Вымышленная поверхность строки для <unk>. В декодировании <unk> декодируется в `unk_surface`. ) тип: std::string значение по умолчанию: " ⁇ "
   --train_extremely_large_corpus (Увеличение глубины бита для токенизации unigram.) тип: bool значение по умолчанию: false
   --random_seed (Значение семян для генератора случайных чисел.) тип: uint32 значение по умолчанию: 4294967295
   --enable_differential_privacy (При необходимости добавьте DP при обучении. В настоящее время поддерживается только модель UNIGRAM.) тип: bool значение по умолчанию: false    --differential_privacy_noise_level (Уровень шума для добавления для DP)  тип: float значение по умолчанию: 0   --differential_privacy_clipping_threshold (Порог для ограничения счетов для дифференциальной приватности)  тип: std::uint64_t значение по умолчанию: 0
    --help (показать помощь)  тип: bool значение по умолчанию: false
    --version (показать версию)  тип: bool значение по умолчанию: false
    --minloglevel (Сообщения с уровнем логгирования ниже этого значения не будут записываться нигде)  тип: int значение по умолчанию: 0

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/mirrors-sentencepiece.git
git@api.gitlife.ru:oschina-mirror/mirrors-sentencepiece.git
oschina-mirror
mirrors-sentencepiece
mirrors-sentencepiece
master