1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/modelee-wav2vec2-large-xlsr-53-english

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Перевод текста на русский язык:


language: en datasets:

  • common_voice
  • mozilla-foundation/common_voice_6_0 metrics:
  • wer
  • cer tags:
  • audio
  • automatic-speech-recognition
  • en
  • hf-asr-leaderboard
  • mozilla-foundation/common_voice_6_0
  • robust-speech-event
  • speech
  • xlsr-fine-tuning-week license: apache-2.0 model-index:
  • name: XLSR Wav2Vec2 English by Jonatas Grosman results:
    • task: name: Automatic Speech Recognition type: automatic-speech-recognition dataset: name: Common Voice en type: common_voice args: en metrics:
      • name: Test WER type: wer value: 19.06
      • name: Test CER type: cer value: 7.69
      • name: Test WER (+LM) type: wer value: 14.81
      • name: Test CER (+LM) type: cer value: 6.84
    • task: name: Automatic Speech Recognition type: automatic-speech-recognition dataset: name: Robust Speech Event - Dev Data type: speech-recognition-community-v2/dev_data args: en metrics:
      • name: Dev WER type: wer value: 27.72
      • name: Dev CER type: cer value: 11.65
      • name: Dev WER (+LM) type: wer value: 20.85
      • name: Dev CER (+LM) type: cer value: 11.01

Дообученная модель XLSR-53 большого размера для распознавания речи на английском языке

Дообучена facebook/wav2vec2-large-xlsr-53 на английском с использованием обучающего и валидационного наборов данных Common Voice 6.1. При использовании этой модели убедитесь, что ваша речевая входная информация имеет частоту дискретизации 16 кГц.

Эта модель была дообучена благодаря кредитам GPU, щедро предоставленным OVHcloud :)

Скрипт, использованный для обучения, можно найти здесь: https://github.com/jonatasgrosman/wav2vec2-sprint

Использование

Модель может быть использована напрямую (без языковой модели) следующим образом...

Используя библиотеку HuggingSound:

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

Написание собственного скрипта вывода:

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)
Reference Prediction
"SHE'LL BE ALL RIGHT." SHE'LL BE ALL RIGHT
SIX SIX
"ALL'S WELL THAT ENDS WELL." ALL AS WELL THAT ENDS WELL
DO YOU MEAN IT? DO YOU MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS. THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESSION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE? HOW IS MOSLILLAR GOING TO HANDLE ANDBEWOOTH HIS LIKE Q AND Q
"I GUESS" "I GUESS" «ТЫ, НАВЕРНОЕ, ДУМАЕШЬ, ЧТО Я С УМА СОШЁЛ».
НИКОГО РЯДОМ С УДАЛЁННОЙ МАШИНОЙ, КОМУ ТЫ МОГ БЫ ПОЗВОНИТЬ? НИКОГО РЯДОМ С УДАЛЁННОЙ МАШИНОЙ, КОМУ ВЫ МОГЛИ БЫ ПОЗВОНИТЬ
СОУС ДЛЯ ГУСЯ — ЭТО СОУС И ДЛЯ ГАНДЛЕРА. СОУС ДЛЯ ГАЙСА — ЭТО СОУС И ДЛЯ ГОНДЛЕРА
ГРУВЗ НАЧАЛА ПИСАТЬ ПЕСНИ, КОГДА ЕЙ БЫЛО ЧЕТЫРЕ ГОДА. ГРАФС НАЧАЛА ПИсать песни, когда ей было четыре года

Evaluation

  1. Чтобы оценить на mozilla-foundation/common_voice_6_0 с разделением test:
python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset mozilla-foundation/common_voice_6_0 --config en --split test
  1. Чтобы оценить на speech-recognition-community-v2/dev_data:
python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset speech-recognition-community-v2/dev_data --config en --split validation --chunk_length_s 5.0 --stride_length_s 1.0

Citation

Если вы хотите сослаться на эту модель, можете использовать это:

@misc{grosman2021xlsr53-large-english,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {E}nglish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-english}},
  year={2021}
}

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Python и 2 других языков
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/modelee-wav2vec2-large-xlsr-53-english.git
git@api.gitlife.ru:oschina-mirror/modelee-wav2vec2-large-xlsr-53-english.git
oschina-mirror
modelee-wav2vec2-large-xlsr-53-english
modelee-wav2vec2-large-xlsr-53-english
main