Перевод текста на русский язык:
language: en datasets:
Дообучена facebook/wav2vec2-large-xlsr-53 на английском с использованием обучающего и валидационного наборов данных Common Voice 6.1. При использовании этой модели убедитесь, что ваша речевая входная информация имеет частоту дискретизации 16 кГц.
Эта модель была дообучена благодаря кредитам GPU, щедро предоставленным OVHcloud :)
Скрипт, использованный для обучения, можно найти здесь: https://github.com/jonatasgrosman/wav2vec2-sprint
Модель может быть использована напрямую (без языковой модели) следующим образом...
Используя библиотеку HuggingSound:
from huggingsound import SpeechRecognitionModel
model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
transcriptions = model.transcribe(audio_paths)
Написание собственного скрипта вывода:
import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-english"
SAMPLES = 10
test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
batch["speech"] = speech_array
batch["sentence"] = batch["sentence"].upper()
return batch
test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
with torch.no_grad():
logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)
for i, predicted_sentence in enumerate(predicted_sentences):
print("-" * 100)
print("Reference:", test_dataset[i]["sentence"])
print("Prediction:", predicted_sentence)
Reference | Prediction |
---|---|
"SHE'LL BE ALL RIGHT." | SHE'LL BE ALL RIGHT |
SIX | SIX |
"ALL'S WELL THAT ENDS WELL." | ALL AS WELL THAT ENDS WELL |
DO YOU MEAN IT? | DO YOU MEAN IT |
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS. | THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESSION |
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE? | HOW IS MOSLILLAR GOING TO HANDLE ANDBEWOOTH HIS LIKE Q AND Q |
"I GUESS" | "I GUESS" «ТЫ, НАВЕРНОЕ, ДУМАЕШЬ, ЧТО Я С УМА СОШЁЛ». |
НИКОГО РЯДОМ С УДАЛЁННОЙ МАШИНОЙ, КОМУ ТЫ МОГ БЫ ПОЗВОНИТЬ? | НИКОГО РЯДОМ С УДАЛЁННОЙ МАШИНОЙ, КОМУ ВЫ МОГЛИ БЫ ПОЗВОНИТЬ |
СОУС ДЛЯ ГУСЯ — ЭТО СОУС И ДЛЯ ГАНДЛЕРА. | СОУС ДЛЯ ГАЙСА — ЭТО СОУС И ДЛЯ ГОНДЛЕРА |
ГРУВЗ НАЧАЛА ПИСАТЬ ПЕСНИ, КОГДА ЕЙ БЫЛО ЧЕТЫРЕ ГОДА. | ГРАФС НАЧАЛА ПИсать песни, когда ей было четыре года |
mozilla-foundation/common_voice_6_0
с разделением test
:python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset mozilla-foundation/common_voice_6_0 --config en --split test
speech-recognition-community-v2/dev_data
:python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset speech-recognition-community-v2/dev_data --config en --split validation --chunk_length_s 5.0 --stride_length_s 1.0
Если вы хотите сослаться на эту модель, можете использовать это:
@misc{grosman2021xlsr53-large-english,
title={Fine-tuned {XLSR}-53 large model for speech recognition in {E}nglish},
author={Grosman, Jonatas},
howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-english}},
year={2021}
}
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )