LASER — это библиотека для вычисления и использования многоязычных векторных представлений предложений.
НОВОСТИ
ТЕКУЩАЯ ВЕРСИЯ:
У нас также есть некоторые доказательства того, что кодировщик может обобщаться на другие языки, которые не были видны во время обучения, но которые принадлежат к языковой семье, которая представлена другими языками.
Подробное описание того, как тренируются многоязычные векторные представления предложений, можно найти здесь, вместе с экспериментальной оценкой.
laser_encoders
Мы предоставляем пакет laser_encoders
с минимальными зависимостями. Он поддерживает LASER-2 (один кодировщик для языков, перечисленных ниже) и LASER-3 (147 языковых специфических кодировщиков, описанных здесь). Пакет можно установить просто с помощью pip install laser_encoders
и использовать следующим образом:
from laser_encoders import LaserEncoderPipeline
encoder = LaserEncoderPipeline(lang="eng_Latn")
embeddings = encoder.encode_sentences(["Hi!", "This is a sentence encoder."])
print(embeddings.shape) # (2, 1024)
Файл readme пакета laser_encoders содержит больше примеров его установки и использования.
Кроме пакета laser_encoders
, мы предоставляем поддержку для LASER-1 (оригинального многоязычного кодировщика) и для различных приложений LASER, перечисленных ниже.### Зависимости
pip install transliterate
)pip install jieba
)pip install fairseq==0.12.1
)pip install tabulate
)pip install pandas
)laser_encoders
с помощью, например, pip install -e .
для установки в режиме редактированияexport LASER="${HOME}/projects/laser"
bash ./nllb/download_models.sh
bash ./install_external_tools.sh
Мы демонстрируем несколько применений многомеждуговорных векторных представлений предложений с кодом для воспроизведения наших результатов (в директории "tasks").
Для всех задач мы используем точно такой же многомеждуговорный энкодер, без каких-либо специфических для задачи оптимизаций или настраиваний.
LASER имеет лицензию BSD, как указано в файле LICENSE
в корневой директории этого дерева исходного кода.
Оригинальная модель LASER была обучена на следующих языках:африкаанс, албанский, амхарский, арабский, армянский, аймара, азербайджанский, баскский, белорусский, бенгальский, берберские языки, боснийский, бретонский, болгарский, бирманский, каталанский, центральный/кадазан дусун, центральный кхмер, чавакано, китайский, прибрежный кадазан, корнский, чешский, датский, голландский, восточный марийский, английский, эсперанто, эстонский, финский, французский, галисийский, грузинский, немецкий, греческий, хауса, иврит, хинди, венгерский, исландский, идо, индонезийский, интерлингва, интерлингве, ирландский, итальянский, японский, кабильский, казахский, корейский, курдский, латвийский, латинский, лингва франка нова, литовский, нижнегерманский/саксонский, македонский, малагасийский, малайский, малаялам, мальдивский (дивехи), маратхи, норвежский (букмаль), окситанский, персидский (фарси), польский, португальский, румынский, русский, сербский, синдхи, сингальский, словацкий, словенский, сомалийский, испанский, суахили, шведский, тагалог, таджикский, тамильский, татарский, телугу, тайский, турецкий, уйгурский, украинский, урду, узбекский, вьетнамский, ву китайский и юэ китайский.Мы также отмечаем, что модель кажется обобщенной для других (меньшинских) языков или диалектов, например:
астурийский, египетский арабский, фарерский, кашубский, молуккийский малайский, норнорский норвежский, пьемонтский, славонский, швабский, швейцарский немецкий или западный фрисландский.### LASER3
Обновленные модели LASER, известные как LASER3, дополняют вышеуказанный список поддержкой 147 языков. Полный список поддерживаемых языков можно увидеть здесь.
[1] Holger Schwenk и Matthijs Douze, Обучение совместных многоязычных представлений предложений с помощью нейронных машинных переводов, ACL workshop on Representation Learning for NLP, 2017
[2] Holger Schwenk и Xian Li, Корпус для многоязычной классификации документов на восьми языках, LREC, страницы 3548-3551, 2018.
[3] Holger Schwenk, Фильтрация и анализ параллельных данных в многоязычном пространстве ACL, июль 2018
[4] Alexis Conneau, Guillaume Lample, Ruty Rinott, Adina Williams, Samuel R. Bowman, Holger Schwenk и Veselin Stoyanov, XNLI: Кросс-лингвистическое понимание предложений через вывод, EMNLP, 2018.
[5] Mikel Artetxe и Holger Schwenk, Маржевое минирование параллельных корпусов с использованием многоязычных представлений предложений arXiv, 3 ноября 2018[6] Mikel Artetxe и Holger Schwenk, Многоязычные представления предложений для нуля-переноса и далее arXiv, 26 декабря 2018
[7] Holger Schwenk, Vishrav Chaudhary, Shuo Sun, Hongyu Gong и Paco Guzman, WikiMatrix: Извлечение 135 миллионов параллельных предложений в 1620 языковых парах из Википедии arXiv, 11 июля 2019
[8] Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave и Armand Joulin CCMatrix: Извлечение миллиардов высококачественных параллельных предложений с веба
[9] Paul-Ambroise Duquenne, Hongyu Gong, Holger Schwenk, Многообразные и многоязычные представления для масштабного анализа речевых данных, NeurIPS 2021, страницы 15748-15761.
[10] Kevin Heffernan, Onur Celebi, и Holger Schwenk, Минирование битекстов с использованием конденсированных представлений предложений для низкобюджетных языков
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )