1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/mirrors-laser-facebook

Клонировать/Скачать
README.md 15 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
Отправлено 06.06.2025 03:16 80bc637

LASER: Языково-независимые представления предложений

LASER — это библиотека для вычисления и использования многоязычных векторных представлений предложений.

НОВОСТИ

  • 2023/11/30 Выпущен P-xSIM, расширение двойного подхода для многоязычного поиска похожих предложений (xSIM)
  • 2023/11/16 Выпущен laser_encoders, пакет для установки с помощью pip, поддерживающий модели LASER-2 и LASER-3
  • 2023/06/26 xSIM++ оценочная конвейерная система и данные выпущены
  • 2022/07/06 Обновлены модели LASER с поддержкой более чем 200 языков сейчас доступны
  • 2022/07/06 Оценочная конвейерная система для многоязычного поиска похожих предложений (xSIM) выпущена
  • 2022/05/03 Librivox S2S доступен: Автоматически извлеченные переводы речи на речь из Librivox [9]
  • 2019/11/08 CCMatrix доступен: Извлечение миллиардов высококачественных параллельных предложений с веба [8]
  • 2019/07/31 Gilles Bodard и Jérémy Rapin предоставили Docker-окружение для использования LASER
  • 2019/07/11 WikiMatrix доступна: Извлечение битекстов для 1620 языковых пар в WikiPedia [7]
  • 2019/03/18 переход на лицензию BSD
  • 2019/02/13 Код для выполнения битекстового извлечения сейчас доступен

ТЕКУЩАЯ ВЕРСИЯ:

  • Мы теперь предоставляем обновленные модели LASER, поддерживающие более 200 языков. Подробнее см. здесь, включая инструкции по загрузке моделей и выполнению инференса.По нашим наблюдениям, кодировщик предложений также поддерживает код-свитчинг, то есть одно предложение может содержать слова на нескольких разных языках.

У нас также есть некоторые доказательства того, что кодировщик может обобщаться на другие языки, которые не были видны во время обучения, но которые принадлежат к языковой семье, которая представлена другими языками.

Подробное описание того, как тренируются многоязычные векторные представления предложений, можно найти здесь, вместе с экспериментальной оценкой.

Основной пакет кодирования предложений: laser_encoders

Мы предоставляем пакет laser_encoders с минимальными зависимостями. Он поддерживает LASER-2 (один кодировщик для языков, перечисленных ниже) и LASER-3 (147 языковых специфических кодировщиков, описанных здесь). Пакет можно установить просто с помощью pip install laser_encoders и использовать следующим образом:

from laser_encoders import LaserEncoderPipeline
encoder = LaserEncoderPipeline(lang="eng_Latn")
embeddings = encoder.encode_sentences(["Hi!", "This is a sentence encoder."])
print(embeddings.shape)  # (2, 1024)

Файл readme пакета laser_encoders содержит больше примеров его установки и использования.

Полный набор LASER

Кроме пакета laser_encoders, мы предоставляем поддержку для LASER-1 (оригинального многоязычного кодировщика) и для различных приложений LASER, перечисленных ниже.### Зависимости

  • Python >= 3.7
  • PyTorch 1.0
  • NumPy, проверено с версией bk 1.15.4
  • Cython, требуется для Python-обёртки FastBPE, проверено с версией 0.29.6
  • Faiss, для быстрого поиска похожих текстов и битекстового минирования
  • transliterate 1.10.2 (pip install transliterate)
  • jieba 0.39, китайский сегментатор (pip install jieba)
  • mecab 0.996, японский сегментатор
  • tokenization из кодировщика Moses (устанавливается автоматически)
  • FastBPE, быстрая C++-реализация byte-pair encoding (устанавливается автоматически)
  • Fairseq, инструмент для моделирования последовательностей (pip install fairseq==0.12.1)
  • tabulate, красивое отображение табличных данных (pip install tabulate)
  • pandas, инструмент для анализа данных (pip install pandas)
  • Sentencepiece, субслово-токенизация (устанавливается автоматически)

Установка

  • установите пакет laser_encoders с помощью, например, pip install -e . для установки в режиме редактирования
  • установите переменную окружения 'LASER' на корневую директорию установки, например, export LASER="${HOME}/projects/laser"
  • скачайте кодировщики с Amazon s3 с помощью, например, bash ./nllb/download_models.sh
  • скачайте стороннее программное обеспечение с помощью bash ./install_external_tools.sh
  • скачайте данные, используемые в примерах задач (см. описание для каждой задачи)## Приложения

Мы демонстрируем несколько применений многомеждуговорных векторных представлений предложений с кодом для воспроизведения наших результатов (в директории "tasks").

Для всех задач мы используем точно такой же многомеждуговорный энкодер, без каких-либо специфических для задачи оптимизаций или настраиваний.

Лицензия

LASER имеет лицензию BSD, как указано в файле LICENSE в корневой директории этого дерева исходного кода.

Поддерживаемые языки

Оригинальная модель LASER была обучена на следующих языках:африкаанс, албанский, амхарский, арабский, армянский, аймара, азербайджанский, баскский, белорусский, бенгальский, берберские языки, боснийский, бретонский, болгарский, бирманский, каталанский, центральный/кадазан дусун, центральный кхмер, чавакано, китайский, прибрежный кадазан, корнский, чешский, датский, голландский, восточный марийский, английский, эсперанто, эстонский, финский, французский, галисийский, грузинский, немецкий, греческий, хауса, иврит, хинди, венгерский, исландский, идо, индонезийский, интерлингва, интерлингве, ирландский, итальянский, японский, кабильский, казахский, корейский, курдский, латвийский, латинский, лингва франка нова, литовский, нижнегерманский/саксонский, македонский, малагасийский, малайский, малаялам, мальдивский (дивехи), маратхи, норвежский (букмаль), окситанский, персидский (фарси), польский, португальский, румынский, русский, сербский, синдхи, сингальский, словацкий, словенский, сомалийский, испанский, суахили, шведский, тагалог, таджикский, тамильский, татарский, телугу, тайский, турецкий, уйгурский, украинский, урду, узбекский, вьетнамский, ву китайский и юэ китайский.Мы также отмечаем, что модель кажется обобщенной для других (меньшинских) языков или диалектов, например:

астурийский, египетский арабский, фарерский, кашубский, молуккийский малайский, норнорский норвежский, пьемонтский, славонский, швабский, швейцарский немецкий или западный фрисландский.### LASER3

Обновленные модели LASER, известные как LASER3, дополняют вышеуказанный список поддержкой 147 языков. Полный список поддерживаемых языков можно увидеть здесь.

Ссылки

[1] Holger Schwenk и Matthijs Douze, Обучение совместных многоязычных представлений предложений с помощью нейронных машинных переводов, ACL workshop on Representation Learning for NLP, 2017

[2] Holger Schwenk и Xian Li, Корпус для многоязычной классификации документов на восьми языках, LREC, страницы 3548-3551, 2018.

[3] Holger Schwenk, Фильтрация и анализ параллельных данных в многоязычном пространстве ACL, июль 2018

[4] Alexis Conneau, Guillaume Lample, Ruty Rinott, Adina Williams, Samuel R. Bowman, Holger Schwenk и Veselin Stoyanov, XNLI: Кросс-лингвистическое понимание предложений через вывод, EMNLP, 2018.

[5] Mikel Artetxe и Holger Schwenk, Маржевое минирование параллельных корпусов с использованием многоязычных представлений предложений arXiv, 3 ноября 2018[6] Mikel Artetxe и Holger Schwenk, Многоязычные представления предложений для нуля-переноса и далее arXiv, 26 декабря 2018

[7] Holger Schwenk, Vishrav Chaudhary, Shuo Sun, Hongyu Gong и Paco Guzman, WikiMatrix: Извлечение 135 миллионов параллельных предложений в 1620 языковых парах из Википедии arXiv, 11 июля 2019

[8] Holger Schwenk, Guillaume Wenzek, Sergey Edunov, Edouard Grave и Armand Joulin CCMatrix: Извлечение миллиардов высококачественных параллельных предложений с веба

[9] Paul-Ambroise Duquenne, Hongyu Gong, Holger Schwenk, Многообразные и многоязычные представления для масштабного анализа речевых данных, NeurIPS 2021, страницы 15748-15761.

[10] Kevin Heffernan, Onur Celebi, и Holger Schwenk, Минирование битекстов с использованием конденсированных представлений предложений для низкобюджетных языков

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/mirrors-laser-facebook.git
git@api.gitlife.ru:oschina-mirror/mirrors-laser-facebook.git
oschina-mirror
mirrors-laser-facebook
mirrors-laser-facebook
main