LASER: Языково-независимые представления предложений

LASER — это библиотека для вычисления и использования многоязычных векторных представлений предложений.

НОВОСТИ

2023/11/30 Выпущен P-xSIM, расширение двойного подхода для многоязычного поиска похожих предложений (xSIM)
2023/11/16 Выпущен laser_encoders, пакет для установки с помощью pip, поддерживающий модели LASER-2 и LASER-3
2023/06/26 xSIM++ оценочная конвейерная система и данные выпущены
2022/07/06 Обновлены модели LASER с поддержкой более чем 200 языков сейчас доступны
2022/07/06 Оценочная конвейерная система для многоязычного поиска похожих предложений (xSIM) выпущена
2022/05/03 Librivox S2S доступен: Автоматически извлеченные переводы речи на речь из Librivox [9]
2019/11/08 CCMatrix доступен: Извлечение миллиардов высококачественных параллельных предложений с веба [8]
2019/07/31 Gilles Bodard и Jérémy Rapin предоставили Docker-окружение для использования LASER
2019/07/11 WikiMatrix доступна: Извлечение битекстов для 1620 языковых пар в WikiPedia [7]
2019/03/18 переход на лицензию BSD
2019/02/13 Код для выполнения битекстового извлечения сейчас доступен

ТЕКУЩАЯ ВЕРСИЯ:

Мы теперь предоставляем обновленные модели LASER, поддерживающие более 200 языков. Подробнее см. здесь, включая инструкции по загрузке моделей и выполнению инференса.По нашим наблюдениям, кодировщик предложений также поддерживает код-свитчинг, то есть одно предложение может содержать слова на нескольких разных языках.

У нас также есть некоторые доказательства того, что кодировщик может обобщаться на другие языки, которые не были видны во время обучения, но которые принадлежат к языковой семье, которая представлена другими языками.

Подробное описание того, как тренируются многоязычные векторные представления предложений, можно найти здесь, вместе с экспериментальной оценкой.

Основной пакет кодирования предложений: `laser_encoders`

Мы предоставляем пакет laser_encoders с минимальными зависимостями. Он поддерживает LASER-2 (один кодировщик для языков, перечисленных ниже) и LASER-3 (147 языковых специфических кодировщиков, описанных здесь). Пакет можно установить просто с помощью pip install laser_encoders и использовать следующим образом:

from laser_encoders import LaserEncoderPipeline
encoder = LaserEncoderPipeline(lang="eng_Latn")
embeddings = encoder.encode_sentences(["Hi!", "This is a sentence encoder."])
print(embeddings.shape)  # (2, 1024)

Файл readme пакета laser_encoders содержит больше примеров его установки и использования.

Полный набор LASER

Кроме пакета laser_encoders, мы предоставляем поддержку для LASER-1 (оригинального многоязычного кодировщика) и для различных приложений LASER, перечисленных ниже.### Зависимости

Python >= 3.7
PyTorch 1.0
NumPy, проверено с версией bk 1.15.4
Cython, требуется для Python-обёртки FastBPE, проверено с версией 0.29.6
Faiss, для быстрого поиска похожих текстов и битекстового минирования
transliterate 1.10.2 (pip install transliterate)
jieba 0.39, китайский сегментатор (pip install jieba)
mecab 0.996, японский сегментатор
tokenization из кодировщика Moses (устанавливается автоматически)
FastBPE, быстрая C++-реализация byte-pair encoding (устанавливается автоматически)
Fairseq, инструмент для моделирования последовательностей (pip install fairseq==0.12.1)
tabulate, красивое отображение табличных данных (pip install tabulate)
pandas, инструмент для анализа данных (pip install pandas)
Sentencepiece, субслово-токенизация (устанавливается автоматически)

Установка

установите пакет laser_encoders с помощью, например, pip install -e . для установки в режиме редактирования
установите переменную окружения 'LASER' на корневую директорию установки, например, export LASER="${HOME}/projects/laser"
скачайте кодировщики с Amazon s3 с помощью, например, bash ./nllb/download_models.sh
скачайте стороннее программное обеспечение с помощью bash ./install_external_tools.sh
скачайте данные, используемые в примерах задач (см. описание для каждой задачи)## Приложения

Мы демонстрируем несколько применений многомеждуговорных векторных представлений предложений с кодом для воспроизведения наших результатов (в директории "tasks").

Межъязыковая классификация документов с использованием MLDoc корпуса [2,6]
WikiMatrix Извлечение 135 миллионов параллельных предложений в 1620 языковых парах из Википедии [7]
Извлечение бикорпусов с использованием BUCC корпуса [3,5]
Межъязыковая NLI с использованием XNLI корпуса [4,5,6]
Многомеждуговорный поиск по сходству [1,6]
Векторное представление текстовых файлов пример того, как вычисляются векторные представления предложений для произвольных текстовых файлов на любом из поддерживаемых языков.

Для всех задач мы используем точно такой же многомеждуговорный энкодер, без каких-либо специфических для задачи оптимизаций или настраиваний.

Лицензия

LASER имеет лицензию BSD, как указано в файле LICENSE в корневой директории этого дерева исходного кода.

Поддерживаемые языки

Оригинальная модель LASER была обучена на следующих языках:африкаанс, албанский, амхарский, арабский, армянский, аймара, азербайджанский, баскский, белорусский, бенгальский, берберские языки, боснийский, бретонский, болгарский, бирманский, каталанский, центральный/кадазан дусун, центральный кхмер, чавакано, китайский, прибрежный кадазан, корнский, чешский, датский, голландский, восточный марийский, английский, эсперанто, эстонский, финский, французский, галисийский, грузинский, немецкий, греческий, хауса, иврит, хинди, венгерский, исландский, идо, индонезийский, интерлингва, интерлингве, ирландский, итальянский, японский, кабильский, казахский, корейский, курдский, латвийский, латинский, лингва франка нова, литовский, нижнегерманский/саксонский, македонский, малагасийский, малайский, малаялам, мальдивский (дивехи), маратхи, норвежский (букмаль), окситанский, персидский (фарси), польский, португальский, румынский, русский, сербский, синдхи, сингальский, словацкий, словенский, сомалийский, испанский, суахили, шведский, тагалог, таджикский, тамильский, татарский, телугу, тайский, турецкий, уйгурский, украинский, урду, узбекский, вьетнамский, ву китайский и юэ китайский.Мы также отмечаем, что модель кажется обобщенной для других (меньшинских) языков или диалектов, например:

астурийский, египетский арабский, фарерский, кашубский, молуккийский малайский, норнорский норвежский, пьемонтский, славонский, швабский, швейцарский немецкий или западный фрисландский.### LASER3

Обновленные модели LASER, известные как LASER3, дополняют вышеуказанный список поддержкой 147 языков. Полный список поддерживаемых языков можно увидеть здесь.